Свыше 98% точности при распознавании структуры PDF-файлов достигли разработчики Института ИИ ИТМО. Новая библиотека DocuMentor превращает сложные документы в машиночитаемые JSON-файлы, позволяя корпоративным системам поиска и ИИ-ассистентам безопасно работать с внутренними архивами без риска утечки конфиденциальных данных в облачные сервисы.
Инженеры ИТМО создали библиотеку для перевода PDF в базу знаний
Свыше 98% точности при распознавании структуры PDF-файлов достигли разработчики Института ИИ ИТМО. Новая библиотека DocuMentor превращает сложные документы в машиночитаемые JSON-файлы, позволяя корпоративным системам поиска и ИИ-ассистентам безопасно работать с внутренними архивами без риска утечки конфиденциальных данных в облачные сервисы.

Первым масштабным кейсом станет интеграция технологии в проекты Минстроя России для автоматизации работы с нормативной базой. Разработчики также планируют внедрить библиотеку в мультиагентную систему ProAGI. Инженер Института ИИ ИТМО Михаил Ковальчук подчеркнул, что алгоритм обеспечивает поэтапное извлечение метаданных при минимальном вмешательстве человека. Инструмент уже опубликован под открытой лицензией BSD-3, что позволяет компаниям развертывать его во внутреннем контуре инфраструктуры.




Комментарии (0)
Пока нет комментариев. Будьте первым!