Учёные ИТМО создали DocuMentor для анализа PDF с точностью определения элементов 98%

Библиотека DocuMentor от ИТМО распознаёт заголовки, таблицы, изображения и формулы в PDF с точностью 98%, работая с DOCX и Markdown.

PDF-файлы — это цифровой стандарт, но для компьютера они часто являются «чёрным ящиком». Текст есть, а структура — нет. Где заголовок, где таблица, где формула — машина не понимает. Учёные университета ИТМО решили эту проблему, создав библиотеку DocuMentor. Она определяет расположение элементов в PDF-файле с точностью до 98%. Это делает документы машиночитаемыми и позволяет использовать их для эффективных поисковых систем и ИИ-ассистентов в крупных компаниях.

В чём преимущество DocuMentor? В поэтапном алгоритме, который извлекает максимум информации о структуре документа при минимальном количестве ошибок. Библиотека распознаёт и идентифицирует заголовки, таблицы, изображения, формулы и работает с форматами PDF, DOCX и Markdown.

Существующие инструменты либо не умеют определять структуру текста, либо плохо работают с объёмными документами. Плюс риск утечки данных при работе с открытыми сервисами. DocuMentor решает эти проблемы. Её можно интегрировать в любые продукты для анализа структуры документов во внутреннем контуре компании — без риска утечек.

Цифры говорят сами за себя:

Ошибка распознавания символов — 1,3% .
Ошибка распознавания слов — 2,5% (это в 6–10 раз меньше, чем у аналогов).
Точность определения расположения элементов в PDF — около 98% для обычных текстов и 94% для сканов.

DocuMentor уже используется на практике. Минстрой России применяет библиотеку для построения базы данных на основе нормативных документов. Кроме того, разработка заинтересовала коммерческие компании, где с её помощью можно обрабатывать огромные массивы документов внутри закрытого контура.