Какие особенности сложных PDF чаще всего приводят к ошибкам при автоматическом извлечении данных
Современные системы обработки документов научились достаточно хорошо распознавать текст. Многие задачи, которые ещё несколько лет назад считались сложными, сегодня решаются автоматически. Однако на практике проблемы возникают не там, где ожидают большинство пользователей. Ошибки чаще всего связаны не с OCR как таковым, а с особенностями самих документов. Исследования последних лет показывают, что даже современные Document AI системы регулярно сталкиваются с одними и теми же сценариями: многостраничными таблицами, повреждёнными PDF, смешением рукописного и печатного текста, низким качеством сканов и нарушением логической структуры документа. Именно эти случаи чаще всего становятся причиной ошибок при извлечении данных.
Многостраничные таблицы
Для человека таблица остаётся таблицей независимо от количества страниц.
Для системы ситуация выглядит иначе.
Большинство алгоритмов анализирует документ постранично. Каждая страница обрабатывается отдельно, после чего результаты объединяются.
Проблема возникает тогда, когда одна таблица продолжается на нескольких страницах.
Например, финансовый отчёт может содержать таблицу на десять страниц. Человек воспринимает её как единый объект. Система должна самостоятельно понять, что строки на второй странице являются продолжением структуры с первой страницы.
На практике именно здесь возникает большое количество ошибок:
теряются связи между строками;
появляются дублирующиеся заголовки;
таблица разбивается на несколько независимых объектов;
нарушается порядок данных.
Исследования, посвящённые обработке финансовых и регуляторных документов, регулярно называют многостраничные таблицы одной из наиболее проблемных категорий PDF.
Повреждённые PDF и некорректное кодирование
Существует распространённое заблуждение, что PDF хранит документ в понятном и предсказуемом формате.
На практике внутреннее устройство PDF может существенно различаться.
Некоторые документы содержат повреждённый текстовый слой. В других используются нестандартные шрифты или специальные таблицы кодирования. Иногда символы вообще сохраняются не в виде текста, а через внутренние ссылки на элементы шрифта.
Для человека такой документ выглядит нормально.
Для системы извлечения данных возникают проблемы.
Текст может оказаться недоступным как для OCR-пайплайнов, так и для современных мультимодальных моделей. В результате появляются пропуски данных, некорректные символы или полностью потерянные фрагменты документа.
Особенно часто подобные проблемы встречаются в документах, сформированных старыми корпоративными системами или экспортированных через промежуточные форматы.
Смешанный рукописный и печатный текст
Ещё один сложный сценарий — документы, в которых одновременно присутствуют:
печатный текст;
подписи;
комментарии от руки;
исправ�ения;
рукописные пометки.
На первый взгляд кажется, что задача сводится к OCR.
Но исследования показывают обратное.
Смешанные документы рассматриваются как отдельная категория задач, требующая специализированной обработки. Методы, которые хорошо работают с печатным текстом, не всегда справляются с рукописным, особенно если оба типа данных присутствуют на одной странице.
Проблема усложняется тем, что рукописные элементы часто располагаются поверх существующего содержимого документа и нарушают структуру страницы.
Поэтому многие современные системы используют отдельные модели или специализированные ветки обработки для рукописного текста.
Низкое качество сканов
Даже качественные модели начинают терять точность, если ухудшается качество входных данных.
Наиболее типичные проблемы:
низкое разрешение;
шумы;
артефакты сканирования;
перекос страницы;
слабая контрастность.
При этом влияние оказывается шире, чем может показаться.
Страдает не только распознавание текста. Ухудшается определение структуры документа, поиск таблиц, восстановление порядка чтения и обработка рукописных элементов.
Особенно чувствительными к качеству изображения оказываются OCR-free мультимодальные модели, поскольку они напрямую зависят от визуального восприятия текста.
Ошибки порядка чтения
Одна из самых недооценённых проблем современных систем связана с порядком чтения документа.
Для человека структура страницы обычно очевидна.
Мы легко понимаем:
какой блок читать первым;
где находится примечание;
к какой таблице относится подпись;
какие элементы связаны между собой.
Для алгоритма это отдельная задача.
Современные бенчмарки вроде OmniDocBench даже включают порядок чтения в число самостоятельных критериев оценки качества системы.
Ошибки здесь могут приводить к неожиданным последствиям:
текст читается в неправильной последовательности;
подписи связываются не с теми объектами;
элементы разных колонок смешиваются между собой;
таблицы и пояснения теряют контекст.
Интересно, что подобные ошибки практически не отражаются в традиционных OCR-метриках, хотя могут существенно влиять на итоговый результат.
Почему эти ошибки важнее точности OCR
Общая особенность всех перечисленных проблем заключается в том, что они находятся за пределами классического OCR.
Система может безошибочно распознать большинство символов документа и при этом вернуть неправильный результат.
Если многостраничная таблица была разорвана на части, если нарушился порядок чтения или если потерялись связи между элементами документа, высокая точность распознавания текста уже не спасает ситуацию.
Именно поэтому современные бенчмарки всё чаще оценивают структуру документа, таблицы и порядок чтения, а не только качество OCR.
Вывод
Если посмотреть на реальные причины ошибок в современных системах Document AI, становится заметно, что большинство из них связано не с распознаванием символов.
Наиболее сложными остаются документы, в которых нарушается структура:
многостраничные таблицы;
повреждённые PDF;
смешанный рукописный и печатный текст;
низкокачественные сканы;
неоднозначный порядок чтения.
Именно эти особенности чаще всего определяют качество извлечения данных из документа. Поэтому при оценке современных систем всё больше внимания уделяется не точности OCR, а способности корректно восстанавливать структуру документа целиком.