Все статьи

Почему восстановление таблиц из PDF остаётся сложной задачей в Document AI

OCR, Извлечение данных, Обработка PDF, Распознавание документов

Когда говорят о распознавании документов, обычно внимание сосредоточено на OCR. Насколько точно система прочитала текст? Какой процент символов был распознан правильно? Но в современных системах обработки документов текст давно перестал быть главной проблемой. Если посмотреть на актуальные исследования, бенчмарки и инструменты Document AI, становится заметно, что основное внимание постепенно смещается в сторону таблиц. Причина проста: прочитать текст значительно легче, чем восстановить структуру данных, скрытую внутри документа. Именно поэтому многие современные ошибки возникают не на этапе OCR, а на этапе извлечения таблиц.

Почему восстановление таблиц из PDF остаётся сложной задачей в Document AI

Почему таблица сложнее текста

Для OCR задача относительно понятна. Необходимо определить символы и преобразовать их в текст.

Таблица устроена иначе.

Каждая ячейка имеет значение только в контексте других ячеек. Строки связаны со столбцами, заголовки определяют смысл данных, объединённые ячейки влияют на интерпретацию соседних элементов.

Если OCR ошибётся в одном символе, проблема обычно локальна.

Если система ошибётся в структуре таблицы, последствия затрагивают весь документ.

Например:

  • строка может оказаться привязана к неправильному заголовку;

  • столбцы могут поменяться местами;

  • объединённые ячейки могут быть интерпретированы как независимые значения;

  • данные нескольких страниц могут превратиться в отдельные таблицы.

В результате текст будет распознан правильно, но данные окажутся непригодными для использования.

Эволюция бенчмарков показывает, где находится настоящая проблема

Интересно проследить, как изменились сами способы оценки качества систем.

Если раньше основными метриками были точность символов и слов, то современные бенчмарки всё чаще оценивают структуру документа.

Показателен пример OmniDocBench.

Этот набор данных оценивает не только текст, но и:

  • таблицы;

  • порядок чтения;

  • формулы;

  • структуру документа в целом.

Сам факт появления подобных бенчмарков говорит о том, что отрасль больше не рассматривает OCR как единственную задачу обработки документов.

Другой важный пример — FinTabNet, который используется для оценки качества восстановления структуры таблиц. Здесь внимание уделяется не отдельным ячейкам, а тому, насколько корректно система восстановила организацию таблицы целиком.

Похожие задачи решают PubTabNet и SynthTabNet, которые используются для обучения и тестирования моделей извлечения таблиц.

Почему восстановление структуры так сложно

Человек воспринимает таблицу мгновенно.

Мы без труда понимаем:

  • где начинается таблица;

  • какие данные относятся друг к другу;

  • какие ячейки объединены;

  • где находятся заголовки;

  • как читать многоуровневую структуру.

Для алгоритма каждая из этих задач требует отдельного решения.

Исследования последних лет показывают, что ошибки чаще всего возникают именно при восстановлении структуры таблицы. Среди типичных проблем выделяются:

  • объединённые ячейки;

  • восстановление span-структур строк и столбцов;

  • определение порядка чтения;

  • разрыв таблицы между страницами документа.

Причём эти ошибки не отражаются в традиционных OCR-метриках.

Система может показать высокий процент правильно распознанных символов и одновременно полностью испортить таблицу.

Многостраничные таблицы остаются отдельной проблемой

Одним из самых сложных сценариев современные исследования называют многостраничные документы.

Большинство алгоритмов обрабатывает страницы независимо.

Для текста такой подход обычно работает.

Для таблиц возникают проблемы.

Представим финансовый отчёт, где одна таблица занимает пять страниц. Человек воспринимает её как единый объект. Система же видит пять отдельных страниц и должна самостоятельно понять, что речь идёт об одной структуре.

Именно поэтому в AOE Benchmark особое внимание уделяется не локальному обнаружению таблиц, а реконструкции документа целиком. Авторы подчёркивают, что извлечение таблицы — это задача уровня всего документа, а не отдельной страницы.

Почему мультимодальные модели не решили проблему

На первый взгляд могло показаться, что мультимодальные модели должны упростить извлечение таблиц.

Однако результаты последних исследований говорят об обратном.

Даже современные OCR-free модели продолжают испытывать сложности с точным восстановлением структуры таблиц. В обзорах по мультимодальному пониманию документов таблицы регулярно фигурируют среди основных источников ошибок.

Причина заключается в том, что задача требует не просто понимания содержания страницы.

Необходимо восстановить формальную структуру данных с высокой точностью.

Поэтому многие современные решения продолжают использовать специализированные модели table recognition наряду с OCR и анализом макета страницы.

Как выглядит современный подход

Практика показывает, что извлечение таблиц всё чаще рассматривается как самостоятельный компонент пайплайна.

Современные решения обычно включают:

  • OCR;

  • layout analysis;

  • table detection;

  • table structure recognition;

  • постобработку и нормализацию данных.

Именно поэтому популярные инструменты вроде Marker, Surya и PaddleOCR развивают не только OCR-функциональность, но и отдельные механизмы работы со структурой документа и таблицами.

Отрасль постепенно приходит к пониманию, что таблица — это не разновидность текста, а самостоятельный объект со своей логикой и собственными ошибками.

Вывод

История развития Document AI показывает интересную тенденцию.

По мере того как качество OCR росло, становилось всё очевиднее, что основная сложность скрывается не в распознавании символов.

Современные системы уже достаточно хорошо читают текст. Гораздо труднее понять, как этот текст организован внутри документа.

Именно поэтому новые бенчмарки всё чаще оценивают структуру таблиц, порядок чтения и связи между элементами документа. А ошибки восстановления таблиц продолжают оставаться одним из главных ограничений современных систем Document AI.

Для большинства бизнес-задач сегодня недостаточно просто извлечь текст из PDF. Необходимо корректно восстановить структуру данных. И именно эта задача остаётся одной из самых сложных во всей области обработки документов.