Почему мультимодальные модели пока не заменили OCR в сложных PDF-документах
Появление мультимодальных моделей породило ожидание, что классический OCR вскоре станет ненужным. Если модель способна одновременно видеть изображение и понимать текст, логично предположить, что отдельный этап распознавания можно исключить. Документ загружается в модель, а на выходе сразу получается структурированный результат. Однако спустя несколько лет после появления первых сильных мультимодальных систем этого не произошло. Более того, большинство современных production-систем обработки документов по-прежнему строятся вокруг OCR. Некоторые исследования показывают ещё более неожиданный результат: добавление OCR-обработки способно улучшать качество даже тех моделей, которые изначально позиционируются как OCR-free. Причина заключается не в том, что мультимодальные модели оказались слабыми. Причина в том, что задача обработки документов устроена сложнее, чем кажется на первый взгляд.
Что обещал подход без OCR
Традиционный пайплайн обработки документов состоит из нескольких этапов:
извлечение страниц;
OCR;
анализ структуры;
извлечение таблиц;
нормализация данных.
Мультимодальные модели предложили другой подход. Вместо набора специализированных компонентов появляется единая модель, которая анализирует страницу целиком и сразу отвечает на запрос пользователя.
На ряде задач такой подход действительно показал хорошие результаты. Исследования последних лет фиксируют существенный прогресс в Document QA, когда системе необходимо ответить на вопрос по содержимому документа. Для подобных сценариев OCR-free архитектуры оказались вполне конкурентоспособными.
Но успех на демонстрационных задачах не означает готовность к промышленной эксплуатации.
Производственная среда предъявляет другие требования
В исследовании неоднократно повторяется один вывод: когда важны точность, воспроизводимость и контроль результата, специализированные OCR-системы в сочетании с инструментами анализа структуры документа продолжают превосходить универсальные мультимодальные модели.
Причина связана с характером ошибок.
Для чат-интерфейса допустимо, если модель приблизительно понимает содержание страницы. Для бухгалтерского документа, договора или финансового отчёта этого недостаточно. Необходимо точно знать:
какой текст был извлечён;
откуда он был получен;
как он связан с другими элементами документа;
можно ли воспроизвести результат повторно.
OCR хорошо решает именно эту задачу. Он создаёт промежуточный слой данных, который можно проверить, отладить и использовать повторно.
Мультимодальная модель чаще работает как единый непрозрачный механизм, где источник конкретного вывода определить значительно сложнее.
Основная проблема — не текст, а структура
Парадоксально, но главная причина сохранения OCR связана не с качеством распознавания символов.
Современные исследования показывают, что наиболее сложными элементами документов остаются таблицы, порядок чтения страницы, формулы и взаимосвязи между блоками данных. Именно поэтому новые бенч�арки вроде OmniDocBench оценивают не только текст, но и структуру документа целиком.
На практике это означает, что система может правильно прочитать каждое слово и одновременно ошибиться в понимании документа.
Например:
перепутать порядок чтения колонок;
неправильно восстановить таблицу;
потерять связь между заголовком и данными;
разорвать многостраничную таблицу на независимые фрагменты.
В подобных ситуациях качество OCR перестаёт быть главным ограничением, но остаётся важной частью общего решения.
OCR-free модели по-прежнему испытывают трудности с документами низкого качества
Отдельная проблема связана с качеством исходных материалов.
Обзор мультимодального понимания документов 2025 года отмечает, что OCR-free подходы предъявляют повышенные требования к визуальному восприятию текста. Когда документ содержит мелкий шрифт, артефакты сканирования или низкое разрешение, качество начинает заметно снижаться.
Для OCR это тоже сложный сценарий, но специализированные системы десятилетиями оптимизировались именно под подобные задачи.
Мультимодальная модель вынуждена одновременно решать две проблемы:
распознавать текст;
понимать содержание документа.
Поэтому ухудшение качества изображения влияет на неё сильнее.
Таблицы остаются слабым местом
Особенно заметна разница при работе с таблицами.
Современные наборы данных вроде FinTabNet, PubTabNet и AOE Benchmark оценивают не просто наличие текста внутри таблицы, а качество восстановления её структуры.
Здесь возникает принципиальная проблема.
Мультимодальная модель может понимать, что перед ней таблица, но для бизнес-процессов необходимо восстановить:
строки;
столбцы;
объединённые ячейки;
связи между заголовками и значениями.
Даже небольшая ошибка способна полностью исказить данные.
Именно поэтому многие современные системы по-прежнему используют специализированные компоненты table recognition наряду с OCR.
Исследования показывают неожиданную зависимость от OCR
Наиболее интересный вывод содержится в работах 2025 года, посвящённых мультимодальному пониманию документов.
Несмотря на развитие OCR-free подходов, исследователи обнаружили, что добавление OCR-постобработки улучшает результаты некоторых мультимодальных моделей.
Фактически получается парадоксальная ситуация.
Технология, которую новые архитектуры должны были заменить, продолжает повышать их собственную эффективность.
Это не означает поражение мультимодального подхода. Скорее наоборот. Отрасль постепенно приходит к выводу, что наиболее устойчивые решения строятся на сочетании нескольких технологий, а не на отказе от одной из них.
Что происходит в современных production-пайплайнах
Практика показывает, что индустрия движется не к полному отказу от OCR, а к гибридным архитектурам.
Типичный пайплайн сегодня включает:
OCR или OCR-aware извлечение текста;
анализ макета страницы;
определение порядка чтения;
восстановление структуры таблиц;
специализированную обработку рукописного текста;
нормализацию данных с помощью LLM.
Даже современные открытые решения развиваются именно в этом направлении.
Marker использует OCR как основу для структурированного извлечения PDF в Markdown и JSON. Surya сочетает OCR с анализом макета страницы. PaddleOCR активно развивает инструменты для работы со структурой документов и таблицами.
Если бы OCR действительно перестал быть нужен, подобная архитектура выглядела бы избыточной. Но рынок движется в противоположную сторону.
Вывод
Мультимодальные модели существенно расширили возможности обработки документов. Они лучше понимают контекст, способны работать с визуальной информацией и успешно решают многие задачи, которые ещё несколько лет назад считались сложными.
Но обработка реальных PDF-документов требует не только понимания содержания.
Необходимо точно извлекать текст, восстанавливать таблицы, сохранять порядок чтения, обрабатывать рукописные пометки и обеспечивать воспроизводимость результата.
Именно поэтому современные системы продолжают использовать OCR не как историческое наследие, а как один из ключевых компонентов архитектуры. Судя по результатам последних исследований, вопрос сегодня стоит не о замене OCR мультимодальными моделями, а о том, как наиболее эффективно объединить их сильные стороны в одном пайпл�йне.