DeepSeek-OCR: исследование сжатия визуально-текстовых контекстов

DeepSeek-OCR сжимает текст в 20 раз через оптическое распознавание

Компания DeepSeek-AI представила модель DeepSeek-OCR — исследование роли визуальных энкодеров с LLM-центричной точки зрения.

DeepSeek-OCR состоит из двух компонентов: кодировщика DeepEncoder и декодера DeepSeek3B-MoE с 570 миллионами активных параметров

На рисунке (а) показано тестирование коэффициента сжатия (количество текстовых токенов в эталоне / количество визуальных токенов, использованных моделью) на бенчмарке Fox [21]; на рисунке (b) представлены сравнения производительности на OmniDocBench [27]. Модель DeepSeek-OCR демонстрирует наивысшую производительность среди end-to-end моделей, используя при этом наименьшее количество визуальных токенов.

На бенчмарке OmniDocBench модель превосходит GOT-OCR2.0, используя всего 100 визуальных токенов против 256 токенов конкурента. По сравнению с MinerU2.0, которая требует свыше 6000 токенов на страницу, DeepSeek-OCR обходится менее чем 800 визуальными токенами при лучшем качестве.

В промышленном применении система способна генерировать 200 000+ страниц данных в день на одной видеокарте A100-40G.

Ключевое открытие заключается в том, что визуальные токены могут служить эффективным средством сжатия текстовой информации. Это открывает новые возможности для решения проблемы длинных контекстов в больших языковых моделях — представьте, что диалоговую историю можно «сфотографировать» и сжать в 10 раз без существенной потери информации, как наша память постепенно забывает детали, но сохраняет суть.

Для книг и статей режим углубленного анализа может выводить плотные подписи к натуральным изображениям в документах. Всего по одному запросу модель автоматически определяет тип изображения и выдает требуемые результаты.

Источник новости и обложки: github.com/deepseek-ai/DeepSeek-OCR


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров