DeepSeek-OCR уменьшает объем данных в 20 раз без значительной потери качества OCR

DeepSeek-OCR сжимает текст в 20 раз через оптическое распознавание

Компания DeepSeek-AI представила модель DeepSeek-OCR — новый подход к сжатию длинных текстовых контекстов через оптическое 2D-картирование. Модель достигает 97% точности при сжатии текста в 10 раз, а при экстремальном сжатии в 20 раз сохраняет 60% точности распознавания.

DeepSeek-OCR состоит из двух компонентов: кодировщика DeepEncoder и декодера DeepSeek3B-MoE с 570 миллионами активных параметров. DeepEncoder представляет собой архитектуру из 380 миллионов параметров, которая объединяет 80-миллионный SAM-base для локального внимания и 300-миллионный CLIP-large для глобального внимания через 16-кратный компрессор токенов.

На бенчмарке OmniDocBench модель превосходит GOT-OCR2.0, используя всего 100 визуальных токенов против 256 токенов конкурента. По сравнению с MinerU2.0, которая требует свыше 6000 токенов на страницу, DeepSeek-OCR обходится менее чем 800 визуальными токенами при лучшем качестве.

В промышленном применении система способна генерировать 200 000+ страниц данных в день на одной видеокарте A100-40G. Для масштабирования исследователи используют 20 узлов по 8 видеокарт A100-40G каждый, что позволяет обрабатывать 33 миллиона страниц в сутки для обучения больших языковых моделей.

Ключевое открытие заключается в том, что визуальные токены могут служить эффективным средством сжатия текстовой информации. Это открывает новые возможности для решения проблемы длинных контекстов в больших языковых моделях — представьте, что диалоговую историю можно «сфотографировать» и сжать в 10 раз без существенной потери информации, как наша память постепенно забывает детали, но сохраняет суть.

Источник новости и обложки: github.com/deepseek-ai/DeepSeek-OCR


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров