Компания DeepSeek-AI представила модель DeepSeek-OCR — исследование роли визуальных энкодеров с LLM-центричной точки зрения.
DeepSeek-OCR состоит из двух компонентов: кодировщика DeepEncoder и декодера DeepSeek3B-MoE с 570 миллионами активных параметров
На бенчмарке OmniDocBench модель превосходит GOT-OCR2.0, используя всего 100 визуальных токенов против 256 токенов конкурента. По сравнению с MinerU2.0, которая требует свыше 6000 токенов на страницу, DeepSeek-OCR обходится менее чем 800 визуальными токенами при лучшем качестве.
В промышленном применении система способна генерировать 200 000+ страниц данных в день на одной видеокарте A100-40G.
Ключевое открытие заключается в том, что визуальные токены могут служить эффективным средством сжатия текстовой информации. Это открывает новые возможности для решения проблемы длинных контекстов в больших языковых моделях — представьте, что диалоговую историю можно «сфотографировать» и сжать в 10 раз без существенной потери информации, как наша память постепенно забывает детали, но сохраняет суть.
Источник новости и обложки: github.com/deepseek-ai/DeepSeek-OCR