DeepSeek-OCR 2发布：采用新型视觉编码器技术文档识别性能提升3.73%

时间：2026-01-28 | 作者： | 阅读：0

1月27日，DeepSeek发布了新一代文档识别模型DeepSeek-OCR 2。该模型在DeepSeek-OCR基础上进行了升级，核心改进在于采用了名为DeepEncoder V2的新型视觉编码器结构。这种编码器能够根据图像语义动态调整视觉信息处理顺序，使模型更贴近人类的视觉阅读逻辑。

据悉，DeepSeek-OCR 2引入了'视觉因果流'概念，采用类语言模型结构替代了原先基于CLIP的视觉编码模块。编码器同时包含双向注意力与因果注意力两种处理模式，实现了对视觉token顺序的动态重排。模型整体仍采用编解码框架，视觉token数量控制在256到1120之间，与同类系统资源开销相近。

在OmniDocBench v1.5基准测试中，DeepSeek-OCR 2整体得分达91.09%，较前代提升3.73%。特别是在阅读顺序准确度方面有明显改善，编辑距离从0.085降至0.057。实际应用中，模型稳定性也有所提升，用户日志图像重复率从6.25%降至4.17%。

《夸克》非常好用的免费AI浏览器

下载APP查看