位置:首页 > 新闻资讯 > DeepSeek-OCR 2发布:采用新型视觉编码器技术 文档识别性能提升3.73%

DeepSeek-OCR 2发布:采用新型视觉编码器技术 文档识别性能提升3.73%

时间:2026-01-28  |  作者:  |  阅读:0

1月27日,DeepSeek发布了新一代文档识别模型DeepSeek-OCR 2。该模型在DeepSeek-OCR基础上进行了升级,核心改进在于采用了名为DeepEncoder V2的新型视觉编码器结构。这种编码器能够根据图像语义动态调整视觉信息处理顺序,使模型更贴近人类的视觉阅读逻辑。

据悉,DeepSeek-OCR 2引入了'视觉因果流'概念,采用类语言模型结构替代了原先基于CLIP的视觉编码模块。编码器同时包含双向注意力与因果注意力两种处理模式,实现了对视觉token顺序的动态重排。模型整体仍采用编解码框架,视觉token数量控制在256到1120之间,与同类系统资源开销相近。

在OmniDocBench v1.5基准测试中,DeepSeek-OCR 2整体得分达91.09%,较前代提升3.73%。特别是在阅读顺序准确度方面有明显改善,编辑距离从0.085降至0.057。实际应用中,模型稳定性也有所提升,用户日志图像重复率从6.25%降至4.17%。

来源:https://news.pconline.com.cn/2079/20794712.html
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。

相关文章

更多

精选合集

更多

大家都在玩

热门话题

大家都在看

更多