位置:首页 > 新闻资讯 > DeepSeek开源OCR 2模型实现视觉编码突破 性能显著提升接近人类逻辑

DeepSeek开源OCR 2模型实现视觉编码突破 性能显著提升接近人类逻辑

时间:2026-01-27  |  作者:  |  阅读:0

DeepSeek团队今日发布《DeepSeek-OCR 2: Visual Causal Flow》论文并开源了DeepSeek-OCR 2模型。据悉,该模型采用创新的DeepEncoder V2架构,实现了视觉编码从固定扫描向语义推理的范式转变,可让AI能够根据图像的含义动态重排图像的各个部分,更接近人类的视觉编码逻辑。

据悉,在维持极高数据压缩效率的同时,DeepSeek-OCR 2在多项基准测试和生产指标上均取得了显著突破。模型仅需256到1120个视觉Token即可覆盖复杂的文档页面,这在同类模型中处于极低水平,显著降低了下游LLM的计算开销。在OmniDocBench v1.5评测中,其综合得分达到91.09%,较前代提升了3.73%,特别是在阅读顺序识别方面表现出了更强的逻辑性。

来源:https://news.pconline.com.cn/2078/20788192.html
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。

相关文章

更多

精选合集

更多

大家都在玩

热门话题

大家都在看

更多