DeepSeek-OCR 2发布:采用新型视觉编码器技术 文档识别性能提升3.73%
时间:2026-01-28 | 作者: | 阅读:01月27日,DeepSeek发布了新一代文档识别模型DeepSeek-OCR 2。该模型在DeepSeek-OCR基础上进行了升级,核心改进在于采用了名为DeepEncoder V2的新型视觉编码器结构。这种编码器能够根据图像语义动态调整视觉信息处理顺序,使模型更贴近人类的视觉阅读逻辑。
据悉,DeepSeek-OCR 2引入了'视觉因果流'概念,采用类语言模型结构替代了原先基于CLIP的视觉编码模块。编码器同时包含双向注意力与因果注意力两种处理模式,实现了对视觉token顺序的动态重排。模型整体仍采用编解码框架,视觉token数量控制在256到1120之间,与同类系统资源开销相近。
在OmniDocBench v1.5基准测试中,DeepSeek-OCR 2整体得分达91.09%,较前代提升3.73%。特别是在阅读顺序准确度方面有明显改善,编辑距离从0.085降至0.057。实际应用中,模型稳定性也有所提升,用户日志图像重复率从6.25%降至4.17%。
来源:https://news.pconline.com.cn/2079/20794712.html
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 抖音副总裁宣布春晚将首度采用国产AI视频生成模型Seedance 2.0技术
- 时间:2026-02-16
-
- 你的Tony老师已累瘫!节前需求旺盛:有理发师日均工作12小时
- 时间:2026-02-16
-
- OPPO Find N6国际版跑分曝光:首搭7核版骁龙8 Elite Gen 5芯片
- 时间:2026-02-16
-
- 国产芯片性能胜利!龙芯3B6000M率先跑通OpenClaw 平替Mac mini
- 时间:2026-02-16
-
- 消息称字节芯片团队启动规模化招聘,早期多个项目进入量产部署阶段
- 时间:2026-02-16
-
- 被大量提问内部逻辑 谷歌Gemini遭蒸馏攻击
- 时间:2026-02-16
-
- 苹果将于本月推出全新Sales Coach应用 为零售员工提供AI销售助手
- 时间:2026-02-16
-
- 大疆前销售副总裁袁某涉嫌受贿被刑拘 曾全面负责公司销售业务
- 时间:2026-02-16
精选合集
更多大家都在玩
大家都在看
更多-
- 口袋妖怪火红怎么去五之岛
- 时间:2026-02-15
-
- 永劫无间武器匣有什么用
- 时间:2026-02-15
-
- 古墓丽影暗影恐惧之路怎么走
- 时间:2026-02-15
-
- 炫酷作品名字男生网名大全(精选100个)
- 时间:2026-02-15
-
- 微信红包封面可以“开挂”了
- 时间:2026-02-15
-
- 带葛姓氏谐音梗网名男生(精选100个)
- 时间:2026-02-15
-
- 普姓男是什么意思
- 时间:2026-02-15
-
- 宿迁大学是什么意思
- 时间:2026-02-15