位置:首页 > 新闻资讯 > DeepSeek大范围开放识图模式 实现图文交互并公布高效多模态技术框架

据悉,DeepSeek已大范围开放其“识图模式”供用户体验,该模式并非简单的文字识别,而是具备了真正的图片理解能力。在实测中,它能识别文物并推断其历史风格,解答高难度空间推理题,理解网络梗图情绪,并能将截图中的代码或界面解析并还原为可交互的HTML代码。

同时,DeepSeek公布了其多模态模型的技术细节,核心是“以视觉原语思考”框架。该框架将点、边界框等视觉元素直接融入推理链,解决了传统模型在密集场景中的“指代鸿沟”问题,使推理更精准。此外,该框架在算力上极具效率,处理图片消耗的tokens远低于其他主流模型,并在多项基准测试中达到领先水平。

需要指出的是,目前上线的识图模式仍标注为内测,功能集中于视觉理解与分析,暂不支持图像生成或视频理解等更广泛的多模态功能。

来源:https://news.pconline.com.cn/2146/21468331.html
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。

相关文章

更多

精选合集

更多

大家都在玩

热门话题

大家都在看

更多