字节跳动发布豆包大模型家族首款全模态理解模型Doubao-Seed-2.0-lite

时间：2026-05-07 | 作者： | 阅读：0

据悉，字节跳动旗下火山引擎发布豆包大模型家族首款全模态理解模型Doubao-Seed-2.0-lite。该模型支持视频、图像、音频、文本原生统一理解，并升级了Agent、Coding与GUI能力。在同等算力成本下，是企业大规模部署全模态推理任务的更优选择。

新版本在视觉理解能力上大幅提升，在物理、医疗等高阶学科推理上表现优于2月发布的Doubao-Seed-2.0-pro。在细粒度感知与具身理解等关键领域达到SOTA水平。融入语音理解后，模型可直接处理音画结合的复杂业务需求，支持视频中特定事件时间点定位和多步逻辑推理。

模型在语音识别、翻译等音频理解基准上优于Gemini-3.1-Pro。多轮、多步指令遵循度显著提升，增强任务反思推理与多Agent协同调度能力。Coding能力全面覆盖前端页面、3D场景与游戏开发，GUI能力实现界面识别与操作闭环。

模型可应用于电竞游戏、在线教育、海外电商等多个场景。例如在电竞游戏中，模型可分析比赛画面与语音指挥，生成高光/失误图谱与时间轴复盘。在线教育场景中，模型可识别教学状态并生成课堂表现报告。海外电商场景中，模型可自主搜索、拆解并生成多语言推广视频。

《夸克》非常好用的免费AI浏览器

来源:https://news.pconline.com.cn/2144/21447291.html
免责声明：文中图文均来自网络，如有侵权请联系删除，心愿游戏发布此文仅为传递信息，不代表心愿游戏认同其观点或证实其描述。

相关文章