狂揽200余项SOTA!阿里发布Qwen3.5-Omni:多模态能力超越Gemini-3.1 Pro
时间:2026-03-31 | 作者: | 阅读:0快科技3月30日消息,阿里今日正式发布千问新一代全模态大模型Qwen3.5-Omni。
据悉,Qwen3.5-Omni采用混合注意力MoE架构,可实现图片、视频、语音、文字等全模态内容的输入与输出。
在音视频理解、识别、交互等215项任务中,Qwen3.5-Omni取得SOTA(性能最佳),超越Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。
例如在聚焦视听交互能力的DailyOmni、QualcommInteractive、Omni Cloze等测试中,Qwen3.5-Omni得分大幅领先Gemini-3.1 Pro。
在检测嘈杂环境抗干扰能力的WenetSpeech测试中,Qwen3.5-Omni错误率远低于Gemini,识别准确率极高。
在考察多语言语音生成质量的Multi-Lingual (30lang) 测试中,Qwen3.5-Omni同样显著优于Gemini-2.5-Pro-TTS。
目前,Qwen3.5-Omni拥有极强的音视频理解与实时交互能力,能够对音视频内容生成详细且可控的结构化描述。
新模型支持113种语言及方言的语音识别和36种语言及方言的语音生成,就连使用人数不足一百万的毛利语和国内的海南方言,也能精准识别。
同时,基于一系列技术创新,Qwen3.5-Omni还将Vibe Coding能力推入下一阶段。
与纯文本或图片驱动的Vibe Coding不同,千问可以实现音视频编程:打开摄像头,用户对着草图口述需求,哪怕是包括复杂产品逻辑的描述,模型也能直接生成带有复杂UI的产品原型界面,真正实现“动动嘴即可编程”。
而Qwen3.5-Omni顶尖的全模态能力,还能为专业领域带来超级生产力。
新模型可对画面主体、人物关系、对话逻辑、乃至人物情绪起伏进行极细的拆解,并自动完成视频章节切片与时间戳标注,支持超过10小时的音频输入。
目前,阿里云百炼已上新Qwen3.5-Omni的Plus、Flash、Light三种API,可广泛应用于短视频/直播平台、游戏、自媒体等行业。
普通用户可前往Qwen Chat免费体验,开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni模型,每百万Tokens输入不到0.8元,比Gemini-3.1 Pro的1/10还低。
当前,千问已稳居中国企业级大模型调用市场第一,服务涵盖互联网、金融、消费电子及汽车等重点行业超100万家客户。
来源:https://news.pconline.com.cn/2123/21232212.html
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 腾讯升级微信QQ零钱继承服务 最快24小时到账并公布三个典型案例
- 时间:2026-04-04
-
- 纳米漫剧流水线完成满血版Seedance 2.0 深度适配 推动AI漫剧迈入工业化生产新阶段
- 时间:2026-04-04
-
- 京东折扣超市助农:广州南沙黄皮甘蔗4月5日全国开卖
- 时间:2026-04-04
-
- 韩国为应对能源供应危机重启古里2号核反应堆保障电力安全
- 时间:2026-04-04
-
- 中国兵器研制新一代电磁枪亮相 采用模块化设计射速可达每分钟两千发
- 时间:2026-04-04
-
- 拼多多创始人黄峥被传攻读生命科学博士学位 去向引发猜测
- 时间:2026-04-04
-
- 迪拜发生空中拦截残骸坠落事件 甲骨文公司大楼等建筑受损
- 时间:2026-04-04
-
- 阿里千问AI打车功能上线两周订单量暴增超1500%
- 时间:2026-04-04
精选合集
更多大家都在玩
大家都在看
更多-
- 表示人很温柔的网名女生(精选100个)
- 时间:2026-04-04
-
- 栖云遗忘之境黄昏篇BE结局达成攻略
- 时间:2026-04-04
-
- 网络热词恒河猴是什么意思
- 时间:2026-04-04
-
- 异兽灵境中的嫦娥,其强度水平处于什么层次呀?
- 时间:2026-04-04
-
- 网名怎么写女生可爱的名字(精选100个)
- 时间:2026-04-04
-
- 解压不能停好玩吗 解压不能停玩法简介
- 时间:2026-04-04
-
- 网络热词不愿再笑是什么意思
- 时间:2026-04-04
-
- Linux命令行实用技巧_果粉控
- 时间:2026-04-04