阿里发布Qwen3.5-Omni,多模态能力超越Gemini-3.1 Pro
时间:2026-03-31 | 作者: | 阅读:03月31日上午消息,阿里发布千问新一代全模态大模型Qwen3.5-Omni,宣布在音视频理解、识别、交互等215项任务中取得SOTA(性能最佳),超越Gemini-3.1 Pro,成为目前全球最强的全模态大模型之一。
据悉,该模型拥有极强的音视频理解与实时交互能力,能够对音视频内容生成详细且可控的结构化描述,可识别语言和方言数量多达113种,还涌现出了音视频Vibe Coding能力,用户对着镜头阐述需求,就能让模型自主生成App、网页、游戏等复杂产品代码。目前,阿里云百炼已上新Qwen3.5-Omni的Plus、Flash、Light三种API,可广泛应用于短视频/直播平台、游戏、自媒体等行业。
Qwen3.5-Omni采用混合注意力MoE架构,在海量文本、视觉以及超过1亿小时的音视频数据上进行了原生多模态预训练,可实现图片、视频、语音、文字等全模态内容的输入与输出。新模型在音视频理解、跨模态推理、Agent方面实现了性能飞跃,在音视频理解、语音识别、多语种翻译、对话等215项第三方性能测试任务中取得SOTA。
例如,在聚焦视听交互能力的DailyOmni、QualcommInteractive、Omni Cloze等测试中,Qwen3.5-Omni得分领先Gemini-3.1 Pro;在检测嘈杂环境抗干扰能力的WenetSpeech测试中,Qwen3.5-Omni错误率远低于Gemini,识别准确率极高;在考察多语言语音生成质量的Multi-Lingual (30lang) 测试中,Qwen3.5-Omni同样显著优于Gemini-2.5-Pro-TTS。
此外,与纯文本或图片驱动的Vibe Coding不同,千问还可以实现音视频编程:打开摄像头,用户对着草图口述需求,哪怕是包括复杂产品逻辑的描述,模型也能直接生成带有复杂UI的产品原型界面,真正实现“动动嘴即可编程”。这一能力并非刻意设计,而是模型在原生多模态能力持续扩展过程中自然涌现出的结果。
目前,普通用户也可前往Qwen Chat免费体验,开发者和企业可通过阿里云百炼平台调用Qwen3.5-Omni模型,每百万Tokens输入不到0.8元,比Gemini-3.1 Pro的1/10还低。
来源:https://finance.sina.com.cn/tech/shenji/2026-03-31/doc-inhsvsha3459334.shtml
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 第一批用AI的人,已经染上了AI疲惫症
- 时间:2026-04-07
-
- 名创优品:全球已落地65家“乐园系”门店,预计2026年底将达到200家
- 时间:2026-04-07
-
- 知情人士:摩根大通在金丝雀码头建造高楼获机场批准
- 时间:2026-04-07
-
- 家庭生活服务商“苏宁帮客”宣布战略升级,计划3年内上市
- 时间:2026-04-07
-
- 视频|清明娃哈哈大和解:宗馥莉和弟妹握手言和?
- 时间:2026-04-07
-
- 伊朗称“任何理性的人”都不会同意停火提议
- 时间:2026-04-07
-
- 霍尔木兹海峡航运升至数周高点 更多通行获批
- 时间:2026-04-07
-
- 泰国限制棕榈油出口 以应对中东战争引发的全球能源紧张局势
- 时间:2026-04-07
精选合集
更多大家都在玩
大家都在看
更多-
- 搞笑的网名女生极简冷酷(精选100个)
- 时间:2026-04-07
-
- 高德地图怎么查看未来天气-高德地图如何查看未来天气情况
- 时间:2026-04-07
-
- 曼哈顿音响怎么设置WiFi连接?
- 时间:2026-04-07
-
- 逆水寒庄园设计布局指南 打造独一无二的庄园空间
- 时间:2026-04-07
-
- 幻想少女公会恶意破韧冰邪神玩法搭配
- 时间:2026-04-07
-
- 浩取名网名搞笑女生名字(精选100个)
- 时间:2026-04-07
-
- 网络热词认真你就输了是什么意思
- 时间:2026-04-07
-
- openclaw小龙虾AI养成指南如何做
- 时间:2026-04-07