阿里两款千问语音新模型齐发:动物也能“原声”说人话了!
时间:2025-12-24 | 作者: | 阅读:012月24日消息,阿里今日升级语音模型家族Qwen3-TTS,发布音色创造Qwen3-TTS-VD和音色克隆Qwen3-TTS-VC两款全新模型。
在生成效果上,全新模型的表现显著超越GPT-4o。
Qwen3-TTS新模型可实现DIY声音设计和像素级音色模仿,甚至让动物“原生”开口说人话。
其音色自然、效果稳定、生成高效,可大大加速语音大模型在有声小说、AI漫剧、影视配音等多专业领域落地。
其中,音色创造模型支持通过自然语言描述生成定制化的音色形象,具有极强的可控生成能力。
在指令遵循评测InstructTTS-Eval中,Qwen3-TTS综合表现显著优于GPT-4o-mini-tts、Mimo-audio-7b-instruct等同类模型。
在强调表达一致性与沉浸感的角色扮演测试中,模型整体效果超过Gemini-2.5-pro-preview-tts。
音色克隆模型则专注于“音色模仿”,仅需3秒的语音样本,即可精准复刻原始声线。
在MiniMax TTS Multilingual Test Set测试集中,Qwen3-TTS-VC显示出其在多语言语音准确性与稳定性方面的优势。
它的平均词错误率(WER)指标上表现突出,整体结果全面优于 MiniMax、ElevenLabs 以及 GPT-4o-Audio-Preview。
此外,Qwen3-TTS-VC 还可自动生成英文、德语、意大利语、葡萄牙语、西班牙语、日语、韩语、法语、俄语等9种语音。
值得注意的是,它连动物音色也能复刻,只需录入家中宠物的原始声音,就能用模型让它“开口说人话”。
目前,两款模型均在阿里云百炼平台上架Flash版本API,响应速度极快,可完全满足工业级语音合成需求。
千问语音生成模型系列Qwen3-TTS仍在不断升级,目前可支持50种音色,10大主流语言和闽南语、吴语、粤语、四川话、北京话、南京话、天津话、陕西话等8大方言,可真实还原地方口音特色与语言神韵。
来源:https://news.mydrivers.com/1/1094/1094447.htm
免责声明:文中图文均来自网络,如有侵权请联系删除,心愿游戏发布此文仅为传递信息,不代表心愿游戏认同其观点或证实其描述。
相关文章
更多-
- 阿里组织架构调整!升级通义大模型事业部 CTO集结成团
- 时间:2026-04-08
-
- 1688找货源市场入口
- 时间:2026-04-08
-
- 阿里发布Wan2.7-Video视频生成模型!从演迈向导 聚焦创作全链路
- 时间:2026-04-03
-
- 国产编程模型新王诞生!阿里Qwen3.6-Plus正式发布
- 时间:2026-04-02
-
- 阿里二次创业:AI打底,万亿美元估值可期
- 时间:2026-03-23
-
- 早有预谋!千问核心林俊旸官宣卸任 阿里沟通会吴泳铭曝光资源分配矛盾
- 时间:2026-03-05
-
- 统一了!阿里大模型 未来都叫“千问”
- 时间:2026-03-02
-
- 挡不住的跌势!南向资金连买难救 美团市值跌破5000亿 2026已跌超20%
- 时间:2026-02-13
精选合集
更多大家都在玩
大家都在看
更多-
- DNF2026魔道技能数据大核心要点全凸显
- 时间:2026-04-12
-
- 太空修仙录什么时候出 公测上线时间预告
- 时间:2026-04-12
-
- 战地6NVO288E好用配件搭配推荐
- 时间:2026-04-12
-
- 惊爆 烈火星辰传奇技能大,超强玩法等你体验,速来一探究竟
- 时间:2026-04-12
-
- 燕云十六声众生宝箱介绍 全面解析与探秘
- 时间:2026-04-12
-
- 地下城手游迷你商店换什么装备 地下城手游迷你商店的装备选择建议是什么
- 时间:2026-04-12
-
- 绝地求生中眼泪一两声是什么意思 怎么在游戏中触发
- 时间:2026-04-12
-
- 迅雷光鸭云盘开启公测招募:不限速、免登录 2TB免费空间
- 时间:2026-04-12


