通义百聆语音双子星，同步开源！-阿里云开发者社区

通义百聆语音双子星，同步开源！

2025-12-16 284

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 通义百聆全新升级，推出Fun-CosyVoice3与Fun-ASR系列模型。3秒录音即可实现9种语言、18种方言及多情感音色克隆，支持中英混说、跨语种合成；Fun-ASR识别准确率高达93%，支持31种语言自由混说、歌词说唱识别，并开源轻量级模型，助力高效本地部署与定制开发。

转自通义大模型

只需3秒录音，就能让你的声音无缝切换语种、方言与情绪——中、粤、日、英、开心、愤怒......9 种通用语言、18种方言，通通搞定！

一段嘈杂环境下的会议录音，AI 也能毫秒级输出文字，绕口令、RAP、背景音乐干扰，照样精准识别！

通义百聆再升级！本次发布包括：

1、Fun-CosyVoice3 模型升级：首包延迟降低 50%，中英混字准确率翻倍，支持 9 语种 18 方言口音、跨语种克隆与情感控制；

2、Fun-CosyVoice3（0.5B）正式开源：提供 zero-shot 音色克隆能力，支持本地部署与二次开发；

3、Fun-ASR 模型能力增强：噪声场景准确率 93%、支持歌词与说唱识别、31 语种自由混说、方言口音覆盖，并将流式识别模型的首字降低到 160ms。

4、Fun-ASR-Nano（0.8B）开源：Fun-ASR 的轻量化版本，推理成本更低，模型开源，支持本地部署与定制化微调。

模型能力全面升级

在9月份发布的CosyVoice3 版本，展示了模型如何通过 3 秒音频，实现跨语言、多情感、多方言的高保真音色复刻。

本次，Fun-CosyVoice3 大模型完成多项关键升级：

首包延迟降低 50%，支持双向流式合成，真正实现“输入即发声”，适用于语音助手、直播配音、无障碍阅读等实时场景；
中英混说词错误率（WER）相比之前降低 56.4%，不论是含专业术语、大小写混排，还是语码转换的句子，都能精准、自然地发音；
在 zero-shot TTS 评测中，内容一致性与音色相似度全面提升，复杂场景（test-hard）字符错误率（CER）相对降低 26%，接近人类录音水平；
9 种通用语言、18 种中文方言、9 种情感控制，并具备跨语种音色复刻能力——用一段普通话录音，即可生成粤语、日语、英语等语音，音色保持高度一致。

🌈 案例展示1：中英混说，精准发音

📎优化后.wav

Fun-CosyVoice3合成：上面的oversize的衣服就不要选择这么大，你可以稍微再缩小一点点版型。

🌈 案例展示2：跨语种音色复刻能力

📎初始音频.wav

📎粤语复刻.wav

📎日语复刻.wav

🌈 案例展示3：韵律提升，音色复刻

📎Prompt 1.wav

📎优化声音生成.wav

🌈 案例展示4：不同语境下，多音字也能精准合成

📎uttid_18.wav

Fun-CosyVoice3合成：他把数据输入电脑，开始数数。

模型体验地址

阿里云百炼

https://bailian.console.aliyun.com/?spm=5176.29597918.J_vaX5qcVH_w8TByFwAgQKi.6.15eb7b08JQobki&tab=model#/efm/model_experience_center/voice?currentTab=voiceTts

Fun-CosyVoice3-0.5B 正式开源

除了 Fun-CosyVoice3 在模型能力上的全面升级，我们还同步开源了Fun-CosyVoice3-0.5B，该版本提供了 zero-shot 音色克隆能力，只需要你提供一段 3 秒以上的参考音频，即可复刻其音色并合成新语音，并且支持本地部署和二次开发。

在zero-shot 语音合成评测中，Fun-CosyVoice3-0.5B 表现优秀，在各个指标上优于主流TTS模型：

开源地址

魔搭、HuggingFace、GitHub

https://github.com/FunAudioLLM/CosyVoice（GitHub）

https://funaudiollm.github.io/cosyvoice3/（GitHub.io）

https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B（体验demo）

https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512（国内模型仓库）

https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512（海外模型仓库）

模型能力全面升级

如果 CosyVoice3 让 AI “会说话”，那 Fun-ASR 就是让 AI “听得懂”。

作为通义百聆推出的端到端语音识别大模型，Fun-ASR 基于数千万小时真实语音数据训练，已在钉钉“AI听记”、视频会议等场景中大规模落地。本次，我们对 Fun-ASR 的核心能力进行了全面升级，重点优化了嘈杂环境鲁棒性、多语言自由混说、中文方言与口音覆盖、歌词识别、定制化能力，并将流式识别模型的首字降低到 160ms。

在远场拾音或高噪声环境（如会议室、地铁、车载）中，Fun-ASR 的识别准确率可达到 93%。新增对歌曲与说唱的识别能力，优化音乐背景噪声干扰下的语音识别能力，提高模型的抗噪能力。

🌈 案例展示5：嘈杂环境语音识别——室外环境

📎BV1LPc2eDESr_0085.wav

Fun-ASR 识别：然后被冠以了渣男线的称号，好了，不管这个，那么前方即将到达沈杜公路站，左边是8号线。

Fun-ASR 全面支持 31 种语言的自由混说，无需预先指定语种，系统可自动切换识别，重点优化了日语、越南语等东亚与东南亚语种，并能准确处理语种混说类句子。在中文方面，模型覆盖 7 大方言（粤语、吴语、闽南语、客家话、赣语、湘语、晋语）与 26 种地方口音，从东北话到港台腔，从四川话到河南腔，都能精准识别。

🌈 案例展示6：多语言语音识别--日语+英语

📎日语+英语.wav

Fun-ASR 识别：このカフェのwi-fiがアンステーブル過ぎて、google meetでディスコネクトされてクライエントに悪い印象を与えてしまった。

🌈 案例展示7：方言与口音覆盖--粤语

📎粤语.wav

Fun-ASR 识别：佢最想要有露台，佢想感受那个国家嘅生气，以佢280000呢个预算有少少难度，佢可能要做少少妥协不过我会尽力帮佢揾到佢想要嘅单位。

针对企业级定制需求，Fun-ASR 引入了 RAG（检索增强生成）机制，将定制热词上限从 1000 条提升至 10000 条，且不牺牲通用识别准确率。这意味着金融、医疗、教育等领域的专业术语、品牌名、人名，均可被高召回、高精度识别，满足工业级落地要求。

模型体验地址

阿里云百炼

https://bailian.console.aliyun.com/?spm=5176.29597918.J_vaX5qcVH_w8TByFwAgQKi.6.15eb7b08JQobki&tab=model#/efm/model_experience_center/voice?currentTab=voiceAsr

Fun-ASR-Nano-0.8B 正式开源

此外，我们全新推出轻量化版本 Fun-ASR-Nano 模型，总参数量压缩到 0.8B，推理成本更低，现已开源，欢迎体验！