通义百聆语音双子星,同步开源!

简介: 通义百聆全新升级,推出Fun-CosyVoice3与Fun-ASR系列模型。3秒录音即可实现9种语言、18种方言及多情感音色克隆,支持中英混说、跨语种合成;Fun-ASR识别准确率高达93%,支持31种语言自由混说、歌词说唱识别,并开源轻量级模型,助力高效本地部署与定制开发。

转自 通义大模型

只需3秒录音,就能让你的声音无缝切换语种、方言与情绪——中、粤、日、英、开心、愤怒......9 种通用语言18种方言通通搞定!

一段嘈杂环境下的会议录音,AI 也能毫秒级输出文字,绕口令、RAP、背景音乐干扰,照样精准识别!

通义百聆再升级!本次发布包括:

1、Fun-CosyVoice3 模型升级:首包延迟降低 50%,中英混字准确率翻倍,支持 9 语种 18 方言口音、跨语种克隆与情感控制;

2、Fun-CosyVoice3(0.5B)正式开源:提供 zero-shot 音色克隆能力,支持本地部署二次开发

3、Fun-ASR 模型能力增强:噪声场景准确率 93%、支持歌词与说唱识别、31 语种自由混说、方言口音覆盖,并将流式识别模型的首字降低到 160ms

4、Fun-ASR-Nano(0.8B)开源:Fun-ASR 的轻量化版本,推理成本更低,模型开源,支持本地部署与定制化微调。


模型能力全面升级

在9月份发布的CosyVoice3 版本,展示了模型如何通过 3 秒音频,实现跨语言、多情感、多方言的高保真音色复刻。

本次,Fun-CosyVoice3 大模型完成多项关键升级

  • 首包延迟降低 50%支持双向流式合成,真正实现“输入即发声”,适用于语音助手、直播配音、无障碍阅读等实时场景;
  • 中英混说词错误率(WER)相比之前降低 56.4%不论是含专业术语、大小写混排,还是语码转换的句子,都能精准、自然地发音;
  • 在 zero-shot TTS 评测中,内容一致性与音色相似度全面提升复杂场景(test-hard)字符错误率(CER)相对降低 26%接近人类录音水平;
  • 9 种通用语言、18 种中文方言、9 种情感控制并具备跨语种音色复刻能力——用一段普通话录音,即可生成粤语、日语、英语等语音,音色保持高度一致。

🌈 案例展示1:中英混说,精准发音

📎优化后.wav

Fun-CosyVoice3合成:上面的oversize的衣服就不要选择这么大,你可以稍微再缩小一点点版型。

🌈 案例展示2:跨语种音色复刻能力

📎初始音频.wav

📎粤语复刻.wav

📎日语复刻.wav

🌈 案例展示3:韵律提升,音色复刻

📎Prompt 1.wav

📎优化 声音生成.wav

🌈 案例展示4:不同语境下,多音字也能精准合成

📎uttid_18.wav

Fun-CosyVoice3合成:他把数据输入电脑,开始数数。

模型体验地址

阿里云百炼

https://bailian.console.aliyun.com/?spm=5176.29597918.J_vaX5qcVH_w8TByFwAgQKi.6.15eb7b08JQobki&tab=model#/efm/model_experience_center/voice?currentTab=voiceTts

Fun-CosyVoice3-0.5B 正式开源

除了 Fun-CosyVoice3 在模型能力上的全面升级,我们还同步开源了Fun-CosyVoice3-0.5B该版本提供了 zero-shot 音色克隆能力,只需要你提供一段 3 秒以上的参考音频,即可复刻其音色并合成新语音,并且支持本地部署和二次开发。

在zero-shot 语音合成评测中,Fun-CosyVoice3-0.5B 表现优秀,在各个指标上优于主流TTS模型:

开源地址

魔搭、HuggingFace、GitHub

https://github.com/FunAudioLLM/CosyVoice(GitHub)

https://funaudiollm.github.io/cosyvoice3/(GitHub.io)

https://www.modelscope.cn/studios/FunAudioLLM/Fun-CosyVoice3-0.5B(体验demo)

https://modelscope.cn/models/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(国内模型仓库)

https://huggingface.co/FunAudioLLM/Fun-CosyVoice3-0.5B-2512(海外模型仓库)

模型能力全面升级

如果 CosyVoice3 让 AI “会说话”,那 Fun-ASR 就是让 AI  “听得懂”。

作为通义百聆推出的端到端语音识别大模型,Fun-ASR 基于数千万小时真实语音数据训练,已在钉钉“AI听记”、视频会议等场景中大规模落地。本次,我们对 Fun-ASR 的核心能力进行了全面升级,重点优化了嘈杂环境棒性多语言自由混说中文方言口音覆盖歌词识别定制化能力,并将流式识别模型的首字降低到 160ms。

在远场拾音或高噪声环境(如会议室、地铁、车载)中,Fun-ASR 的识别准确率可达到 93%。新增对歌曲与说唱的识别能力,优化音乐背景噪声干扰下的语音识别能力,提高模型的抗噪能力。

🌈 案例展示5:嘈杂环境语音识别——室外环境

📎BV1LPc2eDESr_0085.wav

Fun-ASR 识别:然后被冠以了渣男线的称号,好了,不管这个,那么前方即将到达沈杜公路站,左边是8号线。

Fun-ASR 全面支持 31 种语言的自由混说无需预先指定语种,系统可自动切换识别,重点优化了日语、越南语等东亚与东南亚语种,并能准确处理语种混说类句子。在中文方面,模型覆盖 7 大方言(粤语、吴语、闽南语、客家话、赣语、湘语、晋语)与 26 种地方口音,从东北话到港台腔,从四川话到河南腔,都能精准识别。

🌈 案例展示6:多语言语音识别--日语+英语

📎日语+英语.wav

Fun-ASR 识别:このカフェのwi-fiがアン ステーブル 過ぎて、google meetでディスコネクトされて クライエントに悪い印象を与えてしまった。

🌈 案例展示7:方言与口音覆盖--粤语

📎粤语.wav

Fun-ASR 识别:佢最想要有露台,佢想感受那个国家嘅生气,以佢280000呢个预算有少少难度,佢可能要做少少妥协不过我会尽力帮佢揾到佢想要嘅单位。

针对企业级定制需求,Fun-ASR 引入了 RAG(检索增强生成)机制,将定制热词上限从 1000 条提升至 10000 条,且不牺牲通用识别准确率。这意味着金融、医疗、教育等领域的专业术语、品牌名、人名,均可被高召回、高精度识别,满足工业级落地要求。

模型体验地址

阿里云百炼

https://bailian.console.aliyun.com/?spm=5176.29597918.J_vaX5qcVH_w8TByFwAgQKi.6.15eb7b08JQobki&tab=model#/efm/model_experience_center/voice?currentTab=voiceAsr

Fun-ASR-Nano-0.8B 正式开源

此外,我们全新推出轻量化版本 Fun-ASR-Nano 模型,总参数量压缩到 0.8B,推理成本更低,现已开源,欢迎体验!


开源地址

魔搭、HuggingFace、GitHub

https://github.com/FunAudioLLM/Fun-ASR(GitHub)

https://funaudiollm.github.io/funasr/(GitHub.io)

https://modelscope.cn/studios/FunAudioLLM/Fun-ASR-Nano/(国内体验demo)

https://huggingface.co/spaces/FunAudioLLM/Fun-ASR-Nano(海外体验demo)

https://modelscope.cn/models/FunAudioLLM/fun-asr-nano-2512(国内模型仓库)

https://huggingface.co/FunAudioLLM/Fun-ASR-Nano-2512(海外模型仓库)

💬 互动
在模型使用过程中遇到了哪些问题?有什么优化建议?或者希望未来增加哪些功能?欢迎评论区反馈,优质建议将有机会获得通义定制咖啡杯(长期有效)!如果你希望深度交流,也欢迎扫码进入钉钉群~

目录
相关文章
|
18天前
|
人工智能 自然语言处理 语音技术
智谱开源GLM-ASR:动动嘴,活就干了
智谱发布并开源GLM-ASR系列语音识别模型,推出桌面端AI输入法。包含云端旗舰模型GLM-ASR-2512与端侧轻量版GLM-ASR-Nano-2512(仅1.5B参数),实现高精度、低延迟、强隐私保护的语音转写。输入法集成大模型能力,支持语音指令、翻译、改写、人设切换、Vibe Coding等功能,让用户“动嘴干活”,提升办公效率。现已免费开放体验。
424 0
|
17天前
|
SQL 人工智能 数据库
你的数据库不是性能差,是你的SQL在“烧钱”:用这条指令让AI化身资深DBA
硬件升配解决不了烂SQL!本文提供一套经过验证的AI指令,将大模型转化为资深DBA,通过深度诊断、索引优化和执行计划分析,帮助开发者从根源解决慢查询问题,实现数据库性能的降本增效。
167 19
|
12天前
|
人工智能 物联网 测试技术
ModelScope魔搭社区发布月报 -- 25年12月
魔搭社区12月重磅更新DeepSeek 3.2、Mistral-3等模型,Z-Image-Turbo引领文生图生态,平台全面升级加速开源模型落地。
178 8
|
1月前
|
机器学习/深度学习 编解码 JSON
混元OCR模型宣布开源,参数仅1B,多项核心能力SOTA
腾讯混元推出全新开源OCR模型HunyuanOCR,仅1B参数,基于原生多模态架构,实现端到端高效推理。在复杂文档解析、文字检测识别等多场景表现卓越,支持14种小语种翻译,广泛适用于票据抽取、视频字幕识别等应用,多项指标达业界SOTA水平。
418 8
|
1月前
|
机器学习/深度学习 人工智能 缓存
让AI评测AI:构建智能客服的自动化运营Agent体系
大模型推动客服智能化演进,从规则引擎到RAG,再到AI原生智能体。通过构建“评估-诊断-优化”闭环的运营Agent,实现对话效果自动化评测与持续优化,显著提升服务质量和效率。
966 41
让AI评测AI:构建智能客服的自动化运营Agent体系
|
26天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
2131 9
刚刚参加了一个MCP赛事,奖金还可以,搭友们可以去试试看
社区8月比赛未获奖有点失落,但发现通义灵码×蚂蚁百宝箱MCP赛事正火热进行!参赛即有机会赢取丰厚奖金,激励满满,令人眼前一亮。已跃跃欲试,搭友们快来一起冲榜夺奖吧!https://tianchi.aliyun.com/competition/entrance/532442
|
7天前
VTP:MiniMax海螺视频团队,首次开源!
MiniMax视频团队推出首个开源工作VTP,首次将视觉tokenizer作为scaling主角,通过融合通用表征学习,实现生成性能随参数、算力、数据规模持续提升,展现tokenizer在视觉生成系统中的核心潜力。
109 3
|
13天前
|
人工智能 JavaScript Java
正则表达式是“天书”?用这条指令让AI做你的“御用翻译官”
正则表达式常被戏称为“只写语言”,难以阅读且易引发性能问题。本文分享一套AI指令,将AI转化为“正则翻译官”,不仅生成精准代码,更提供逐字解析与ReDoS安全检查,帮助开发者轻松应对日志清洗与WAF配置挑战。
112 3