AI数字人：基于VITS-fast-fine-tuning构建多speaker语音训练

原创

已于 2023-06-28 20:53:59 修改 · 7k 阅读

·

6

·

标签

#人工智能

于 2023-06-09 19:15:24 首次发布

VITS是一种基于对抗学习的端到端文本转语音方法，而VITS-fast-fine-tuning是其简化版，提供傻瓜式训练流程，允许在半小时内训练任意角色的语音。该过程涉及预处理数据、使用whisper模型提取语音特征，然后进行语音合成训练。用户需准备特定格式的数据，包括无标注的音频和文本，通过conda环境配置，运行训练脚本进行模型训练和推理。

1 VITS模型介绍

VITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）是一种语音合成方法，它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。

VITS 的工作流程如下：

（1）将文本输入 VITS 系统，系统会将文本转化为发音规则。

（2）将发音规则输入预先训练好的语音编码器 (vocoder)，vocoder 会根据发音规则生成语音信号的特征表示。

（3）将语音信号的特征表示输入预先训练好的语音合成模型，语音合成模型会根据特征表示生成合成语音。

VITS 的优点是生成的语音质量较高，能够生成流畅的语音。但是，VITS 的缺点是需要大量的训练语料来训练 vocoder 和语音合成模型，同时需要较复杂的训练流程。

论文链接：论文地址

最低0.47元/天解锁文章

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

源启智能 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。