语音识别-Kaldi的安装编译实录(Ubuntu环境)
本篇博客用于记录一次用开源语音识别(ASR)工具Kaldi来实现中文语音识别功能的经历,记录一路遇到的一些问题。希望本篇文章可以给广大有需要的人提供一些帮助,也以防之后若再做此方向的东西会重蹈覆辙。
注意:本文是在Ubuntu64位的虚拟机环境下运行的,通过阅读Kaldi官方的INSTALL文件中指出的,似乎不能在Windows下正常编译使用。
Kaldi简介:Kaldi是当前最流行的开源语音识别工具(Toolkit),它使用WFST来实现解码算法。它自带了很多特征提取模块,能提取MFCC/ivector/xvector等语音特征;也自带了很多语音模型代码,可以直接使用或重新训练GMM-HMM等模型;它还支持GPU进行训练。可以说是功能很强大了。更厉害的是,你只需要简单的SHELL编程,就能使用kaldi。kaldi作为一个工具,不需要像库一样进行大量编程,所以使用门槛其实不高。
对应大部分Kaldi的用户来说,我们只需要使用脚本和配置文件就可以完成语音识别系统的训练和预测了。所以我也选择了用Kaldi来完成导师安排的语音识别任务。
一、配置Kaldi环境
安装VMWare虚拟机并安装了Ubuntu,我的版本是Ubuntu20.04.3,安装过程参考:Ubuntu18.04安装教程
Kaldi官方教程:https://kaldi-asr.org/doc/install.html
安装下载,我是从github上直接下载zip然后解压的,官方github链接:https://github.com/kaldi-asr/kaldi
注意,如果下载zip到win上,一定要将zip传输到虚拟机再解压,不要解压后再复制到虚拟机!会出错的!
最新补充!我Kaldi下载来的项目文件Kaldi-master似乎是旧版本,导致了一些必要文件的丢失,所以我建议大家,最好还是用git工具来下载Kaldi的项目文件夹。
也可以使用git命令将其下载到本地,在终端键入:
git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin upstream
或者(如果出现timed out可以用下面的指令)
git clone https://gitclone.com/github.com/kaldi-asr/kaldi.git kaldi --origin upstream
======== 下面这部分是我准备thchs30数据集的部分,和本文编译kaldi内容无关 ========
在Ubuntu中安装清华大学开源的thchs30数据集:http://www.openslr.org/18/
这里面的三个文件都要下,一共约8G,下载好后解压放到Kaldi

本文详细记录了在Ubuntu20.04虚拟机中安装和编译开源语音识别工具Kaldi的过程,包括解决依赖问题、编译工具和源代码,以及遇到的错误和解决方法。特别指出,Kaldi安装需在Linux环境下进行,从GitHub下载源码并在Ubuntu中解压,避免在Windows和Ubuntu间传输导致的问题。文章还分享了在编译过程中遇到的OpenFst、cub库缺失等问题的解决策略,并强调了正确下载和更新Kaldi的重要性。
4325

被折叠的 条评论
为什么被折叠?



