浅谈语音信号处理系列之三语音编码

最新推荐文章于 2025-02-25 10:06:52 发布

原创最新推荐文章于 2025-02-25 10:06:52 发布 · 4k 阅读

4 ·

本内容遵循CC 4.0 BY-SA版权协议

标签

#算法 #存储 #优化 #网络 #产品

Speech Signal Processing 专栏收录该内容

17 篇文章

订阅专栏

本文介绍了语音编码的应用场景，包括传输和存储，详细讲解了各种语音编码算法，如波形编码、混合编码和参数编码，特别关注了CELP技术。此外，还探讨了未来语音编码的研究方向，如低码率编码、信道编码结合以及算法优化。

语音编码

通过压缩语音信号，可以降低传输码率和节省存储空间。

一语音编码的应用
1、语音信号的传输，重点是编解码实时性，传输码率，延时和信道相关因素。
2、语音信号的存储，重点是语音质量和存储需求。

二、现在有哪些主要的语音编码算法？
1、语音质量
长途电话网质量：又叫网络质量，是高质量的语音；
通信广播质量：可以感到语音质量下降，但不妨碍正常通话；
合成语音质量：重建语音可以听懂内容，但是不够自然，基本不知道是谁说的。

1、标准化的语音编码
1）波形编码
        G.711 64kbps PCM 长途质量;
        G.726 16/24/32/40 kbps ADPCM 长途质量;
        以上适合对质量、延时和复杂度要求苛刻，对带宽码率宽裕的应用，如实时录音存储。

2) 混合编码
GSM 13kbps RPE-LTP 小于长途质量；
G.728 16kbps LD-CELP 长途质量；
G.729 8kbps CS-CELP 长途质量；
TIA IS96 8.5/4/2/0.85 kbps QCELP 小于长途质量
以上适合对信道条件和码率要求较高的应用，如无线通信，VOIP等。

3) 宽带语音多码率编码
G.722.1 24/32/48 kbps MDCT 适合IP网上传输语音和存储；
G.722.2(AMR-WB) 23.85~6.6 kbps ACELP 3G推荐语音编码算法之一。

2、开源的语音编码
1）iLBC 13.3/15.2 kbps CELP 提供的语音音质等同于或超过 G.729 和 G.723.1，并比其它低比特率的编码解码器更能阻止丢包，很适合拨号连接。
2）Speex 2.15~44 kbps CELP 为分组网络的VOIP(Voice over IP)应用程序设计的。

以后有时间再仔细研究研究。

三、语音编码的基本原理
1、波形编码
主要是根据语音信号的波形导出相应的去除冗余的数字编码方法，目的是使重建语音尽量保持波形不变，具有抗噪性能强、语音质量好等优点，但需要较高的码率。一般可以通过信噪比进行客观语音质量评价。主要代表算法为G.711、G.726等。

2、参数编码
它是通过对语音信号进行分析，提取参数并对这些参数进行编码，在接收端利用解码后的参数重建语音信号。目的是让解码语音与原始语音听起来是相同的，而不是波形一致。优点是压缩的码率较低，但是语音质量下降较大。一般通过主观听力评价其性能。

3、混合编码
结合以上两种编码方法，一方面增加语音的自然度，提高语音质量；另一方面相对于波形编码降低了码率。

CELP是其中最具代表性的语音编码算法模型，在4.8kbps~16kbps的范围提供了高质量的合成语音，并且抗噪性能和多次转接的性能也很好。什么是CELP，code excited linear predictive coding,码激励线性预测编码。它是基于LPC（线性预测）模型的编码方式。什么是LPC模型？LPC的基础是当前的语音信号样本可以通过前面几个样本的线性组合得到，这样在短时间内，通常一帧的语音数据就可以用LPC模型的几个参数表示（当然还有其他少量参数），这样通过对LPC等参数编码就可以达到降低码率的要求。在接收端解码这些参数就可以重建语音信号了。
LPC模型的本质是对语音产生的声道系统的特性描述，大家可能还记得上一篇中提到的语音产生模型，简单来说包括两部分激励源+声道模型。LPC模型对声道模型已经有了很好的特性分析，但是合成的语音质量还是不高，原因在于一直以来对激励源的特性描述不够精确，简单的二元激励（清音+浊音）导致语音质量比较粗糙。正是基于这一点，CELP对激励源模型进行了改进，在原有LPC模型的基础上，引入了高质量的波形编码准则来表示激励信号。

设及的重要改进技术包括：
1）引入长时相关性，改进LPC模型
语音信号不仅在邻近样点之间存在冗余，而且还有准周期特性（浊音成分的特性）形成冗余量，LPC模型只去除掉了邻近样点的冗余，加上长时预测一方面去掉远样点之间的冗余，同时在重建过程中更加突出语音准周期的特性，提高了编码效率和语音质量。
2）基于合成分析的方法
采样闭环搜索的方法-合成分析法，选取最佳激励矢量（预先存储一些具有代表性的波形参数用于描述不同的激励源状态），已得到最佳逼近原始语音的效果。
3）感觉加权滤波器
它是根据人耳的听觉掩蔽效应，提高编码效率。在搜索最佳激励矢量过程中，正是通过感觉加权均方误差最小这一判决准则，得到最佳激励矢量的。

CELP在4kbps以下时，语音质量严重下降，主要是因为码率太低，无法对激励信号的做更精细的量化引起的，因此4kbps以下的编码器，通常基于参数模型实现的。

四、语音编码涉及的工作方向

1、现有的语音编码算法非常多，并且已经标准化、商业化、产品化非常成熟了，因此对于8kbps以上的语音编码算法的研究基本上没有什么意义了。
2、8kbps以下的语音编码还没有较成熟的国际标准，可以作为标准化研究的方向吧。但是这方面的实际应用需求仍然较少，本人曾经研究低码率语音编码（2kbps~4kbps）的课题，但是实现的复杂度较高，另外语音质量达到合成语音质量，感觉还是离实际应用较远，不知道若干年以后会怎么样？
3、语音编码的前后处理技术可以研究一下，在Voip和一些实际产品中可能用得到；
4、语音编码与信道编码相结合，考虑在不同信道条件下的语音编码也很有挑战；
5、语音编码算法的简化和优化，当然是满足语音质量要求或者项目需求的前提下，考验你对算法的理解和一些指令集优化的技巧。
6、向多声道、宽带语音编码前进...