
随着 Echo 出现,all in one 音响类产品雏形开始显现,语音交互成为最直接的控制方式,Amazon Echo作为最佳代表,智能语音交互成为互联网入口的新价值所在。ABI Research 在 2017 年収布的预测报告指出,估计到 2022 年,支持语音控制的装置出货量将达到 7500万台,其中智能喇叭/数位语音助理预计达到 4700 万台,预计智能音箱销售量将会逐步上升,未来三年内还将保持 50%以上的复合增速。2017 年 ,Echo 系列产品销售量超过 1000 万台,销售额达到 8~10 亿美元;伴随着智能音箱的火热以及背后语音交互生态的成熟,将会带动越来越多的设备语音化、智能化,使语音真正成为人机交互的一个界面。而在语音交互设备中,语音唤醒技术越发显得重要,成为人与设备“沟通”的桥梁。
首先,什么是语音唤醒?


语音唤醒技术在智能设备中扮演关键角色,作为人机交互的入口。它区别于语音识别,能持续检测目标关键词,如Amazon Echo的'alexa'。常用实现方式包括dnn+hmm和lstm+ctc模型。科大讯飞和百度提供在线和离线SDK,唤醒率通常超过95%。各种算法各有优缺点,如Sphinx的模块化结构,Mozilla DeepSpeech的高准确性,但对多种语言支持有限,Kaldi则因加入神经网络支持而流行。
1万+

被折叠的 条评论
为什么被折叠?



