中文大词汇连续语音识别:原理、应用与原型示例
1. 引言
大词汇连续语音识别(LVCSR)长期以来一直是口语语言处理中最重要的核心技术。它不仅直接应用于听写和转录任务,还为口语对话、口语文档处理、检索和总结、语音到语音翻译、计算机辅助语言学习等众多应用奠定了基础。即使是文本到语音合成,基于语料库的方法也常常依赖LVCSR技术对语料进行初始处理。
中文LVCSR包含六个关键组件:前端处理与特征提取、声学建模、声调建模、语言建模与词典生成、发音建模、搜索与解码。除前端处理与特征提取基本与语言无关外,其他五个组件或多或少都与中文的特殊结构相关。
2. 与LVCSR相关的中文语言结构特征
中文在结构特征上与大多数西方语言有很大不同,这些特征对LVCSR有重要影响。
- 单音节结构与声调行为 :中文不是字母文字,汉字是表意符号,每个汉字通常是一个有独立意义的语素。一个词由一个或多个汉字组成,其含义有时与组成汉字的含义相关,有时则完全不同。所有汉字都发单音节音,语音允许的音节总数有限,如普通话约有1345个,忽略声调后约为416个。声调具有词汇意义,普通话有4个声调加一个轻声。由于音节数量少,存在大量同音字,不同音节(或汉字)的组合可以形成无限数量的单词和句子。这种单音节结构使得中文LVCSR在声学和语言建模、声调建模以及整体系统结构方面都与西方字母语言有所不同。
- 灵活的构词结构 :中文的构词结构非常灵活,长词可以任意缩写,新单词也容易生成。而且,中文书面或印刷句子中没有空格作为单词边界,因此单词的定义不明确,句子分词不唯一,也没有普遍接受的词典。这使得中文LVCSR具
超级会员免费看
订阅专栏 解锁全文
5253

被折叠的 条评论
为什么被折叠?



