自然语言处理中的词性标注、语法特征与词法分析
1. 标准化词性标注集与语法特征
1.1 词性与语法特征的定义及争议
基本词性,如限定词、名词、代词、形容词、动词、助动词、副词、连词和介词等,相对有明确的定义。然而,在进行计算分析时,如何对它们进行标准化存在争议。一方面是细节程度的问题,不同的标注集可能只有十几个标签,也可能超过一百个。另一方面是子类别的划分,例如动词应分为几类,是只设一类,还是要进一步细分为助动词、情态动词、动名词、不及物动词、及物动词等。
当考虑多种语言时,情况变得更加复杂。在法语和德语中,主要词性可根据性别、格和数进行子类划分,但在英语中这些划分并无用处。尽管通常可以将一种语言的标注集映射到另一种语言,但即使在同一种语言内,也没有无可争议的通用方案。
1.2 多语言词性标注
构建多语言标注集需要有一组通用类别,以便在不同语言之间进行比较。这些类别对应传统词性,在欧洲语言中达成了相对广泛的共识,但对特定语言而言不够精确。Dermatas 和 Kokkinakis(1995)保留了传统词性,使用统计方法为七种欧洲语言的文本进行标注,并添加了特定于每种语言的特征(子类别),如下表所示:
| 主要词性 | 特征(子类别) |
| — | — |
| 形容词、名词、代词 | 规则基、比较级、最高级、疑问式、人称、数、格 |
| 副词 | 规则基、比较级、最高级、疑问式 |
| 冠词、限定词、介词 | 人称、格、数 |
| 动词 | 时态、语态、语气、人称、数、格 |
MULTEXT 是一项跨国倡议,旨在为所有西欧和东欧语言提供标注方案,它延续了
超级会员免费看
订阅专栏 解锁全文
2230

被折叠的 条评论
为什么被折叠?



