38、自然语言处理中的词性标注、语法特征与词法分析

自然语言处理中的词性标注、语法特征与词法分析

1. 标准化词性标注集与语法特征

1.1 词性与语法特征的定义及争议

基本词性,如限定词、名词、代词、形容词、动词、助动词、副词、连词和介词等,相对有明确的定义。然而,在进行计算分析时,如何对它们进行标准化存在争议。一方面是细节程度的问题,不同的标注集可能只有十几个标签,也可能超过一百个。另一方面是子类别的划分,例如动词应分为几类,是只设一类,还是要进一步细分为助动词、情态动词、动名词、不及物动词、及物动词等。

当考虑多种语言时,情况变得更加复杂。在法语和德语中,主要词性可根据性别、格和数进行子类划分,但在英语中这些划分并无用处。尽管通常可以将一种语言的标注集映射到另一种语言,但即使在同一种语言内,也没有无可争议的通用方案。

1.2 多语言词性标注

构建多语言标注集需要有一组通用类别,以便在不同语言之间进行比较。这些类别对应传统词性,在欧洲语言中达成了相对广泛的共识,但对特定语言而言不够精确。Dermatas 和 Kokkinakis(1995)保留了传统词性,使用统计方法为七种欧洲语言的文本进行标注,并添加了特定于每种语言的特征(子类别),如下表所示:
| 主要词性 | 特征(子类别) |
| — | — |
| 形容词、名词、代词 | 规则基、比较级、最高级、疑问式、人称、数、格 |
| 副词 | 规则基、比较级、最高级、疑问式 |
| 冠词、限定词、介词 | 人称、格、数 |
| 动词 | 时态、语态、语气、人称、数、格 |

MULTEXT 是一项跨国倡议,旨在为所有西欧和东欧语言提供标注方案,它延续了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值