参考地址:知识抽取-实体及关系抽取 - 知乎
目录
摘要:
知识抽取涉及的“知识”通常是清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等。从链接数据中获取知识用图映射,难点在于数据对齐,从半结构化数据中获取知识用包装器,难点在于wrapper的自动生成、更新和维护,这一篇主要讲从文本中获取知识,也就是广义上说的信息抽取。
信息抽取三个最重要/最受关注的子任务:
实体抽取:也就是命名实体识别,包括实体的检测(find)和分类(classify)
关系抽取:通常我们说的三元组(triple)抽取,一个谓词(predicate)带2个形参(argument),如 Founding-location(IBM,NewYork)
事件抽取:相当于一种多元关系的抽取
实体抽取:
实体抽取或者说命名实体识别(NER)在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find & classify,找到命名实体,并进行分类。
【蓝色为人名(Person),紫色为时间(Date),红色为机构(Organization)】
标准实现流程(用机器学习方法)
Training:
- 收集代表性的训练文档
- 为每个token标记命名实体(不属于任何实体就标 Others O)
- 设计适合该文本和类别的特征提取方法
- 训练一个 sequence classifier 来预测数据的label
Testing:
- 收集测试文档
- 运行sequence classifier给每个token做标记
- 输出命名实体
编码方式
看一下最常用的两种sequence labeling的编码方式,IO encoding简单的为每个token标注,如果不是NE就标为O(other),所以一共需要C+1个类别(label)。而IO

本文介绍了命名实体识别(NER)的重要性和标准实现流程,包括训练、测试阶段以及常用的IO和IOB编码方式。深度学习方法如LSTM+CRF和BERT+CRF被用于提高NER性能。评估指标主要为F1分数,同时讨论了实体链接的挑战和步骤。文章强调了Bert在实际项目中的优秀表现。
815

被折叠的 条评论
为什么被折叠?



