知识抽取实现方案——实体抽取

本文介绍了命名实体识别(NER)的重要性和标准实现流程,包括训练、测试阶段以及常用的IO和IOB编码方式。深度学习方法如LSTM+CRF和BERT+CRF被用于提高NER性能。评估指标主要为F1分数,同时讨论了实体链接的挑战和步骤。文章强调了Bert在实际项目中的优秀表现。

参考地址:知识抽取-实体及关系抽取 - 知乎

目录

摘要:

实体抽取:

标准实现流程(用机器学习方法)

编码方式

深度学习方法

评价指标

实体链接


摘要:

知识抽取涉及的“知识”通常是清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等。从链接数据中获取知识用图映射,难点在于数据对齐,从半结构化数据中获取知识用包装器,难点在于wrapper的自动生成、更新和维护,这一篇主要讲从文本中获取知识,也就是广义上说的信息抽取。

信息抽取三个最重要/最受关注的子任务:

实体抽取:也就是命名实体识别,包括实体的检测(find)和分类(classify)

关系抽取:通常我们说的三元组(triple)抽取,一个谓词(predicate)带2个形参(argument),如 Founding-location(IBM,NewYork)

事件抽取:相当于一种多元关系的抽取

实体抽取:

实体抽取或者说命名实体识别(NER)在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find & classify,找到命名实体,并进行分类。

【蓝色为人名(Person),紫色为时间(Date),红色为机构(Organization)】

标准实现流程(用机器学习方法)

Training:

  1. 收集代表性的训练文档
  2. 为每个token标记命名实体(不属于任何实体就标 Others O)
  3. 设计适合该文本和类别的特征提取方法
  4. 训练一个 sequence classifier 来预测数据的label

Testing:

  1. 收集测试文档
  2. 运行sequence classifier给每个token做标记
  3. 输出命名实体

编码方式

看一下最常用的两种sequence labeling的编码方式,IO encoding简单的为每个token标注,如果不是NE就标为O(other),所以一共需要C+1个类别(label)。而IO

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值