2020.6.22|ACL 2020|吉林大学|原文链接|源码链接
A Novel Cascade Binary Tagging Framework for Relational Triple Extraction
- 解决多个关系三元组共享相同实体的重叠三元组问题
- 引入一个新的视角来看待关系三元组抽取任务,一个新的级联二进制标记框架(CASREL)
- 由 f ( s , o ) − > r f(s,o)->r f(s,o)−>r改进为 f r ( s ) − > o f_r(s)->o fr(s)−>o的关系特定标记器(主语宾语的函数),先识别可能的主语,然后对于每个主语,使用该关系的标记器来同时识别可能的关系和对应的宾语
CasRel框架
直接对三元组进行建模,并在三元组的层次上设计一个训练目标,而不是递进的去建模
- 训练集: D D D
- 已注释的句子: x j x_j xj
- 三元组: T j = ( s , r , o ) T_j = {(s,r,o)} Tj=(s,r,o)【s:主语,r:关系,o:宾语】
- 由主语主导的三元组: T j ∣ s T_j|s Tj∣s
- 由主语引导的三元组中(r,o)对: ( r , o ) ∣ s (r,o)|s (r,o)∣s
- 除了s引导的关系: R / T j ∣ s R/T_j|s R/Tj∣s
- “null”对象: o ∅ o_\emptyset o∅
- 目标:得到最好的D的数据似然性(下方有引用解释)

(2)公式运用了概率链式规则。【 p ( a , b ) = p ( a ∣ b ) ∗ p ( b ) p(a,b)=p(a|b)*p(b) p(a,b)=p(a∣b)∗p(b),即a,b同时发生的概率=b事件发生的条件下a发生的概率,乘以b发生的概率】
(3)利用了一个规律:对于一个给定的主体s,任何与S有关的关系所处的句子中,都有相应的宾语o,而其他的句子中没有,即“null”宾语。
这里,我认为作者在将整个式子就是将获得注释句子中正确的三元组的概率,打碎,成为了
获得句子中正确的主语s、在包含s的句子中,获得与关系相符的宾语的概率、在包含s的句子中,获得与关系不相符的宾语的概率的概率拼接,为作者提出的主语宾语的函数做提前准备。
效果:
- 数据似然性(data likelihood)从(3)开始计算,优化了三元组的评价标准(让其更准确)
- 不需要假设三元组在一个句子中共享实体的情况,解决了三元组的问题
- 在(3)中的分解过程中,主语标记器 p ( s ∣ x j ) p(s|x_j) p(s∣xj)能够识别句子中的主语实体,对于每个关系r,宾语标记器 p r ( o ∣ s , x ) p_r(o|s,x) pr(o∣s,x)能够识别给定主语情况下该关系的宾语。
由此,将一个关系建模为一个主语到宾语的函数,而不是对(主语,宾语)这种pair的关系进行分类。
主语标记器与宾语标记器以深度双向变压器BERT上的二进制标记器(binary taggers on top of a deep bidirectional Transformer BERT)
“似然性”(likelihood)和“概率”(probability)意思相近,都是指某种事件发生的可能性。在统计学中,似然性”和“概率”又有明确的区分,概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B) = \frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(

CASREL是一个新的级联二进制标记框架,用于解决关系三元组抽取中的重叠问题。它通过改进的关系特定标记器分别识别主语和宾语,利用BERT进行上下文编码,并通过级联解码器处理主语和宾语的检测。这种方法避免了传统方法中实体共享的问题,提高了关系抽取的准确性。
3913

被折叠的 条评论
为什么被折叠?



