《TPLinker:Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking》

论文链接

解决的问题

给定schema的SPO抽取:从文本中抽取去SPO(Subject-Predicate-Object)三元组。其中Predicate是事先定义好的关系,Subject和Object是文中的span

TPLinker的特点

  • 能够处理SEO(SingleEntityOverlap)和EPO(EntityPairOverlap)两种情形
    • SEO:张三和李四都是北京人 -> (张三,出生地,北京),(李四,出生地,北京)
    • EPO:江苏的省会是南京 -> (江苏,包含,南京),(江苏,省会,南京)
  • Single-stage的方案,原始文本过一次Encoder之后,便可以解码得到整个spo三元组
Read more

《Matching the Blanks: Distributional Similarity for Relation Learning》

论文链接

  • 目标:基于大量未标注语料,训练一个relation表征的模型

  • input:relation statement(x, s1, s2)

  • output:relation representation: 一个稠密向量,使得两个关系越接近,两个关系的表征向量点积值越大

  • bert-based architecture:architecture

  • 预训练

    • There is high degree for redundancy in web text, relation between tow entity is likely to be stated multiple times
    • 两个不同的句子中,如果包含相同的实体对,这个实体对在两句话中大概率表示相同的relation
    • 两个不同的句子中,如果包含不同实体对,这两个实体对大概率表示不同的relation
    • 例子:example
    • 结构:architecture1
Read more