《Neural Open Information Extraction》

论文链接

  • 目标:从输入文本中抽取schema-free的spo三元组
  • 模型:
    • encoder-decoder的seq2seq模型
    • 原文输入encoder,得到一个encoded embedding
    • 目标序列格式为subjectpredicationobject
    • 引入copy机制,从生成的token和copy的token中选择一个
    • architecture:architecture
  • 实验:
Read more

《Supervised Open Information Extraction》

论文链接

  • 目标:构建一个基于监督学习的openie
  • 建模方式:sequence-labeling
  • 输入:token序列+token的POS信息+基于SRL的predicate开头token的信息
  • 输出:BIO方式标注的predicate ARG0 ARG1 ARG2标签
    • ARG0表示subject ARG1表示object ARG2表示spo的附加条件(比如时间、地点、情景等)
    • 这里的object定义比较灵活,可以不是一个实体
    • 每个token输出一个probability,span的probability由包含的所有token的probability相乘得到。作者验证相乘的方式是最好的计算span probability的方案
Read more

《A Survey on Open Information Extraction》

论文链接

  • information extraction从文本中抽取出SPO三元组,传统的information extraction都是抽取事先给定的关系
  • Open information extraction(Open IE)的关系无需实现给定,能够自动从大量的文本中发掘出关系(关系可能是原文中的span,也可能不是)
  • OPEN IE的三个挑战:
    • Automation:需要手动标注的数据必须限制在较小的数量级
    • Corpus Heterogeneity:能在不同分布的数据集上work,不能依赖领域相关的信息,比如NER。只能用POS这些浅层tag
    • Efficiency:需要在大量数据上运行,需要预测性能高,只能依赖POStag这些浅层信息
  • OPEN IE的方法:
    • Learning-based System: TEXTRUNNER/WOE/OLLIE
    • Rule-based System:利用语言学、统计学特征+规则 PredPatt
    • Clause-based System: Stanford OpenIE
    • Systems Capturing Inter-Proposition Relationships: 同时抽取三元组以及原文中三元组成立的前提
Read more