《A Survey on Open Information Extraction》

论文链接

  • information extraction从文本中抽取出SPO三元组,传统的information extraction都是抽取事先给定的关系
  • Open information extraction(Open IE)的关系无需实现给定,能够自动从大量的文本中发掘出关系(关系可能是原文中的span,也可能不是)
  • OPEN IE的三个挑战:
    • Automation:需要手动标注的数据必须限制在较小的数量级
    • Corpus Heterogeneity:能在不同分布的数据集上work,不能依赖领域相关的信息,比如NER。只能用POS这些浅层tag
    • Efficiency:需要在大量数据上运行,需要预测性能高,只能依赖POStag这些浅层信息
  • OPEN IE的方法:
    • Learning-based System: TEXTRUNNER/WOE/OLLIE
    • Rule-based System:利用语言学、统计学特征+规则 PredPatt
    • Clause-based System: Stanford OpenIE
    • Systems Capturing Inter-Proposition Relationships: 同时抽取三元组以及原文中三元组成立的前提
Read more

《A Survey on Deep Learning forNamed Entity Recognition》

论文链接

  • NER是信息抽取、问答系统、机器翻译的一项基础工作,DNN的应用让NER任务有了长足的进步
  • NER分为两类coarse-grained NER:比较粗粒度的划分entity,比如通用NER。 fine-grained NER:更加细分的实体类型,通常是和具体的业务相关的实体,一个mention可以属于多个实体类别
  • 数据集:见原文table1。 比较常用的有:
    • OntoNotes:18 coarse entity type consisting of 89 subtype
    • CoNLL03 4 entity types
  • 工具:见原文table2 StanfordCoreNLP/NLTK/spaCy
  • 评价指标:
    • exact-match evaluation: 用全匹配方法计算F1。会有些偏严,指标偏低
    • relaxed-match evaluation: 宽松匹配方案,不太好控制
Read more