《A Survey on Open Information Extraction》
- information extraction从文本中抽取出SPO三元组,传统的information extraction都是抽取事先给定的关系
- Open information extraction(Open IE)的关系无需实现给定,能够自动从大量的文本中发掘出关系(关系可能是原文中的span,也可能不是)
- OPEN IE的三个挑战:
- Automation:需要手动标注的数据必须限制在较小的数量级
- Corpus Heterogeneity:能在不同分布的数据集上work,不能依赖领域相关的信息,比如NER。只能用POS这些浅层tag
- Efficiency:需要在大量数据上运行,需要预测性能高,只能依赖POStag这些浅层信息
- OPEN IE的方法:
- Learning-based System: TEXTRUNNER/WOE/OLLIE
- Rule-based System:利用语言学、统计学特征+规则 PredPatt
- Clause-based System: Stanford OpenIE
- Systems Capturing Inter-Proposition Relationships: 同时抽取三元组以及原文中三元组成立的前提