Posted 2020-07-02Updated 2026-01-13nlp2 minutes read (About 300 words)

《Neural Open Information Extraction》

Posted 2020-07-02Updated 2026-01-13nlp2 minutes read (About 368 words)

《Supervised Open Information Extraction》

目标：构建一个基于监督学习的openie
建模方式：sequence-labeling
输入：token序列+token的POS信息+基于SRL的predicate开头token的信息
输出：BIO方式标注的predicate ARG0 ARG1 ARG2标签
- ARG0表示subject ARG1表示object ARG2表示spo的附加条件（比如时间、地点、情景等）
- 这里的object定义比较灵活，可以不是一个实体
- 每个token输出一个probability，span的probability由包含的所有token的probability相乘得到。作者验证相乘的方式是最好的计算span probability的方案

Posted 2020-01-17Updated 2026-01-13nlp2 minutes read (About 358 words)

information extraction从文本中抽取出SPO三元组,传统的information extraction都是抽取事先给定的关系
Open information extraction(Open IE)的关系无需实现给定，能够自动从大量的文本中发掘出关系(关系可能是原文中的span，也可能不是)
OPEN IE的三个挑战：
- Automation：需要手动标注的数据必须限制在较小的数量级
- Corpus Heterogeneity:能在不同分布的数据集上work，不能依赖领域相关的信息，比如NER。只能用POS这些浅层tag
- Efficiency：需要在大量数据上运行，需要预测性能高，只能依赖POStag这些浅层信息
OPEN IE的方法：
- Learning-based System: TEXTRUNNER/WOE/OLLIE
- Rule-based System:利用语言学、统计学特征+规则 PredPatt
- Clause-based System: Stanford OpenIE
- Systems Capturing Inter-Proposition Relationships: 同时抽取三元组以及原文中三元组成立的前提