Posted 2021-09-29Updated 2022-01-05nlp5 minutes read (About 704 words)

《Vocabulary Learning via Optimal Transport for Neural Machine Translation》

解决的问题

在机器翻译的任务中，合理选择词表和词表的大小至关重要。论文基于Marginal Utility（边际效益）这一经济学概念，提出通过最大化的Marginal Utiltiy of Vocabularization（下文简称MUV）的方式来优化下游任务。关于优化MUV的方法，又有搜索求解和VOLT（转化为Optimal Transport问题）两种方式，后者在效果接近的前提下大大节省计算量，更加低碳

Posted 2021-04-15Updated 2022-01-05nlp12 minutes read (About 1808 words)

《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》

论文链接

这篇是ACL2020的最佳论文。论文指出现有的模型效果评估方案的问题，同时借鉴软件测试的方法，提出了一种全新的NLP模型测试方法（个人认为迁移到CV领域也不麻烦）CheckList。这种测试方案可以帮助人们更清晰、系统地了模型各个方面的优缺点。

Posted 2020-07-12Updated 2022-01-05nlp5 minutes read (About 812 words)

《TPLinker:Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking》

论文链接

解决的问题

给定schema的SPO抽取：从文本中抽取去SPO(Subject-Predicate-Object)三元组。其中Predicate是事先定义好的关系，Subject和Object是文中的span

TPLinker的特点

能够处理SEO(SingleEntityOverlap)和EPO(EntityPairOverlap)两种情形
- SEO：张三和李四都是北京人 -> (张三,出生地,北京),(李四,出生地,北京)
- EPO：江苏的省会是南京 -> (江苏,包含,南京),(江苏,省会,南京)
Single-stage的方案，原始文本过一次Encoder之后，便可以解码得到整个spo三元组

Posted 2020-07-02Updated 2022-01-05nlp2 minutes read (About 300 words)

《Neural Open Information Extraction》

论文链接

目标：从输入文本中抽取schema-free的spo三元组
模型：
- encoder-decoder的seq2seq模型
- 原文输入encoder，得到一个encoded embedding
- 目标序列格式为subjectpredicationobject
- 引入copy机制，从生成的token和copy的token中选择一个
- architecture:
实验：
- 数据
  - 训练数据从wikipedia的dump构建，36,247,584 pairs,地址：https://1drv.ms/u/s!ApPZx_TWwibImHl49ZBwxOU0ktHv
  - 测试数据：3200 sentence with 10369 extractions https://www.aclweb.org/anthology/D16-1252.pdf
  - 比较对象：OpenIE4(一个基于规则的提取器)
  - 结果：更高的AUC

Posted 2020-07-02Updated 2021-12-20nlp2 minutes read (About 368 words)

《Supervised Open Information Extraction》

论文链接

目标：构建一个基于监督学习的openie
建模方式：sequence-labeling
输入：token序列+token的POS信息+基于SRL的predicate开头token的信息
输出：BIO方式标注的predicate ARG0 ARG1 ARG2标签
- ARG0表示subject ARG1表示object ARG2表示spo的附加条件（比如时间、地点、情景等）
- 这里的object定义比较灵活，可以不是一个实体
- 每个token输出一个probability，span的probability由包含的所有token的probability相乘得到。作者验证相乘的方式是最好的计算span probability的方案

Posted 2020-03-10Updated 2021-12-20nlp2 minutes read (About 318 words)

《Text Generation from Knowledge Graphs with Graph Transformers》

论文链接

解决问题：给定一篇论文的title +通过知识抽取工具从论文abstract里抽取出的知识图谱，用生成式模型生成文章的abstract
整体框架：用BiLSTM encode title, 用Graph Transformer encode 知识图谱。 decode过程中同时可以attention到title和图谱的encode特征，同时加上copy机制
细节：graph transformer用节点相邻的节点作为该节点的context，其他和text transformer类似
细节：原始图谱的边是有标签且无向的，在做graph transformer之前，将原始图的边改造成两个节点，这样得到的图的边是有向、无标签的。同时加上一个global的节点，和所有节点都连接，让整个图联通
数据集：自建数据集，包含40k论文
评价指标：人工打分+BLUE+METEOR

Posted 2020-01-17Updated 2021-12-20nlp2 minutes read (About 358 words)

《A Survey on Open Information Extraction》

论文链接

information extraction从文本中抽取出SPO三元组,传统的information extraction都是抽取事先给定的关系
Open information extraction(Open IE)的关系无需实现给定，能够自动从大量的文本中发掘出关系(关系可能是原文中的span，也可能不是)
OPEN IE的三个挑战：
- Automation：需要手动标注的数据必须限制在较小的数量级
- Corpus Heterogeneity:能在不同分布的数据集上work，不能依赖领域相关的信息，比如NER。只能用POS这些浅层tag
- Efficiency：需要在大量数据上运行，需要预测性能高，只能依赖POStag这些浅层信息
OPEN IE的方法：
- Learning-based System: TEXTRUNNER/WOE/OLLIE
- Rule-based System:利用语言学、统计学特征+规则 PredPatt
- Clause-based System: Stanford OpenIE
- Systems Capturing Inter-Proposition Relationships: 同时抽取三元组以及原文中三元组成立的前提

Posted 2019-11-19Updated 2021-12-20nlp2 minutes read (About 272 words)

《KG-BERT: BERT for Knowledge Graph Completion》

论文链接

目标：做KG-completion
思路：基于预训练的BERT，做SPO三元组的embedding，不依赖原句
训练
- 将SPO三元组拼接成[CLS]S[SEP]P[SEP]O[SEP]的形式，其中S和O用同样的segment embedding
- S和O是entity的name或者description
- 用二分类判断三元组是否正确，或者用多分类，给定S\O 判断relation的类型
预测
- 给定SPO，判断是否正确
- 给定SO，判断relation在schema中的哪一个
- 给定 SP，判断O是哪个（将所有可能的O列举，拼接成三元组之后预测），按照得分排序取第一个

Posted 2019-11-07Updated 2021-12-20nlp4 minutes read (About 545 words)

《Improving Language Understanding by Generative Pre-Training》

论文链接

目标：用与训练的LM模型提升NLU任务的效果
基于大量未标注语料训练的两个问题
- 如何设置合理的训练目标？LM/NMT/discourse coherence? 这也是GPT和bert的区别之一
- 如何将预训练的模型得到的表征应用到下游任务中去？
模型结构
- 一个没有encoder-attention的transformer decoder
- 给定一个窗口的输入(最后n个token)，预测下一个单词
- 模型返回的是最后一个token对应的embedding，而不是真个窗口sequence的embedding

Posted 2019-11-07Updated 2021-12-20nlp4 minutes read (About 608 words)

《A Survey on Deep Learning forNamed Entity Recognition》

论文链接

NER是信息抽取、问答系统、机器翻译的一项基础工作，DNN的应用让NER任务有了长足的进步
NER分为两类coarse-grained NER:比较粗粒度的划分entity，比如通用NER。 fine-grained NER：更加细分的实体类型，通常是和具体的业务相关的实体，一个mention可以属于多个实体类别
数据集：见原文table1。比较常用的有：
- OntoNotes：18 coarse entity type consisting of 89 subtype
- CoNLL03 4 entity types
工具：见原文table2 StanfordCoreNLP/NLTK/spaCy
评价指标：
- exact-match evaluation：用全匹配方法计算F1。会有些偏严，指标偏低
- relaxed-match evaluation: 宽松匹配方案，不太好控制

《Vocabulary Learning via Optimal Transport for Neural Machine Translation》

解决的问题

《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》

《TPLinker:Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking》

解决的问题

TPLinker的特点

《Neural Open Information Extraction》

《Supervised Open Information Extraction》

《Text Generation from Knowledge Graphs with Graph Transformers》

《A Survey on Open Information Extraction》

《KG-BERT: BERT for Knowledge Graph Completion》

《Improving Language Understanding by Generative Pre-Training》

《A Survey on Deep Learning forNamed Entity Recognition》

Links

Categories

Recents

Archives

Tags