《Vocabulary Learning via Optimal Transport for Neural Machine Translation》

论文链接

解决的问题

在机器翻译的任务中,合理选择词表和词表的大小至关重要。论文基于Marginal Utility(边际效益)这一经济学概念,提出通过最大化的Marginal Utiltiy of Vocabularization(下文简称MUV)的方式来优化下游任务。关于优化MUV的方法,又有搜索求解和VOLT(转化为Optimal Transport问题)两种方式,后者在效果接近的前提下大大节省计算量,更加低碳

Read more

《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》

论文链接

这篇是ACL2020的最佳论文。论文指出现有的模型效果评估方案的问题,同时借鉴软件测试的方法,提出了一种全新的NLP模型测试方法(个人认为迁移到CV领域也不麻烦)CheckList。这种测试方案可以帮助人们更清晰、系统地了模型各个方面的优缺点。

Read more

《TPLinker:Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking》

论文链接

解决的问题

给定schema的SPO抽取:从文本中抽取去SPO(Subject-Predicate-Object)三元组。其中Predicate是事先定义好的关系,Subject和Object是文中的span

TPLinker的特点

  • 能够处理SEO(SingleEntityOverlap)和EPO(EntityPairOverlap)两种情形
    • SEO:张三和李四都是北京人 -> (张三,出生地,北京),(李四,出生地,北京)
    • EPO:江苏的省会是南京 -> (江苏,包含,南京),(江苏,省会,南京)
  • Single-stage的方案,原始文本过一次Encoder之后,便可以解码得到整个spo三元组
Read more

《Neural Open Information Extraction》

论文链接

  • 目标:从输入文本中抽取schema-free的spo三元组
  • 模型:
    • encoder-decoder的seq2seq模型
    • 原文输入encoder,得到一个encoded embedding
    • 目标序列格式为subjectpredicationobject
    • 引入copy机制,从生成的token和copy的token中选择一个
    • architecture:architecture
  • 实验:
Read more

《Supervised Open Information Extraction》

论文链接

  • 目标:构建一个基于监督学习的openie
  • 建模方式:sequence-labeling
  • 输入:token序列+token的POS信息+基于SRL的predicate开头token的信息
  • 输出:BIO方式标注的predicate ARG0 ARG1 ARG2标签
    • ARG0表示subject ARG1表示object ARG2表示spo的附加条件(比如时间、地点、情景等)
    • 这里的object定义比较灵活,可以不是一个实体
    • 每个token输出一个probability,span的probability由包含的所有token的probability相乘得到。作者验证相乘的方式是最好的计算span probability的方案
Read more

《Text Generation from Knowledge Graphs with Graph Transformers》

论文链接

  • 解决问题:给定一篇论文的title +通过知识抽取工具从论文abstract里抽取出的知识图谱,用生成式模型生成文章的abstract
  • 整体框架:用BiLSTM encode title, 用Graph Transformer encode 知识图谱。 decode过程中同时可以attention到title和图谱的encode特征,同时加上copy机制
  • 细节:graph transformer用节点相邻的节点作为该节点的context,其他和text transformer类似
  • 细节:原始图谱的边是有标签且无向的,在做graph transformer之前,将原始图的边改造成两个节点,这样得到的图的边是有向、无标签的。 同时加上一个global的节点,和所有节点都连接,让整个图联通
  • 数据集:自建数据集,包含40k论文
  • 评价指标:人工打分+BLUE+METEOR
Read more

《A Survey on Open Information Extraction》

论文链接

  • information extraction从文本中抽取出SPO三元组,传统的information extraction都是抽取事先给定的关系
  • Open information extraction(Open IE)的关系无需实现给定,能够自动从大量的文本中发掘出关系(关系可能是原文中的span,也可能不是)
  • OPEN IE的三个挑战:
    • Automation:需要手动标注的数据必须限制在较小的数量级
    • Corpus Heterogeneity:能在不同分布的数据集上work,不能依赖领域相关的信息,比如NER。只能用POS这些浅层tag
    • Efficiency:需要在大量数据上运行,需要预测性能高,只能依赖POStag这些浅层信息
  • OPEN IE的方法:
    • Learning-based System: TEXTRUNNER/WOE/OLLIE
    • Rule-based System:利用语言学、统计学特征+规则 PredPatt
    • Clause-based System: Stanford OpenIE
    • Systems Capturing Inter-Proposition Relationships: 同时抽取三元组以及原文中三元组成立的前提
Read more

《KG-BERT: BERT for Knowledge Graph Completion》

论文链接

  • 目标:做KG-completion
  • 思路:基于预训练的BERT,做SPO三元组的embedding, 不依赖原句
  • 训练
    • 将SPO三元组拼接成[CLS]S[SEP]P[SEP]O[SEP]的形式, 其中S和O用同样的segment embedding
    • S和O是entity的name或者description
    • 用二分类判断三元组是否正确, 或者用多分类,给定S\O 判断relation的类型
  • 预测
    • 给定SPO,判断是否正确
    • 给定SO,判断relation在schema中的哪一个
    • 给定 SP,判断O是哪个(将所有可能的O列举,拼接成三元组之后预测),按照得分排序取第一个
Read more

《Improving Language Understanding by Generative Pre-Training》

论文链接

  • 目标:用与训练的LM模型提升NLU任务的效果
  • 基于大量未标注语料训练的两个问题
    • 如何设置合理的训练目标?LM/NMT/discourse coherence? 这也是GPT和bert的区别之一
    • 如何将预训练的模型得到的表征应用到下游任务中去?
  • 模型结构
    • 一个没有encoder-attention的transformer decoder
    • 给定一个窗口的输入(最后n个token),预测下一个单词
    • 模型返回的是最后一个token对应的embedding,而不是真个窗口sequence的embedding
Read more

《A Survey on Deep Learning forNamed Entity Recognition》

论文链接

  • NER是信息抽取、问答系统、机器翻译的一项基础工作,DNN的应用让NER任务有了长足的进步
  • NER分为两类coarse-grained NER:比较粗粒度的划分entity,比如通用NER。 fine-grained NER:更加细分的实体类型,通常是和具体的业务相关的实体,一个mention可以属于多个实体类别
  • 数据集:见原文table1。 比较常用的有:
    • OntoNotes:18 coarse entity type consisting of 89 subtype
    • CoNLL03 4 entity types
  • 工具:见原文table2 StanfordCoreNLP/NLTK/spaCy
  • 评价指标:
    • exact-match evaluation: 用全匹配方法计算F1。会有些偏严,指标偏低
    • relaxed-match evaluation: 宽松匹配方案,不太好控制
Read more