《Text Generation from Knowledge Graphs with Graph Transformers》

论文链接

  • 解决问题:给定一篇论文的title +通过知识抽取工具从论文abstract里抽取出的知识图谱,用生成式模型生成文章的abstract
  • 整体框架:用BiLSTM encode title, 用Graph Transformer encode 知识图谱。 decode过程中同时可以attention到title和图谱的encode特征,同时加上copy机制
  • 细节:graph transformer用节点相邻的节点作为该节点的context,其他和text transformer类似
  • 细节:原始图谱的边是有标签且无向的,在做graph transformer之前,将原始图的边改造成两个节点,这样得到的图的边是有向、无标签的。 同时加上一个global的节点,和所有节点都连接,让整个图联通
  • 数据集:自建数据集,包含40k论文
  • 评价指标:人工打分+BLUE+METEOR
Read more

《A Survey on Open Information Extraction》

论文链接

  • information extraction从文本中抽取出SPO三元组,传统的information extraction都是抽取事先给定的关系
  • Open information extraction(Open IE)的关系无需实现给定,能够自动从大量的文本中发掘出关系(关系可能是原文中的span,也可能不是)
  • OPEN IE的三个挑战:
    • Automation:需要手动标注的数据必须限制在较小的数量级
    • Corpus Heterogeneity:能在不同分布的数据集上work,不能依赖领域相关的信息,比如NER。只能用POS这些浅层tag
    • Efficiency:需要在大量数据上运行,需要预测性能高,只能依赖POStag这些浅层信息
  • OPEN IE的方法:
    • Learning-based System: TEXTRUNNER/WOE/OLLIE
    • Rule-based System:利用语言学、统计学特征+规则 PredPatt
    • Clause-based System: Stanford OpenIE
    • Systems Capturing Inter-Proposition Relationships: 同时抽取三元组以及原文中三元组成立的前提
Read more

《KG-BERT: BERT for Knowledge Graph Completion》

论文链接

  • 目标:做KG-completion
  • 思路:基于预训练的BERT,做SPO三元组的embedding, 不依赖原句
  • 训练
    • 将SPO三元组拼接成[CLS]S[SEP]P[SEP]O[SEP]的形式, 其中S和O用同样的segment embedding
    • S和O是entity的name或者description
    • 用二分类判断三元组是否正确, 或者用多分类,给定S\O 判断relation的类型
  • 预测
    • 给定SPO,判断是否正确
    • 给定SO,判断relation在schema中的哪一个
    • 给定 SP,判断O是哪个(将所有可能的O列举,拼接成三元组之后预测),按照得分排序取第一个
Read more

《Improving Language Understanding by Generative Pre-Training》

论文链接

  • 目标:用与训练的LM模型提升NLU任务的效果
  • 基于大量未标注语料训练的两个问题
    • 如何设置合理的训练目标?LM/NMT/discourse coherence? 这也是GPT和bert的区别之一
    • 如何将预训练的模型得到的表征应用到下游任务中去?
  • 模型结构
    • 一个没有encoder-attention的transformer decoder
    • 给定一个窗口的输入(最后n个token),预测下一个单词
    • 模型返回的是最后一个token对应的embedding,而不是真个窗口sequence的embedding
Read more

《A Survey on Deep Learning forNamed Entity Recognition》

论文链接

  • NER是信息抽取、问答系统、机器翻译的一项基础工作,DNN的应用让NER任务有了长足的进步
  • NER分为两类coarse-grained NER:比较粗粒度的划分entity,比如通用NER。 fine-grained NER:更加细分的实体类型,通常是和具体的业务相关的实体,一个mention可以属于多个实体类别
  • 数据集:见原文table1。 比较常用的有:
    • OntoNotes:18 coarse entity type consisting of 89 subtype
    • CoNLL03 4 entity types
  • 工具:见原文table2 StanfordCoreNLP/NLTK/spaCy
  • 评价指标:
    • exact-match evaluation: 用全匹配方法计算F1。会有些偏严,指标偏低
    • relaxed-match evaluation: 宽松匹配方案,不太好控制
Read more

《GPT-based Generation for Classical Chinese Poetry》

论文链接

  • 目标:根据输入的格式(对联、绝句、律诗、词牌名) + 主体(诗名、词名、藏头诗的头),生成相应格式的对联、诗、词
  • 诗歌生成的难点:
    • 生成文本需要满足相应的诗歌类型的格式(长度、对偶、押韵、平仄等)
    • 生成的文本需要主题一致,如果给定主题的话,需要和给定主题一样
  • 之前的做法:
    • 用基于constraint 或者基于template的方式满足格式
    • 用插入关键词的方式满足主题一致
    • 需要引入比较多的人工规则和特征
Read more

《DKN: Deep Knowledge-Aware Network for News Recommendation》

论文链接

  • 目标:将知识图谱应用到新闻推荐中
  • input:用户的历史点击的新闻title+候选新闻title+通用知识图谱
  • output:ranking of candidate news
  • 总体架构:
    • architecture
    • Knowledge distillation
      • 用实体链接技术,将文本中出现的实体,链接到KG中的entity
      • knowledge graph Embedding:translation-based knowledge graph embedding methods (Knowledge Graph Embedding via Dynamic Mapping Matrix)
    • KCNN(knowledge-aware CNN)
      • 用linear mapping方法,将wordEmbedding, entityEmbedding, entityContextEmbedding 映射到相同的维度,作为输入句子的三个channel
      • 用TextCNN将输入句子encode成一个vec
    • Attention-based User Interest Extraction
      • user点击过的所有text的embedding列表作为user的特征
      • 用候选text的embedding对user点击过的text的embedding列表做attention得到最后的特征向量
      • 最后接一个sigmoid,做点击率预估
Read more

《自控力》书摘

豆瓣链接

  • 自控力挑战

    • 我不要:戒掉一个坏习惯
    • 我要做:养成规律的作息
    • 我想要:成为自由职业者
  • 承认自己会失控。了解什么情况下、什么原因会失控才是关键

  • 自控力的神经学原理:前额皮质

    • 原始本能:人类进化初期积累的本能
    • 自控能力:前额皮质控制的能力:我不要、我要、我想要
    • 两者对抗,有时也合作,不一定要遏制原始本能,更好的利用原始本能有时事半功倍
    • 有意识的做决定才能用到自控力,当你想着别的事情的时候,你的决定就是本能的、最简单的那个选择
Read more

《Matching the Blanks: Distributional Similarity for Relation Learning》

论文链接

  • 目标:基于大量未标注语料,训练一个relation表征的模型

  • input:relation statement(x, s1, s2)

  • output:relation representation: 一个稠密向量,使得两个关系越接近,两个关系的表征向量点积值越大

  • bert-based architecture:architecture

  • 预训练

    • There is high degree for redundancy in web text, relation between tow entity is likely to be stated multiple times
    • 两个不同的句子中,如果包含相同的实体对,这个实体对在两句话中大概率表示相同的relation
    • 两个不同的句子中,如果包含不同实体对,这两个实体对大概率表示不同的relation
    • 例子:example
    • 结构:architecture1
Read more

《attention is all you need》

论文链接

  • 博客:https://jalammar.github.io/illustrated-transformer/。 原理和结构图在论文以及上面的博客讲的都很清楚,下面提一些我自己阅读论文和博客时遇到的一些疑问,以及后来自己理解觉得对的答案。有些依然没有找到答案。。。

  • self-attention

    • 做完key和query向量的点积之后,要除以向量维度的平方根,这样可以保持梯度比较稳定
    • 为什么一定要有一个value向量,不能直接用原始向量替代么?
      • value向量可以表示该token可以被分享到其他token的特征,和该token的embedding不一定一样。而且如果直接用原始embedding作为value的话,self-attention只是等价于之前embedding的重新打散、组合
    • 在做完multi-head之后,把多个head的embedding concat之后还要再接一个Dense层,转化成更低维度传给FFN
Read more