《GPT-based Generation for Classical Chinese Poetry》

论文链接

  • 目标:根据输入的格式(对联、绝句、律诗、词牌名) + 主体(诗名、词名、藏头诗的头),生成相应格式的对联、诗、词
  • 诗歌生成的难点:
    • 生成文本需要满足相应的诗歌类型的格式(长度、对偶、押韵、平仄等)
    • 生成的文本需要主题一致,如果给定主题的话,需要和给定主题一样
  • 之前的做法:
    • 用基于constraint 或者基于template的方式满足格式
    • 用插入关键词的方式满足主题一致
    • 需要引入比较多的人工规则和特征
Read more

《DKN: Deep Knowledge-Aware Network for News Recommendation》

论文链接

  • 目标:将知识图谱应用到新闻推荐中
  • input:用户的历史点击的新闻title+候选新闻title+通用知识图谱
  • output:ranking of candidate news
  • 总体架构:
    • architecture
    • Knowledge distillation
      • 用实体链接技术,将文本中出现的实体,链接到KG中的entity
      • knowledge graph Embedding:translation-based knowledge graph embedding methods (Knowledge Graph Embedding via Dynamic Mapping Matrix)
    • KCNN(knowledge-aware CNN)
      • 用linear mapping方法,将wordEmbedding, entityEmbedding, entityContextEmbedding 映射到相同的维度,作为输入句子的三个channel
      • 用TextCNN将输入句子encode成一个vec
    • Attention-based User Interest Extraction
      • user点击过的所有text的embedding列表作为user的特征
      • 用候选text的embedding对user点击过的text的embedding列表做attention得到最后的特征向量
      • 最后接一个sigmoid,做点击率预估
Read more

《Matching the Blanks: Distributional Similarity for Relation Learning》

论文链接

  • 目标:基于大量未标注语料,训练一个relation表征的模型

  • input:relation statement(x, s1, s2)

  • output:relation representation: 一个稠密向量,使得两个关系越接近,两个关系的表征向量点积值越大

  • bert-based architecture:architecture

  • 预训练

    • There is high degree for redundancy in web text, relation between tow entity is likely to be stated multiple times
    • 两个不同的句子中,如果包含相同的实体对,这个实体对在两句话中大概率表示相同的relation
    • 两个不同的句子中,如果包含不同实体对,这两个实体对大概率表示不同的relation
    • 例子:example
    • 结构:architecture1
Read more

《attention is all you need》

论文链接

  • 博客:https://jalammar.github.io/illustrated-transformer/。 原理和结构图在论文以及上面的博客讲的都很清楚,下面提一些我自己阅读论文和博客时遇到的一些疑问,以及后来自己理解觉得对的答案。有些依然没有找到答案。。。

  • self-attention

    • 做完key和query向量的点积之后,要除以向量维度的平方根,这样可以保持梯度比较稳定
    • 为什么一定要有一个value向量,不能直接用原始向量替代么?
      • value向量可以表示该token可以被分享到其他token的特征,和该token的embedding不一定一样。而且如果直接用原始embedding作为value的话,self-attention只是等价于之前embedding的重新打散、组合
    • 在做完multi-head之后,把多个head的embedding concat之后还要再接一个Dense层,转化成更低维度传给FFN
Read more