Posted 2019-10-31Updated 2022-01-05nlp4 minutes read (About 609 words)

《GPT-based Generation for Classical Chinese Poetry》

目标：根据输入的格式（对联、绝句、律诗、词牌名） + 主体（诗名、词名、藏头诗的头），生成相应格式的对联、诗、词
诗歌生成的难点：
- 生成文本需要满足相应的诗歌类型的格式（长度、对偶、押韵、平仄等）
- 生成的文本需要主题一致，如果给定主题的话，需要和给定主题一样
之前的做法：
- 用基于constraint 或者基于template的方式满足格式
- 用插入关键词的方式满足主题一致
- 需要引入比较多的人工规则和特征

Posted 2019-10-30Updated 2022-01-05nlp2 minutes read (About 353 words)

《DKN: Deep Knowledge-Aware Network for News Recommendation》

目标：将知识图谱应用到新闻推荐中
input：用户的历史点击的新闻title+候选新闻title+通用知识图谱
output：ranking of candidate news
总体架构：
- Knowledge distillation
  - 用实体链接技术，将文本中出现的实体，链接到KG中的entity
  - knowledge graph Embedding：translation-based knowledge graph embedding methods （Knowledge Graph Embedding via Dynamic Mapping Matrix）
- KCNN（knowledge-aware CNN）
  - 用linear mapping方法，将wordEmbedding, entityEmbedding, entityContextEmbedding 映射到相同的维度，作为输入句子的三个channel
  - 用TextCNN将输入句子encode成一个vec
- Attention-based User Interest Extraction
  - user点击过的所有text的embedding列表作为user的特征
  - 用候选text的embedding对user点击过的text的embedding列表做attention得到最后的特征向量
  - 最后接一个sigmoid，做点击率预估

Posted 2019-08-02Updated 2022-01-05nlp3 minutes read (About 474 words)

《Matching the Blanks: Distributional Similarity for Relation Learning》

目标：基于大量未标注语料，训练一个relation表征的模型
input：relation statement(x, s1, s2)
output：relation representation: 一个稠密向量，使得两个关系越接近，两个关系的表征向量点积值越大
bert-based architecture:
预训练
- There is high degree for redundancy in web text, relation between tow entity is likely to be stated multiple times
- 两个不同的句子中，如果包含相同的实体对，这个实体对在两句话中大概率表示相同的relation
- 两个不同的句子中，如果包含不同实体对，这两个实体对大概率表示不同的relation
- 例子:
- 结构:

Posted 2019-05-20Updated 2021-12-20nlp5 minutes read (About 730 words)

《attention is all you need》

博客：https://jalammar.github.io/illustrated-transformer/。原理和结构图在论文以及上面的博客讲的都很清楚，下面提一些我自己阅读论文和博客时遇到的一些疑问，以及后来自己理解觉得对的答案。有些依然没有找到答案。。。
self-attention
- 做完key和query向量的点积之后，要除以向量维度的平方根，这样可以保持梯度比较稳定
- 为什么一定要有一个value向量，不能直接用原始向量替代么？
  - value向量可以表示该token可以被分享到其他token的特征，和该token的embedding不一定一样。而且如果直接用原始embedding作为value的话，self-attention只是等价于之前embedding的重新打散、组合
- 在做完multi-head之后，把多个head的embedding concat之后还要再接一个Dense层，转化成更低维度传给FFN