《Improving Language Understanding by Generative Pre-Training》

论文链接

  • 目标:用与训练的LM模型提升NLU任务的效果
  • 基于大量未标注语料训练的两个问题
    • 如何设置合理的训练目标?LM/NMT/discourse coherence? 这也是GPT和bert的区别之一
    • 如何将预训练的模型得到的表征应用到下游任务中去?
  • 模型结构
    • 一个没有encoder-attention的transformer decoder
    • 给定一个窗口的输入(最后n个token),预测下一个单词
    • 模型返回的是最后一个token对应的embedding,而不是真个窗口sequence的embedding
Read more

《GPT-based Generation for Classical Chinese Poetry》

论文链接

  • 目标:根据输入的格式(对联、绝句、律诗、词牌名) + 主体(诗名、词名、藏头诗的头),生成相应格式的对联、诗、词
  • 诗歌生成的难点:
    • 生成文本需要满足相应的诗歌类型的格式(长度、对偶、押韵、平仄等)
    • 生成的文本需要主题一致,如果给定主题的话,需要和给定主题一样
  • 之前的做法:
    • 用基于constraint 或者基于template的方式满足格式
    • 用插入关键词的方式满足主题一致
    • 需要引入比较多的人工规则和特征
Read more