目标：用与训练的LM模型提升NLU任务的效果
基于大量未标注语料训练的两个问题
- 如何设置合理的训练目标？LM/NMT/discourse coherence? 这也是GPT和bert的区别之一
- 如何将预训练的模型得到的表征应用到下游任务中去？
模型结构
- 一个没有encoder-attention的transformer decoder
- 给定一个窗口的输入(最后n个token)，预测下一个单词
- 模型返回的是最后一个token对应的embedding，而不是真个窗口sequence的embedding

Posted 2019-10-31Updated 2022-01-05nlp4 minutes read (About 609 words)

《GPT-based Generation for Classical Chinese Poetry》

《Improving Language Understanding by Generative Pre-Training》