《Improving Language Understanding by Generative Pre-Training》
- 目标:用与训练的LM模型提升NLU任务的效果
- 基于大量未标注语料训练的两个问题
- 如何设置合理的训练目标?LM/NMT/discourse coherence? 这也是GPT和bert的区别之一
- 如何将预训练的模型得到的表征应用到下游任务中去?
- 模型结构
- 一个没有encoder-attention的transformer decoder
- 给定一个窗口的输入(最后n个token),预测下一个单词
- 模型返回的是最后一个token对应的embedding,而不是真个窗口sequence的embedding