《Improving Language Understanding by Generative Pre-Training》

论文链接

  • 目标:用与训练的LM模型提升NLU任务的效果
  • 基于大量未标注语料训练的两个问题
    • 如何设置合理的训练目标?LM/NMT/discourse coherence? 这也是GPT和bert的区别之一
    • 如何将预训练的模型得到的表征应用到下游任务中去?
  • 模型结构
    • 一个没有encoder-attention的transformer decoder
    • 给定一个窗口的输入(最后n个token),预测下一个单词
    • 模型返回的是最后一个token对应的embedding,而不是真个窗口sequence的embedding
Read more

《attention is all you need》

论文链接

  • 博客:https://jalammar.github.io/illustrated-transformer/。 原理和结构图在论文以及上面的博客讲的都很清楚,下面提一些我自己阅读论文和博客时遇到的一些疑问,以及后来自己理解觉得对的答案。有些依然没有找到答案。。。

  • self-attention

    • 做完key和query向量的点积之后,要除以向量维度的平方根,这样可以保持梯度比较稳定
    • 为什么一定要有一个value向量,不能直接用原始向量替代么?
      • value向量可以表示该token可以被分享到其他token的特征,和该token的embedding不一定一样。而且如果直接用原始embedding作为value的话,self-attention只是等价于之前embedding的重新打散、组合
    • 在做完multi-head之后,把多个head的embedding concat之后还要再接一个Dense层,转化成更低维度传给FFN
Read more

《国史大纲·下》书摘

豆瓣链接

国史大纲这本书2012年就买了,2016年才读完。还是囫囵吞枣的读完了一遍,实在惭愧惭愧。
自己从小喜欢历史,但那时候无非是对一些王侯将相的故事感兴趣。喜欢一些战争、权谋、兴替的情节。至于政治体制、文化风情、民族兴衰,对于年幼的我还太深奥,也不那么有趣。小时候读的是《中国通史》一套书,总共六本,从先秦到明清,类似连环画的形式,很过瘾。而《国史大纲》这本书,显然又是更高一层面的通史书了。
开始读的时候,有些吃力,竖版排版的繁体字,对于一个长久生活在大陆的人,还是有点陌生。书中有很多字体很小的考据,有些过于翔实,读起来容易让人忘记了主题。后来我就挑选字体较大的正文阅读,小字体的捡感兴趣的扫一扫,这才赶上了进度,吞完了这本书。
好书一定是要读第二遍的,或许一年后,或许十年后。总之,等自己阅历增长了,一定能读出另一番味道的。
这本书到了下册的南北文化之转移一章,我才开始了系统的读书笔记,记录一些自己觉得精辟的评论,一些总结。就暂且从这里开始记书摘吧。

Read more