Posted 2019-11-07Updated 2021-12-20nlp4 minutes read (About 545 words)

《Improving Language Understanding by Generative Pre-Training》

论文链接

目标：用与训练的LM模型提升NLU任务的效果
基于大量未标注语料训练的两个问题
- 如何设置合理的训练目标？LM/NMT/discourse coherence? 这也是GPT和bert的区别之一
- 如何将预训练的模型得到的表征应用到下游任务中去？
模型结构
- 一个没有encoder-attention的transformer decoder
- 给定一个窗口的输入(最后n个token)，预测下一个单词
- 模型返回的是最后一个token对应的embedding，而不是真个窗口sequence的embedding

Posted 2019-05-20Updated 2021-12-20nlp5 minutes read (About 730 words)

《attention is all you need》

论文链接

博客：https://jalammar.github.io/illustrated-transformer/。原理和结构图在论文以及上面的博客讲的都很清楚，下面提一些我自己阅读论文和博客时遇到的一些疑问，以及后来自己理解觉得对的答案。有些依然没有找到答案。。。
self-attention
- 做完key和query向量的点积之后，要除以向量维度的平方根，这样可以保持梯度比较稳定
- 为什么一定要有一个value向量，不能直接用原始向量替代么？
  - value向量可以表示该token可以被分享到其他token的特征，和该token的embedding不一定一样。而且如果直接用原始embedding作为value的话，self-attention只是等价于之前embedding的重新打散、组合
- 在做完multi-head之后，把多个head的embedding concat之后还要再接一个Dense层，转化成更低维度传给FFN

Posted 2017-01-07Updated 2021-12-16历史13 minutes read (About 2013 words)

《国史大纲·下》书摘

豆瓣链接

国史大纲这本书2012年就买了，2016年才读完。还是囫囵吞枣的读完了一遍，实在惭愧惭愧。
自己从小喜欢历史，但那时候无非是对一些王侯将相的故事感兴趣。喜欢一些战争、权谋、兴替的情节。至于政治体制、文化风情、民族兴衰，对于年幼的我还太深奥，也不那么有趣。小时候读的是《中国通史》一套书，总共六本，从先秦到明清，类似连环画的形式，很过瘾。而《国史大纲》这本书，显然又是更高一层面的通史书了。
开始读的时候，有些吃力，竖版排版的繁体字，对于一个长久生活在大陆的人，还是有点陌生。书中有很多字体很小的考据，有些过于翔实，读起来容易让人忘记了主题。后来我就挑选字体较大的正文阅读，小字体的捡感兴趣的扫一扫，这才赶上了进度，吞完了这本书。
好书一定是要读第二遍的，或许一年后，或许十年后。总之，等自己阅历增长了，一定能读出另一番味道的。
这本书到了下册的南北文化之转移一章，我才开始了系统的读书笔记，记录一些自己觉得精辟的评论，一些总结。就暂且从这里开始记书摘吧。

《Improving Language Understanding by Generative Pre-Training》

《attention is all you need》

《国史大纲·下》书摘

Links

Categories

Recents

Archives

Tags