Posted 2020-03-10Updated 2021-12-20nlp2 minutes read (About 318 words)

《Text Generation from Knowledge Graphs with Graph Transformers》

解决问题：给定一篇论文的title +通过知识抽取工具从论文abstract里抽取出的知识图谱，用生成式模型生成文章的abstract
整体框架：用BiLSTM encode title, 用Graph Transformer encode 知识图谱。 decode过程中同时可以attention到title和图谱的encode特征，同时加上copy机制
细节：graph transformer用节点相邻的节点作为该节点的context，其他和text transformer类似
细节：原始图谱的边是有标签且无向的，在做graph transformer之前，将原始图的边改造成两个节点，这样得到的图的边是有向、无标签的。同时加上一个global的节点，和所有节点都连接，让整个图联通
数据集：自建数据集，包含40k论文
评价指标：人工打分+BLUE+METEOR

Posted 2020-01-17Updated 2021-12-20nlp2 minutes read (About 358 words)

《A Survey on Open Information Extraction》

information extraction从文本中抽取出SPO三元组,传统的information extraction都是抽取事先给定的关系
Open information extraction(Open IE)的关系无需实现给定，能够自动从大量的文本中发掘出关系(关系可能是原文中的span，也可能不是)
OPEN IE的三个挑战：
- Automation：需要手动标注的数据必须限制在较小的数量级
- Corpus Heterogeneity:能在不同分布的数据集上work，不能依赖领域相关的信息，比如NER。只能用POS这些浅层tag
- Efficiency：需要在大量数据上运行，需要预测性能高，只能依赖POStag这些浅层信息
OPEN IE的方法：
- Learning-based System: TEXTRUNNER/WOE/OLLIE
- Rule-based System:利用语言学、统计学特征+规则 PredPatt
- Clause-based System: Stanford OpenIE
- Systems Capturing Inter-Proposition Relationships: 同时抽取三元组以及原文中三元组成立的前提

Posted 2019-11-19Updated 2021-12-20nlp2 minutes read (About 272 words)

《KG-BERT: BERT for Knowledge Graph Completion》

目标：做KG-completion
思路：基于预训练的BERT，做SPO三元组的embedding，不依赖原句
训练
- 将SPO三元组拼接成[CLS]S[SEP]P[SEP]O[SEP]的形式，其中S和O用同样的segment embedding
- S和O是entity的name或者description
- 用二分类判断三元组是否正确，或者用多分类，给定S\O 判断relation的类型
预测
- 给定SPO，判断是否正确
- 给定SO，判断relation在schema中的哪一个
- 给定 SP，判断O是哪个（将所有可能的O列举，拼接成三元组之后预测），按照得分排序取第一个

Posted 2019-11-07Updated 2021-12-20nlp4 minutes read (About 545 words)

《Improving Language Understanding by Generative Pre-Training》

目标：用与训练的LM模型提升NLU任务的效果
基于大量未标注语料训练的两个问题
- 如何设置合理的训练目标？LM/NMT/discourse coherence? 这也是GPT和bert的区别之一
- 如何将预训练的模型得到的表征应用到下游任务中去？
模型结构
- 一个没有encoder-attention的transformer decoder
- 给定一个窗口的输入(最后n个token)，预测下一个单词
- 模型返回的是最后一个token对应的embedding，而不是真个窗口sequence的embedding

Posted 2019-11-07Updated 2021-12-20nlp4 minutes read (About 608 words)

《A Survey on Deep Learning forNamed Entity Recognition》

NER是信息抽取、问答系统、机器翻译的一项基础工作，DNN的应用让NER任务有了长足的进步
NER分为两类coarse-grained NER:比较粗粒度的划分entity，比如通用NER。 fine-grained NER：更加细分的实体类型，通常是和具体的业务相关的实体，一个mention可以属于多个实体类别
数据集：见原文table1。比较常用的有：
- OntoNotes：18 coarse entity type consisting of 89 subtype
- CoNLL03 4 entity types
工具：见原文table2 StanfordCoreNLP/NLTK/spaCy
评价指标：
- exact-match evaluation：用全匹配方法计算F1。会有些偏严，指标偏低
- relaxed-match evaluation: 宽松匹配方案，不太好控制

Posted 2019-10-31Updated 2022-01-05nlp4 minutes read (About 609 words)

《GPT-based Generation for Classical Chinese Poetry》

目标：根据输入的格式（对联、绝句、律诗、词牌名） + 主体（诗名、词名、藏头诗的头），生成相应格式的对联、诗、词
诗歌生成的难点：
- 生成文本需要满足相应的诗歌类型的格式（长度、对偶、押韵、平仄等）
- 生成的文本需要主题一致，如果给定主题的话，需要和给定主题一样
之前的做法：
- 用基于constraint 或者基于template的方式满足格式
- 用插入关键词的方式满足主题一致
- 需要引入比较多的人工规则和特征

Posted 2019-10-30Updated 2022-01-05nlp2 minutes read (About 353 words)

《DKN: Deep Knowledge-Aware Network for News Recommendation》

目标：将知识图谱应用到新闻推荐中
input：用户的历史点击的新闻title+候选新闻title+通用知识图谱
output：ranking of candidate news
总体架构：
- Knowledge distillation
  - 用实体链接技术，将文本中出现的实体，链接到KG中的entity
  - knowledge graph Embedding：translation-based knowledge graph embedding methods （Knowledge Graph Embedding via Dynamic Mapping Matrix）
- KCNN（knowledge-aware CNN）
  - 用linear mapping方法，将wordEmbedding, entityEmbedding, entityContextEmbedding 映射到相同的维度，作为输入句子的三个channel
  - 用TextCNN将输入句子encode成一个vec
- Attention-based User Interest Extraction
  - user点击过的所有text的embedding列表作为user的特征
  - 用候选text的embedding对user点击过的text的embedding列表做attention得到最后的特征向量
  - 最后接一个sigmoid，做点击率预估

Posted 2019-09-16Updated 2021-12-16认知22 minutes read (About 3369 words)

《自控力》书摘

自控力挑战
- 我不要：戒掉一个坏习惯
- 我要做：养成规律的作息
- 我想要：成为自由职业者
承认自己会失控。了解什么情况下、什么原因会失控才是关键
自控力的神经学原理：前额皮质
- 原始本能：人类进化初期积累的本能
- 自控能力：前额皮质控制的能力：我不要、我要、我想要
- 两者对抗，有时也合作，不一定要遏制原始本能，更好的利用原始本能有时事半功倍
- 有意识的做决定才能用到自控力，当你想着别的事情的时候，你的决定就是本能的、最简单的那个选择

Posted 2019-08-02Updated 2022-01-05nlp3 minutes read (About 474 words)

《Matching the Blanks: Distributional Similarity for Relation Learning》

目标：基于大量未标注语料，训练一个relation表征的模型
input：relation statement(x, s1, s2)
output：relation representation: 一个稠密向量，使得两个关系越接近，两个关系的表征向量点积值越大
bert-based architecture:
预训练
- There is high degree for redundancy in web text, relation between tow entity is likely to be stated multiple times
- 两个不同的句子中，如果包含相同的实体对，这个实体对在两句话中大概率表示相同的relation
- 两个不同的句子中，如果包含不同实体对，这两个实体对大概率表示不同的relation
- 例子:
- 结构:

Posted 2019-05-20Updated 2021-12-20nlp5 minutes read (About 730 words)

《attention is all you need》

博客：https://jalammar.github.io/illustrated-transformer/。原理和结构图在论文以及上面的博客讲的都很清楚，下面提一些我自己阅读论文和博客时遇到的一些疑问，以及后来自己理解觉得对的答案。有些依然没有找到答案。。。
self-attention
- 做完key和query向量的点积之后，要除以向量维度的平方根，这样可以保持梯度比较稳定
- 为什么一定要有一个value向量，不能直接用原始向量替代么？
  - value向量可以表示该token可以被分享到其他token的特征，和该token的embedding不一定一样。而且如果直接用原始embedding作为value的话，self-attention只是等价于之前embedding的重新打散、组合
- 在做完multi-head之后，把多个head的embedding concat之后还要再接一个Dense层，转化成更低维度传给FFN