《上帝掷骰子么》书摘

豆瓣链接

这是一本让人相间恨晚的好书。深动形象地将量子理论的发展脉络展现出来(什么时候我能在自己的专业领域做到这样生动的讲解,那便是一大进步了)。量子理论是理论物理的最前沿,也在实践中发挥出了巨大的作用。本篇读书笔记摘抄一些原文并附上一些自己粗浅的理解(极有可能是错误的,毕竟波尔说过“谁认为自己搞懂了量子理论,谁就并不懂量子理论”)。本书值得一刷再刷!

1900年12月14日这个日子,这一天就是量子的诞辰

站在20世纪的开头,对整个20世纪的科学发展方向起到了重要的决定作用。

之诺悖论:一个人无论如何无法追上一直乌龟。

小学的时候曾经困扰过我。大学学了极限理论之后在数学上证明了只是在一个固定时间之内无法追上。量子论从显示世界无法无限分割的新角度攻破了这个悖论

Read more

局部敏感哈希(LSH)与文本去重

本文旨在搞清楚哈希函数、局部敏感哈希、MinHash、SimHash之间的关系。对利用局部敏感哈希来做最近邻查找的问题做一个梳理和总结。本文主要参考stanford公开课cs246的课件,讲得非常清晰,要系统的理解一个问题,还是得看这种课件,比网上搜索的碎片化信息有用多了。课件链接在文末的参考文档中,文中的截图均来自课件。

Read more

《Vocabulary Learning via Optimal Transport for Neural Machine Translation》

论文链接

解决的问题

在机器翻译的任务中,合理选择词表和词表的大小至关重要。论文基于Marginal Utility(边际效益)这一经济学概念,提出通过最大化的Marginal Utiltiy of Vocabularization(下文简称MUV)的方式来优化下游任务。关于优化MUV的方法,又有搜索求解和VOLT(转化为Optimal Transport问题)两种方式,后者在效果接近的前提下大大节省计算量,更加低碳

Read more

《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》

论文链接

这篇是ACL2020的最佳论文。论文指出现有的模型效果评估方案的问题,同时借鉴软件测试的方法,提出了一种全新的NLP模型测试方法(个人认为迁移到CV领域也不麻烦)CheckList。这种测试方案可以帮助人们更清晰、系统地了模型各个方面的优缺点。

Read more

《重来2》书摘

豆瓣链接

未来已经在那儿了,只不过若隐若现而已

如果你问别人,必须把工作做完会去哪儿,很少有人会说办公室

办公室有太多的干扰

工作属于创意性工作时,固定的日程表有害无利

编程在某些方面也属于创意性工作

想想看,你给仅仅隔着三张桌子的同事发邮件了多少次?

Read more

《重来》书摘

豆瓣链接

  • 当你推迟做决定,事情就会堆积起来,最后落得被遗忘的下场。只要有可能,就不要说“让我考虑一下”,而是“让我们做决定吧”
  • 项目开发时间越长,成功的可能性越小(个人认为比较合适的周期是1周-1个月)
  • 产品在精不在多(好的博物馆长会精心挑选展品而不是把所有的收藏都展示出来)
  • 音乐就在你的指尖流淌(真正重要的是你的想法、技艺,不要过重的看待工具)
  • 不要用抽象的方式来传递和沟通(抽象的事物,比如报告和文件,容易造成认知偏差)
  • 当你需要和人合作的时候,采取被动交流工具,比如电子邮件,这样可以避免打岔降低你的工作效率(异步式的沟通)
Read more

《TPLinker:Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking》

论文链接

解决的问题

给定schema的SPO抽取:从文本中抽取去SPO(Subject-Predicate-Object)三元组。其中Predicate是事先定义好的关系,Subject和Object是文中的span

TPLinker的特点

  • 能够处理SEO(SingleEntityOverlap)和EPO(EntityPairOverlap)两种情形
    • SEO:张三和李四都是北京人 -> (张三,出生地,北京),(李四,出生地,北京)
    • EPO:江苏的省会是南京 -> (江苏,包含,南京),(江苏,省会,南京)
  • Single-stage的方案,原始文本过一次Encoder之后,便可以解码得到整个spo三元组
Read more

《Neural Open Information Extraction》

论文链接

  • 目标:从输入文本中抽取schema-free的spo三元组
  • 模型:
    • encoder-decoder的seq2seq模型
    • 原文输入encoder,得到一个encoded embedding
    • 目标序列格式为subjectpredicationobject
    • 引入copy机制,从生成的token和copy的token中选择一个
    • architecture:architecture
  • 实验:
Read more

《Supervised Open Information Extraction》

论文链接

  • 目标:构建一个基于监督学习的openie
  • 建模方式:sequence-labeling
  • 输入:token序列+token的POS信息+基于SRL的predicate开头token的信息
  • 输出:BIO方式标注的predicate ARG0 ARG1 ARG2标签
    • ARG0表示subject ARG1表示object ARG2表示spo的附加条件(比如时间、地点、情景等)
    • 这里的object定义比较灵活,可以不是一个实体
    • 每个token输出一个probability,span的probability由包含的所有token的probability相乘得到。作者验证相乘的方式是最好的计算span probability的方案
Read more

《硬派健身》书摘

豆瓣链接

  • 大肌群决定了人的整体形象,锻炼的时候消耗的能量也最多,所以首先应该从大肌群锻炼开始(胸背臀腿)
  • 从大肌群减脂,才更有效果, 训练时以大肌群+核心集群(腹部、下背部)搭配为好
  • 肌肉密度要比脂肪大不少,体重.BMI不能完全体现身材
  • 静止状态下,肌肉消耗的能量远高于脂肪,促进新陈代谢
  • 体重设定理论:通过节食的方式可以快速减脂,但是身体适应之后,就会减少代谢,让你的体重很难再下降
  • 间歇性高强度有氧训练效果好于持续低强度有氧
  • 无氧训练之后,还会一直燃烧脂肪,所以应该先做无氧,再做有氧
  • 人是耐力最好的哺乳动物
  • HITT high-intensity interval training
  • HIT的一个不成文规定就是让身体尽可能多的部位活动起来
Read more