《暗时间》书摘

豆瓣链接

  • 贝叶斯

    • 先验概率(模型的本身可能的概率, 奥卡姆剃刀)
    • 后验概率(模型生成样本的概率,最大化后验概率就是极大似然估计)
    • 模型泛化(过拟合、欠拟合也就是在先验概率、后验概率平衡)
    • 没有先验概率的时候,假设虽有模型概率一致,这就用到最大似然估计
    • 贝叶斯+奥卡姆剃刀(不考虑先验概率) 听起来还是个极大似然估计(后验概率)的问题
    • 信息论+贝叶斯: 一个模型的好坏取决于模型的编码长度lg(先验概率)+这个模型下数据的编码长度lg(后验概率)
    • 强化学习是一种复杂模型(模型编码长度长)? 还是一个简单模型,用多个步骤来求解呢?
  • 康德尔对角线

    • 引申出不完备定理、图灵停机问题、Y算子、罗素悖论、说谎砍头悖论
    • 一个理论内的形式符号,总有那么一个正确但是不能在这个理论范围内验证的理论
    • 打破了希尔伯特的形式数学大厦
    • 哥德巴赫猜想可能就是这么一个数论理论下的不可验证理论
  • 最大熵

    • 每次获取最大的信息量的原理
    • 二分查找、快拍, 找12个球里面的较轻/较重的一个
    • 每次比较、判断的时候尽可能排除掉最多的选项(信息最大)
    • 这样的算法最差情况(下界最佳),是否全局期望时间也最短(是的, 期望计算公式,平均运行时间说明这一点)
  • 一点注记:有人可能会疑惑,难道我们人类也是基于这些天真的假设来进行推理的?不是的。 事实上,统计机器学习方法所统计的东西往往处于相当表层(shallow)的层面,在这个层 面机器学习只能看到一些非常表面的现象,有一点科学研究的理念的人都知道:越是往表层 去,世界就越是繁复多变。从机器学习的角度来说,特征(feature)就越多,成百上千维度 都是可能的。特征一多,好了,高维诅咒就产生了,数据就稀疏得要命,不够用了。而我们人类的观察水平显然比机器学习的观察水平要更深入一些,为了避免数据稀疏我们不断地发明各种装置(最典型就是显微镜),来帮助我们直接深入到更深层的事物层面去观察更本质的联系,而不是在浅层对表面现象作统计归纳。举一个简单的例子,通过对大规模语料库的统计,机器学习可能会发现这样一个规律:所有的“他”都是不会穿 bra 的,所有的“她” 则都是穿的。然而,作为一个男人,却完全无需进行任何统计学习,因为深层的规律就决定了我们根本不会去穿 bra 。至于机器学习能不能完成后者(像人类那样的)这个推理,则 是人工智能领域的经典问题。至少在那之前,声称统计学习方法能够终结科学研究(原文) 的说法是纯粹外行人说的话。

Author

jerrychen

Posted on

2019-01-28

Updated on

2021-12-16

Licensed under

Comments