大脑是我们最重要的工具,要正确利用这个工具,唯一的途径就是去了解它,尤其是了解它的弱点。
我们的思维有着各种各样的弱点和陷阱。
人的思维充满着各种各样的捷径,每一条捷径都是一把双刃剑,一方面降低了大脑的认知复杂性,有助于迅速做出绝大部分时候都正确的判断,但
另一方面,它也常常导致人们把大部分情况下都成立的法则当成了放之四海而皆准的。
暗时间
善于利用思维时间的人可以无形中比别人多出很多时间,能够在重要的事情上时时主动提醒自己,将临时的记忆变成硬编码的行为习惯。
实际投入时间是时间和效率的乘积。
充分利用暗时间来进行思考,反刍和消化平时看和读的东西,让你的知识能够脱离照本宣科的层面,这些时间看起来微不足道,但日积月累会产生巨大的效应。
大脑在开始一件任务时需要一定时间来热身,创造大块时间来阅读重要的东西有利于沉浸进去,使得新知识可以和大脑中与其相关的各种既有知识充分融合,关联起来。
能够迅速进入专注状态以及能够长久的保持专注状态,是高效学习的两个最重要的习惯
抗干扰能力,利用各种碎片时间阅读和思考。
平凡而又神奇的贝叶斯方法
贝叶斯是机器学习的核心方法之一。
现实世界本身就是不确定的,人类的观察能力是有局限性的
猜测就是:1.算出各种不同猜测的可能性大小;2.算出最靠谱的猜测是啥。
奥卡姆剃刀精神:如果两个理论具有相似的解释力度,那么优先选择更简单的那个(往往也是更常见的,也就是先验概率大的)
模型比较就是比较哪个模型(猜测)更可能隐藏在观察数据的背后
奥卡姆剃刀是P(h)较大的模型有优势,而最大似然是最符合观测数据的(P(D|h)最大的)最有优势
贝叶斯奥卡姆剃刀:这个剃刀工作在贝叶斯公式的似然(P(D|h))上,而不是模型本身P(h)的先验概率上,后者是传统的奥卡姆剃刀。
贝叶斯模型比较理论与信息论:模型的编码长度。
推理就是:1.对观测数据建立一个模型。2.使用这个模型来推测未知现象发生的概率。
无处不在的贝叶斯
- 中文分词
令X为句子,Y为词串(一种特定的分词假设),我们就是要寻找使得P(Y|X)最大的Y:P(Y|X) \( \propto \) P(Y) x P(X|Y).
我们可以将P(X|Y)近似看作为1,所以就变成最大化P(Y),依据有限地平线假设建立2-gram模型:P(W1,W2,W3,….)=P(W1)xP(W2|W1)xP(W3|W2)x..
- 统计机器翻译
给定一个句子e,它的可能外文翻译f中哪个是最靠谱的:P(f|e) \( \propto \) P(f) x P(e|f)
结合N-Gram语言模型,我们可以统计任意一个外文句子f出现的概率,但P(e|f)却不那么好求,这就需要用到一个分词对齐的平行语料库。
贝叶斯图像识别
EM算法与模型的聚类
假设数据点是分别围绕K个核心的K个正态分布源随机生成的。EM就是”Expectation-Maximazation”,我们先随便猜一下这两个正态分布A,B的参数:核心,方差,均值等,然后计算每个数据点属于A和B的概率,取最大的概率作为数据点的归属,这是E,然后根据这些归属再重新评估之前猜的A,B的参数,这是M。如此往复直到参数不再发生变化。
- 最大似然与最小二乘
用贝叶斯方法来解释最小二乘法
最后更新于2018/3/5