机器学习_统计模型之（一）贝叶斯公式

1. 贝叶斯法则

先举个例子：比如事件X是努力，事件Y是成功，能成功的基本都努力了（条件Ｙ成立时，Ｘ必然成立）；但是努力不一定都能成功（条件X成立时，Y不是一定成立）。也就是说，X与Y之间的关系不对等，但X和Y又确实有关系。贝叶斯法则就是用来描述这种关系的。
所有要是有人说“成功源于努力，所以努力必能成功”，那是心灵鸡汤。正确的说法是努力能把成功的可能性提高一点。

2. 贝叶斯公式

事件Ｘ发生的概率，称为边缘概率，记作P(X) 。
事件Y在事件X已经发生条件下的发生概率，称为条件概率，记为P(Y|X) 。
事件X,Y共同发生的概率称为联合概率，记为P(XY) 或者P(X,Y)。

有公式：
P(XY) = P(Y)P(X|Y)=P(X)P(Y|X)
P(Y|X)=P(XY)/P(X)=P(Y) P(X|Y)/P(X)

还用上面的例子，稍作调整：假设有50%的人努力了，即P(X)=50%；有20%的人成功了P(Y)=20%；且知道成功的人75%都努力了P(X|Y)=75%；求如果努力有多大成功率？

努力且成功的人：P(X,Y)=P(X|Y)P(Y)=75%*20%=15%
努力的人有多大成功率：P(Y|X)=P(X,Y)/P(X)=15%/50%=30%

完整的贝叶斯公式:

完整公式中，分母是所有努力者，即“努力&成功”和“努力&不成功”之和，上例中直接给出这两部分之和：有50%的人努力了。

有时候我们需要自己计算分母，比如将题目改为：有20%的人成功了P(Y1)=20%，成功的人有75%是努力的P(X1|Y1)=75%，不成功的人有43.75%是努力的P(X1|Y0)=43.75%，如上图所示。这里用Y1表示成功Y0表示不成功，X1表示努力X0示不努力。
此时，代入完整公式得到：

3. 相关概念

(1) 先验/后验

先验概率+样本信息=>后验概率
先验概率是在进行一系列具体的观测和实验之前就知道的量P(Y)，一般来源于经验和历史资料。而后验概率一般认为是在给定样本的情况下的条件分布P(Y|X)。先验与样本的结合也是：规则和实践的结合。
将学习视为一个减少不确定性的过程，即用X带来的信息不断修改Y判断标准的过程，每一次训练之后，后验变为下一次的先验，不断重复。

(2) 判别模型与生成模型

判别式模型是直接计算条件概率P(Y|X)建模，简单的说就是用正例反例直接做除法算出概率，常见的有线性回归，SVM等。
生成式模型是通过联合概率P(X,Y)，和贝叶斯公式求出P(Y|X)，其中包括推理的过程，常见的有朴素贝叶斯，HMM等。

(3) 拉普拉斯平滑（修正）

拉普拉斯平滑（Laplace Smoothing）又被称为加 1 平滑，它主要解决的是在概率相乘的过程中，如果有一个值为0，会导致结果为0的问题。
具体的方法是：分子加1，分母加K，K代表类别数目。
比如：p(X1| C1)是指的在垃圾邮件C1这个类别中，单词X1出现的概率。
p(X1|C1)= n1 / n，n1为X1出现的次数，n为总单词数。当X1不出现时P(X1|C1)=0，修正后p(X1|C1)=(n1+1)/(n+N)，其中N是词库中所有单词的数目。

(4) 似然函数

概率描述了已知参数时的随机变量的输出结果；似然则用来描述已知随机变量输出结果时，未知参数的可能取值。
假设条件是X，结果是Y，条件能推出结果X->Y，但结果推不出条件，现在手里有一些对结果Y的观测值，想求X，那么我们举出X的所有可能性，再使用X->Y的公式求Y，看哪个X计算出的Y和当前观测最契合，就选哪个X。这就是求取最大似然的原理。
计算似然函数时，常使用似然函数的对数形式，即“对数似然函数”。它简化了操作（取对数后乘法变为加法），同时也避免了连乘之后值太小的问题。

4. 总结

统计模型的优势在于，用概率代替硬规则，如果两种可能性：0.51:0.49和0.99:0.01，如果用于预测，都会选前面的那种可能性，但是概率能展示出更多的信息。