终于看到了概率和数理统计了,期间看了机器学习算法感觉比以前明朗了很多,很多公式概念也有了一些新的认识,继续看数学吧,看完数学就再继续整python。
1 概率
记作P(E),比如掷骰子,每一面的概率就是P(E) = 1/6
1.1 古典概率
通常又叫事前概率,是指当随机事件中各种可能发生的结果及其出现的次数都可以由演绎或外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率
1.2 条件概率
- 附加在一定条件下的概率。
- 考虑掷骰子的三个事件,A:掷出素数点,B:掷出奇数点,C:掷出偶数点。则
A=2,3,5,B=1,3,5,C=2,4,6
P(A)=1/3,P(B)=1/3,P(C)=1/3
若已知B发生,则A发生的概率P(A|B)=2/3
若已知C发生,则A发生的概率P(A|C)=1/3
- 从而可以得知:
设两事件A,B,且 P(B)≠0 ,则在给定B发生的条件下,A的条件概率:
P(A|B)=P(AB)/P(B)
1.3 独立事件
两事件独立,则P(AB)=P(A)P(B)
1.4 全概率公式
- 设 B1,B2,.... 为有限或无限个事件,它们两两互斥且在每次试验中至少发生一个,即:
- 不重, Bi∩Bj=∅ (不可能事件) i≠j ,
- 不漏, B1∪B2∪....=Ω (必然事件)
则全概率为:
P(A)=∑i=1nP(Bi)P(A|Bi)
2 贝叶斯公式
2.1 公式
与全概率公式解决的问题相反,贝叶斯公式是建立在条件概率的基础上寻找事件发生的原因.
P(BiA)=P(Bi)P(A|Bi)∑nj=1P(Bj)P(A|Bj)
Bi 常被视为导致试验结果A发生的“原因”,
P(Bi)(i=1,2,...) 表示各种原因发生的可能性大小,故称先验概率(权重),
P(Bi|A)(i=1,2...) 则反映当试验产生了结果A之后,再对各种原因概率的新认识,故称后验概率。
2.2 实例
最经典的一个例子就是疾病检测,假设某种病菌在人口中的带菌率为0.03。当检查时,由于技术及操作之不完善以及种种特殊原因,使带菌者未必检出阳性反应而不带菌者也可能呈现阳性反应,假设:
P(阳性|带菌) = 0.99, P(阴性|带菌) = 0.01
P(阳性|不带菌) = 0.05, P(阴性|不带菌) = 0.95
先设某人检测出阳性,问“他带菌”的概率是多少?
因为 P(B1)=0.03,P(B2)=0.97,且P(A|B1)=0.99,P(A|B2)=0.05 ,故:
P(B1A)=P(B1)P(A|B1)P(B1)P(A|B1)+P(B2)P(A|B2)=0.03∗0.990.03∗0.99+0.97∗0.05=0.38
3 常见离散连续分布
常见离散和连续分布如下表:
3.1 概率函数
设X为离散型随机变量,其全部可能值为 {a1,a2,⋯}
pi=P(X=ai),i=1,2,3,⋯
3.2 分布函数
设X为一随机变量,则函数:
P(X⩽x)=F(x),−∞<x<+∞
3.3 概率密度函数
- 设连续性随机变量X有概率分布函数F(X),则F(X)的导数f(x) = F’(X)
- F(a⩽X⩽b)=F(b)−F(a)=∫ba(x)dx
4 联合分布函数
4.1 定义
联合分布函数(joint distribution function)亦称多维分布函数
设 (X,Y) 是二维随机变量, 对于任意实数x, y二元函数:
F(x,y)=P{(X≤x)∩(Y≤y)}=P{X⩽x,Y≤y}
则称二维随机变量
(X,Y) 的分布函数,或称为随机变量X和Y的联合分布函数
4.2 几何意义
将二维随机变量 (X,Y) 看成是平面上随机点的坐标,分布函数 F(x,y) 在 (x,y)处的函数值就是随机点 (X,Y)落在如图以 (x,y) 为顶点而位于该点左下方的无穷矩形区域内的概率。
随机点 (X,Y) 落在矩形区域 {(x,y)|x1⩽x⩽x2,y1⩽y⩽y2} 的概率为 : P{x1⩽x⩽x2,y1⩽y⩽y2}=F(x2,y2)−F(x1,y2)−F(x2,y1)+F(x1,y1)
相当于一个大的无穷矩形减去两个小的无穷矩形,但是多减了一个重合的面积,将它加回来。
5 数学期望
5.1 定义
设随机变量X只取有限个可能值 a1,a2,⋯,am ,其概率分布为 P(X=ai)=pi,i=1,2,⋯,m ,则X的数学期望为:
E(X)=a1pi+a2p2+⋯+ampm
当X为离散型变量,并且个数为无穷个的时候也写成:
E(X)=∑i=1∞aipi
6 方差和标准差
6.1 方差
每个样本值与全体样本值的平均数之差的平方值的平均数
方差是衡量源数据和期望值相差的度量值
D(X)=E(X−EX)2
6.2 标准差
标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组数据,标准差未必相同。
用 σ 表示
7 协方差
协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
期望值分别为E[X]与E[Y]的两个实随机变量X与Y之间的协方差Cov(X,Y)定义为:
Cov(X,Y)=E[(X−E[X])(Y−E[Y])]=E[XY]−2E[Y]E[X]+E[X]E[Y]=E[XY]−E[X]E[Y]
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值;如果两个变量的变化趋势相反,即其中一个变量大于自身的期望值时另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
8 大数定理和中心极限定理
8.1 大数定律
8.2 中心极限定律
设随机变量 X1,X2,⋯,Xn,⋯ 独立同分布,并且具有有限的数学期望和方差: E(Xi)=μ,D(Xi)=σ2(k=1,2,⋯) ,则对任意x,分布函数:
limn→∞P(∑ni=1Xi−nμn√σ⩽x)=12π−−√∫x−∞e−t22dt=Φ(x)
只要n足够大,便可以把独立同分布的随机变量之和当作正态变量
9 极大似然估计(MLE)
- 似然函数:
- 离散: L(θ)=L(x1,x2,⋯,xn;θ)=∐ni=1p(xi;θ)
- 连续: L(θ)=L(x1,x2,⋯,xn;θ)=∐ni=1f(xi;θ)
- 设总体的分布类型已知,但含有未知参数 θ ,又设 (x1,x2,⋯,xn) 为总体X的一个样本,若似然函数 L(θ) 在 θ^=θ^(x1,x2,⋯,xn) 处取得最大值,则称 θ^=θ^(x1,x2,⋯,xn) 为 θ 的极大似然估计值。
- 若 L(θ) 关于 θ 可导,则 θ^ 可从方程: ddθL(θ)=0 解得。
- 为了求解方便,会求 lnL(θ) ,故求方程 ddθlnL(θ)=0 的解。
由上可知最大似然估计的一般求解过程:
(1) 写出似然函数;
(2) 对似然函数取对数,并整理;
(3) 求导数 ;
(4) 解似然方程
10 贝叶斯估计
- 贝叶斯估计,是在给定训练数据 D 时,确定假设空间 H 中的最佳假设。 最佳假设:一种方法是把它定义为在给定数据 D 以及 H 中不同假设的先验概率的有关知识下的最可能假设。贝叶斯理论提供了一种计算假设概率的方法,基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身。
- 先验概率和后验概率用 P(h) 表示在没有训练数据前假设h拥有的初始概率。 P(h )被称为 h 的先验概率。先验概率反映了关于 h 是一正确假设的机会的背景知识如果没有这一先验知识,可以简单地将每一候选假设赋予相同的先验概率。类似地, P(D) 表示训练数据 D 的先验概率, P(D|h) 表示假设 h 成立时 D 的概率。机器学习中,我们关心的是 P(h|D) ,即给定 D 时 h 的成立的概率,称为 h 的后验概率。
- 贝叶斯公式提供了从先验概率 P(h )、 P(D) 和 P(D|h) 计算后验概率 P(h|D) 的方法 p(h|D)=P(D|H)∗P(H)/P(D) , P(h|D) 随着 P(h) 和 P(D|h) 的增长而增长,随着 P(D) 的增长而减少,即如果 D 独立于 h 时被观察到的可能性越大,那么 D 对 h 的支持度越小。
11 最大后验概率(MAP)
概率统计基本上也学到这里了,还有很多没有整明白,感觉是时候开始搞python了,要不然会越来越无趣了。简单的基础学好了,可以结合下机器学习实战这本书,来一些例子学起来了。