先验概率:根据以前的经验,提前知道的事件概率;如:今天下雨的概率;
后验概率:由果及因,后知后觉,概率时间的结果推测原因起作用的概率;如,今天下雨,求有乌云的概率;
似然概率:由因及果,似然likehood自然的推测,都是知道原因,求原因造成结果发生的概率。如:今天阴天,求下雨的概率。
基本概率公式
加法规则: P ( x ) = ∑ y P ( x , y ) P(x)=\sum_{y}{P(x,y)} P(x)=∑yP(x,y)
乘法规则: P ( x , y ) = P ( x ) P ( y ∣ x ) P(x,y)=P(x)P(y|x) P(x,y)=P(x)P(y∣x)
全概率公式: P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i}) P(B)=∑i=1nP(Ai)P(B∣Ai)
似然函数
似然函数是一种关于统计模型参数的函数。给定输出时,关于参数 θ \theta θ的似然函数 L ( θ ∣ x ) L(\theta|x) L(θ∣x)等于给定参数 θ \theta θ后变量 x x x的概率。
离散: L ( θ ∣ x ) = P ( X = x ∣ θ ) L(\theta|x)=P(X=x|\theta) L(θ∣x)=P(X=x∣θ)
连续: L ( θ ∣ x ) = f θ ( x ) = f ( x ∣ θ ) L(\theta|x)=f_{\theta}(x)=f(x|\theta) L(θ∣x)=fθ(x)=f(x∣θ), f ( x ∣ θ ) f(x|\theta) f(x∣θ)不是条件概率密度函数。
概率描述了已知参数时的随机变量的输出结果。
似然则是用来描述已知随机变量输出结果时,未知参数的可能取值。
在统计学中,似然函数是一种关于统计模型参数的函数,表示模型参数的似然性。
贝叶斯公式
假设随机变量X表示数据,随机变量 θ \theta θ表示模型参数,计算后验概率 P ( θ , X ) P(\theta,X) P(θ,X):
P ( θ , X ) = P ( θ ) P ( X ∣ θ ) P ( X ) = P ( θ ) P ( X ∣ θ ) ∑ θ P ( X , θ ) = P ( θ ) P ( X ∣ θ ) ∑ θ P ( θ ) P ( X ∣ θ ) P(\theta,X)=\frac{P(\theta)P(X|\theta)}{P(X)}=\frac{P(\theta)P(X|\theta)}{\sum_{\theta}P(X,\theta)}=\frac{P(\theta)P(X|\theta)}{\sum_{\theta}P(\theta)P(X|\theta)} P(θ,X)=P(X)P(θ)P(X∣θ)=∑θP(X,θ)P(θ)P(X∣θ)=∑θP(θ)P(X∣θ)P(θ)P(X∣θ)
其中 P ( θ ) P(\theta) P(θ)是先验概率, P ( D ∣ θ ) P(D|\theta) P(D∣θ)是似然函数。
贝叶斯统计的估计
∙ \bullet ∙ 确定 θ \theta θ的先验分布密度: P ( θ ) P(\theta) P(θ);
∙ \bullet ∙ 样本独立同分布,且已知样本密度形式 P ( x ∣ θ ) P(x|\theta) P(x∣θ), 样本集的联合分布 P ( x ∣ θ ) = ∑ i = 1 n P ( x i ∣ θ ) P(x|\theta)=\sum_{i=1}^{n}P(x_{i}|\theta) P(x∣θ)=∑i=1nP(xi∣θ)
∙ \bullet ∙ 利用贝叶斯公式求 θ \theta θ后验概率: P ( θ ∣ x ) = P ( x ∣ θ ) P ( θ ) ∫ θ θ P ( θ ∣ x ) d θ P(\theta|x)=\frac{P(x|\theta)P(\theta)}{\int_{\theta}\theta P(\theta|x)d\theta} P(θ∣x)=∫θθP(θ∣x)dθP(x∣θ)P(θ)
∙ \bullet ∙ 求贝叶斯的估计量 θ ∗ = ∫ θ θ P ( θ ∣ x ) d θ = ∫ θ P θ ( x ) d θ \theta^{*}=\int_{\theta}\theta P(\theta|x)d\theta=\int_{\theta}P_{\theta}(x)d\theta θ∗=∫θθP(θ∣x)dθ=∫θPθ(x)dθ
统计学习的三要素:
假设空间:包含所有可能的条件概率分布或决策函数。
策略:按照什么样的准则学习或选择最优模型。(损失函数)
求解算法:使用什么样的计算方法求解最优模型。(求解参数)
在监督学习中,概率模型是生成模型;非概率模型是判别模型。
训练集: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) } T=\{(x_1,y_1), (x_2,y_2),\ldots,(x_n,y_n)\} T={(x1,y1),(x2,y2),…,(xn,yn)}
实例 x x x的特征向量: x = ( x ( 1 ) , x ( 2 ) , … , x ( n ) ) T x=(x^{(1)},x^{(2)},\ldots,x^{(n)})^T x=(x(1),x(2),…,x(n))T
模型:
7. 决策函数: Y = f ( x ) Y=f(x) Y=f(x)
预测形式: y = f ( x ) y=f(x) y=f(x)
8. 条件概率分布: P ( Y ∣ X ) P(Y|X) P(Y∣X)
预测形式: a r g m a x ( P ( y ∣ x ) ) argmax(P(y|x)) argmax(P(y∣x))