统计学习(1)

概率

先验概率:根据以前的经验,提前知道的事件概率;如:今天下雨的概率;
后验概率:由果及因,后知后觉,概率时间的结果推测原因起作用的概率;如,今天下雨,求有乌云的概率;
似然概率:由因及果,似然likehood自然的推测,都是知道原因,求原因造成结果发生的概率。如:今天阴天,求下雨的概率。

基本概率公式
加法规则: P ( x ) = ∑ y P ( x , y ) P(x)=\sum_{y}{P(x,y)} P(x)=yP(x,y)
乘法规则: P ( x , y ) = P ( x ) P ( y ∣ x ) P(x,y)=P(x)P(y|x) P(x,y)=P(x)P(yx)
全概率公式: P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B)=\sum_{i=1}^{n}P(A_{i})P(B|A_{i}) P(B)=i=1nP(Ai)P(BAi)

似然函数
似然函数是一种关于统计模型参数的函数。给定输出时,关于参数 θ \theta θ的似然函数 L ( θ ∣ x ) L(\theta|x) L(θx)等于给定参数 θ \theta θ后变量 x x x的概率。
离散: L ( θ ∣ x ) = P ( X = x ∣ θ ) L(\theta|x)=P(X=x|\theta) L(θx)=P(X=xθ)
连续: L ( θ ∣ x ) = f θ ( x ) = f ( x ∣ θ ) L(\theta|x)=f_{\theta}(x)=f(x|\theta) L(θx)=fθ(x)=f(xθ), f ( x ∣ θ ) f(x|\theta) f(xθ)不是条件概率密度函数。

概率描述了已知参数时的随机变量的输出结果。
似然则是用来描述已知随机变量输出结果时,未知参数的可能取值。

在统计学中,似然函数是一种关于统计模型参数的函数,表示模型参数的似然性。

贝叶斯公式
假设随机变量X表示数据,随机变量 θ \theta θ表示模型参数,计算后验概率 P ( θ , X ) P(\theta,X) P(θ,X)
P ( θ , X ) = P ( θ ) P ( X ∣ θ ) P ( X ) = P ( θ ) P ( X ∣ θ ) ∑ θ P ( X , θ ) = P ( θ ) P ( X ∣ θ ) ∑ θ P ( θ ) P ( X ∣ θ ) P(\theta,X)=\frac{P(\theta)P(X|\theta)}{P(X)}=\frac{P(\theta)P(X|\theta)}{\sum_{\theta}P(X,\theta)}=\frac{P(\theta)P(X|\theta)}{\sum_{\theta}P(\theta)P(X|\theta)} P(θ,X)=P(X)P(θ)P(Xθ)=θP(X,θ)P(θ)P(Xθ)=θP(θ)P(Xθ)P(θ)P(Xθ)

其中 P ( θ ) P(\theta) P(θ)是先验概率, P ( D ∣ θ ) P(D|\theta) P(Dθ)是似然函数。

贝叶斯统计的估计
∙ \bullet 确定 θ \theta θ的先验分布密度: P ( θ ) P(\theta) P(θ);
∙ \bullet 样本独立同分布,且已知样本密度形式 P ( x ∣ θ ) P(x|\theta) P(xθ), 样本集的联合分布 P ( x ∣ θ ) = ∑ i = 1 n P ( x i ∣ θ ) P(x|\theta)=\sum_{i=1}^{n}P(x_{i}|\theta) P(xθ)=i=1nP(xiθ)
∙ \bullet 利用贝叶斯公式求 θ \theta θ后验概率: P ( θ ∣ x ) = P ( x ∣ θ ) P ( θ ) ∫ θ θ P ( θ ∣ x ) d θ P(\theta|x)=\frac{P(x|\theta)P(\theta)}{\int_{\theta}\theta P(\theta|x)d\theta} P(θx)=θθP(θx)dθP(xθ)P(θ)
∙ \bullet 求贝叶斯的估计量 θ ∗ = ∫ θ θ P ( θ ∣ x ) d θ = ∫ θ P θ ( x ) d θ \theta^{*}=\int_{\theta}\theta P(\theta|x)d\theta=\int_{\theta}P_{\theta}(x)d\theta θ=θθP(θx)dθ=θPθ(x)dθ

模型学习

  1. 适用条件是什么?
  2. 解决什么问题?
  3. 对应的统计学习三要素?

统计学习的三要素
假设空间:包含所有可能的条件概率分布或决策函数。
策略:按照什么样的准则学习或选择最优模型。(损失函数)
求解算法:使用什么样的计算方法求解最优模型。(求解参数)

在监督学习中,概率模型是生成模型;非概率模型是判别模型。

监督学习的实现步骤

  1. 得到一个有限数据集和;
  2. 确定模型的的假设空间,即所有的备选模型;
  3. 确定模型选择的准则,即学习策略;
  4. 实现求解最优化模型的算法;
  5. 通过学习方法选择最优模型;
  6. 利用学习的最优模型对新数据进行预测或分析。

统计学习(1)_第1张图片训练集: T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , … , ( x n , y n ) } T=\{(x_1,y_1), (x_2,y_2),\ldots,(x_n,y_n)\} T={(x1,y1),(x2,y2),,(xn,yn)}
实例 x x x的特征向量: x = ( x ( 1 ) , x ( 2 ) , … , x ( n ) ) T x=(x^{(1)},x^{(2)},\ldots,x^{(n)})^T x=(x(1),x(2),,x(n))T
模型:
7. 决策函数: Y = f ( x ) Y=f(x) Y=f(x)
预测形式: y = f ( x ) y=f(x) y=f(x)
8. 条件概率分布: P ( Y ∣ X ) P(Y|X) P(YX)
预测形式: a r g m a x ( P ( y ∣ x ) ) argmax(P(y|x)) argmax(P(yx))

你可能感兴趣的:(统计学习)