1、概率模型与非概率模型。
概率模型:为条件分布p(y|x),是生成模型
非概率模型:z=g(x),是判别模型
这二者区别不在于映射形式,本质区别是概率模型一定可以表示为联合概率分布的形式,但非概率模型不一定存在这样的联合概率分布。
2、统计学习方法三要素
方法=模型+策略+算法
模型:模型的假设空间包含所有可能的条件概率分布或决策函数。
策略:统计学中的策略一般指损失函数或是代价函数;常用的有1)0-1损失。2)平方损失。3)绝对损失。4)对数损失。
机器学的目标及是极小化损失函数的数学期望:
R e x p _{exp} exp(f)= E p [ L ( Y , f ( x ) ) ] E_p[L(Y,f(x))] Ep[L(Y,f(x))]
= ∫ \displaystyle \int ∫ L(y,f(x))P(x,y) dxdy
经验风险最小化:极小化损失函数平均值;
结构风险最小化:在经验风险最小化的基础上加上正则项
泛化误差上街 :对于二分类问题,当假设空间是有限个函数的集合{f1,f2,f3…fn}时,对任一一个函数f,至少以概率1- δ \delta δ, 0 < δ < 1 0<\delta<1 0<δ<1,不等式
R ( f ) R(f) R(f)<= R ^ ( f ) \hat{R}(f) R^(f)+ ϵ ( d , N , δ ) \epsilon(d,N,\delta) ϵ(d,N,δ) 成立;
其中 ϵ ( d , N , δ ) \epsilon(d,N,\delta) ϵ(d,N,δ)= 1 2 N ( l o g ( d ) + l o g ( 1 δ ) ) \sqrt{\frac{1}{2N}(log(d) + log(\frac{1}{\delta}))} 2N1(log(d)+log(δ1))
生成模型:模型给定了输入X产生输出Y的生成关系,如朴素贝叶斯,隐马尔科夫模型等。
判别模型:由数据直接学习决策的函数F(x)作为决策模型;关心的是对给定的X,应该预测什么样的输出Y。如:k近邻,感知机,决策树,逻辑回归,等
第一章习题
1.1说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。
伯努利模型是定义在0-1取值的随机变量上的概率分布。假设观测到伯努利模型n次独立的数据生成结果,其中k次的结果为1,这时可以用极大似然估计或者贝叶斯估计来估计结果为1的概率。
解:1)三要素:极大似然估计和贝叶斯估计的模型都是伯努利模型;极大似然估计用的是经验风险最小化的策略,贝叶斯估计用的是结构风险最小化的策略;极大似然估计一般是对似然函数进行求导得到参数严格的解析解,贝叶斯估计无法通过传统的微积分等手段得到严格的解析解,而是通过数值计算得出一个近似的数值解.
极大似然法: L ( θ ) = ∏ i = 1 n P ( A i ) = θ k ( 1 − θ ) n − k L(\theta)=\prod_{i=1}^{n}P(A_i)=\theta^k(1-\theta)^{n-k} L(θ)=∏i=1nP(Ai)=θk(1−θ)n−k
取对数,得:
l n ( L ( θ ) ) = l n ( θ k ) + l n ( ( 1 − θ ) n − k ) ln(L(\theta))=ln(\theta^k)+ln((1-\theta)^{n-k}) ln(L(θ))=ln(θk)+ln((1−θ)n−k)
求导化简得令对数似然函数=0有:
k − n θ θ ( 1 − θ ) = 0 \frac{k-n\theta}{\theta(1-\theta)}=0 θ(1−θ)k−nθ=0
又n,k为常数,则立得 θ = k n \theta=\frac{k}{n} θ=nk
贝叶斯法: P ( θ ∣ A 1 , A 2 , . . . , A n ) = P ( A 1 , A 2 , . . . A n ∣ θ ) π ( θ ) P ( A 1 , A 2 , . . . , A n ) P(\theta|A_1,A_2,...,A_n)=\frac{P(A_1,A_2,...A_n|\theta)\pi(\theta)}{P(A_1,A_2,...,A_n)} P(θ∣A1,A2,...,An)=P(A1,A2,...,An)P(A1,A2,...An∣θ)π(θ)
对于伯努利分布而言,它的共轭先验分布是贝塔分布,所谓先验分布则是我们根据经验做出的一个假设,贝塔分布的参数不同,我们最终得出的贝叶斯估计的结果就会不同,对于此题,我们并不知道业务场景,所谓遇事不决0.5,所以个人认为将贝塔分布的均值定为0.5,对应的 α , β \alpha,\beta α,β均为1.
θ = a r g max θ P ( A 1 , A 2 , . . . A n ∣ θ ) P ( θ ) = a r g max θ ∏ i = 1 n P ( A i ∣ θ ) P ( θ ) = a r g max θ θ k ( 1 − θ ) n − k θ a − 1 ( 1 − θ ) b − 1 = k + ( a − 1 ) n + ( a − 1 ) + ( b − 1 ) \theta=arg\max \limits_\theta {P(A_1,A_2,...A_n|\theta)P(\theta)} \\ = arg\max \limits_\theta {\prod_{i=1}^{n}P(A_i|\theta)P(\theta)} \\ =arg \max \limits_\theta {\theta^k(1-\theta)^{n-k}\theta^{a-1}(1-\theta)^{b-1}}\\=\frac{k+(a-1)}{n+(a-1)+(b-1)} θ=argθmaxP(A1,A2,...An∣θ)P(θ)=argθmax∏i=1nP(Ai∣θ)P(θ)=argθmaxθk(1−θ)n−kθa−1(1−θ)b−1=n+(a−1)+(b−1)k+(a−1)
此时 θ = k n \theta=\frac{k}{n} θ=nk。
1.2 通过经验风险最小化推到极大似然估计。证明模型是条件概率分布,当随时函数是对数损失函数时,经验风险最小化等价于极大似然估计。
证明:
已知 f ( x ) = P ( Y ∣ X ) f(x)=P(Y|X) f(x)=P(Y∣X),
损失函数: L ( Y , P ( Y ∣ X ) ) = − l o g P ( Y ∣ X ) L(Y,P(Y|X))=-logP(Y|X) L(Y,P(Y∣X))=−logP(Y∣X)
则有优化目标:
经验风险最小化
可得推导式:
R e m p ( f ) = 1 N ∑ i = 1 N L ( y i , f ( x i ) ) = 1 N ∑ i = 1 N − l o g P ( y i ∣ x i ) = − 1 N ∑ i = 1 N l o g P ( y i ∣ x i ) R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i)) \\ =\frac{1}{N}\sum_{i=1}^{N}-logP(y_i|x_i) \\ =-\frac{1}{N}\sum_{i=1}^{N}logP(y_i|x_i) Remp(f)=N1∑i=1NL(yi,f(xi))=N1∑i=1N−logP(yi∣xi)=−N1∑i=1NlogP(yi∣xi)
显然有:min( R e m p ( f ) R_{emp}(f) Remp(f))等价于max( − R e m p ( f ) -R_{emp}(f) −Remp(f))
原命题转化为极大化 1 N ∑ i = 1 N l o g P ( y i ∣ x i ) \frac{1}{N}\sum_{i=1}^{N}logP(y_i|x_i) N1∑i=1NlogP(yi∣xi)
看到这里相信已经非常明显了上式取个指数立得:
∏ i = 1 N P ( y i ∣ x i ) \prod_{i=1}^{N}P(y_i|x_i) ∏i=1NP(yi∣xi)
对此式求极大,及为极大似然法的参数估计。
证毕。
参考资料:
极大似然估计与贝叶斯估计