任务名称:贝叶斯估计,估计、偏差和方差,逻辑回归
任务简介:学习花书5.5-5.7.1章,观看讲解视频(1.估计、偏差和方差 2.贝叶斯估计 3.逻辑回归)
任务详解:
贝叶斯公式,另外一种参数估计方法贝叶斯估计,以及应用
逻辑回归做二分类
打卡要求:(不少于20字,不少于2张图片)
a. 掌握贝叶斯公式,理解贝叶斯估计,完成浙大概率论p19例7(需打卡提交截图)
b. 说出贝叶斯估计与极大似然估计的最本质的不同点,以及各自的优缺点(需提交文字)
c. 独立手推逻辑回归(需提交截图)
题目:对以往数据分析结果表明,当机器调整良好时,产品的合格率为98%,而当机器发生故障时,其合格率为55%。每天早上机器开动时,机器调整良好的概率为95%。试求已知某日早上第一件产品是合格品时,机器调整良好的概率是多少?
设“产品合格”为事件A,“机器调整良好”为事件B,因此所求事件的概率为:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ∣ B ) P ( B ) + P ( A ∣ B ˉ ) P ( B ˉ ) = 0.98 × 0.95 0.98 × 0.95 + 0.55 × 0.05 = 0.97216 P(B\mid A) = \dfrac{P(A\mid B)P(B)}{P(A\mid B)P(B) + P(A \mid \bar{B}) P(\bar{B})} = \dfrac{0.98\times 0.95}{0.98\times 0.95 + 0.55\times 0.05} = 0.97216 P(B∣A)=P(A∣B)P(B)+P(A∣Bˉ)P(Bˉ)P(A∣B)P(B)=0.98×0.95+0.55×0.050.98×0.95=0.97216
这里的概率 P ( B ) P(B) P(B)是根据以往的数据分析得到的,因此叫做先验概率,而在得到信息(第一件产品是合格品)之后再重新加以修正的概率 P ( B ∣ A ) P(B\mid A) P(B∣A)就叫后验概率。
【从本质上说,贝叶斯公式就是由果推因,from result to reason 】
贝叶斯估计和极大似然估计是统计中两种对模型的参数确定的方法,前者来自贝叶斯学派,后者来自概率主义学派。
概率注意学派认为参数虽然未知,但是确实客观存在的固定值,可以通过优化似然函数等准则来确定参数值,也就是使似然函数最大的参数 θ \theta θ就是最好的 θ \theta θ。 因此先把各个样本的概率综合再求导。
数学表达为:
argmax θ P ( X ∣ θ ) \underset{\theta}{\operatorname{argmax}} P(X \mid \theta) θargmaxP(X∣θ)
因此任务就是利用训练集 D D D估计参数 θ \theta θ,直接建模。这也就是判别式模型。
贝叶斯学派认为参数是未观察到的随机变量,其本身也有分布,因此可假定参数服从一个先验分布 P ( θ ) P(\theta) P(θ),然后基于观测到的数据来计算参数的后验分布。因此认为使 P ( X ∣ θ ) P ( θ ) P(\boldsymbol{X} \mid \theta) P(\theta) P(X∣θ)P(θ)取最大值的 θ \theta θ就是最好的 θ \theta θ。
数学表达为:
argmax θ P ( θ ∣ X ) = argmax θ P ( X ∣ θ ) P ( θ ) \underset{\theta}{\operatorname{argmax}} P(\theta \mid X) = \underset{\theta}{\operatorname{argmax}} P(X \mid \theta) P(\theta) θargmaxP(θ∣X)=θargmaxP(X∣θ)P(θ)
这样得到的就是生成式模型。
贝叶斯估计的缺点:类条件概率 P ( X ∣ θ ) P(X\mid \theta) P(X∣θ)是所有属性上的联合概率,难以从有限的训练集中直接估计而得。假设样本的d个属性都是二值的,则样本空间将有 2 d 2^d 2d种可能的取值,在现实应用中,这个值往往远大于训练样本数。
极大似然估计的缺点:估计结果的准确性严重依赖于所假设的概率分布形势是否符合潜在的真是数据分布。在实际应用中,欲做出能较好的接近潜在真实分布的假设,往往需要在一定程度上利用关于应用任务本身的经验知识。
指数族分布是一类分布的总称,该类分布的分布律(概率密度函数)的一般形式如下:
p ( y ; η ) = b ( y ) exp ( η T T ( y ) − a ( η ) ) = b ( y ) exp [ η ( θ ) ⋅ T ( y ) − A ( θ ) ] = b ( y ) exp ( η ( θ ) ⋅ T ( y ) − A ( θ ) ) = b ( y ) exp ( η ( θ ) ⋅ T ( y ) − A ( θ ) ) p(y;\eta) = b(y)\exp(\eta^{T}T(y)-a(\eta)) \\ = b(y) \exp [\eta(\theta) \cdot T(y)-A(\theta)]\\ = b(y) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(y)-A(\boldsymbol{\theta}))\\ = b(\mathbf{y}) \exp (\boldsymbol{\eta}(\boldsymbol{\theta}) \cdot \mathbf{T}(\mathbf{y})-A(\boldsymbol{\theta})) p(y;η)=b(y)exp(ηTT(y)−a(η))=b(y)exp[η(θ)⋅T(y)−A(θ)]=b(y)exp(η(θ)⋅T(y)−A(θ))=b(y)exp(η(θ)⋅T(y)−A(θ))
其中, η \eta η称为该分布的自然参数; T ( y ) T(y) T(y)为充分统计量,视具体的分布情况而定, 通常是等于随机变量y本身; a ( y ) a(y) a(y)是配分函数; b ( y ) b(y) b(y)是关于随机变量 y y y的函数。常见的伯努利分布和正态分布均属于指数族分布。【 η \eta η的T不是充分统计量的T,是向量转置的意思】上面不同行对应 θ \theta θ和 y y y分别是向量和标量的情况。
首先证明伯努利分布属于指数族分布。
伯努利分布
p ( y ) = ϕ y ( 1 − ϕ ) 1 − y p(y) = \phi^{y}(1-\phi)^{1-y} p(y)=ϕy(1−ϕ)1−y
其中 y ∈ { 0 , 1 } y \in\{0,1\} y∈{ 0,1}, p ( y = 1 ) = ϕ p(y=1)=\phi p(y=1)=ϕ.对上式做恒等变形:
p ( y ) = ϕ y ( 1 − ϕ ) 1 − y = exp ( ln ( ϕ y ( 1 − ϕ ) 1 − y ) ) = exp ( ln ϕ y + ln ( 1 − ϕ ) 1 − y ) = exp ( y ln ϕ + ( 1 − y ) ln ( 1 − ϕ ) ) = exp ( y ln ϕ + ln ( 1 − ϕ ) − y ln ( 1 − ϕ ) ) = exp ( y ( ln ϕ − ln ( 1 − ϕ ) ) + ln ( 1 − ϕ ) ) = exp ( y ln ( ϕ 1 − ϕ ) + ln ( 1 − ϕ ) ) \begin{aligned} p(y) &=\phi^{y}(1-\phi)^{1-y} \\ &=\exp \left(\ln \left(\phi^{y}(1-\phi)^{1-y}\right)\right) \\ &=\exp \left(\ln \phi^{y}+\ln (1-\phi)^{1-y}\right)\\ &=\exp (y \ln \phi+(1-y) \ln (1-\phi)) \\ &=\exp (y \ln \phi+\ln (1-\phi)-y \ln (1-\phi)) \\ &=\exp (y(\ln \phi-\ln (1-\phi))+\ln (1-\phi)) \\ &=\exp \left(y \ln \left(\frac{\phi}{1-\phi}\right)+\ln (1-\phi)\right) \end{aligned} p(y)=ϕy(1−ϕ)1−y=exp(ln(ϕy(1−ϕ)1−y))=exp(lnϕy+ln(1−ϕ)1−y)=exp(ylnϕ+(1−y)ln(1−ϕ))=exp(ylnϕ+ln(1−ϕ)−yln(1−ϕ))=exp(y(lnϕ−ln(1−ϕ))+ln(1−ϕ))=exp(yln(1−ϕϕ)+ln(1−ϕ))
对比指数族分布的一般形式,我们有
b ( y ) = 1 η = ln ( ϕ 1 − ϕ ) T ( y ) = y a ( η ) = − ln ( 1 − ϕ ) = ln ( 1 + e η ) \begin{aligned} b(y) &=1 \\ \eta &=\ln \left(\frac{\phi}{1-\phi}\right) \\ T(y) &=y \\ a(\eta) &=-\ln (1-\phi)=\ln \left(1+e^{\eta}\right) \end{aligned} b(y)ηT(y)a(η)=1=ln(1−ϕϕ)=y=−ln(1−ϕ)=ln(1+eη)
第二步,我么先给广义线性模型提出三条假设:
因为对数几率回归是在对一个二分类问题进行建模,并且假设被建模的随机变量取值为0或者1,我们可以假设 y y y服从伯努利分布。因此如果要构建一个线性模型来预测在给定 x x x的条件下 y y y的取值的话,可以考虑使用广义线性模型来进行建模。
第三步,构建对数几率回归。已知 y y y服从伯努利分布,而伯努利分布属于指数族分布,所以满足广义线性模型的第一条假设,接着根据第二条假设我们可以推得模型 h ( x ) h(x) h(x)的表达式为
h ( x ) = E [ T ( y ∣ x ) ] h(\boldsymbol{x})=E[T(y \mid \boldsymbol{x})] h(x)=E[T(y∣x)]
由于伯努利分布的 T ( y ∣ x ) = y ∣ x T(y \mid \boldsymbol{x})=y \mid \boldsymbol{x} T(y∣x)=y∣x,所以:
h ( x ) = E [ y ∣ x ] = 1 × p ( y = 1 ∣ x ) + 0 × p ( y = 0 ∣ x ) = p ( y = 1 ∣ x ) = ϕ h(\boldsymbol{x})=E[y \mid \boldsymbol{x}] = 1 \times p(y=1 \mid x)+0 \times p(y=0 \mid x)=p(y=1 \mid x)=\phi h(x)=E[y∣x]=1×p(y=1∣x)+0×p(y=0∣x)=p(y=1∣x)=ϕ
所以:
h ( x ) = ϕ h(\boldsymbol{x})=\phi h(x)=ϕ
在第一步中我们有:
η = ln ( ϕ 1 − ϕ ) e η = ϕ 1 − ϕ e − η = 1 − ϕ ϕ e − η = 1 ϕ − 1 1 + e − η = 1 ϕ 1 1 + e − η = ϕ \begin{array}{l} \eta=\ln \left(\dfrac{\phi}{1-\phi}\right) \\ e^{\eta}=\dfrac{\phi}{1-\phi} \\ e^{-\eta}=\dfrac{1-\phi}{\phi} \\ e^{-\eta}=\dfrac{1}{\phi}-1 \\ 1+e^{-\eta}=\dfrac{1}{\phi} \\ \dfrac{1}{1+e^{-\eta}} = \phi \end{array} η=ln(1−ϕϕ)eη=1−ϕϕe−η=ϕ1−ϕe−η=ϕ1−11+e−η=ϕ11+e−η1=ϕ
所以我们有:
h ( x ) = ϕ = 1 1 + e − η h(\boldsymbol{x})=\phi=\frac{1}{1+e^{-\eta}} h(x)=ϕ=1+e−η1
根据第三条假设 η = w T x \eta=\boldsymbol{w}^{T} \boldsymbol{x} η=wTx,最终有
h ( x ) = ϕ = 1 1 + e − w T x = p ( y = 1 ∣ x ) h(\boldsymbol{x})=\phi=\frac{1}{1+e^{-\boldsymbol{w}^{T} \boldsymbol{x}}}=p(y=1 \mid \boldsymbol{x}) h(x)=ϕ=1+e−wTx1=p(y=1∣x)
此即为对数几率回归模型