概率统计与机器学习:极大后验概率以及正则化项

先验概率

  • 概念:本质上就是古典概型,是利用当前状态对求解状态的一种概率估计,可以理解为“由 因求果”中“因”出现的概率。
  • 条件:
    • (1)实验所有的可能结果是有限的;
    • (2) 每一种出现的结果的概率是等可能的
  • 举例:假设有一个根据身高H和衣服颜色饱和度S两个参数的模型来估计一个人是男的还是女的性别识别系统
    • 模型: y=w1H+w2S+b y>0 为男生, y<0 为女生。其中 b 为偏置项(这里需要注意,其实这个模型本身就是一个估计,而不是我们定好的,这模型好不好我们这时候是不知道的)
    • 经验:在观测到训练样本之前,我们可以凭借经验得知模型 w1,w2,b 的一些相关信息,比如:一般男生都高,性格原因所以大部分的衣服饱和度比较低;而女生个子低,而喜欢美所以衣服颜色饱和度高。那么我们可以感觉的出,这里的 w1 是正的,而 w2 是负数,这样更合理一些就是经验了。
    • 特殊情况:然而有些时候我们选择的模型会表现的非常的差劲,比如:这有一批女篮球队员的数据,或者是女装大佬的数据,那么这个模型就会变得非常的差劲至于为什么就不用我解释了吧。这样的模型一点泛化性都没有,谁敢用哇,画女硬说男只存在于二次元的!
  • 思考:既然我们选择了一个模型,用这个模型去预估观测值来得到的最大似然权值,那么又有什么手段来评估我们这个模型选择的好坏

后验概率

  • 概念:与“先验概率”刚好相反,后验概率是用“结果”来估计“因”,它是以先验概率为基础的。哲学的讲,“先验概率”是主观信念,即凭我的经验我感觉它如何;而“后验概率”是客观事实,即有大量的证据表明事情如此。
  • 贝叶斯公式: p(w|D)=p(D|w)p(w)p(D)
  • p(w|D) , p(w|D) , p(w) , p(D)
  • 解读公式:先看右边的公式,已知观测序列下而预估模型参数 w 的极大似然估计乘以选择这个模型的概率其实就是选择这个模型的基础上去找最有可能观测到该组数据的那个模型概率除以本身可以观测到这组观测值的概率(这里需要注意这组观测值的概率是已知的,是常数),而左式表明在我们有了观测值的基础上去选择该模型的概率。
  • 意义:贝叶斯公式反映了它对我们经验所作出的选择而进行的一种评估。
  • 推导化简:(目的是极大化后延估计)
    • 我们前面已经提到了 P(D) 是常数,我们为了求最大是可以省略到此数的
    • P(D|w) 项实际可拿极大似然估计 L(D|w) 来代替
    • w=argmaxwP(w|D)=argmaxwL(D|w)P(w)
    • w=argminwNi=1lnp(xi|w)lnp(w) (极小化就是负对数似然+负对数先验)
  • 正则化项:我们已知最终的结果 w=argminwNi=1lnp(xi|w)lnp(w) , 与极大似然估计不同,后面多出的这一项先验概率要如何处理
    • 我们假设 w 服从正态分布(期望为0,方差为1),则 p(w)exp(w222σ2) , 我们让 λ=12σ2 , 按照上式求得的结果去负对数,则 lnp(w)λw22
    • 意义:这就是正则化项,通过后验概率对我们的模型进行约束,权重衰减
    • 引申:我们已知它服从的分布性质,举例有二维权重 (w1,w2) ,首先它是独立同分布且期望为0,方差为1的正态分布,因此可知 E(w1w2)=E[(w1E[w1])(w2E[w2])]=0 ,则可知当前权值是不相关的,而不相关情况下协方差矩阵为对角阵,方差为1则为单位阵,因此可以得知:协方差矩阵为单位阵的时候可以画个圆形(推广到三维就是球体,N维就是超平面球)
    • 图示:
    • 结论:根据高斯分布的图像可以得知(不是上图,上图只是解释协方差矩阵的),我们的w越靠近0处概率越大,越远则概率越小

岭回归

  • 定义:是一种变相的最小二乘回归,放弃了精度加入了正则项来提高对噪点的处理,虽然拟合情况略低于普通的最小二乘回归,但是对于带有噪音的数据而言有更强的处理能力
  • 公式: minEw=Ni=1(yif(x,w))2+λw22 (可见就是在最小二乘的基础上增加了偏置项)
  • 条件:
    • 假设误差服从0均值等方差的高斯分布 : e=yf(x,w)N(0,σ2)
    • 权值 w 服从0均值等方差的高斯分布先验: p(w)exp(w222σ2)
  • 公式证明: lnP(w|D)=Ni=1lnp(xi|w)lnp(w)=Nln(2πσ)+Ni=1e22σ2+w222α2
    按照线性最小二乘回归将我们的高斯分布带入到后验概率中(此处省略掉过程,直接写最终过程,不懂的看上节笔记)
    省略掉常数项之后进行极小化负对数后验改写: w=argminwNi=1e2i+λw22
    分别为平方误差项和正则化项,这也就是岭回归的基础公式
  • 扩展:当function为线性函数时候, f(x,w)=wTx
    minEw=ywTX2+λw22
    引入三个二次型矩阵求导公式:
    • (wTX)w=X (XTw)w=X (wTXw)w=2Xw
      由于我们这里的y是行向量,w是列向量,x是行向量,因此展开转置矩阵在后面
    • 前半部分: (ywTX)(ywTX)T=yyT2wTXyT+wTXXTw
      对其求导: 2XyT+2XXTw=2X(yTXTw)
    • 后半部分:由于 w 服从的是正态分布,所以 λ 是个单位矩阵,展开可得: λwTw
      对其求导:由于是单位阵,所以可以换位置得到 wTλw 代入公式: 2λw
    • 综合等于0: 2X(yTXTw)+2λw=0
      一般情况下为了规范化,会将 λw 变为 λIw
      因此化简后得: w=(XXT+λI)1XyT
    • 注意:这里根据行列的设定不同,同样是会得到不同格式的结果
  • 当假设 p(w) 服从拉普拉斯分布,那么正则项就变为了 λ|w|
    其优势是在于更容易使模型变为稀疏的,有些权值为0,有些权值不为0,即结果有值的特征就是有用的,为0的就是没用的,降低纬度降低储存空间。也就是所谓的:lasso回归。
  • 统计学下的四种损失函数:
    • minwE=Ni=1(yif(x,w))2+λw22
      拟合误差符合0均值高斯分布,模型先验服从0均值高斯分布
    • minwE=Ni=1(yif(x,w))2+λ|wμ|
      拟合误差符合 0均值高斯分布,模型先验服从均值为 μ 的拉普拉斯分布
    • minwE=Ni=1|yif(x,w)|+λw22
      拟合误差符合 0均值拉普拉斯分布,模型先验服从均值为 μ 的高斯分布
    • minwE=Ni=1|yif(x,w)|+λ|w|
      拟合误差符合 0均值拉普拉斯分布,模型先验服从0均值拉普拉斯分布
  • 正则化的作用:
    • 防止模型过拟合,人为的为模型加入先验对模型分布进行约束,提高泛化能力
    • 一定程度上增加了模型的稀疏性,降低了模型复杂度
    • 处理了矩阵不可逆导致无数多解的问题

你可能感兴趣的:(概率论与数理统计,机器学习笔记)