神经网络与机器学习(第3版)阅读笔记{第2章}

前言():
{
  上一章中提到了Bayes的相关知识,但我感觉我理解的还是太浅薄了。不过本章到是又涉及到了Bayes,我也可以加深一下理解。
  
  还有,之前我没有记录关于公式推导的思考,本次我会尽量多写点关于公式推导的内容。
}

正文():
{
  本章有以下几部分内容:
  线性回归模型最大后验估计最小二乘法最小描述长度原则;和固定样本大小考虑
  
  线性回归模型():
  {
    一种理解(或处理)统计数据的方式,其把统计数据中一部分看作是自变量(independent variable)或叫回归元(regressor,有叫回归量的也有叫回归因素的,之后我会统一用回归元),其不受别的变量影响;其他部分看作是因变量(dependent variable)或叫响应(response),其受到其他变量的线性影响。
    
    例如书中描述的,用线性回归模型来理解线性分类器的输入和输出,其输入为自变量,输出为因变量。很明显,输出是由输入和权值决定的,但输入却是独立存在的,不受输出和权值的影响。
  }
  
  最大后验估计():
  {
    即把后验概率最大的权值认为分类器的权值。
    
    书中给出的后验概率如下:
    这里写图片描述
    其中x为输入,w为权值,d为输出。
    Pw(w)是指先验概率,即之前的经验。
    PD(d)书中叫证据,就是本次学习中已经有的结果。
    
    这和上次的Bayes公式很像:
    这里写图片描述
    可以看到不同的是在条件概率中多了x,这就代表在x已知情况下(即当前一次的情况下,其中输入x是已知的)的概率。

接下来讨论后验概率公式右边的3个参数。
    
    首先,由于PD(d)是常数,所以就不用考虑它了。
    
    最大拟然估计(简介):
    {
      书中给出了一个拟然函数的公式:
      这里写图片描述
      w的最大拟然估计就是把使拟然函数最大的w,认为分类器的w。
      
      打个比方:
      设A代表某个人的身高大于180cm,B代表这个人是男性。
      即拟然函数l(A|B)=P(B|A)
      其中,当A为“真”时,P(B|A)最大。即此时A的最大拟然估计的值为“真”。
    }
    
    接下来讨论拟然函数。设在一次完整的训练中,第i次理想输出di如书中的公式:
    这里写图片描述
    可以想象一下,纵观整个训练,式中误差ε很可能满足期望u为0的正态分布:刚开始误差绝对值很大,但会很快靠近0;之后离0越来越近,但靠近的速度就会越来越慢,因此密度就会越来越大。
    对于每一次迭代的l(w|d,i),其代表在w和x已知的情况下d的概率密度,所以其又等于:
    这里写图片描述
    
    第一个假设:设ε服从上述的正态分布,即得出书中的下式:
    这里写图片描述
    
    第二个假设:再设每次迭代相互独立(我不知道w和d是不是完全独立,但书中的最大后验估计确实是这样假设的),总体的拟然函数即为书上的公式:
    神经网络与机器学习(第3版)阅读笔记{第2章}_第1张图片
    
    接下来考虑第三个参数Pw(w)。
    
    对于先验概率密度Pw(w),本章也用了如上的假设方法。
    第三个假设:设w中的每个元素服从期望u为0的正态分布。
    和第四个假设(这里的假设是我的理解,并不和书上的完全对应):设w中的每个元素相互独立。
    便可得到书上的公式:
    神经网络与机器学习(第3版)阅读笔记{第2章}_第2张图片
    
    因此,后验概率最大即下式的值最大:
    神经网络与机器学习(第3版)阅读笔记{第2章}_第3张图片
    
    上式对w微分可得以下书中公式:(微分过程在习题2.2中描述)
    这里写图片描述
    其中:
    这里写图片描述
    这里写图片描述
    
    上式中的-Rxx(N)又被称为x的**自相关矩阵**。对应地,-Rxy(N)被称为x与y的互相关矩阵。    
  }
  
  最小二乘法():
  {
    也是一种loss计算方法,其追求方差总合最小。即就是求均方差的loss函数最小,但是和最大后验估计一样,没有学习的过程,而是直接解出使式子最小(最大)的权值。
    
    并且如书中所述,最小二乘法和最大后验估计类似,稍微改变一下即可。
  }
  
  计算机实验():
    依旧放到题目里说。
  
  最小描述长度原则():
  {
    最小描述长度(MDL)原则用来评判和选择模型。
    提到了学习即是一个数据压缩过程,并且可以用二进制计算机代码长度来衡量压缩效果。
    其中最古老也是最简单的一种如书中的下式:
    这里写图片描述
    上式中L1(p)代表用来描述数据的(算法)代码的长度,右边另一项代表被压缩后的数据的长度。
    
    模型阶选择问题(简单介绍):
    {
      书中提到了模型的阶的选择问题。对于回归模型,其阶就是权值w的维数。
      选择阶数k,使得书中下式最小:
      这里写图片描述
      至于此式的意义,等我进行一段之后再来描述{问题2.6}
    }
  }
  固定样本大小考虑():
  {
    过拟合(简单介绍):
      之前经常会看到这个词,其是指由于样本集合只包含部分样本空间的数据,所以使用某些方法(例如书中说的最大拟然和最小二乘)得出的权值会非常适应此样本集合,但如果有新的数据则准确率会下降很多。

为了解决上述问题,在回归模型的基础上,书中使用了一种物理模型
    物理模型的实际输出y如书中下式:
    这里写图片描述  
    上式右边是一个关于输入和预估权值的函数。
        
    根据最小二乘法,预估权值使得书中下式值最小:
    这里写图片描述
    式中1/2后面是取期望(平均),算最小时和总合作用相同。
    
    通过书中下式中第一个式子(左边的大小写好像错了)的转换即可得到下式中第二个式子:
    神经网络与机器学习(第3版)阅读笔记{第2章}_第4张图片
    其中f(x,w)为回归模型的误差前输出。因为ε和f()与F()都不相关,所以对于上面第二个式子的最后一项,ε可以单独提出来组成E(ε)E(f()-F())的形式。又由于E(ε)为0,所以最后一项为0,可以删去。
    并且右边第一项为回归模型误差的1/2方差,其与物理模型估算的权值无关,所以求的是使得书中下式值最小的权值:
    这里写图片描述
    上式又被称为自然测度
    
    之后可得到书中下式(中间有一步留到题目中说明):
    神经网络与机器学习(第3版)阅读笔记{第2章}_第5张图片
    
    书中还给出了图解:
    神经网络与机器学习(第3版)阅读笔记{第2章}_第6张图片
    这个图是什么意思,现在我还看不懂,之后再来解决。{问题2.7}
  }
  
  工具变量方法():
  {
    根据我的理解,其主要思想是引入中间变量(工具变量)。
    
    上面讨论的最大后验估计和最小二乘法都是在正态环境下。如果在非正态环境下,则有下式:
    z=x+v;
    其中z是模型的输入(回归元,此时并不满足正态分布),v是一个噪音变量,其使得x为正态分布。
    使用z进行最小二乘法根据,可得书中下式:
    这里写图片描述
    再设v的期望为0,相关矩阵为σ²I(I为单位矩阵,也就是说v中各元素相互独立,小v打不出来),可得书中下式:
    神经网络与机器学习(第3版)阅读笔记{第2章}_第7张图片
    也就是说,使用z的最小二乘法估计,就相当于使用x的且λ=σ²(v打不出来)的最大后验估计。
    {临时问题??}
    
    之后书中就引入了工具变量,只是简单介绍了一下,没什么推理过程。
  }
  
  习题():
  {
    2.1():
      最大拟然估计没有考虑权值w的先验概率。
    2.2():
    {
      向量与矩阵的微分详见:https://www.cnblogs.com/huashiyiqike/p/3568922.html。
      我自己做了一遍,但错了一个符号。过程如下:
      
      最后把A(w)和B(w)的微分加起来,然后把w放一边即可。正负号错在哪还没找到。{问题q2.2}
    2.3():暂缺
    2.4():暂缺
    2.5():
    {
      式2.46到式2.47少了这里写图片描述这里写图片描述乘积的期望。
      可以看到,其中这里写图片描述为常数,并且这里写图片描述的期望为0,所以此项为0并且被省去。
    }
  }
}

结语():
{
  这篇博客不知道放了多久,可能其中还有些没没完成,不过正好今天发博客会有徽章,所以就干脆发了。
}

你可能感兴趣的:(神经网络与机器学习)