经典Vs贝叶斯统计对点估计和线性回归理解

一、点估计

数理统计有两大基本内容,估计(参数估计;非参数估计,如总体分布)和假设检验(原假设,备择假设)。参数估计有点估计和区间估计。 对于点估计的判定都是从 经验风险 来判定, 在此,无论是频率学派还是贝叶斯学派都没有异议,不过再往后走,二者的观点就不一样了。二者在估计好坏的准则、方法、意义都是不一样的。进行估计的时候,是按照 经验风险最小化 准则进行了。风险是通过对参数(线性模型中就是 截距、回归系数)真实值和估计/预测值形成函数关系来判断。

1、损失函数和风险函数

首先使用参数的真实值和估计值的一个函数关系来确定“损失函数” ,
image.png

这个函数有多种,一般都和残差有关,如常见的平方损失函数为


image.png

损失函数用拟合曲线对应点因变量的估计值作为真实值时,存在风险,风险函数定义为损失函数的均值,既
image.png
……①

这个函数① 在经典和贝叶斯统计中有不同定义。进行估计时,找到对所有的观察值使得风险函数最小的估计值,这样就实现风险最小化。此为一致最小风险估计。

2、频率学派点估计

经典统计中进行点估计,我们希望估计出的参数能让① 式最小,我们对估计量好坏评价标准:无偏的、有效的、一致的。目的是希望得到的参数带入模型/函数中,让所有的真实输出值y和预测输出值y^hat(y上面加一个帽子,记得学统计学时老师读的是 y "cafu”,但是在其他地方看到又是读成 y"hat")之间差别最小,于是参数估计的好坏就“等价于”y和y^hat 的偏差大小。于是参数风险最小化 映射到 真实输出值y和预测输出值y^hat 的关系。一般通过残差(或对残差进行加工,如平方)或者其他考量方式。 参数真实值和预测值差的平方的均值构成 风险函数,寻找参数实现一致最小风险估计的要求。


image.png

而要实现上述目标,通过让残差平和和最小时对应的参数就可以求得目标参数


image.png

这也就是我们常见的最小二乘估计(OLS)方法来进行估计,得到的是具体的点,这样得到的关于参数 θ 正好符合一致最小风险估计的要求。

3、贝叶斯学派点估计

贝叶斯估计中,估计的参数是服从某个分布随机变量——先验/后验分布。因此首先因为参数不是一个具体的值而是一个分布,故 参数的所有可能值和损失函数相乘的累加来描述损失才是合理的!
image.png

这就是贝叶斯学派对损失的看法,使上述公式最小的解就是贝叶斯解。
由上式得到参数的先验风险,我们需要得到的是 后验风险,在先验风险基础上,被积表达式中加上 f(x|θ) 这个条件密度(和似然函数相近)就成为了后验风险。


image.png

……②

让②式最小的参数叫做贝叶斯解,也就是我们的点估计。在②式中损失函数的构成方式一般有三种
image.png

因此得到的贝叶斯解有三种不同的结果
image.png

因此,对于不同的损失函数,得到的 点估计(贝叶斯解)是不一样的。让②式最小的 θ*hat 就是贝叶斯解。而且满足无偏、有效、一致的评判原则。


image.png

二、经典线性回归

对于多元元线性回归,模型表示为

image.png

需要估回归方程的截距(常项)、系数,用 β(β0,β1,…,βn)来表示。
如果随机扰动 ε 服从 Gauss——Markov 假定,经典回归是在 一致最小风险 原则下通过 均方误差


image.png

最小化,使用最小二乘估计针对 y 和 y^hat 计算得到确定的参数θ ,形成一条拟合直线。

三、贝叶斯线性回归

1、线性模型及总体关于参数(β,σ)形成的联合分布

多元线性回归模型可以用以下模型来描述,X 为首列为1 的 m个自变量的n个取值形成的 n*(m+1) 矩阵,Y 为对应的 n组观测值的因变量,用矩阵方程表示如下:


image.png

……③ ,对于上述模型通过最小二乘估计(OLS)估计参数 β(β0,β1,…,βn)
公式 ③中这里可以看到,事实上有两类随机变量,一类是β(截距和系数),一类是随机扰动ε 中的标准差σ 。 于是总体是关于参数 (β,σ) 的 “联合分布”!而给定的观察值则是 X矩阵 和 Y向量。 过程是先得到 (β,σ) 的先验分布,然后再得到他们的后验分布,最后在后验分布中通过贝叶斯解得到点估计。


image.png

从著名的贝叶斯公式中可以看到,把先验分布、似然函数和边际分布找出来就可以得到后验分布。下面分别说明这三个部分。

2、确定来自 于总体的似然函数

在多元线性模型中,根据 gauss-Markov 假定,可知随机扰动向量的分布


image.png

带入③可得总体服从高斯分布,


image.png

(β,σ) 联合分布的似然函数 是正态分布核的连乘
image.png

3、参数(β,σ)联合先验分布和后验分布

对 (β,σ)的先验分布采用无信息先验分布假设,按照 Jefferys 准则最后可以得到(β,σ)的联合先验分布


image.png

……④
将其和似然函数带入 ③ 中,是关于β,σ 的函数


image.png

4、回归系数的贝叶斯统计

在参数(β,σ)的联合后验分布中,对σ 进行 积分,得到 β 的后验边缘密度函数,公式中有 t 分布的核,因此根据共轭先验设定,后验分布也是 t 分布。在向量损失函数下,参数的贝叶斯估计为


image.png

5、随机扰动方差 σ^2 的贝叶斯统计

在参数(β,σ)的联合后验分布中,对β 进行 积分,得到 σ 的后验边缘密度函数,进而得到 σ2 的后验边缘密度函数,


image.png

其表达式为倒 Gamma 分布密度函数的核,因此在平方损失函数下,σ2 的贝叶斯估计为


image.png

比经典统计的估计在分母上少 1 。

三、经典回归和贝叶斯回归的关系

经典统计回归拟合出的是一条直线。
贝叶斯统计中,因为(β,σ)的联合后验参数服从某种分布,因此估计的参数取值有很多,表现为 一系列直线(不是一条!),但是哪一条直线是最佳拟合,即哪一组β(向量)才是最合适的。就需要对有后验分布求贝叶斯解。贝叶斯点估计与损失函数类型(一般有三种)和先验分布都相关,因此,我们在进行贝叶斯回归时,对于后验参数分布的计算,除了要考虑共轭先验分布外,还要考虑损失函数类型,这对于有哑变量(取值只有0,1)时,是一个现实的需求。因此一定要小心。
求贝叶斯解时,在贝叶斯公式中,有先验分布和似然函数。后者假设总体服从正态分布,在均方误条件下,得到的方程截距和系数参数与经典统计下OLS一样,但二者有本质差别。经典统计得到的是一个确定的值,贝叶斯统计得到的是一个分布。
当数据量很大时,贝叶斯统计估计的一系列直线逐渐趋于重合,极限是经典统计估计的那条线。从贝叶斯公式中也好理解理,数据量大时,似然函数影响越来越大,先验分布的影响也越来越小。

你可能感兴趣的:(经典Vs贝叶斯统计对点估计和线性回归理解)