对贝叶斯(Bayes)线性回归的理解(一)

线性回归假设: Y=β1X+β0+ϵ Y = β 1 X + β 0 + ϵ

我们假设数据具有以下形式:
y=β1x+β0+ϵ y = β 1 x + β 0 + ϵ where ϵ ϵ ~ N(μ,σμϵ) N ( μ , σ ϵ μ )
这样的模型可以生产如下的数据:
对贝叶斯(Bayes)线性回归的理解(一)_第1张图片

普通最小二乘法(OLS)线性回归

如果我们有上图所示的一个数据集,我们就需要找到一条合适的直线来描述上述的数据,可以通过以下公式来描述这条直线:
y=β1x+β0 y = β 1 x + β 0
我们的目标是找到 β0 β 0 β1 β 1 使得我们的数据具有最小的RMSE(均方根误差),即实现以下表达式:
β1,β0=argminβ1,β0Ni=1(yi(β1xi+β0))2 β 1 , β 0 = a r g m i n β 1 , β 0 ∑ i = 1 N ( y i − ( β 1 x i + β 0 ) ) 2
我们可以用线性回归来拟合一条简单的线:
对贝叶斯(Bayes)线性回归的理解(一)_第2张图片
在有数据的区域我们的表达式得到的直线几乎是正确的,但是在数据缺失或者没有数据的区域就很难根据表达式来判断,因此我们需要一个通用的度量来描述数据。
对贝叶斯(Bayes)线性回归的理解(一)_第3张图片
在上图中我们可以看到置信界限(conbdence bounds)如何增加(因此答案的不确定性增加)。从线性回归中我们不能得到这些,这就是为什么我们需要贝叶斯线性回归。

贝叶斯规则

首先我们看条件概率的基本表达式:
P(A|B)=P(B|A)P(A)P(B) P ( A | B ) = P ( B | A ) P ( A ) P ( B )
这个表达式代表了事件B发生的条件下事件A发生的概率(即后验概率),等号右边代表在Ad条件下B发生的概率乘以A发生的概率(即先验概率)再除以B发生的概率。

贝叶斯定理如何与这个问题相关

现在让我们解释贝叶斯规则中的每个变量,首先设A是用 θ θ 表示的学习模型(即 β0β1 β 0 和 β 1 )的参数, B是数据D。所以可以表示为:
P(θ|D)=P(D|θ)P(θ)P(D) P ( θ | D ) = P ( D | θ ) P ( θ ) P ( D )
为了解决这个问题,我们将在给定数据的情况下得到 θ θ (即 β0 β 0 β1 β 1 )中所有参数的联合分布。也就是说 P(θ|D) P ( θ | D ) 告诉我们在给定的数据 β0β1 β 0 和 β 1 的值时,概率为多少。这被称为后验分布。
计算步骤:
1. P(D|θ) P ( D | θ ) :模型中有参数 θ θ 对观测数据的拟合情况
2. P(θ) P ( θ ) :我们之前对 θ θ 参数可能值的先验设想。先验越接近真实,能越快越准确的发现正确的后验分布。
3. P(D) P ( D ) :观测数据的概率,是一个常数值。

先验 P(θ) P ( θ ) :我们认为参数是什么样子的?

在贝叶斯设置中,我们用分布(高斯分布,正态分布)来表示参数值( β0,β1 β 0 , β 1 )。

用概率分布指定参数

例如我们用均值为0,标准差为3的正态分布来表示参数 β0 β 0 , 则
β0 β 0 ~ N(μ=0,σ2=9) N ( μ = 0 , σ 2 = 9 )
用均值为0, 方差为5来表示 β1 β 1 , 则
β1 β 1 ~ N(μ=0,σ2=5) N ( μ = 0 , σ 2 = 5 )
如果我们对 β β 的许多值进行取样,我们会更加接近真正的正态分布,下图是两个正态分布图,从图中可以看出, β1 β 1 β0 β 0 更加扁平( β1β0 β 1 比 β 0 接近0的比例较高)
对贝叶斯(Bayes)线性回归的理解(一)_第4张图片
一个好的先验概率 P(θ) P ( θ ) 是很重要的,因为先验与后验越接近,我们就会更快的得到真正的后验。如果先验与后验分布一致,当我们从先验中取样时,实际上就是从后验中取样。

之后的内容在对贝叶斯(Bayes)线性回归的理解(二)中更新。。。

你可能感兴趣的:(机器学习,分类)