线性回归:从贝叶斯角度分析

作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai


我们都知道学习机器学习时学到的第一个模型就是线性回归。这是一个非常简单,直观和激发我们深入到机器学习的模型。

线性回归可以在几个观点中直观的解释,例如:几何和频率统计。从频率统计的角度来看,通常应该会谈论到贝叶斯。因此从这篇文章中,我们将从贝叶斯的角度来简单分析一下线性规划。

线性回归:回顾

回想一下,在线性回归中,我们希望将输入映射为实数,即 f : R N → R f:R^{N} \rightarrow R f:RNR 。例如,一个学生学习了多少小时功课,学习了什么学科和这个学生的智商 IQ 是多少,然后让你去预测他的成绩是多少?

线性回归也是分为好几种的,这取决于它们的成本函数和正则化器。在这篇文章中,我们将来重点关注线性回归 l 2 l_{2} l2 损失函数和 l 2 l_{2} l2 正则化。在统计学中,这种正则化称为 Ridge 回归。

正式的,这种形式我们可以用数学表示为:

L = 1 2 ∣ ∣ y ^ − y ∣ ∣ 2 2 + λ 2 ∣ ∣ W ∣ ∣ 2 2 L = \frac{1}{2} ||\hat y - y||_{2}^{2} + \frac{\lambda}{2} || W ||_{2}^{2} L=21y^y22+2λW22

其中 y ^ \hat y y^ 是真实值, y y y 是我们的预测值,可以用下面的数学表达出来:

y = W T x y=W^{T}x y=WTx

这是一个特征向量和权重矩阵的线性组合。上面额外的 1 2 \frac{1}{2} 21 只是为了在后续的计算中,更加方便而已。然后,我们的目标是减小这个损失函数的值。也就是说,我们想要找到权重矩阵 w 使得损失函数最小。

当然,我们可以先忽略正则化项,那么我们的损失函数就变成了:

L = 1 2 ∣ ∣ y ^ − y ∣ ∣ 2 2 L = \frac{1}{2} ||\hat y - y||_{2}^{2} L=21y^y22

最小化此目标是线性最小二乘问题的定义。

线性回归的频率观点

我们可以将上述模型的回归目标谢伟预测值加上一些误差:

$\hat y = y + \epsilon = W^{T}x + \epsilon $

或者,等价于,我们可以得到误差项的表现形式:

ϵ = y ^ − y \epsilon = \hat y - y ϵ=y^y

现在,假设我们将回归目标建模为高斯随机变量,即 y ∼ N ( μ , σ 2 ) y \sim N(\mu, \sigma^{2}) yN(μ,σ2) μ = y = W T x \mu = y = W^{T}x μ=y=WTx ,所以我们的预测模型可以正式成为:

P ( y ^ ∣ x , W ) = N ( y ^ ∣ W T x , σ 2 ) P(\hat y | x,W) = N(\hat y | W^{T}x, \sigma^{2}) P(y^x,W)=N(y^WTx,σ2)

然后,我们的目标就是去找到最佳的 W,我们可以使用最大似然函数(MLE)。由于上述模型是似然的,所以我们可以用如下数学公式描述我们的数据:

W M L E = a r g m a x W N ( y ^ ∣ W T x , σ 2 ) W_{MLE} = \mathop{argmax}\limits_{W} N(\hat y | W^{T}x, \sigma^{2}) WMLE=WargmaxN(y^WTx,σ2)

高斯分布的概率密度函数为:

P ( y ^ ∣ x , W ) = 1 2 σ 2 π e x p ( − ( y ^ − W 2 x ) 2 2 σ 2 ) P(\hat y | x, W) = \frac{1}{\sqrt{2\sigma^{2}\pi}}exp(- \frac{(\hat y - W^{2}x)^{2}}{2\sigma^{2}}) P(y^x,W)=2σ2π 1exp(2σ2(y^W2x)2)

当我们进行最大化时,我们可以忽略似然函数的归一化常数,因此:

W M L E = a r g m a x W e x p ( − ( y ^ − W 2 x ) 2 2 σ 2 ) W_{MLE} = \mathop{argmax}\limits_{W}exp(- \frac{(\hat y - W^{2}x)^{2}}{2\sigma^{2}}) WMLE=Wargmaxexp(2σ2(y^W2x)2)

正如往常一样,优化对数可能会更加容易一点:

W M L E = a r g m a x W l o g ( e x p ( − ( y ^ − W T x ) 2 2 σ 2 ) )    = a r g m a x W − ( y ^ − W T x ) 2 2 σ 2 = a r g m i n W ( y ^ − W T x ) 2 2 σ 2 W_{MLE} = \mathop{argmax}\limits_{W} log(exp(- \frac{(\hat y - W^{T}x)^{2}}{2\sigma^{2}})) \; = \mathop{argmax}\limits_{W} - \frac{(\hat y - W^{T}x)^{2}}{2\sigma^{2}} = \mathop{argmin}\limits_{W} \frac{(\hat y - W^{T}x)^{2}}{2\sigma^{2}} WMLE=Wargmaxlog(exp(2σ2(y^WTx)2))=Wargmax2σ2(y^WTx)2=Wargmin2σ2(y^WTx)2

为了简单起见,我们可以设置 σ 2 = 1 \sigma ^{2} = 1 σ2=1,那么:

W M L E = a r g m i n W ( y ^ − W T x ) 2 2 = a r g m i n W ∑ i ( y ^ − W i x i ) 2 2 = a r g m i n W ∣ ∣ y ^ − W T x ∣ ∣ 2 2 2 W_{MLE} = \mathop{argmin}\limits_{W} \frac{(\hat y - W^{T}x)^{2}}{2} = \mathop{argmin}\limits_{W} \frac{\sum_{i}(\hat y -W_{i}x_{i})^{2}}{2} = \mathop{argmin}\limits_{W} \frac{||\hat y - W^{T}x||_{2}^{2}}{2} WMLE=Wargmin2(y^WTx)2=Wargmin2i(y^Wixi)2=Wargmin2y^WTx22

所以我们可以看到,对于高斯似然做 MLE 等于线性回归!!!

线性回归的贝叶斯角度

但是,如果我们想要去处理贝叶斯,我们需要先引入一个先验,并与后者合并一起。那么,我们正在进行 MAP 估算!后验是先验的似然:

P ( W ∣ y ^ , x ) = P ( y ^ ∣ x , W ) P ( W ∣ μ 0 , σ 0 2 ) P(W|\hat y, x) = P(\hat y | x, W)P(W|\mu_{0}, \sigma_{0}^{2}) P(Wy^,x)=P(y^x,W)P(Wμ0,σ02)

既然我们已经知道了似然,现在我们可以问,什么是先验呢?如果我们将其设置为均匀分布,那么我们将在此处回到 MLE 估计。因此,对于非平凡的例子,我们先使用高斯先验作为权重:

P ( W ∣ μ 0 , σ 0 2 ) = N ( 0 , σ 0 2 ) P(W|\mu_{0}, \sigma_{0}^{2}) = N(0, \sigma_{0}^{2}) P(Wμ0,σ02)=N(0,σ02)

扩展概率密度函数,我们再次忽略正则化常数,但是要记住这一点,即 μ 0 = 0 \mu_{0} = 0 μ0=0 。那么:

P ( W ∣ μ 0 , σ 0 2 ) = 1 2 μ 0 2 π e x p ( − ( W − μ 0 ) 2 2 σ 0 2 ) ∝ e x p ( − W 2 2 σ 0 2 ) P(W|\mu_{0}, \sigma_{0}^{2}) = \frac{1}{\sqrt{2\mu_{0}^{2}\pi}} exp(-\frac{(W-\mu_{0})^{2}}{2\sigma_{0}^{2}}) \propto exp(- \frac{W^{2}}{2\sigma_{0}^{2}}) P(Wμ0,σ02)=2μ02π 1exp(2σ02(Wμ0)2)exp(2σ02W2)

让我们得出后验:

P ( W ∣ y ^ , x ) = P ( y ^ ∣ x , W ) P ( W ∣ μ 0 , σ 0 2 ) ∝ e x p ( − ( y ^ − W T x ) 2 2 σ 2 ) e x p ( − W 2 2 σ 0 2 ) P(W|\hat y, x) = P(\hat y | x, W)P(W|\mu_{0}, \sigma_{0}^{2}) \propto exp(- \frac{(\hat y - W^{T}x)^{2}}{2\sigma^{2}}) exp(- \frac{W^{2}}{2\sigma_{0}^{2}}) P(Wy^,x)=P(y^x,W)P(Wμ0,σ02)exp(2σ2(y^WTx)2)exp(2σ02W2)

我们对其求对数:

l o g P ( W ∣ y ^ , x ) ∝ − 1 2 σ 2 ( y ^ − W T x ) 2 − 1 2 σ 0 2 W 2 = 1 2 σ 2 ∣ ∣ y ^ − W T x ∣ ∣ 2 2 − 1 2 σ 2 ∣ ∣ W ∣ ∣ 2 2 log P(W|\hat y, x) \propto - \frac{1}{2\sigma^{2}}(\hat y - W^{T}x)^{2}- \frac{1}{2\sigma_{0}^{2}}W^{2} = \frac{1}{2\sigma^{2}} ||\hat y -W^{T}x||_{2}^{2} - \frac{1}{2\sigma^{2}} ||W||_{2}^{2} logP(Wy^,x)2σ21(y^WTx)22σ021W2=2σ21y^WTx222σ21W22

跟前面一样,我们可以假设 σ 2 = 1 \sigma^{2} = 1 σ2=1 λ = 1 σ 0 2 \lambda = \frac{1}{\sigma_{0}^{2}} λ=σ021 ,那么我们的对数后验就变成了:

l o g P ( W ∣ y ^ , x ) ∝ − 1 2 ∣ ∣ y ^ − W T x ∣ ∣ 2 2 − λ 2 ∣ ∣ W ∣ ∣ 2 2 log P(W|\hat y, x) \propto -\frac{1}{2} ||\hat y - W^{T}x ||_{2}^{2} - \frac{\lambda}{2} ||W||_{2}^{2} logP(Wy^,x)21y^WTx222λW22

也就是说,高斯似然和高斯先验的对数后验与 Ridge 回归的目标函数相同。因此,高斯先验等于 l 2 l_{2} l2 正则。

完全贝叶斯方法

当然,上面不是完整的贝叶斯过程,因为我们正在以 MAP 的形式进行点估计。这只是一个捷径,因为我们不需要计算完整的后验分布。对于完全贝叶斯方法,我们需要分析完整的后验分布。在测试时间内,我们使用后验来对新数据进行加权,即我们将后验预测分布边缘化:

P ( y ′ ∣ y ^ , x ) = ∫ W P ( y ′ ∣ x ′ , W ) P ( W ∣ y ^ , x ) = E W [ P ( y ′ ∣ x ′ , W ) ] P({y}' | \hat y, x) = \int_{W}P({y}' | {x}', W)P(W|\hat y, x) = E_{W}[P({y}' | {x}', W)] P(yy^,x)=WP(yx,W)P(Wy^,x)=EW[P(yx,W)]

也就是说,考虑到我们新数据点的似然 ( x ′ , y ′ ) (x', y') (x,y) ,我们计算似然性,并且用后验来衡量。

直观的说,给出了所有后验可能的值 W,我们逐个尝试这些值来预测新数据。然后结果与这些值的概率的平均,因此正是我们需要的期望。

当然,这就是我们使用 MAP 形式的快捷方式的原因。为了说明,如果每一个组件 W 是二元的,等价于他有两个可能值。那么如果有 K 个组件 W,那么我们就可能有 2 K 2^{K} 2K 个候选值给 W 。这是一种指数爆炸的。在真实的世界中,W 的每个组件是一个真的值,这就产生了枚举所有可能值的问题。

当然我们可以使用像变分贝叶斯或者 MCMC 这样的近似方法,但他们仍然比 MAP 更加昂贵。由于 MAP 和 MLE可以保证找到其中一种模式(局部最大值),因此足够好。

结论

在这篇文章中,我们看到了线性回归有几个不同的观点。首先,我们研究了普通机器学习 PoV 中的线性回归的定义,然后是频率统计,最后是贝叶斯统计。

我们注意到使用 MAP 估计的线性回归的贝叶斯版本不是完全贝叶斯方法,因为 MAP 只是一种捷径。然后我们注意到为什么完全贝叶斯方法很难并且通常难以处理,即使在这个简单的回归模型上也是如此。

你可能感兴趣的:(深度学习,量化交易)