机器学习(五)——概率解释(Probabilistic interpretation)

原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf

当面临回归问题时,为什么线性回归,特别是为什么最小二乘损失函数J可能是一个合理的选择?在本节中,我们将给出一组概率假设,在此假设下,最小二乘回归是一种非常自然的算法。

让我们假设目标变量和输入是通过下面的方程关联的

上面的\epsilon ^{(i)}是误差项,用于考虑建模时忽略的变量所产生的影响( 比如可能某些特征对于房价的影响很明显,但我们做回归的时候忽略掉了)或者随机的噪声(random noise)。让我们进一步假设 \epsilon ^{(i)}是独立同分布的 (IID ,independently and identically distributed) ,服从高斯分布(Gaussian distribution ,也叫正态分布 Normal distribution),其平均值为 0,方差(variance)为\sigma ^{2}。据此,\epsilon ^{(i)}的概率密度函数可以写成:

机器学习(五)——概率解释(Probabilistic interpretation)_第1张图片

可以推出:

机器学习(五)——概率解释(Probabilistic interpretation)_第2张图片

这里的记号p(y^{(i)}|x^{(i)};\theta )表示的是这是一个给定x^{(i)}y^{(i)}的分布,并且由\theta参数化。此处y^{(i)}的分布还可以写成 y^{(i)}|x^{(i)};\theta~\mathbb{N}(\theta ^{T}x^{(i)},\sigma ^{2})

给定设计矩阵X(包含了所有的x^{(i)})和\theta​, 那么y^{(i)}的分布是什么?数据的概率以 的形式给出。当\theta取固定值的时候,这经常被看作是一个关于 
(或者是X)的函数。当我们想要显式地把它看做一个关于 \theta​的函数时,我们称之为 似然(likelihood) 函数:

注意,通过上的独立假设,这也可以写成

机器学习(五)——概率解释(Probabilistic interpretation)_第3张图片

现在,考虑到这个关于的概率模型,选择参数θ的最佳猜测的合理方法是什么?最大似然原理认为,应选择θ,使数据尽可能高概率。也就是说,我们应该选择θ来最大化L(θ)。我们不仅可以使L(θ)最大化,还可以使L(θ)的任意严格增长函数最大化。特别是,如果我们用最大化对数似然函数ℓ(θ)代替,那么派生就会简单一些:

机器学习(五)——概率解释(Probabilistic interpretation)_第4张图片

因此,最大化ℓ(θ)给出了与最小化下面公式相同的答案。

机器学习(五)——概率解释(Probabilistic interpretation)_第5张图片

它就是J(θ),我们最初的最小二乘代价函数。

总结:在以往对数据的概率假设下,最小二乘回归对应于寻找θ的最大似然估计。因此,这是一套假设。 其中最小二乘回归可以被证明是一种非常自然的方法,它只是在做最大似然估计。(但要注意的是,概率假设并不是必要的。 最小二乘是一个完美的、合理的过程,而且可能--而且确实有--其他的自然假设也可以用来证明它的合理性。)

还请注意,在前面的讨论中,我们对θ的最终选择并不取决于什么是σ2,事实上,即使σ2未知,我们也会得到相同的结果。我们会利用这个事实之后,当我们讨论指数族和广义线性模型时。

 

 

 

你可能感兴趣的:(machine,learning,machine,learning)