机器学习(四)——最小二乘(Least squares)

原文:http://cs229.stanford.edu/notes/cs229-notes1.pdf

借助矩阵导数的工具,现在让我们继续以封闭的形式找到\theta的值,使得J(\theta )最小化。我们从用矩阵向量表示法重写J开始。

给定一个训练集,设计矩阵Xm\times n矩阵,(实际上是m\times (n+1),如果我们包括拦截项),其中每一行为训练样本的输入值:

机器学习(四)——最小二乘(Least squares)_第1张图片

另外,让是包含训练集中所有目标值的m维向量:

机器学习(四)——最小二乘(Least squares)_第2张图片

现在,由于,我们可以很容易的证明:

机器学习(四)——最小二乘(Least squares)_第3张图片

因此,利用一个向量z的的性质,即,我们有

机器学习(四)——最小二乘(Least squares)_第4张图片

下面给出一些矩阵之间的关系,不做证明:

机器学习(四)——最小二乘(Least squares)_第5张图片

最后,为了最小化J,让我们找出它与\theta有关的导数。结合方程(2)和(3),我们发现

因此:

机器学习(四)——最小二乘(Least squares)_第6张图片

 

在上面推导过程的第三步中,我们用到了一个定理,即一个实数的迹是它本身;第四步用到了trA=trA^{T}这个定理,最后一项不含\theta求导时可舍去;第五步使用了等式 (5) ,令 A^{T}=0,B=B^{T}=X^{T}X,和C=I,以及等式 (1) 。为了最小化J,我们令导数为0,就得到了它的 正规方程(normal equations) :

 

因此,最小化J(\theta )\theta的闭式解(解析解)如下:

 

 

如何使用等式(5),下面给出了说明:

机器学习(四)——最小二乘(Least squares)_第7张图片

 

你可能感兴趣的:(machine,learning,machine,learning,machine,learning)