最小二乘法的证明以及最优化系数的求解 Least squares

定理:最小二乘法就是通过最小化误差的平方和寻找数据的最佳函数匹配,使得最后预测和真实值之差的平方的最小值最小


一、矩阵求导

Af(A) 代表的意思是:对于一个A矩阵(M x N), ij系数满足 ∂f/∂Aij ,即对矩阵里的元素求导

最小二乘法的证明以及最优化系数的求解 Least squares_第1张图片
For example : 

A为一个2 x 2矩阵即


有函数f(X)


则根据上面对矩阵求导法则



二、矩阵的迹以及相关公式

我们规定,矩阵的迹为矩阵的对角线元素之和


注:特别的,当矩阵为1 x 1位,它的迹就是它本身 ,tr A = A

相关迹的公式:

(1)

(2)

(3)3,4在记忆的时候,只需要把最后一个依次挪至前面即可

(4)

(5)

(6)

相关矩阵求导的公式:

最小二乘法的证明以及最优化系数的求解 Least squares_第2张图片


三、最小二乘法证明

1.我们仍旧是需要找到最相似的θ ,使J(θ)最小 (这里的J(θ)仍旧是方差最小值)

2.我们将已知数据集的输入部分X看做是一个M*N的数据集矩阵,将标签y看做M*1的矩阵 

最小二乘法的证明以及最优化系数的求解 Least squares_第3张图片     最小二乘法的证明以及最优化系数的求解 Least squares_第4张图片

3.我们仍旧使用前面根据线性回归的公式 : hθ(x(i)) = (x(i))T θ , 所以用Xθ - y 得到的就是一个矩阵形式的差值。 而在梯度下降里,得到的是每一行的差值

最小二乘法的证明以及最优化系数的求解 Least squares_第5张图片

4.根据矩阵的定理:

就有:

也就印证了前面梯度下降法那里推导出来的公式


5.使用前面关于迹和矩阵求导的公式推导左边这个公式即可:

根据矩阵求导那里的(2),(3),把tr后的看为一个整体,对A的转置矩阵求导,得到的也都是转置后的结果



6.对其进行推导:

最小二乘法的证明以及最优化系数的求解 Least squares_第6张图片

(注:第三行第一个运用了迹求导的(3),最后一个因为没有theta所以为0,中间两个运用了trA = trA^T , 将里面的看为一个整体A,就可以得到两个一模一样的) 

最优化的时候,导数为0,所以带入最终可得:



你可能感兴趣的:(机器学习笔记)