正规方程求解特征参数的推导过程

多变量线性回归代价函数为:

其中:

正规方程是通过求解下面的方程来找出使得代价函数最小的参数:

设有m个训练实例,每个实例有n个特征,则训练实例集为:

其中

表示第i个实例第j个特征。

特征参数为:

输出变量为:

进行求导,等价于如下的形式:

其中第一项:

其中第二项:
Y^TX\theta = [y^1 + y^2 ... + y^m] \left[ \begin{matrix} x_0^{(1)}&...&x_n^{(1)}&\\ ...&...&...&\\ x_0^{(m)}&...&x_n^{(m)}& \end{matrix} \right][ \theta_0,\theta_1,\theta_2 ... \theta_n ]^{T} = (x_0^1y^1 + ... + x_0^my^m)\theta_1 + (x_1^1y^1 + ... + x_1^my^m)\theta_0 + ... + (x_n^1y^1 + ... + x_n^my^m)\theta_n
该矩阵求导为分母布局下的标量/向量形式:
故有
\frac{\partial{Y^TX\theta}}{\partial{\theta}} = \left[ \begin{matrix} \frac{\partial{Y^TX\theta}}{\partial{\theta_0}}\\ ...\\ \frac{\partial{Y^TX\theta}}{\partial{\theta_n}} \end{matrix} \right] = \left[ \begin{matrix} x_0^1y^1 + ... + x_0^my^m\\ ...\\ x_n^1y^1 + ... + x_n^my^m \end{matrix} \right] = X^TY
第三项
\theta^TX^TY = [\theta^0 + \theta^1 ... + \theta^n] \left[ \begin{matrix} x_0^{(1)}&...&x_n^{(1)}&\\ ...&...&...&\\ x_0^{(m)}&...&x_n^{(m)}& \end{matrix} \right][ y_1,y_2 ... y_m ]^{T} = (x_0^{(1)}\theta_0 + ... + x_n^{(1)}\theta_n)y^{1} + ... +(x_0^{(m)}\theta_0 + ... + x_n^{(m)}\theta_n)y^{m}
该矩阵求导为分母布局下的标量/向量形式:
因此
\frac{\partial{\theta^TX^TY}}{\partial{\theta}} = \left[ \begin{matrix} \frac{\partial{\theta^TX^TY}}{\partial{\theta_0}}\\ ...\\ \frac{\partial{\theta^TX^TY}}{\partial{\theta_n}} \end{matrix} \right] = \left[ \begin{matrix} x_0^1y^1 + ... + x_0^my^m\\ ...\\ x_n^1y^1 + ... + x_n^my^m \end{matrix} \right] = X^TY

第四项:


为标量,可看成一个常数。 该矩阵求导为分母布局下的标量/向量形式,因而(二次型结合矩阵求导):

\frac{\partial{\theta^TX^TX\theta}}{\partial{\theta}} = \left[ \begin{matrix} \frac{\partial{\theta^TX^TX\theta}}{\partial{\theta_0}}\\ ...\\ \frac{\partial{\theta^TX^TX\theta}}{\partial{\theta_n}} \end{matrix} \right] = 2(X^TX)\left[ \begin{matrix} \theta_0\\ ...\\ \theta_n \end{matrix} \right] = 2X^TX\theta
综上,正规方程为:

最终可得特征参数的表示:

原文链接

原文

你可能感兴趣的:(正规方程求解特征参数的推导过程)