最小二乘估计,矩阵方法求解

D = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . ( x N , y N ) } x i ∈ R p ( x i 是 一 个 列 向 量 ) , y i ∈ R , i = 1 , 2 , . . . , N X = [ x 1 x 2 ⋯ x N ] T = [ x 1 T x 2 T ⋮ x N T ] = [ x 11 x 12 ⋯ x 1 P x 21 x 22 ⋯ x 2 P ⋮ ⋮ ⋱ ⋮ x N 1 x N 2 ⋯ x N P ] N × P Y = [ y 1 T y 2 T ⋮ y N T ] N × 1 我 们 拟 合 的 直 线 的 方 程 : f ( W ) = W T x + b 为 了 方 便 计 算 , 我 们 将 b 转 变 成 w 0 x 0 , x 0 等 于 1 , w 0 等 于 b f ( W ) = W T x W = [ w 1 T w 2 T ⋮ w P T ] P × 1 最 小 二 乘 法 估 计 : L ( W ) = ∑ i = 1 N ∣ ∣ W T x i − y i ∣ ∣ 2 = ∑ i = 1 N ( W T x i − y i ) 2 = [ W T x 1 − y 1 W T x 2 − y 2 ⋯ W T x N − y N ] [ W T x 1 − y 1 W T x 2 − y 2 ⋮ W T x N − y N ] = ( [ W T x 1 W T x 2 ⋯ W T x N ] − [ y 1 y 2 ⋯ y N ] ) [ W T x 1 − y 1 W T x 2 − y 2 ⋮ W T x N − y N ] = ( W T [ x 1 x 2 ⋯ x N ] − [ y 1 y 2 ⋯ y N ] ) [ W T x 1 − y 1 W T x 2 − y 2 ⋮ W T x N − y N ] = ( W T X T − Y T ) [ W T x 1 − y 1 W T x 2 − y 2 ⋮ W T x N − y N ] = ( W T X T − Y T ) ( X W − Y ) = W T X T X W − W T X T Y − Y T X W + Y T Y = W T X T X W − 2 W T X T Y + Y T Y   W ^ = a r g m i n L ( W ) ∂ L ( W ) ∂ W = 2 X T X W − 2 X T Y = 0 ∴ X T X W = X T Y W = ( X T X ) − 1 X T Y \begin{aligned} D&=\{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}\\ x_i&\in \mathbb{R}^p(x_i是一个列向量),y_i\in \mathbb{R},i=1,2,...,N\\ X&=\left[ \begin{matrix} x_1 & x_2 & \cdots & x_N \\ \end{matrix} \right]^T\\ &=\left[ \begin{matrix} x_1^T \\ x_2^T \\ \vdots\\ x_N^T \\ \end{matrix} \right]\\ &=\left[ \begin{matrix} x_{11} & x_{12} & \cdots & x_{1P} \\ x_{21} & x_{22} & \cdots & x_{2P} \\ \vdots & \vdots & \ddots & \vdots \\ x_{N1} & x_{N2} & \cdots & x_{NP} \\ \end{matrix} \right]_{N\times P}\\ Y&= \left[ \begin{matrix} y_1^T \\ y_2^T \\ \vdots\\ y_N^T \\ \end{matrix} \right]_{N\times 1}\\ 我们&拟合的直线的方程:\\ f(W)&=W^Tx+b\\ 为了&方便计算,我们将b转变成w_0x_0,x_0等于1,w_0等于b\\ f(W)&=W^Tx\\ W&=\left[ \begin{matrix} w_1^T \\ w_2^T \\ \vdots\\ w_P^T \\ \end{matrix} \right]_{P\times 1}\\ &最小二乘法估计:\\ L(W)&=\sum_{i=1}^N||W^Tx_i-y_i||^2\\ &=\sum_{i=1}^N(W^Tx_i-y_i)^2\\ &=\left[ \begin{matrix} W^Tx_1-y_1 & W^Tx_2-y_2 & \cdots & W^Tx_N-y_N \\ \end{matrix} \right] \left[ \begin{matrix} W^Tx_1-y_1 \\ W^Tx_2-y_2 \\ \vdots\\ W^Tx_N-y_N \\ \end{matrix} \right]\\ &=(\left[ \begin{matrix} W^Tx_1 & W^Tx_2 & \cdots & W^Tx_N \\ \end{matrix} \right]-\left[ \begin{matrix} y_1 & y_2 & \cdots & y_N \\ \end{matrix} \right])\left[ \begin{matrix} W^Tx_1-y_1 \\ W^Tx_2-y_2 \\ \vdots\\ W^Tx_N-y_N \\ \end{matrix} \right]\\ &=(W^T\left[ \begin{matrix} x_1 & x_2 & \cdots & x_N \\ \end{matrix} \right]-\left[ \begin{matrix} y_1 & y_2 & \cdots & y_N \\ \end{matrix} \right])\left[ \begin{matrix} W^Tx_1-y_1 \\ W^Tx_2-y_2 \\ \vdots\\ W^Tx_N-y_N \\ \end{matrix} \right]\\ &=(W^TX^T-Y^T)\left[ \begin{matrix} W^Tx_1-y_1 \\ W^Tx_2-y_2 \\ \vdots\\ W^Tx_N-y_N \\ \end{matrix} \right]\\ &=(W^TX^T-Y^T)(XW-Y)\\ &=W^TX^TXW-W^TX^TY-Y^TXW+Y^TY\\ &=W^TX^TXW-2W^TX^TY+Y^TY\\ ~\\ \hat{W}&=argmin L(W)\\ \frac{\partial L(W)}{\partial W}&=2X^TXW-2X^TY=0\\ \therefore X^TXW&=X^TY\\ W&=(X^TX)^{-1}X^TY \end{aligned} DxiXYf(W)f(W)WL(W) W^WL(W)XTXWW={(x1,y1),(x2,y2),...(xN,yN)}Rp(xi),yiR,i=1,2,...,N=[x1x2xN]T=x1Tx2TxNT=x11x21xN1x12x22xN2x1Px2PxNPN×P=y1Ty2TyNTN×1线=WTx+b便bw0x0,x01w0b=WTx=w1Tw2TwPTP×1=i=1NWTxiyi2=i=1N(WTxiyi)2=[WTx1y1WTx2y2WTxNyN]WTx1y1WTx2y2WTxNyN=([WTx1WTx2WTxN][y1y2yN])WTx1y1WTx2y2WTxNyN=(WT[x1x2xN][y1y2yN])WTx1y1WTx2y2WTxNyN=(WTXTYT)WTx1y1WTx2y2WTxNyN=(WTXTYT)(XWY)=WTXTXWWTXTYYTXW+YTY=WTXTXW2WTXTY+YTY=argminL(W)=2XTXW2XTY=0=XTY=(XTX)1XTY

你可能感兴趣的:(Machine,Learning)