机器学习—多变量线性回归

多变量线性回归

往期内容

单变量线性回归

案例

波士顿房价预测:对房价模型增加更多的特征,如房间数目、楼层数、房屋的使用年龄,如下表

size( f e e t 2 feet^2 feet2) bedrooms_num floors_num home age price
2014 5 1 45 460
1416 3 2 40 232

模型表示

h θ ( x ) = θ 0 + θ 1 x 1 + θ 2 x 2 + . . . + θ n x n h_\theta(x)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_nx_n hθ(x)=θ0+θ1x1+θ2x2+...+θnxn
可以简化成:
h θ ( x ) = Θ T X h_\theta(x)=\Theta^TX hθ(x)=ΘTX

  • n代表特征数量
  • x ( i ) x^{(i)} x(i)代表第i个训练实例,即特征矩阵的第i行,是一个向量,如 x ( 2 ) x^{(2)} x(2)
    x ( 2 ) = [ 1416 3 2 40 ] x^{(2)} = \left[ \begin{matrix} 1416\\ 3\\ 2\\ 40 \end{matrix} \right] x(2)=14163240
  • x j ( i ) x_j^{(i)} xj(i)代表第i个实例的第j个特征,如 x 3 ( 2 ) x_3^{(2)} x3(2)=3; x 3 ( 3 ) x_3^{(3)} x3(3)=2;
  • X为特征矩阵,维度是:m*(n+1)

代价函数

J ( θ 0 , θ 1 , . . . , θ n ) = 1 2 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(\theta_0,\theta_1,...,\theta_n)=\frac{1}{2m}\sum_{i=1}^m{(h_\theta(x^{(i)})-y^{(i)})^2} J(θ0,θ1,...,θn)=2m1i=1m(hθ(x(i))y(i))2

梯度下降

θ 0 : = θ 0 − α 1 m ∑ i = 1 m ( ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x 0 ( i ) ) \theta_0:=\theta_0-\alpha\frac{1}{m}\sum_{i=1}^m{((h_\theta(x^{(i)})-y^{(i)})\cdot x_0^{(i)})} θ0:=θ0αm1i=1m((hθ(x(i))y(i))x0(i)) θ 1 : = θ 1 − α 1 m ∑ i = 1 m ( ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x 1 ( i ) ) \theta_1:=\theta_1-\alpha\frac{1}{m}\sum_{i=1}^m{((h_\theta(x^{(i)})-y^{(i)})\cdot x_1^{(i)})} θ1:=θ1αm1i=1m((hθ(x(i))y(i))x1(i)) . . . ... ... θ n : = θ n − α 1 m ∑ i = 1 m ( ( h θ ( x ( i ) ) − y ( i ) ) ⋅ x n ( i ) ) \theta_n:=\theta_n-\alpha\frac{1}{m}\sum_{i=1}^m{((h_\theta(x^{(i)})-y^{(i)})\cdot x_n^{(i)})} θn:=θnαm1i=1m((hθ(x(i))y(i))xn(i))
其中: x 0 ( i ) = 1 x_0^{(i)}=1 x0(i)=1;学习率 α \alpha α通常取0.001-1之间的值。

特征缩放

以房价问题为例:房屋尺寸和房间数量是两个尺度相差较大的特征。以两个参数绘制代价函数等高线图时,会得到一个很扁的图,梯度下降算法需要多次迭代才能收敛。对于多维特征问题,需要保证这些特征都具有相近的尺寸,具体解决方法是,将所有特征的尺度都尽量缩放到-1到1之间
常用的特征缩放方法 [ 1 ] ^{[1]} [1]有:

  1. 最大最小值归一化
    x ′ = x − m i n ( x ) m a x ( x ) − m i n ( x ) x'=\frac{x-min(x)}{max(x)-min(x)} x=max(x)min(x)xmin(x)
  2. 均值归一化
    x ′ = x − a v e r a g e ( x ) m a x ( x ) − m i n ( x ) x'=\frac{x-average(x)}{max(x)-min(x)} x=max(x)min(x)xaverage(x)
  3. 标准化
    x ′ = x − x ˉ σ x'=\frac{x-\bar x}{\sigma} x=σxxˉ
  4. 最大绝对值归一化
    x ′ = x ∣ ∣ m a x ( x ) ∣ ∣ x'=\frac{x}{||max(x)||} x=max(x)x

参考

[1]:特征缩放(Feature Scaling)

你可能感兴趣的:(吴恩达机器学习课程整理,机器学习)