机器学习入门笔记(三)

特征缩放

如下图的数据情况
机器学习入门笔记(三)_第1张图片
图中的房子价格与房间数量大小相差较大,因此在回归预测时所得的模型可能不够准确。
因此引入特征缩放,常用的特征缩放方法由两种:
(一)数据归一化:把数据的取值范围处理为0~1或者 -1~1
任意数据转化为0~1之间:newValue=(oldValue-min)/(max-min)
任意数据转化为-1~1之间:newValue=[(oldValue-min)/(max-min)-0.5]*2
(二)均值标准化: newValue=(oldValue-u)/s
u为平均值,s为方差。

交叉验证法

当数据集数量太少时,用该方法做模型训练,以得到最小的误差。如下图所示:
机器学习入门笔记(三)_第2张图片
例如将数据分为10份,每次将其中9分用于训练模型,剩下1份用于测试,如此会有10种不同的结果的误差,最后求误差平均值。

过拟合

过拟合时机器学习中常见且不可避免的情况,具体表现为训练所得的模型在训练集表现好而在测试集表现糟糕,如下列几种情况:
机器学习入门笔记(三)_第3张图片
防止过拟合的方法一般分为以下几种:
(1)减少特征数
(2)增加数据量
(3)正则化

注:过拟合在模型上表现为过于复杂

正则化

L1正则化: J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + λ ∑ j = 1 n θ j ] J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\lambda\sum_{j=1}^{n}\theta_j] J(θ)=2m1[i=1m(hθ(xi)yi)2+λj=1nθj]

L2正则化: J ( θ ) = 1 2 m [ ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + λ ∑ j = 1 n θ j 2 ] J(\theta)=\frac{1}{2m}[\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\lambda\sum_{j=1}^{n}\theta_j^ 2] J(θ)=2m1[i=1m(hθ(xi)yi)2+λj=1nθj2]

岭回归

岭回归:在标准方程法中 X T X X^TX XTX不可逆时(数据特征数n>样本个数m),引入岭回归,将 X T X X^TX XTX后加入 λ \lambda λI ,其中I为单位阵,最终用标准方程法仍可求得参数w= ( X T X + λ I ) − 1 X T y (X^TX+\lambda I)^{-1}X^Ty (XTX+λI)1XTy
岭回归使用L2正则化: J ( θ ) = 1 2 m ∑ i = 1 m ( h θ ( x i ) − y i ) 2 + β ∑ j = 1 n θ j 2 J(\theta)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x_i)-y_i)^2+\beta\sum_{j=1}^{n}\theta_j^2 J(θ)=2m1i=1m(hθ(xi)yi)2+βj=1nθj2
其中 β \beta β称为正则系数
用矩阵可写成: J ( θ ) = 1 2 ( X T θ − Y ) ( X θ − Y ) + β θ T θ J(\theta)=\frac12(X^T\theta-Y)(X\theta-Y)+\beta\theta^T\theta J(θ)=21(XTθY)(XθY)+βθTθ
θ \theta θ求偏导可知 θ = ( X T X + β I ) − 1 X T y \theta=(X^TX+\beta I)^{-1}X^Ty θ=(XTX+βI)1XTy

β \beta β的选择原则为:
(1)参数变化区域稳定
(2)残缺平方值较小

你可能感兴趣的:(机器学习,岭回归,数据归一化,特征缩放)