机器学习Class 4:多元梯度下降法

目录

4-1 多功能

4-2 多元梯度下降法(Ⅰ模型)

4-3 多元梯度下降法(Ⅱ特征缩放)

1.特征缩放

2.均值归一化

4-4 多元梯度下降法(Ⅲ 学习率)

4-5 特征和多项式回归

1.特征

2.多项式

4-6 正规方程

1.正规方程

 2.比较

4-7 正规方程在不可逆情况下的解决方法


4-1 多功能

现有多个影响房价的特征:x1,x2,x3......,其数量为n,房价即输出为y,x^(i)表示第i个特征的特征向量,x^(i)_j:第i个训练样本中第j个特征量的值。此时假设函数为:h_Θ(x)=Θ_0+Θ_1+Θ_2...

 简化:

1.定义x_0=1。

2.x=[x_0;x_1;x_2......x_n],Θ=[Θ_0;Θ_1;Θ_2 ...Θ_n]

3.多元线性回归:h_Θ(x)=Θ^T*x

4-2 多元梯度下降法(Ⅰ模型)

当特征数大于等于1时

机器学习Class 4:多元梯度下降法_第1张图片

4-3 多元梯度下降法(Ⅱ特征缩放)

1.特征缩放

首先要确保特征取值在相近似的范围内

例如:x1取值范围:0~2000,x2取值范围:1~5

进行特征缩放:x1=x1/2000,x2=x2/5

 目的:使每个特征取值约束在接近-1~+1范围内

2.均值归一化

用xi-μi代替xi,使特征值具有为0的平均值

xi=(xi-μi)/si (si:范围,即最大值减去最小值,μi:第i个特征向量的平均值)

4-4 多元梯度下降法(Ⅲ 学习率)

绘制代价函数随迭代次数增长而变化的曲线: 

机器学习Class 4:多元梯度下降法_第2张图片

自动收敛测试:若代价函数值小于一个很小的值ε,则判断函数已经收敛。但通常ε值较难确定,因此常通过曲线图确定收敛情况。

若学习率太大:J(Θ)可能上升甚至不收敛

机器学习Class 4:多元梯度下降法_第3张图片

若学习率太小:J(Θ)下降较慢

 常用学习率值:......0.001、0.003、0.01、0.03、0.1、0.3、1......

4-5 特征和多项式回归

1.特征

假设影响房屋价格的两个因素为:x1=房屋长度,x2=房屋宽度

通常假设函数为:h_Θ(x)=Θ_0+Θ_1*x1+Θ_2*x2

但因为房屋面积x=x1*x2

因此假设函数为:h_Θ(x)=Θ_0+Θ_1*x

2.多项式

适当选择二次函数、三次函数、平方根函数,以更好的拟合数据曲线

4-6 正规方程

1.正规方程

不同于迭代算法,求出Θ最优解

假设一个代价函数

机器学习Class 4:多元梯度下降法_第4张图片

 对J(Θ)求导,并使其导数为0,求解Θ 为最优解。

假设一个数据集:

机器学习Class 4:多元梯度下降法_第5张图片

 构建包含所有变量的矩阵,及其输出向量

机器学习Class 4:多元梯度下降法_第6张图片

机器学习Class 4:多元梯度下降法_第7张图片

使用下式得到Θ最优解:

 无需进行特征缩放

 2.比较

梯度下降法         正规方程
需要多次迭代 不需要多次迭代
需要选择学习率 不需要选择学习率
即使特征数量n很大时,计算速度也很快 当n很大时,计算速度慢

 通常n≥10000时,考虑使用梯度下降法。在线性回归问题中,正规方程法更为可靠。

4-7 正规方程在不可逆情况下的解决方法

为什么会产生不可逆的情况?

1.特征冗杂

部分特征可以合并为同一特征

2.特征过多

 

你可能感兴趣的:(机器学习,机器学习)