2022吴恩达机器学习课程学习笔记(第一课第二周)

2022吴恩达机器学习课程学习笔记(第一课第二周)

  • 多维特征
  • 向量化
  • 用于多元线性回归的梯度下降法
    • 多元线性回归的实现
    • 正规方程
  • 特征缩放
    • 特征大小、参数大小以及梯度下降之间的关系
    • 特征缩放定义
    • 特征缩放实现
  • 判断梯度下降是否收敛
    • 画学习曲线图
    • 自动收敛测试
  • 如何设置学习率
  • 特征工程
  • 多项式回归

多维特征

上周我们学习了单特征线性回归模型,但通常情况我们会有很多个特征作为模型的输入,此时,记 n 为特征的总数,x(i) (粗体表示向量)表示第 i 个样例,xj 为第 j 个特征,x(i)j 表示第 i 个样例中的第 j 个特征。
多个特征的线性回归模型被称为多元线性回归模型,表示如下。
2022吴恩达机器学习课程学习笔记(第一课第二周)_第1张图片
dot 表示向量的内积,即对应位置元素相乘相加。

向量化

使用向量化方法会使你的代码更简洁、运行更高效,还可以利用现代数值线性代数库,甚至可能使用GPU加速执行你的代码。
2022吴恩达机器学习课程学习笔记(第一课第二周)_第2张图片
dot 使用并行硬件的能力使其更加高效。
2022吴恩达机器学习课程学习笔记(第一课第二周)_第3张图片
没有使用向量化时,计算机一次执行一步地计算这些数据。
使用向量化时,使用专门的硬件一次得到 wx 的所有值,并行地将每对 w 和 x 相乘,然后一次取出16个结果,使用专门的硬件高效地相加。

用于多元线性回归的梯度下降法

多元线性回归的实现

2022吴恩达机器学习课程学习笔记(第一课第二周)_第4张图片
2022吴恩达机器学习课程学习笔记(第一课第二周)_第5张图片

正规方程

使用一个高级线性代数库,无需迭代即可在一个目标中求解 w 和 b。
缺点:只适用于线性回归,没有推广到其他学习算法;如果特征数量很多(大于10000),正规方程方法很慢。
正规方程方法一般不需要自己实现,通常在实现线性回归的机器学习库函数中实现。

特征缩放

特征大小、参数大小以及梯度下降之间的关系

当一个特征的取值范围很大时,一个好的模型更有可能学会选择一个相对较小的参数值;同样,当特征值的取值范围很小时,它对应的参数会比较大。

2022吴恩达机器学习课程学习笔记(第一课第二周)_第6张图片
在 Features 图中,散点在水平轴的分布范围比在垂直轴的分布范围更大,这是因为 x1 的取值范围比 x2 更大。
在 Parameters 图中,水平轴的分布范围比在垂直轴的分布范围更小,这是因为 w1 的一个非常小的变化都会对估计价格和代价函数产生非常大的影响,而 w2 需要很大的变化才会很大程度地改变估计价格。
运行梯度下降时,可能会来回弹跳很长一段时间,才能找到最终通往最低点地道路。

特征缩放定义

对训练数据进行一些转换,以便不同特征都采用比较接近的取值范围,提高梯度下降的速度。
2022吴恩达机器学习课程学习笔记(第一课第二周)_第7张图片

特征缩放实现

  • 所有特征除以其对应的最大值
    2022吴恩达机器学习课程学习笔记(第一课第二周)_第8张图片

  • 均值归一化,所有特征减去特征平均值除以特征的取值范围(最大值减最小值)
    2022吴恩达机器学习课程学习笔记(第一课第二周)_第9张图片

  • Z-score 归一化,所有特征减去特征平均值除以特征标准差
    2022吴恩达机器学习课程学习笔记(第一课第二周)_第10张图片

特征缩放的区间没有严格限制,不一定是[-1,1],但是不能太大,如[-1000,1000],也不能太小,如[-0.001,0.001]。

判断梯度下降是否收敛

画学习曲线图

2022吴恩达机器学习课程学习笔记(第一课第二周)_第11张图片
代价函数值在每次迭代都会下降的,如果在某一次迭代后代价函数值增加,这意味着学习率 α 选择不当或代码中存在错误。
不同的程序梯度下降算法收敛需要的迭代次数是不同的。

自动收敛测试

2022吴恩达机器学习课程学习笔记(第一课第二周)_第12张图片
当再一次迭代中,代价函数降低的变化低于阈值时就说明已经收敛,停止运行,但通常找到合适的阈值是很难的。

如何设置学习率

选择一个足够小的学习率,此时每次迭代代价函数应该是减小的,如果在某次迭代中增加了,这通常意味着代码存在错误。
注意:将 α 设置得非常小只是调试方法,但不会是一个最有效的学习率选择。
2022吴恩达机器学习课程学习笔记(第一课第二周)_第13张图片
目标:找到一个下降速度最快始终保持下降的学习率。

特征工程

特征的选择会对算法的性能产生巨大影响。
所谓特征工程,就是根据你的直觉,通过变换或组合原始特征来设计新的特征,以使学习算法更容易做出准确的预测。

多项式回归

多项式回归,可以让我们拟合曲线,也就是非线性函数。
2022吴恩达机器学习课程学习笔记(第一课第二周)_第14张图片
对于这种散点图,可以拟合 x3 图像 或 x1/2图像。

你可能感兴趣的:(机器学习,机器学习,人工智能)