李宏毅机器学习笔记

DataWhale–李宏毅老师机器学习P5-P8《误差来源》和《梯度下降法》学习笔记

学习笔记

本文是李宏毅老师B站–《机器学习》课程的学习笔记,在此非常感谢DataWhale提供的平台,希望大家加入到这个学习的大家庭中,共同成长。
本文主要是关于误差来源梯度下降法的介绍,是在老师的讲解视频和学习文档的基础上总结而来。

一、误差来源

在机器学习中,模型估计的误差可以分为两种,偏差(Bias)和方差(Variance)。偏差可以认为是模型估计(假设多次拟合模型,取多次估计值的平均值)和真实值之间的差距,越小说明模型估计越准确;方差可以认为是模型估计本身之间(假设多次拟合模型)的差异,方差越大,模型的估计越不稳定。
理想的情况是,找到低偏差和低方差的模型,使最终的预测误差最小化。但是方差和偏差并不总能同向变化,其变化方向甚至相反。
以下是两种常见的误差形式,一为高偏差,一为高方差:
1.高偏差
高偏差往往和模型的欠拟合联系在一起,常见的解决方式如下:
加入更多的特征;使模型更加复杂等。
2.高方差
高方差往往和模型的过拟合联系在一起,常见的解决方式如下:
使用更多的训练数据;使用正则化方法等。

误差的应用——模型选择

对于偏差和方差,往往取二者的折衷,以使总的误差最小,从而选择适宜的模型。
在实际应用中,常采用交叉验证的方式选择模型,即将数据集划分为训练集、验证集、测试集,训练集训练模型,验证集选择误差最小的模型,最终模型的评价是在测试集上进行。需要注意的是,测试集不能参与模型的调整,否则会影响模型的泛化性能。
交叉验证可能会使模型的训练数据较少,造成数据的浪费,还有一种更常见的模型选择方式,K折交叉验证,即将训练集平均分为k份,每次取其中的一份作为验证集,其余作为训练集,通过模型在k份验证集上的平均误差,来衡量模型的误差,最后应用到测试集中。同样需要注意,测试集不能参与模型的调整,否则会影响模型的泛化性能。

二、梯度下降法(补充)

由于之前讲过梯度下降法,这次是作为补充讲解的,内容也更为深入。
关于梯度下降法,李宏毅老师给了一些模型训练的Tips,如下:
Tips1.调整学习率:审慎调整学习率;自适应学习率;Adagrad算法
Tips2.特征缩放:通过特征缩放,更有利于梯度下降法更好、更快地寻找到全局最优点
Tips3.随机梯度下降法:较传统的梯度下降法,即一次考虑所有样本的损失,随机梯度下降法一次考虑一个样本的损失,更快地更新迭代模型参数,效率更高

梯度下降法的数学基础

对损失函数进行泰勒展开,然后就可以求得梯度下降法的更新公式,即原参数 = 原参数-η*参数梯度。
本文只是对梯度下降算法进行简单地介绍,待以后有时间再进行补充,各位也可以查阅李宏毅老师的B站视频、DataWhale的开源文档及其他资料,十分感谢

参考文献及视频链接

B站19版视频链接: https://www.bilibili.com/video/BV1Ht411g7Ef.
datawhale学习文档: https://datawhalechina.github.io/leeml-notes/#/chapter3/chapter3.

你可能感兴趣的:(机器学习,人工智能,深度学习)