datawhale李宏毅机器学习打卡——task02“回归”

学习任何知识,最好带着思考和疑问主动地去学,这样能更好地将知识内化,从而学以致用。
回归。什么是回归?为什么要回归?如何做到回归?(纵观这一小节,其实就是分这两大块展开讲的)

回归按我的理解就是一种找到数学加工厂,你把数据样本的特征给它,它就会吐出一个你想要的值。
视频中也是这么讲的,回归就是找到一个function,输入样本特征x,这个function会输出一个数值scalar。
为什么要费劲找这样的function,因为有“预测”的功能。比如根据股票以前的波动预测明天的涨跌、根据过去的房价预测未来的房价。
(任何程序或者工具,都是由问题驱动的。其实应该先引入人们想利用已有的数据对未来进行预测,因为有这个需求,所以催生了机器学习中的回归。)

回看一下定义,会发现回归的核心在于“找”。怎么找呢?找什么呢?
总结前人的经验,一般就三个步骤。
①模型假设,选择模型框架。(选择是线性的模型还是非线性的?线性的要选几个参数的?第一步就是先定好这些)
②模型评估,判断模型的好坏。(怎么判断?通过损失函数来判断,损失函数为什么能判断,因为损失函数衡量的是函数输出值与真实值之间的距离,这个距离越小,自然模型越好)
③模型优化,筛选最好的模型。(为什么要优化?经过步骤①之后,要做的就是找出模型参数,找什么样的参数呢?使损失函数最小的参数。找这个使损失最小参数的过程就是优化。那如何优化?梯度下降法。)

这个流程中有两个关键点,一是损失函数,二是梯度下降法。这两个再单独拎出来讲一下。

损失函数的核心就是函数,只不过这个函数的值,能够表征你要找的模型的好坏。

梯度下降法的核心是一种方法,一种寻找使损失函数最小对应参数的方法。这个方法也可以细分一下步骤:
1随机选取参数w0
2计算损失函数在w0处对w的梯度,并将该梯度乘以一个系数。(相乘得到的值称为△w)
3将w0减去上面相乘之后得到的值作为新的w1。(乘以一个值就是对原有的数值进行拉伸,因此这个系数决定了w0改变的大小,所以也叫作学习率。)
4对w1重复上述过程直到梯度很小,迭代系数也几乎不变。

任何数学方法都存在不足的,梯度下降法也是,它虽然为找到最优参数提供了途径,但也不能保证一定能找到最优。
因为实际情况中可能会遇到下面几种情况:
datawhale李宏毅机器学习打卡——task02“回归”_第1张图片
根据上面的步骤4可知,我们终止计算的条件是梯度接近0,也就是损失函数曲线(面)在很平或者凹点的地方。
全局来看这些地方不是最优点,那怎么避免找到这些伪优点呢?正则化。
正则化是如何巧妙规避这些的?因为没有搞懂这些的压力,所以暂时不知道。哪天懂了回来补。

将这一小节与前面的介绍部分缝合一下,上一节是系统介绍和串联那些经常出现的概念和名词,这一节的回归就是监督学习里面的一部分。

注:图片截取自李宏毅机器学习视频课。

你可能感兴趣的:(机器学习,回归,人工智能)