(1)第一个步骤就是找一个function,第二个步骤让machine可以衡量一个function是好还是不好,第三个步骤是让machine有一个自动的方法,有一个好演算法可以挑出最好的function。
大家注意一下这个不同的方块,我是用不同的颜色来表示。同样的颜色不同的方块是同一个类型的,这边的蓝色的方块,指的是学习的情景,通常学习的情景是你没有办法控制的。比如,因为我们没有data做监督学习,所以我们才做reinforcement learning。现在因为Alpha Go比较火,所以Alpha Go中用到的reinforcement learning会被认为比较潮。所以说有学生去面试,说明自己是做监督学习的,就会被质疑为什么不做reinforcement learning。那这个时候你就应该和他说,如果我今天可以监督学习,其实就不应该做reinforcement learning。reinforcement learning就是我们没有办法做监督学习的时候,我们才做reinforcement learning。红色的是指你的task,你要解的问题,你要解的这个问题随着你用的方程的不同,有regression、有classification、有structured。所以在不同的情境下,都有可能要解这个task。最后,在这些不同task里面有不同的model,用绿色的方块表示。
回归任务:
模型步骤
step1:模型假设,选择模型框架(线性模型)
step2:模型评估,如何判断众多模型的好坏(损失函数)
step3:模型优化,如何筛选最优的模型(梯度下降)
Step 1:模型假设 - 线性模型
一元线性模型(单个特征)
所以我们假设 线性模型 Linear model:y = b + \sum w_ix_iy=b+∑wixi
x_ixi:就是各种特征(fetrure) x_{cp},x_{hp},x_w,x_h,···xcp,xhp,xw,xh,⋅⋅⋅
w_iwi:各个特征的权重 w_{cp},w_{hp},w_w,w_h,··wcp,whp,ww,wh,⋅⋅
bb:偏移量
注意:接下来的内容需要看清楚是【单个特征】还是【多个特征】的示例.
损失函数:
判断模型最好的方法就是损失函数最小:
最佳模型 - 梯度下降:
首先在这里引入一个概念 学习率 :移动的步长,如图7中 \etaη
步骤1:随机选取一个 w^0w0
步骤2:计算微分,也就是当前的斜率,根据斜率来判定移动的方向
大于0向右移动(增加ww)
小于0向左移动(减少ww)
步骤3:根据学习率移动
重复步骤2和步骤3,直到找到最低点。
梯度下降算法在现实世界中面临的挑战
我们通过梯度下降gradient descent不断更新损失函数的结果,这个结果会越来越小,那这种方法找到的结果是否都是正确的呢?前面提到的当前最优问题外,还有没有其他存在的问题呢?
其实还会有其他的问题:
问题1:当前最优(Stuck at local minima)
问题2:等于0(Stuck at saddle point)
问题3:趋近于0(Very slow at the plateau)
模型优化的问题.
Pokemon:原始的CP值极大程度的决定了进化后的CP值,但可能还有其他的一些因素。
Gradient descent:梯度下降的做法;后面会讲到它的理论依据和要点。
Overfitting和Regularization:过拟合和正则化,主要介绍了表象;后面会讲到更多这方面的理论
演示:
偏差大-欠拟合
此时应该重新设计模型。因为之前的函数集里面可能根本没有包含f^*f∗。可以:
将更多的函数加进去,比如考虑高度重量,或者HP值等等。 或者考虑更多次幂、更复杂的模型。 如果此时强行再收集更多的data去训练,这是没有什么帮助的,因为设计的函数集本身就不好,再找更多的训练集也不会更好。
训练集不好
方差大-过拟合
简单粗暴的方法:更多的数据。
训练集好。但是测试集不好。