①Arthur Samuel:在没有明确设置的情况下,使计算机具有学习能力的研究领域。
e.g.跳棋游戏,使计算机与自己对弈上万次,使计算机学习到什么是好布局并获得丰富的下棋经验。
②Tom Mitchell:计算机程序从经验E中学习解决某一任务T,进行某一性能度量P,通过P测定在T上的表现因经验E而提高。
e.g.跳棋游戏:经验E是程序与自己下几万次跳、任务T是玩跳棋、性能度量P是与新对手玩跳棋时赢的概率。
教计算机如何去完成任务。它的训练数据是有标签的,训练目标是能够给新数据(测试数据)以正确的标签。
给定的数据集是真实的一系列连续的值。计算机通过学习选择适当的模型来模拟这个数据值(比如一次函数或二次函数等)。
计算机通过学习,根据输入的特征值,得出的结果是一个离散值,比如肿瘤问题,根据年龄、肿瘤大小,得出肿瘤是良性0或恶性1。
只给算法一个数据集,但是不给数据集的正确答案,由算法自行分类。
(平方误差代价函数):解决回归问题最常用的手段。
(其中m表示训练样本的数量)
优化目标:
不断改变的值,通过代价函数得到多组结果,并找到最小的的代价结果,即最优目标
此时,将代价函数变成三维图像以及平片图(等高线图),其中等高线最小椭圆中心点代表代价函数的最小值,即。
①初始化参数 和 的值(通常为0)
②不断地一点点改变两个参数 和 的值,使代价函数的值 变小,直到找到 的最小值或局部最小值。
其中被称为学习率,控制梯度下降的步子大小,越大,梯度下降越快。
同时, 和 的值需要同时更新,若先更新了 的值,会影响temp1的值,使其与同时更新的值不同。
在梯度下降法中,当接近局部最低点时,梯度下降法会自动采取更小的幅度(因为局部最低时导数等于零),所以越靠近最低点,导数值越小,所以实际上没有必要另外减小α.
矩阵中每个元素逐个乘以标量。
其中, 表示特征数量;表示第i组样本的特征值组合;表示第i组样本特征值中第j个特征值数据。
(为此特征的平均值,为此特征范围max-min)
e.g. 房子的面积(取值0~2000,假设平均面积为1000)
比如有一个住房价格数据集,可能存在多个不同的模型用于拟合。
但随着面积继续增大,住房价格开始下降,二次模型不合理。
但使用三次函数,需要进行特征缩放,因为三个特征值范围相差较大。
对于某些线性回归问题,是一种更好求参数最优值的方法。
求偏导,再求
根据例子可知
需要加入一列,令其都等于1
对求偏导并令其等于0得
可求得
梯度下降得缺点:①需要选择合适的学习率(需要运行多次尝试不同的学习率);②需要更多次迭代过程,计算可能会更慢。
正规方程的缺点:需要计算,若矩阵维度n较大,计算会很慢。
矩阵不可逆的情况很小,导致不可逆可能有以下两个原因:①两个及两个以上的特征量呈线性关系,如,此时可以删去其中一个。②特征量过多。当样本量较小时,无法计算出那么多个偏导,所以也求不出最优结果,这种情况可以在无影响的情况下,可以删掉一些,或进行正则化。