2022吴恩达 第一课第二周 学习总结

02_多元线性回归、多项式回归

在我们现实生活中,想要对一个数据进行预测时,能够影响其结果的往往不会是一种因素。因此当我们进行模型训练时,样本数据不再是(特征,标签)类别,而是(特征1,特征2,特征3…,标签),此时一个标签由多个特征来表示,(x1 ,x2,x3……,y)称为多维特征

而我们在模型中训练的目标函数也变为f(x1,x2……,xn)=w1x1 + w2x2 +……wnxn+b,因此该算法称为多元线性回归

而种表示方式在使用时,特别的繁琐,计算起来的太麻烦因此将使用“向量”的形式对其进行保存:X = (x1 , x2,x3……xn) W = (w1,w2,w3……wn)。我们的 f(x1,x2……,xn) = f(X)= X*W + b,其中(*)为向量内积,实现多维特征的向量化

在训练过程中,我们不可避免地将使用“梯度下降”对目标函数中的参数进行更新。对于多特征来说我们将分别对每一个wi参数进行计算,因为在对不同的wi求导时,其他的wi不会对其造成影响。因此我们可以使用向量内积相乘的形式进行计算 W = W - α ∑(f(X) - Y ),此时的W,X,Y都为向量形式,通过这样的一次计算,就实现了多元线性回归的梯度下降

对于多维特征,不同的特征代表的含义不同,也就使得不同的特征的数据范围不同,而存在多个特征且不同特征范围差别较大时,我们初始化时如果随机定义的参数wi的不是很优秀,并且wi对应的xi又是一个取值范围很大的数比如(min=1,max=10000),那么当xi=1时学习到的wi对xi = 10000时的负影响很大。我们使用归一化(标准化)的方式对样本数据进行一个预处理。使得特征范围都在一个比较小的范围当中,这个范围可以是任意范围。因此,当我们在进行wi参数更新时,前一个xi不会对后一个xi产生较大的负影响。这种称为特征放缩,因为相同特征样本数据做相同的处理,因此不会对目标函数需要生成的wi产生影响。

当我们使用梯度下降的时候,很重要的一点是合适对停止对参数的更新?(停止梯度下降

1.我们画出训练次数和损失函数的图像,当图像趋向于平缓是,判断该次数可以停止训练。

2.使用自动停止梯度下降,我们规定一个阈值(0.001),当w下降的值小于0.001时,我们就认为训练可以结束,停止梯度下降。

我们一直没有考虑的是 α 的取值,对于学习率α,我们一定要找到合适的值,α 过大会导致梯度下降时方向来回变换,α 较小时会使得梯度下降速率变慢。一般采用一个较小的学习率,然后同倍数开始增加。

对于多维特征来说,我们的标签不一定由已有的特征来表示特征,需要我们在已有的特征的情况下对特征进行重新的构造,得到新的特征。比如预测一个房屋的价格,我们已有其 长、宽特征,而长宽可能不是影响其价格的特征,而是其面积长 * 宽,因此我们构造出新的特征面积,面积由长*宽表示,该数据样本变为(长,宽,面积=长*宽,标签),这种操作称为特征工程

有些时候线性的方程往往不能很好的拟合我们的样本点,f(x) = wx + b 不能很好的预测。可以构造出其他类型方程。比如:f(x) = w1x1 + w2x2^2 +b 平方

f(x) = w1x1 + w2x2^2 + w3x3^3+b 三次方

f(x) = w1x1 + w2x2^2 + w3x3^3+b 开根号

称f(x)为多项式回归

你可能感兴趣的:(机器学习,回归,人工智能)