机器学习笔记(一) 线性回归和logistic回归

最近吸收了不少机器学习方面的知识,写个笔记来总结一下:

线性回归和logistics回归的目的

我现在对机器学习的理解当然处于一个低维,简单的状态。与本人拙见,上述两种算法的目的是为了得到对应所有特征的权重
我们来简单分析一下,CS229给了一个预测房价的例子,那么对应于我们从直观上理解的目的,也就是预测的房价。其产生的途径是输入的特征值和权重,然而我们想要的就是权重。所以说机器学习的主要目的其实就是得到一个由权重组成的模型。

线性回归:

1.线性回归的概念

同样是上面房价预测的例子,对于我们人类来说,假设给我们N个特征的值(比如房子面积,建造时间,etc),我们如何去预测房价呢?
猜呗
我们做一些找一组数规律的数学题,好比我们知道了这一些数是线性相关的(当然也有可能是服从多项式规律,这个先不谈),那么我们首先就可以得到一个模型: y=wx+b ,简单的一元一次方程。那么我们现在要做的就是找到(猜出)参数w和b,就可以找到规律了
我们先来推广一下,现在有N个特征(输入,自变量)和对应的输出y(输出,因变量),那么我们的模型就变成了 y=wTx+b ,这样的向量的形式。
那么我们(人类)如何确定这些参数呢?,之后用才出来的结果h(假设)来对应每个y进行检查,如果每个h都等于y,就说明我们的模型,也就是参数是正确的。
机器学习也是一样的道理,只不过机器学习面对的是更大规模的数据,和更复杂的问题,为此我们要想衡量我们模型的正确度,就需要计算出误差,就需要最小二乘法了。
简单的来说,最小二乘法就是寻找 wT 和 b ,使得h和x的均方误差是最小的。经过复杂的数学运算XD……最后找到的参数,就是我们理想的模型。

2.线性回归:方法

我们现在有一个样本集D,每一个样本对应d个属性
则有h(x) = θ1x1+θ2x2+θ3x3+⋯+θnxn + θ0
现在我们就是要得出所有的θ,使得我们刚才所说的误差函数为最小,那么用高中知识来求解最小值大家都知道,但是放到机器上是一个很大的工程,所以我们可以近似地去求极小值。这里需要使用梯度下降的方法。
什么是梯度下降?简单的说,就是给函数自变量一个固定增加(减小)的方向,更新方式是这样的 xi1=xi+αgk ,其中 gk 代表负梯度方向,这说明我们要对d个特征都求一次偏导,。 α 代表学习率,也就是每一次迭代的步长,经过若干次迭代之后,梯度会趋近于零,这时候就相当于找到了最小值。
简要过程就是,求解h,计算梯度,更新参数,直到迭代结束。

logistic回归:

logistic回归其实不是线性回归求预测值的问题,而是二分类问题。首先我们的线性回归模型输出的预测值,是一个实际的数字,那么星我们想将他部署到而分类问题,就需要让输出值转换到0/1就可以了,这里引入一个新的函数sigmoid y=11+ez 函数,图像是这样的:

此时我们将线性模型产生的预测值带入sigmoid函数,函数会输出相对应的二分类的概率,具体的训练方法和上面的线性回归是一样的,不同的是误差函数的求导,具体的数学过程不再赘述。

总结

线性回归是传统机器学习技术和神经网络技术的基石,首先了解好线性回归,会对以后的学习有帮助

你可能感兴趣的:(machine,learning)