线性回归梳理

机器学习的一些概念

有监督:训练数据的结果已被告知

无监督:不告诉结果,让算法自行判断

泛化能力:导入更多数据时是否还能近似得到正确结果,也是训练模型模型适应新样本的能力,评判一个学习算法的好坏。

过拟合:高方差,低偏差
解决办法:使用正则化项

欠拟合:高偏差,低方差。这时增加样本数量是没用的。
解决办法:增加特征

可以通过学习曲线判断学习算法是处于欠拟合还是过拟合。

交叉验证:机器学习中确定超参数的通用的方法,用以评价不同分类器的性能。
超参数:超参数是在开始学习过程之前设置值的参数,而不是通过训练得到的参数数据。

线性回归的原理:用线性模型尽可能拟合数据,预测一个连续输出的值。

损失函数:一个样本的误差
代价函数:整个样本集的误差的平均值
目标函数:cost function + regularization

优化方法

梯度下降法:种求局部最优解的方法,对于F(x),在a点的梯度是F(x)增长最快的方向,那么它的负方向则是该点下降最快的方向,又称最速下降法。


公式

牛顿法:利用迭代点求一阶导数(梯度)和二阶导数(Hessen矩阵)求解。牛顿法收敛速度相比梯度下降法很快,而且由于Hessen矩阵的的逆在迭代中不断减小,起到逐渐缩小步长的效果。

拟牛顿法:不求二阶偏导数,构造出一个近似的Hessen矩阵。

牛顿法和拟牛顿法都是无约束优化算法。

线性回归的评估指标

均方误差:


MSE

均方根误差


RMSE

平均绝对误差MAE:
MAE

R方:


R Squared

sklearn

sklearn是Scipy的扩展,建立在Numpy和matplolib库的基础上。
Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、降维(Dimensionality Reduction)、分类(Classfication)、聚类(Clustering)等方法。

官方文档地址:https://scikit-learn.org/stable/

你可能感兴趣的:(线性回归梳理)