任务1 - 线性回归算法梳理

A.机器学习的一些概念 有监督、无监督、泛化能力、过拟合欠拟合(方差和偏差以及各自解决办法)、交叉验证

1.机器学习流程 

机器学习是一个数据流转、分析以及得到结果的过程,它的整个流程大致可以分为六个步骤,按照数据流自上而下的顺序排列分别是:场景解析、数据预处理、特征工程、模型训练、模型评估、离线/在线服务。

2.数据源结构 

如果把机器学习算法比作一个数据加工场,那么进入工厂的数据就是被算法用来加工的原材料,机器学习算法需要的数据分为三类:结构化数据、非结构化数据和半结构化数据。

3.算法分类

将机器学习分为四种,分别是监督学习、无监督学习、半监督学习和增强学习。

4.过拟合问题

过拟合(Over-fitting),从字面的意义上理解就是过度拟合的意思,常发生在线性分类器或者线性模型的训练和预测当中。过拟合的原理就是机器学习算法过度学习了训练集数据。 

如果在针对训练集做曲线拟合的时候做得过于“完美”,那么当我们针对于其他预测集进行预测的时候,这套模型很有可能会失准,因为这套模型在训练的时候过度地接近于训练集的特征,缺乏鲁棒性;所以在机器学习训练过程中,100%的拟合训练集数据并不一定是好的。

5.结果评估

 

B常用到的概念包括精确率、召回率、F1值、ROC和AUC几种

1.线性回归的原理

 单变量:y = θ0 + θ1x1 

 多变量:y = θ0 + θ1x1 + θ2x2 + · · · + θnxn

2.线性回归损失函数、代价函数、目标函数

损失函数:如果求得参数 线性求和后,得到的结果 与真实值 之差越⼩越好。
                 这时我们需要映⼊⼀个函数来衡量 表示真实值 好坏的程度,该函数称为损失函数,是定义在单个样本上的,算的是                     一个样本的误差。

代价函数:是定义在整个训练集上的,是所有样本误差的平均,也就是损失函数的平均。是最小化。

目标函数: 最终需要优化的函数。等于经验风险+结构风险(也就是Cost Function + 正则化项)。是最大化或者最小化。

3.优化方法(梯度下降法、牛顿法、拟牛顿法等)

梯度下降法:

1、初始化:随机选取取值范围内的任意数

2、循环操作:

       计算梯度;

       修改新的变量;

       判断是否达到终止:如果前后两次的函数值差的绝对值小于阈值,则跳出循环;否则继续;

3、输出最终结果

牛顿法: 是一种在实数域和复数域上近似求解方程的方法。方法使用函数(x)的泰勒级数的前面几项来寻找方程(x) = 0的根。牛顿法最大的特点就在于它的收敛速度很快。

拟牛顿法:牛顿法需要求海森矩阵,这个矩阵需要计算二阶偏导数,比较复杂。为了改良这个问题,提出了拟牛顿法。
基本idea是:不求二阶偏导数,构造出一个近似的海森矩阵

4.线性回归的评估指标

评估指标:

拟合(回归)问题比较简单,所用到的衡量指标也相对直观。 

平均绝对误差 MAE 
平均平方误差 MSE
均方根误差 RMSE 
解释变异
决定系数

5.sklearn参数详解

sklearn参数:

你可能感兴趣的:(任务1 - 线性回归算法梳理)