机器学习算法基础day5

文章目录

  • 回归算法-线性回归分析
    • 线性模型
    • 线性回归
    • 损失函数(误差大小)
    • 最小二乘法之梯度下降
    • sklearn线性回归正规方程、梯度下降API
    • sklearn回归评估API
    • 梯度下降正规方程 比较
    • 过拟合与欠拟合
      • 欠拟合原因以及解决办法
      • 过拟合原因以及解决办法
      • 带有正则化的线性回归-Ridge
      • 线性回归 LinearRegression与Ridge对比

回归算法-线性回归分析

线性模型

试图学得一个通过属性的线性组合来进行预测的函数:
机器学习算法基础day5_第1张图片

线性回归

机器学习算法基础day5_第2张图片

损失函数(误差大小)

机器学习算法基础day5_第3张图片

最小二乘法之梯度下降

机器学习算法基础day5_第4张图片
机器学习算法基础day5_第5张图片

sklearn线性回归正规方程、梯度下降API

机器学习算法基础day5_第6张图片

sklearn回归评估API

机器学习算法基础day5_第7张图片

梯度下降正规方程 比较

机器学习算法基础day5_第8张图片

过拟合与欠拟合

过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)

欠拟合:一个假设在训练数据上不能获得更好的拟合, 但是在训练数据外的数据集上也不能很好地拟合数据,此时认为这个假设出现了欠拟合的现象。(模型过于简单)

欠拟合原因以及解决办法

原因:
学习到数据的特征过少

解决办法:
增加数据的特征数量

过拟合原因以及解决办法

原因:
原始特征过多,存在一些嘈杂特征,
模型过于复杂是因为模型尝试去兼顾
各个测试数据点

解决办法:
进行特征选择,消除关联性大的特征(很难做)
交叉验证(让所有数据都有过训练)
正则化(了解)

带有正则化的线性回归-Ridge

Ridge
sklearn.linear_model.Ridge(alpha=1.0)
具有l2正则化的线性最小二乘法

alpha:正则化力度
coef_:回归系数

线性回归 LinearRegression与Ridge对比

岭回归:回归得到的回归系数更符合实际,更可靠。另外,能让
估计参数的波动范围变小,变的更稳定。在存在病态数据偏多的研
究中有较大的实用价值。

你可能感兴趣的:(机器学习算法基础day5)