机器学习之回归模型

机器学习之回归模型

  • 数据清洗
  • 数据分析
  • 回归模型
  • 参考文献

数据清洗

数据清洗主要包括缺失值的处理、异常值的检测与处理、不一致性检验与处理和规范化操作。

缺失值处理主要有:均值、中位数、众数或固定值填充法,最近邻填充法,回归填充法,插值法等;

异常值的检测与处理:首先使用箱线图可视化数据的分布来观察是否存在离群点,再借助 Tukey’s method(图基法)计算出数据集的四分之一分位数(R1)和四分之三分位数(R3),从而计算出四分位数间距(IRS),然后将小于 R1− 1.5IRS 或者大于 R3 + 1.5IRS 的数据点认定为异常值,在定位出异常数据后,采用 winsorize 方法进行对异常数据缩尾处理,即将超出变量特定百分位范围的数值替换为其特定百分位的数值数据。

不一致性是指数据的矛盾性、不相容性。直接对不一致的数据进行挖掘,可能会产生与实际相违背的挖掘结果。

规范化处理:不同评价指标往往具有不同的量纲单位,数值间的差别可能很大,因此需要进行归一化或标准化处理。

数据分析

数据分析主要对数据是否满足某种分布以及变量间相关性进行相应的分析,例如卡方检验,T检验,F检验,K-S检验,相关性分析等。

回归模型

回归模型是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。

  • Linear Regression线性回归
    包括一元线性回归和多元线性回归,它基于均方误差最小化来进行模型求解,即“最小二乘法”,它可以得到唯一的全局最优解。

  • Ridge Regression岭回归
    数据集合矩阵存在多重共线性的问题,那么线性回归对输入变量中的噪声变得非常敏感。为解决这一问题,便有了岭回归。在损失函数中针对回归系数的平方和添加一个惩罚项,即L2正则化。

  • Lasso Regression套索回归
    套索回归与岭回归类似,会对回归系数的绝对值添加一个惩罚项,即L1正则化。

  • Bayesian Ridge Regression贝叶斯岭回归
    贝叶斯岭回归可用于在估计过程中包含正则化参数,即可根据手头的数据自动调整相应的参数。

  • SVR支持向量回归
    SVR回归,就是找到一个回归平面,让一个集合的所有数据到该平面的距离最近。 由于数据不可能都在回归平面上,距离之和还是挺大,因此所有数据到回归平面的距离可以给定一个容忍值防止过拟合。

  • KNeighbors Regressor K近邻回归
    K近邻回归选取最近的 K 个样本的样本输出的平均值作为回归预测值。

  • Decision Tree Regressor决策树回归
    决策树模型是运用于分类以及回归的一种树结构。决策树由节点和有向边组成,一般一棵决策树包含一个根节点、若干内部节点和若干叶节点。树的生成就是递归地构建二叉决策树的过程。对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。回归树就是将特征空间划分成若干单元,每一个划分单元有一个特定的输出,每个结点都是“是”和“否”的判断。对于测试数据,我们只要按照特征将其归到某个单元,便得到对应的输出值。

  • RandomForestRegressor随机森林回归
    从原始训练样本集 N 中有放回地重复随机抽取 n 个样本生成新的训练样本集合,然后根据样本集生成 n 个分类树组成随机森林,新数
    据的回归结果通过多个回归树投票产生。它实质是基于决策树的Bagging算法,将多个决策树合并在一起,每棵树的建立依赖于一个独立抽取的样本。

  • Extra Trees Regressor极端随机树
    极端随机树由 Pierre Geurts(2006)提出,是在随机森林的基础上发展而来的,它使用决策树作为基学习器,并且它根据经典的自顶向下过程的构建决策树或回归树的集合。极端随机树与随机森林方法的两个主要区别是:
    1、对于每个决策树的训练集,随机森林采用的是有放回地重复随机采样(bootstrap replica)来得到样本集作为每个决策树的训练集,而极端随机树一般不采用随机采样,而使用整个原始数据集作为每个决策树的训练集。
    2、随机森林的决策树会基于信息增益,基尼系数,均方差等原则,选择一个最优的特征值划分结点,这和传统的决策树相同。但是极端随机树会更加激进,会随机的选择一个特征值来划分决策树。

  • AdaBoost Regressor AdaBoost回归
    Adaboost基学习器的组合方式是通过相加的形式,学习算法采用前向分步学习算法,它是用来解决加法模型优化问题的,通过循环迭代,每一步只学习一个基函数及其系数,然后逐步逼近优化目标式,其损失函数为指数函数。

  • Gradient Boosting Regressor梯度提升树回归(GBDT)
    梯度提升树回归(GBDT)是基于决策树的Boosting算法,与Adaboost不同的是GBDT的迭代中,基于前一轮迭代得到的强学习器,在本轮迭代的目标是找到一个CART回归树模型的弱学习器,,让本轮的损失函数最小。

  • XGBoost回归
    XGBoost回归同样是基于决策树的Boosting算法,是一种提升树模型,但它在代价函数里加入了正则项,控制模型的复杂度,防止过拟合。

参考文献

python数据清洗入门教程(完整版)
python数据分析----卡方检验,T检验,F检验,K-S检验
干货!常见的10个回归分析模型算法,果断收藏
sklearn包使用Extra-Trees和GridSearchCV完成成人死亡率预测
【机器学习】一些常用的回归模型实战(9种回归模型)
集成学习:Random Forest & Extra Trees

你可能感兴趣的:(机器学习,回归,python)