常用的回归算法

一、回归问题与分类问题的区别

  • 回归问题:预测连续数量的任务;用来预测趋势的一类问题。如,价格预测、乘客人数预测等。
  • 分类问题:预测离散类标签的任务。
  • 分类问题和回归问题可共用同一种算法。

二、评估指标

MAE(绝对误差)、MSE(平方误差) 、RMSE(平方根误差)、 Coefficient of determination (决定系数)

三、回归算法

1、回归的定义

  • 回归研究的是因变量(目标结果)和自变量(输入)的函数关系。【注意它和机器学习中回归问题的区别】

2、常用算法

  • 线性回归
    应用场景:常用于正则化
    优点:简单、容易理解,可使用正则化来降低过拟合风险、容易使用梯度函数来更新参数
    缺点:在变量是非线性关系时表现差,很难用于复杂的模型。

  • 逻辑回归
    应用场景:用于二分类领域;信用评估;测量市场营销的成功度;预测某个产品的收益; 特定的某天是否会发生地震。
    优点:实现简单,广泛的应用于工业问题上;分类时计算量非常小,速度很快,存储资源低;对逻辑回归而言,多重共线性并不是问题,它可以结合L2正则化来解决该问题;计算代价不高,易于理解和实现。
    缺点:当特征空间很大时,逻辑回归的性能不是很好;容易欠拟合,一般准确度不太高;不能很好地处理大量多类特征或变量;只能处理两分类问题,且必须线性可分;对于非线性特征,需要进行转换。

  • 决策树回归
    应用场景:常用于数据分析师希望更好的理解手上数据的时候。
    优点:能够学习非线性关系,对异常值也具有很强的鲁棒性。
    缺点:无约束的,单棵树很容易过拟合。

  • 随机森林回归
    应用场景:数据维度相对低(几十维),同时对准确性要求较高时。
    优点:它是决策树的集成方法,在实践中表现很好;即使没有超参数调整,大多数情况下也会带来好的结果;它还降低了决策树中容易发生的过拟合的可能,泛化结果比决策树更好。
    缺点:比决策树算法更复杂,计算成本更高;如果一些分类/回归问题的训练数据中存在噪音,随机森林中的数据集会出现过拟合的现象;由于其本身的复杂性,它们比其他类似的算法需要更多的时间来训练。

  • SVM回归
    应用场景:相对比较广泛。
    优点:使用核函数可以向高维空间进行映射;使用核函数可以解决非线性的分类;分类思想很简单,就是将样本与决策面的间隔最大化;分类效果较好。
    缺点:对大规模数据训练比较困难;无法直接支持多分类,但是可以使用间接的方法来做。

  • 神经网络回归
    应用场景:数据量庞大、参数之前存在内在联系时。
    优点:具有自学习功能;具有联想存储功能;具有高速寻找优化解的能力。
    缺点:最严重的问题是没能力来解释自己的推理过程和推理依据;不能向用户提出必要的询问,而且当数据不充分的时候,神经网络就无法进行工作;把一切问题的特征都变为数字,把一切推理都变为数值计算,其结果势必是丢失信息;理论和学习算法还有待于进一步完善和提高。

  • 深度学习
    应用:CNN(AlexNet)

你可能感兴趣的:(回归算法)