回归算法

【回归】就是用属性的历史数据预测未来的趋势。回归首先假设一些已知类型的函数可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数。回归模式的函数定义与分类模型相似,主要差别在于分类模型采取离散预测值(例如类标号),而回归模式采取采取的预测值。

回归算法_第1张图片

回归算法在解决实际问题时经常会把数据拆分为两个数据集:训练数据集、测试数据集。通过数据挖掘算法对训练数据集进行建模,寻找X和Y之间的数学模型,然后通过测试数据集来验证该数学模型的准确率,如果误差能够达控制到一定精度,则认为该模型很好的反映了X和Y的关系,可以用来进行预测和分析。

回归算法_第2张图片

典型案例(电力负荷预测)

电力负荷预测是电力系统运行调度、生产规划、电力市场竞价决策的重要组成部分。做好电力负荷预测管理工作可以有效降低电网公司运行成本并提高电力设备运行效率,其预测精度不仅影响到电网安全可靠供电、而且直接影响到电网经营企业的生产经营及经济效益。 某市2010年8月1日至8月31号最大负荷数据数据,预测后3天的日最大负荷。

回归算法_第3张图片

线性回归

线性回归算法是一种很常用的回归算法。其主要思想是:首先假设线性函数可以拟合目标数据,然后利用某种误差分析确定一个与目标数据拟合程度最好的函数,即完成了线性回归算法。实际的挖掘过程中,许多问题可以用线性回归算法解决,许多非线性问题可以通过变量进行变换,从而转换成线性回归问题来解决。

回归算法_第4张图片

曲线回归

曲线回归算法,又称多项式回归拟合,是指用连续曲线近似地刻画或比拟平面上一组离散点所表示的坐标之间的函数关系,是一种用解析表达式逼近离散数据的方法。

回归算法_第5张图片

 

决策树回归

CART是一种典型的二叉决策树,决策树的生成就是递归地构造二叉决策树的过程,与分类树用基尼指数最小原则不同,对回归树用平方误差最小化准则,进行特征选择,生成二叉树。回归树的叶子节点所含样本中,其输出变量的平均值即是预测结果。

回归算法_第6张图片

梯度提升树

梯度提升树是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终结果。每一个模型都是建立在上一次所建立模型损失函数的梯度下降方向上。第一棵决策树训练的结果与真实值的残差是第二棵树训练优化的目的,而模型最终的结果是将每棵回归树的结果进行加和得到。

回归算法_第7张图片

随机森林

随机森林是以决策树为基学习器构建的一种集成算法。随机森林由多棵决策树构成,且森林中的每一棵决策树之间没有关联,模型的最终输出由森林中的每一棵决策树共同决定。对于测试样本,森林的输出采用简单多数投票法(针对分类)或单颗树输出结果的简单平均(针对回归)得到。

回归算法_第8张图片L1/2稀疏迭代回归

该算法主要基于正则化的学习框架进行构建,正则项采用L1/2范数,属于稀疏化的学习算法,能够在建模的过程中自动筛选变量或样本,能够极大的提高了模型的准确度和运算效率。

回归算法_第9张图片

保序回归

保序回归就是对给定的一个无序数字序列,通过修改每个元素的值,得到一个非递减的序列,并使得误差最小。保序回归算法是特殊的线性回归,如果业务上具有单调性,这时候就可以用保序回归。

回归算法_第10张图片

支撑向量机(SVM)

支持向量机学习的基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。SVM回归将回归问题转化为一个SVM二分类问题。

回归算法_第11张图片

 

 

你可能感兴趣的:(数据分析算法,回归算法)