线性和逻辑回归通常是学习数据科学时接触的第一个算法,由于它们非常流行,许多分析师甚至认为它们是唯一的回归技术。
事实上,存在多种不同形式的回归模型,每种形式都有自身的特点和特定的应用场景。在本文中,我将简要介绍数据科学中最常用的7种回归模型。
通过本文,我希望人们对回归分析有更深入的理解,而不是仅仅停留在线性回归和逻辑回归的层面。
本文来自《数据黑客》,登录官网可阅读更多精彩资讯和文章。
回归分析是一种预测建模技术,用于研究因变量(目标变量)与自变量(预测变量/特征)之间的关系。该技术用于预测,时间序列建模以及检验变量之间的因果关系。例如,通过回归分析研究疲劳驾驶与道路交通事故发生次数之间的关系。
回归分析是建模和分析数据的重要工具。如上图所示,我们尝试用曲线拟合数据点,以使数据点到曲线的距离之和最小化。我将在接下来的部分详细说明这一点。
如上所述,回归分析估计两个或多个变量之间的关系。让我们举一个更简单的例子:
假设您要根据当前的经济状况估算公司的销售增长,您具有最新的公司数据,该数据表明销售增长约为经济增长的两倍半。利用这一见解,我们可以根据当前和过去的信息来预测公司未来的销售。
使用回归分析有多个好处,比如:
回归分析还能够比较在不同规模上测量的变量的关系,例如价格变化对促销商品数量的影响。这些好处可帮助市场研究人员/数据分析师/数据科学家创建用于预测的最佳变量集。
有多种回归模型可用于预测,这些技术主要由三个指标(自变量数量,因变量类型和回归线的形状)驱动。我们将在以下各节中详细讨论它们。
线性回归是最广为人知的建模技术之一,它通常是学习机器学习时最先接触的技术。在线性回归中,因变量是连续的,自变量可以是连续的或离散的,并且模型相对于系数也是线性的。
线性回归使用最佳拟合直线(回归线)在因变量(Y)和一个或多个自变量(X)之间建立关系。它由等式Y = a + b * X + e
表示 ,其中a是截距系数,b是斜率系数,e是误差项。
简单线性回归和多元线性回归的区别在于,多元线性回归有多个自变量,而简单线性回归只有1个自变量。现在,问题是“如何获得最佳拟合线?”。
获得回归线的最常用方法是最小二乘估计(OLS),它通过最小化每个数据点到拟合线的垂直偏差的平方和来估计回归系数。由于使用偏差的平方,所以相加时就不会抵消正值和负值的差异。
我们可以使用R平方(可决系数)来评估模型性能。要了解这些指标的详细信息,请阅读:模型性能指标:第一部分,第二部分。
逻辑回归(Logistic Regression)用于评估事件成功或失败的概率。当因变量是二元分类变量(如0或1,True或False,Yes或No)时,可以使用逻辑回归。一般用以下公式表示逻辑回归方程,其中p是感兴趣的事件发生的概率:
odds= p/ (1-p) = probability of event occurrence / probability of not event occurrence
ln(odds) = ln(p/(1-p))
logit(p) = ln(p/(1-p)) = b0+b1X1+b2X2+b3X3....+bkXk
为什么使用对数?由于假定因变量服从二项分布,我们需要选择最适合此分布的链接函数(即logit函数)。
如果自变量的幂大于1,就是多项式回归,如以下方程所示:
y=a+b*x^2
多项式回归的拟合曲线是非线性的:
当数据集有很多自变量时,可以使用逐步回归。逐步回归与其说是一种回归模型,倒不如说是拟合最佳模型的一种技巧。这种技术的目标是自动选择最佳的自变量,无需人工干预。
逐步回归通过评估R-square,t统计量或AIC(赤池信息准则)的变化来确定是否往模型中添加一个变量(或剔除一个变量)。有三种常见形式:
岭回归(Ridge Regression)是一种当自变量存在多重共线性时使用的技术。在多重共线性中,即使最小二乘估计(OLS)是无偏的,系数估计值的误差也很大。普通最小二乘估计的目标是最小化残差平方和,岭回归在目标函数中添加惩罚项,对估计系数做出限制,如下式:
目标函数包含两个部分,左边部分是残差平方和,右边是惩罚项,其中β是系数,lambda是惩罚因子,lambda越大惩罚力度越大,估计系数的取值就越小。
与岭回归相似,罗素回归(Lasso Regression)也惩罚了回归系数的绝对大小。此外,它能够减少变异性并提高回归模型的准确性。上述方程显示了罗素回归和岭回归的不同之处,前者在惩罚项中使用绝对值而不是平方,这导致某些参数估计值恰好为零。施加的惩罚越大,则估计值进一步缩水至零,进而实现特征选择。
ElasticNet是Lasso和Ridge回归技术的混合,事先用L1和L2正则化。当存在多个高度相关的特征时,Elastic-net非常有用。它的目标函数如下式:
除了这7种最常用的回归技术之外,您还可以查看其他模型,比如:贝叶斯回归,生态回归和稳健回归。
当只掌握一种或两种技术时,很容易做出选择,但是当可用模型的选择很多时,很难做出正确的决定。
在选择回归模型时,重要的考量因素包括:自变量和因变量的类型,数据的维数以及其他基本特征。以下是一些经验法则:
来源:AnalyticsVidhya
作者:SUNIL RAY
翻译校对:数据黑客
原文标题:7 Regression Techniques you should know!
数据黑客:专注金融大数据,聚合全网最好的资讯和教程,提供开源数据接口。
我们聚合全网最优秀的资讯和教程:
我们提供开源数据接口: