什么时候业务分析师需要使用线性回归

作者:chen_h
微信号 & QQ:862251340
微信公众号:coderpai


什么时候业务分析师需要使用线性回归_第1张图片

以前有一位特别具有冒险精神的商业分析师将其在职业生涯的早期阶段尝试根据特定数据集中的模式来预测结果,这种冒险通常以线性回归的形式进行,这是一种简单而强大的预测方法,可以使用常用的业务工具来快速实现。

对于这个新发现的技能,虽然他是非常有用的,但是它被过度使用了,所有人遇到数据分析一上来就是线性回归,这种状态是非常糟糕的,在接下来的文章中,我们将来制定一个简单的指南来实现线性回归,希望能够帮助你。

线性回归何时使用

在数据集上面合理使用线性回归需要对数据集做出四个假设:

  • 变量之间的关系是线性的;
  • 数据是同方差的,意味着残差的方差(实际值和预测值的差异)或多或少也是恒定的;
  • 残差是独立的,意味着残差是随机分布的,不受先前观察到的残差的影响。如果残差不是彼此独立的,则认为他们是自相关的;
  • 残差通常是正太分布的。该假设意味着残差值的概率密度函数通常分布在每个 x 值处。我最后留下这个假设是因为我不认为这是使用线性回归的一个硬性要求,尽管如果不是这样,我们必须对模型进行一些操作。

坏的线性回归模型

确定线性回归模型是否适合数据集的第一步是绘制数据并定性评估。比如我们有一个数据集,显示在社交网络上共享的项目所经历的总份额(因变量),给定原始共享者链接的朋友数(自变量)。直觉告诉我们这个模型不应该是线性缩放的,将会是一个二次方程表示。实际上,当绘制图形(下面的蓝点)时,它呈现出二次形状(曲率),这显然难以与线性方程拟合。

什么时候业务分析师需要使用线性回归_第2张图片

在实际值图中看到二次形状是人们应该停止追求线性回归以适应非变换数据的点。但是为了举例,回归方程包含在下面的表中,在这里你可以看到回归统计量(m 是回归线的斜率,b 是y轴截距):

什么时候业务分析师需要使用线性回归_第3张图片

这样,可以绘制预测值(上图中的红点),残差图(实际减去预测值)使我们进一步证明线性回归无法描述此数据集:

什么时候业务分析师需要使用线性回归_第4张图片

残差图显示二次曲率;当线性回归适合描述数据集时,残差应该随机分布在残差图上面,即不应采取任何形状的残差图,满足上面假设3的要求。这进一步说明了数据集必须使用非线性方法建模,或者必须在对其使用线性回归之前转换数据。

残差正态性图表显示残差值不是正太分布的(如果是,则 z-score 残差图将遵循一条直线,满足上述假设4的要求):

什么时候业务分析师需要使用线性回归_第5张图片

当我们很详细的计算回归统计数据,因此可以查看他们并尝试了解回归方程的推到公式。如果面对这个数据集,在进行上面测试后,我们就应该进行数据转换,以便变换后的变量之间的关系时线性的,或者使用非线性方法来拟合关系。

好的线性回归模型

现在我们来看一下线性回归模型适合的数据集。假设我们有一个虚拟的数据集,里面显示了一组人的高度(自变量)和权重(因变量)值。咋一看,这两个变量之间的关系呈现线性关系;绘制如下蓝点时,线性关系就显而易见了:

什么时候业务分析师需要使用线性回归_第6张图片

并且残差图显示了我上面描述的“随机性”:

什么时候业务分析师需要使用线性回归_第7张图片

正如预期的那样,残差正态图描绘了一条近似直线,意味着残差是正太分布的:

什么时候业务分析师需要使用线性回归_第8张图片

使用线性回归进行预测是回归时,业务分析师需要考虑一些事情:

  • 范围:即使满足了上述假设,线性回归方程也描述了再数据集中测试的值范围内的两个变量之间的关系。将线性回归方程外推到超过数据集的最大值是不可取的;
  • 虚假的关系:在两个直观上根本不相关的变量之间可能存在非常强的线性关系。

你可能感兴趣的:(深度学习,量化交易)