数据分析工具箱v1.5——相关分析

数据分析工具箱v1.5——相关分析_第1张图片
成品示意

背景

相关(Correlation),显示两个随机变量之间线性关系的强度和方向。

如果A和B相关,有至少五种可能性:
A导致B
B导致A
C导致A和B
A和B互为因果
小样本引起的巧合

相关性用来衡量两个随机变量联动变化的程度,如果两个变量独立完全没有关系,则相关系数为0(但相关系数为0不代表就是互相独立);如果内在联系越强,联动变化程度越高,则相关系数绝对值越接近于1,根据变化的方向是还同还是相反,决定了相关系数为正还是为负。

尽管相关性不等于因果性,但它某种程度上可以用来表征变量间的内在联系。在实际业务中,需要对核心指标作相关分析,发掘相关性高的其他指标,尽管这并不能直接给出一个“只要提升A,就能提升B”的标准答案,但也许在提升A的过程中就能触发提升B的因素,这就是一个值得探索的方向。

本篇比较简单,因为我不知道相关系数除了看一下和做回归之外还能做什么,不过既不想搞统计,也不想掉进回归的坑里,所以仅仅当作一个探索性数据分析吧。

数据产品

上传数据

本节用到的数据以REcdat包里的terrorism为例,上传数据预览如下:

数据分析工具箱v1.5——相关分析_第2张图片
数据预览

一共24个变量,其中离散性变量2个,22个数值型变量。

控件说明

控件一共有3个:

  • 度量对比下拉框:第1个多选下拉框用来选择多个数值型变量以便计算两两相关性(只有选择1个以上的变是才会计算),这个下拉框的取值范围是聚合度量的子集,比如在【数据处理】里聚合2个度量,那么这个下拉框最多就只能选这2个度量。
  • 相关系数类型:可选"pearson"(默认),"spearman","kendall",3种相关系数的定义、公式和适用范围可参考附录资料
  • 相关系数阈值棒:可从-1到+1之间拖动,用来限定相关系数范围
数据分析工具箱v1.5——相关分析_第3张图片
控件说明

相关分析

这里我选择"Select All"把所有指标一把梭哈,【相关系数气泡图】以气泡图形式展示这些指标两两间的相关性,蓝色的气泡为正相关,红色为负相关,气泡越大给相关性越强,鼠标hover到气泡上能显示变量及其相关系数;【两两相关性排序】则将两两变量间的相关性从大到小排序,同样的,蓝色柱状为正相关系数,红色为负相关系数,柱状越长表相关性越强,头部和尾部表示强正负相关。22个变量,去掉重复,去掉自相关,一共有22*21/2 = 231种组合。

数据分析工具箱v1.5——相关分析_第4张图片
相关分析

将阈值棒调到0.8~1,显示强正相关的变量组合。


数据分析工具箱v1.5——相关分析_第5张图片
强正相关变量

将阈值棒调到-1~-0.8,显示强负相关的变量组合。(可以看到worlddeathRateUSdeathRate呈高度负相关关系,emm……)

数据分析工具箱v1.5——相关分析_第6张图片
强负相关变量

总结

本篇主要就是一个相关系数矩阵分析,一个简单的cor()函数就搞定,不过作为一个产品,其价值在于可以扔任意一堆指标变量进去,然后可以任意组合,任意控制相关强度,以便快速找到相关性强的变量组合。

参考资料

  • 统计学习--三种常见的相关系数
  • 相关关系和因果关系的区别是什么?

你可能感兴趣的:(数据分析工具箱v1.5——相关分析)