机器学习--数据特征分析

文章目录

      • 1.相关性分析
        • 直接绘制散点图
        • 绘制散点图矩阵
        • 计算相关系数
      • 2.基本统计特征函数

1.相关性分析

分析连续变量之间线性相关程度的强弱,并用适当的统计指标表示出来的过程称为相关分析。

直接绘制散点图

判断两个变量是否具有线性相关关系的最直观的方法是直接绘制散点图
绘制散点图矩阵
需要同时考察多个变量间的相关关系时,一一绘制它们间的简单散点图是十分麻烦的。 此时可利用散点图矩阵同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性,这在进行多元线性回归时显得尤为重要。
机器学习--数据特征分析_第1张图片

绘制散点图矩阵

需要同时考察多个变量间的相关关系时,一一绘制它们间的简单散点图是十分麻烦的。 此时可利用散点图矩阵同时绘制各变量间的散点图,从而快速发现多个变量间的主要相关性,这在进行多元线性回归时显得尤为重要。
机器学习--数据特征分析_第2张图片

计算相关系数

为了更加准确地描述变量之间的线性相关程度,可以通过计算相关系数来进行相关分析。在二元变量的相关分析过程中比较常用的有Pearson相关系数、Spearman秩相关系数和判定系数。
(1)Pearson相关系数
一般用于分析两个连续性变量之间的关系,其计算公式如下。
r = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 ∑ i = 1 n ( y i − y ˉ ) 2 r= \frac{\sum^n_{i=1}(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum^n_{i=1}(x_i-\bar{x})^2\sum^n_{i=1}(y_i-\bar{y})^2}} r=i=1n(xixˉ)2i=1n(yiyˉ)2 i=1n(xixˉ)(yiyˉ)
相关系数 的取值范围: −1≤≤1
>0为正相关,<0为负相关
||=0表示不存在线性关系
||=1表示完全线性相关

0<||<1表示存在不同程度线性相关:
||≤0.3为不存在线性相关
0.3<||≤0.5为低度线性相关
0.5<||≤0.8为显著线性相关
||>0.8为高度线性相关
Pearson线性相关系数要求连续变量的取值服从正态分布。

(2)Spearman秩相关系数
不服从正态分布的变量、分类或等级变量之间的关联性可采用Spearman秩相关系数,也称等级相关系数来描述。 其公式如下。
r s = 1 − 6 ∑ i = 1 n ( R i − Q i ) 2 n ( n 2 − 1 ) r_s=1- \frac{6\sum^n_{i=1}(R_i-Q_i)^2}{n(n^2-1)} rs=1n(n21)6i=1n(RiQi)2
对两个变量成对的取值分别按照从小到大(或者从大到大小)顺序编秩, 代表 的秩次, 代表 的秩次, − 为 、 的秩次之差。

x i x_i xi从小到大排序 从小到达排序时的位置 秩次 R i R_i Ri
0.5 1 1
0.8 2 2
1.0 3 3
1.2 4 (4+5)/2 = 4.5
1.2 5 (4+5)/2 = 4.5
2.3 6 6
位置 原始X 排序后 秩次 原始Y 排序后 秩次 秩次差
1 12 546 5 1 78 6 1
2 546 45 1 78 46 1 0
3 13 32 4 2 45 5 1
4 45 13 2 46 6 2 0
5 32 12 3 6 2 4 1
6 2 2 6 45 1 3 -3

对于上表数据,算出Spearman秩相关系数为:
1 − 6 ( 1 + 1 + 1 + 9 ) 6 ∗ ( 6 2 − 1 ) = 0.6571 1-\frac{6(1+1+1+9)}{6*(6^2-1)}=0.6571 16(621)6(1+1+1+9)=0.6571
因为一个变量的相同的取值必须有相同的秩次,所以在计算中采用的秩次是排序后所在位置的平均值。

只要两个变量具有严格单调的函数关系,那么它们就是完全Spearman相关的,这与Pearson 相关不同,Pearson相关只有在变量具有线性关系时才是完全相关的。
在实际应用计算中,上述两种相关系数都要对其进行假设检验,使用t检验方法检验其显著性水平以确定其相关程度。研究表明,在正态分布假定下,Spearman秩相关系数与Pearson 相关系数在效率上是等价的,而对于连续测量数据,更适合用Pearson相关系数来进行分析。

(3)判定系数
判定系数是相关系数的平方,用 2 表示;用来衡量回归方程对y的解释程度。判定系数取值范围: 0≤2≤1 。 2 越接近于1,表明x与y之间的相关性越强; 2 越接近于0,表明 两个变量之间几乎没有直线相关关系。

2.基本统计特征函数

统计特征函数用于计算数据的均值、方差、标准差、分位数、相关系数和协方差等,这些统计特征能反映出数据的整体分布。

方法名 函数功能 所属库
sum() 计算数据样本的总和(按列计算) Pandas
mean() 计算数据样本的算术平均数 Pandas
var() 计算数据样本的方差 Pandas
std() 计算数据样本的标准差 Pandas
corr() 计算数据样本的Spearman (Pearson)相关系数矩阵 Pandas
cov() 计算数据样本的协方差矩阵 Pandas
skew() 样本值的偏度(三阶矩) Pandas
kurt() 样本值的峰度(四阶矩) Pandas
describe() 给出样本的基本描述(基本统计量如均值、标准差等) Pandas

*偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。定义上偏度是样本的三阶标准化矩
偏度定义中包括正态分布(偏度=0),右偏分布(也叫正偏分布,其偏度>0),左偏分布(也叫负偏分布,其偏度<0)

*峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。随机变量的峰度计算方法为:随机变量的四阶中心矩与方差平方的比值。
峰度包括正态分布(峰度值=3),厚尾(峰度值>3),瘦尾(峰度值<3)

你可能感兴趣的:(机器学习,矩阵,线性代数)