Python 相关分析与实现

相关分析最常用的方法就是用相关系数直接衡量连续值的相关性,而离散属性的相关性是用熵增益转换成相关性的形式来衡量。

一、分析连续值的相关性:

Pearson相关系数及Spearman相关系数如下:

相关系数计算公式
代码实现
蓝色区域表示具有明显相关性,橙色区域表示有明显的负相关性

二、分析离散值的相关性:

熵的相关公式

说明:

1.熵是衡量不确定的值,值越接近于0,说明不确定性越小;数据的类别越多熵越大。

2.互信息(熵增益):缺点:对分类数目多的特征有不正确的偏向,也就是说不具有归一化的特点,它的不确定性是上不封顶的,所以对于我们相关性的界定是不方便的,为了解决这个问题,有了熵增益率。

3.熵增益率:是不对称的,即X对Y的增益率与Y对X的增益率是不等的,所以要进行转换,转换成相关性。

4.相关性:解决了X和Y的对称性。

以下为举例说明:

分析X与Y相关性

代码实现如下:

代码实现


代码实现


输出结果

你可能感兴趣的:(Python 相关分析与实现)