python数据分析与挖掘实战

前三章:

1,python中的常见库:

2,截断均值是去掉高低极端值之后的平均数。

3,众数是指数据集中出现最频繁的值。众数并不经常用来度量定性变量的中心位置,更用于定性变量。众数不具有唯一性。

4,极差=最大值-最小值

5,标准差: 标准差度量数据偏离均值的程度,计算公式为:

6,变异系数

变异系数度量标准差相对于均值的集中趋势,计算公式为:

7,统计量分析:均值,中位数,众数。

8,集中趋势度量:极差,标准差,变异系数,4分位数间距

9,周期性分析和贡献度分析

10,相关系数

10.1 Pearson相关系数

一般用于分析两个连续性变量之间的关系,其计算公式如下。

10.2Spearman秩相关系数

Pearson线性相关系数要求连续变量的取值服从正态分布。不服从正态分布的变量,分类或等级变量之间的关联性可采用Spearman秩相关系数来描述。

其计算公式如下:

只要两个变量具有严格单调的函数关系,那么他们就是完全Spearman相关的,这与Pearson相关不同,Pearson相关只有在变量具有箱型关系时才是完全相关的。

11,pandas 主要统计函数特征函数:

其中corr()中有一个参数method 参数,支持pearson , kendall ,spearman

12,累计统计特征函数:

注意:

pd.rolling_sum(D) D为Series对象

14,统计做图函数

你可能感兴趣的:(python数据分析与挖掘实战)