Python实现数据分析1

Python-数据分析常用库

1)Numpy

2)  Pandas

3)  Matplotlib

Numpy

基于数组运算,效率高。拥有许多高级函数,可以对数据进行高效处理。可以进行线性代数相关运算。

Pandas

用于数据处理和分析,有很多复杂函数,使用起来简单高效,广泛用于金融、电商、高校科研。

 Matplotlib

类似 Matlab,用于生成绘图,直方图,功率谱,条形图,错误图,散点图等

1、常用统计量

均值、标准差、中位数、分位数、众数

ps:分位数的理解:https://www.zhihu.com/question/67763556

2、反应数据某些趋势

表示数据的离散程度:极差、四分位差、方差、变异系数


附:Python实现

代码示例


结果示例:


ps:分位数的Python理解:

https://www.cnblogs.com/brightyuxl/p/9815780.html


点估计

是最直接的一种估计方式,用样本统计量去估计总体参数,例如假设中国人的平均身高为168厘米,经过抽样计算出样本的平均值为168,通过点估计,推断出中国人平均身高为168厘米。

区间估计

提供待估计的参数置信区间和保证程度(置信度),区间估计用一个包括有真实值的区间范围来估计参数的取值范围,得到的结果为置信区间,区间估计的可信程度为置信度或置信水平,用1-表示。

比如:有95%的可能性可以确定总体增长率在区间4.5%-6%之间,其中4.5%-6%是置信区间,95%是置信度。

ps:案例辅助理解 https://blog.csdn.net/yinjieer379/article/details/107715146




附:Python实现代码示例

结果示例:

中心极限定理

样本均值近似正态分布

多次抽样,产生的多个样本均值服从正态分布

若样本数量足够大,产生的均值是近似符合正态分布的。

如果实际进行了一次抽样,并计算得到均值s,如果进行一次抽样,均值有可能还是s,或大于/小于s,但是离s越近的可能性越高。因为知道了样本均值服从正态分布,利用正态分布性质,可以推断出样本均值出现在某区间范围的概率。理论上就可以计算样本均值有多大概率(置信度)可能出现的区间范围,而总体均值就有大概率落在范围内。




附:Python安装教程

1、https://zhuanlan.zhihu.com/p/75717350

2、https://blog.csdn.net/qq_18424081/article/details/85856713

你可能感兴趣的:(Python实现数据分析1)