数据学习二:用Python实现数据描述性统计

 

跟着木东居士大佬学数据知识

重要的Python库

1.NumPy

NumPy(Numerical Python的简称)是Python科学计算的基础包。它主要提供了以下功能:

  • 快速高效的多维数组对象ndarray。

  • 用于对数组执行元素级计算以及直接对数组执行数学运算的函数。

  • 用于读写硬盘上基于数组的数据集的工具。

  • 线性代数运算、傅里叶变换,以及随机数生成。

  • 用于将C,C++,Fortran代码集成到Python的工具。

除了为Python提供快速的数组处理能力,NumPy在数据分析方面还有另一个主要作用,即作为在算法之间传递数据的窗口。对于数值型数据,NumPy数组在存储和处理数据时要比内置的Python数据结构高效得多。此外,对于底级语言(比如 C和Fortran)编写的库可以直接操作NumPy。

2.pandas

pandas提供了使我们能够快速便捷地处理结构化数据的大量数据结构和函数。它是使Python成为强大而高效的数据分析环境的重要因素之一。其中中,DataFrame是用得最多的对象,是一个面向列(column-oriented)的二维表结构,且含有行标和列标。

pandas兼具NumPy高性能的数组计算功能以及电子表格和关系型数据库(如SQL)灵活的数据处理功能。它提供了复杂精细的索引功能,以便更为便捷地完成重塑、切片和切块、聚合以及选取数据子集等操作。

安装

1.官网上安装最新版Python,成功后,打开cmd,在Python安装目录下pip相关下载:

数据学习二:用Python实现数据描述性统计_第1张图片

数据学习二:用Python实现数据描述性统计_第2张图片

2.安装Pycharm,同样官网下载,接着核对库的安装:

数据学习二:用Python实现数据描述性统计_第3张图片

数据学习二:用Python实现数据描述性统计_第4张图片

简单计算

1.中位数、平均数、极差、四分位数

数据学习二:用Python实现数据描述性统计_第5张图片

数据学习二:用Python实现数据描述性统计_第6张图片

2.方差、标准差、平均差、离散系数

数据学习二:用Python实现数据描述性统计_第7张图片

数据学习二:用Python实现数据描述性统计_第8张图片

这里的标准差是总体标准差,对应excel中的STDEVP函数,若是样本标准差,对应excel中的STDEV函数,那么样本标准差则是3.02765,对应离散系数则是0.550482。只有当参数比较多时,比如达到30个以上,样本标准差才可近似代替标准差。

总结

数据学习二:用Python实现数据描述性统计_第9张图片

 

资料整理来源:《利用Python进行数据分析》、百度百科

首发于公众号链接:https://mp.weixin.qq.com/s/1IH5vHKUx_W_EZ5ovRqRUA

你可能感兴趣的:(数据学习,数据分析,统计学,Python)