Pandas基础方法介绍

导读:Pandas是日常数据分析师使用最多的分析和处理库之一,本篇文章总结了常
Pandas最常用的数据对象是数据框(DataFrame)和Series。数据框与R中的DataFrame格式类似,都是一个二维数组。Series则是一个一维数组,类似于列表。数据框是Pandas中最常用的数据组织方式和对象。有关更多数据文件的读取将在第三章介绍,本节介绍从对象和文件创建数据框的方式,如图1所示:


image.png

2 查看数据信息

查看信息常用方法包括对总体概况、描述性统计信息、数据类型和数据样本的查看,具体如表2所示:


image.png

image.png

注意:在上述查看方法中,除了info方法外,其他方法返回的对象都可以直接赋值给变量,然后基于变量对象做二次处理。例如可以从dtype的返回值中仅获取类型为bool的列。

3、数据切片和切块

数据切片和切块是使用不同的列或索引切分数据,实现从数据中获取特定子集的方式。常见的数据切片和切换的方式如表3所示:


image.png

提示:如果选择特定索引的数据,直接写索引值即可。例如data2.loc[2,['col1','col2']]为选择第三行且列名为'col1'和'col2'的记录。

4、数据筛选和过滤

数据筛选和过滤是基于条件的数据选择,本章2.6.3提到的比较运算符都能用于数据的筛选和选择条件,不同的条件间的逻辑不能直接用and、or来实现且、或的逻辑,而是要用&和|实现。常用方法如表4所示:


image.png

5、数据预处理操作

Pandas的数据预处理基于整个数据框或Series实现,整个预处理工作包含众多项目,本节列出通过Pandas实现的场景功能。本节功能具体如表5所示:


image.png

image.png

6、数据合并和匹配

数据合并和匹配是将多个数据框做合并或匹配操作。具体实现如表6所示:


image.png

7、数据分类汇总

数据分类汇与Excel中的概念和功能类似。具体实现如表7所示:


image.png

8、高级函数使用

Pandas能直接实现数据框级别高级函数的应用,而不用写循环遍历每条记录甚至每个值后做计算,这种方式能极大提升计算效率,具体如表8所示:


image.png

你可能感兴趣的:(Pandas基础方法介绍)