Pandas处理什么样的数据?

首先,如果我们想要加载pandas程序包并开始使用它,我们先要导入该程序包,pandas的别名为pd,因此按pd所有pandas文档的标准做法加载pandas。


pandas数据表表示形式

如果我想存储泰坦尼克号的乘客数据,对于许多乘客,我知道姓名(字符),年龄(数字)和性别(男/女)数据。


要将数据手动存储在表中,要创建一个DataFrame。当使用Python的列表字典时,字典键将用作列标题,而每个列表中的值将用作DataFrame的列。

Data是一种二维数据结构,它可以在列中存储不同类型的数据(包括字符、整数、浮点数、分类数据等)。它类似于电子表格、SQL表或R中的data.frame。

1.该表有3列,每列都有一个列标签,列标签分别是Name、Age和Sex

2.Name由文本数据组成,每个值都是一个字符串,Age是数字,Sex是文本数据

在电子表格中,数据的表格表示形式非常相似:


DataFrame中每一列都是一个Series


如果只是对Age列中的数据进行操作,可以这样做:


当选择一个pandas的单个列DataFrame,结果是pandas系列。如果要选择列,要在方括号[ ]之间使用列标签。

如果你熟悉Python字典,则单列的选择与基于键的字典值的选择非常相似。

我们也可以从头开始创建系列:


pandas系列没有列标签,因为它只是DataFrame的单个列,系列确实具有行标签。

使用DataFrame或Series进行某些操作

比如我想知道乘客的最大年龄

我们可以通过DataFrame选择Age列并应用Max()来执行


或者使用Series:


pandas提供了许多功能,每个功能都有一个特定的方法,可以应用到DataFrame或Series中。但由于方法是函数,所有不要忘记使用圆括号()。

如果我们对数据表中数值数据的一些基本统计信息感兴趣


descryibe()提供了DataFrame中数字数据的快速概述。但由于Name和Sex列是文本数据,因此默认情况下descryibe()方法不考虑这些数据。

许多pandas操作返回一个DataFrame或一个Series。而descryibe()则是返回pandas序列的pandas操作的一个Series。

如果你想学习Python,但是找不到学习路径和资源,欢迎来指尖编程。

你可能感兴趣的:(Pandas处理什么样的数据?)