dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)

上节介绍获取行、列子集的方法,运用了range函数和python的切片语法,在数据分析中,总是会进行统计计算,很多基本统计计算有现成的库可用,或内置在语言中。下面以data数据

dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)_第1张图片

可以先问下面几个问题。

1.     数据中每年的平均预期寿命是多少?平均预期寿命、人口和GDP是多少?

2.     如果按洲对数据分层,并进行同样的计算,结果会怎样?

3.     每个洲列出了多少个国家和地区?

对于上面的问题,需要进行分组计算(即聚合)。换句话说,需要进行一个计算,可以是平均计算或者频率计算,并将其应用于变量的每个子集。可以把分组计算看作“分割-应用-组合”的过程,首先把数据分割成若干部分,然后把选择的函数(或计算)应用于各部分,最后把所有独立的分割计算组合成一个Data Frame。

dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)_第2张图片

拆解上面的语句,首先创建一个分组对象。

dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)_第3张图片

可以根据分组数据中选取需要计算的列,对它们进行计算。要回答上面的问题,需要获取lifeExp列。

dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)_第4张图片

最后计算数字向量的平均值,就得到了最终的期望结果。

dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)_第5张图片

可以对人口和GDP做一系列类似的计算,如果想使用多个变量对数据进行分组和分层,应该怎么办呢?想对多列执行相同的计算呢?

dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)_第6张图片

上面输出的数据是按年份和洲进行分组,针对每个一个“年份-洲”对,计算平均预期寿命和平均GDP。输出的数据有点奇怪。如果想平铺Data Frame,使用reset_index方法

dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)_第7张图片

dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)_第8张图片

数据相关的另一个常见任务是计算频率。可使用numique方法或value_counts方法获取Pandas Series的唯一值计数或频率计数

dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)_第9张图片

可视化在数据处理的每个步骤中都非常重要。在理解和清理数据时,可视化有助于识别数据中的趋势,并展示最终的发现,使用pandas创建一些基本图,下面人口各年底的预期寿命

dataframe 切片_数据分析Pandas运用 | DataFrame基础知识.(74)_第10张图片

Dara Frame基础知识就全部完了,即将入门下一个模块。

资料

链接:https://pan.baidu.com/s/18veIg3cFCDEooKbqRq4w_w

提取码:0010

数据分析Pandas运用 | DataFrame基础知识.(7-3)

数据分析Pandas运用 | DataFrame基础知识.(7-2)

数据分析Pandas运用 |  DataFrame基础知识.(7-1)

你可能感兴趣的:(dataframe,切片,dataframe,选择输出,dataframe切片,pandas,dataframe,pandas,提取数字)