pandas中每行求和_图解Pandas:使用Python进行数据分析

点击上方关注,直达人工智能前沿!

如果你计划在python中学习数据分析,机器学习或数据科学工具,那么pandas库会是你的不二之选,Pandas是一个在python中操作和分析数据的开源库。

数据导入

练习数据导入最简单方法就是加载表(和excel文件),然后以多种方式对它们进行切片和切块:

pandas中每行求和_图解Pandas:使用Python进行数据分析_第1张图片

Pandas允许我们加载电子表格并在python中以编程方式对其进行操作。pandas中的中心概念是称为DataFrame的对象类型 —- —- 就是是一个表,每行和列都有一个标签。下面加载这个包含音乐流媒体服务数据的基本CSV文件:

df = pandas.read_csv('music.csv')

现在变量df是一个pandas DataFrame:

pandas中每行求和_图解Pandas:使用Python进行数据分析_第2张图片

选择

可以使用其标签选择任何列:

pandas中每行求和_图解Pandas:使用Python进行数据分析_第3张图片

可以通过数字索引选择一行或多行:

pandas中每行求和_图解Pandas:使用Python进行数据分析_第4张图片

我们可以使用列标签和行号来选择表的任何切片loc(但这里它将包括两个边界行号):

pandas中每行求和_图解Pandas:使用Python进行数据分析_第5张图片

过滤

可以使用特定行的值轻松过滤行。例如,过滤爵士音乐家Jazz:

pandas中每行求和_图解Pandas:使用Python进行数据分析_第6张图片

筛选拥有超过1,800,000名听众的艺术家:

pandas中每行求和_图解Pandas:使用Python进行数据分析_第7张图片

处理缺失值

在数据科学中许多数据集都包含缺失值,如下:

pandas中每行求和_图解Pandas:使用Python进行数据分析_第8张图片

pandas提供了多种方法来解决这个问题。最简单的方法是删除缺少值的行:

pandas中每行求和_图解Pandas:使用Python进行数据分析_第9张图片

另一种方法是使用fillna()(例如0)填充缺失值。

分组

使用特定条件对行进行分组并聚合其数据时,可以按类型对数据集进行分组,看看每种类型的音乐有多少听众和爱好者:

pandas中每行求和_图解Pandas:使用Python进行数据分析_第10张图片

Pandas将上图中两个”Jazz”行组合成一个,通过sum()聚合,将Jazz的听众和爱好者加在一起,并显示总和。

通过groupby(),可以实现数据集的折叠并从中发现数据的规律,聚合也是统计学的基础工具之一。

除了sum(),Pandas还提供多种聚合功能,包括mean()计算平均值,min(),max()等多个其他功能。

添加新列

通常在数据分析过程中,需要从现有列添加新列。这在Pandas里轻而易举。

pandas中每行求和_图解Pandas:使用Python进行数据分析_第11张图片

欢迎关注全平台AI自媒体 “AI新视野”,第一时间获取人工智能学术、产业前沿!

你可能感兴趣的:(pandas中每行求和)