pandas分组计算平均值_机器学习教程之小白入门Pandas

如果你想要利用python来学习数据分析和机器学习,你将很有可能使用非常强大的Pandas库。Pandas是python的一个可供数据操纵和分析的开源库。今天的内容是小编带你对Pandas进行简单的入门。

1 读取数据

这有一种很简单的方式,就是你可以用Python加载数据表(tables)以及excel文件:

Pandas可以让我们读取电子表格并且用python程序化地操纵它们。

Pandas的核心是DataFrame——基本上是一个数据表,每个行和列都有一个label。

现在先让小编演示如何读取一个包含音乐服务数据的基本CSV文件。

import pandasdf=pandas.read_csv('music.csv')

read_csv函数可以把轻松地把数据搬到DataFrame里。同学们还要注意修改括号里文件的路径。

接下来就可以对数据进行切分用来分析了。

2 选择数据

根据它的label选择任意一列:

df['Artist']
pandas分组计算平均值_机器学习教程之小白入门Pandas_第1张图片

也可以使用它的行号来选择一行或者多行:

df[1:3]
pandas分组计算平均值_机器学习教程之小白入门Pandas_第2张图片

我们可以使用loc函数和列标签、行号来选择表格的任意一块,

要注意的是与上一种方法不同,这里要包含两个边界标号:

df.loc[1:3,['Artist']]
pandas分组计算平均值_机器学习教程之小白入门Pandas_第3张图片

3 过滤

我们还可以使用行的特定的值来对数据进行过滤:

df[df['Genre']=='Jazz']
pandas分组计算平均值_机器学习教程之小白入门Pandas_第4张图片
df[df['Listeners']>1800000]
pandas分组计算平均值_机器学习教程之小白入门Pandas_第5张图片

4 处理缺失值

你面对的数据集里将经常遇到缺失值,如下图。

pandas分组计算平均值_机器学习教程之小白入门Pandas_第6张图片

那么让小编带你看看如何处理缺失值。

有很多方法可以采用,其中有一个简单的方法就是把有缺失值的行删掉:

df.dropna()
pandas分组计算平均值_机器学习教程之小白入门Pandas_第7张图片

还有利用 fillna() 函数来填充缺失值,比如用零:

df.fillna(0)

5 分组

还有一个有趣的操作,就是你可以用一定的规则来把数据分组并且整合数据。比如,我们用流派“genre”来分组,并且看看每个流派有多少听众和播放量:

df.groupby('Genre').sum() 
pandas分组计算平均值_机器学习教程之小白入门Pandas_第8张图片

Pandas将两个“Jazz”行组合为一行,由于我们使用sum()进行聚合,因此它将两个Jazz艺术家的听众和播放量相加,并在combined Jazz列中显示总和。

这是一种非常强大的数据分析方法。现在你已经知道groupby(),就可以使用这个工具来折叠数据集并从中得到你的见解。学会聚集统计学的基础工具之一groupby(),相信这对你有很大的帮助。

除了sum()之外,Pandas还提供了多个聚合函数,包括mean()来计算平均值、min()max()和多个其他函数。

6 从存在的列中创建新的列

通常在数据分析过程中,我们发现我们需要从现有的数据中创建新的列。Pandas可以轻而易举地实现这个。

df['Avg Plays']=df['Plays']/df['Listeners']
pandas分组计算平均值_机器学习教程之小白入门Pandas_第9张图片

通过告诉Pandas将一列除以另一列,它意识到我们要分别除以各个值(即每行的Plays值除以该行的Listeners值)。

你可能感兴趣的:(pandas分组计算平均值)