如何在Pandas中使用Apply方法
apply()方法是数据预处理中最常用的方法之一。
它简化了对pandas系列中的每个元素和pandas DataFrame中的每一行或每一列的函数应用。在本教程中,我们将学习如何在pandas中使用apply()方法--你需要了解Python和lambda函数的基本原理。如果你不熟悉这些,或者需要提高你的Python技能,你可能想试试我们的免费Python基础课程。
让我们直接进入,在 Pandas 系列上应用一个函数
系列是潘达的基础。它们本质上是带有轴标签的一维数组,称为索引。
创建系列对象有不同的方法(例如,我们可以用列表或字典初始化系列)。让我们用两个列表定义一个系列对象,其中包含学生姓名作为索引,学生的身高(厘米)作为数据。
import pandas as pd
import numpy as np
from IPython.display import display
students = pd.Series(data=[180, 175, 168, 190],
index=['Vik', 'Mehdi', 'Bella', 'Chriss'])
display(students)
print(type(students))
Vik 180
Mehdi 175
Bella 168
Chriss 190
dtype: int64
上面的代码返回students对象的内容和它的数据类型。
students对象的数据类型是Series,所以我们可以使用apply()方法对其数据应用任何函数。让我们看看如何将学生的身高从厘米转换为英尺。
def cm_to_feet(h):
return np.round(h/30.48, 2)
print(students.apply(cm_to_feet))
Vik 5.91
Mehdi 5.74
Bella 5.51
Chriss 6.23
dtype: float64
学生的身高被转换为小数点后两位的英尺。为此,我们首先定义了一个进行转换的函数,然后将函数名称不带括号地传递给apply()方法。apply()方法接收系列中的每个元素,并对其应用cm_to_feet()函数。
Pandas DataFrame上应用一个函数
在本节中,我们将学习如何使用apply()方法来操作数据框架中的列和行。
首先,让我们用下面的代码创建一个假的DataFrame,包含一个公司员工的个人信息。
data = pd.DataFrame({'EmployeeName': ['Callen Dunkley', 'Sarah Rayner', 'Jeanette Sloan', 'Kaycee Acosta', 'Henri Conroy', 'Emma Peralta', 'Martin Butt', 'Alex Jensen', 'Kim Howarth', 'Jane Burnett'],
'Department': ['Accounting', 'Engineering', 'Engineering', 'HR', 'HR', 'HR', 'Data Science', 'Data Science', 'Accounting', 'Data Science'],
'HireDate': [2010, 2018, 2012, 2014, 2014, 2018, 2020, 2018, 2020, 2012],
'Sex': ['M', 'F', 'F', 'F', 'M', 'F', 'M', 'M', 'M', 'F'],
'Birthdate': ['04/09/1982', '14/04/1981', '06/05/1997', '08/01/1986', '10/10/1988', '12/11/1992', '10/04/1991', '16/07/1995', '08/10/1992', '11/10/1979'],
'Weight': [78, 80, 66, 67, 90, 57, 115, 87, 95, 57],
'Height': [176, 160, 169, 157, 185, 164, 195, 180, 174, 165],
'Kids': [2, 1, 0, 1, 1, 0, 2, 0, 3, 1]
})
display(data)
EmployeeName Department HireDate Sex Birthdate Weight Height Kids
0 Callen Dunkley Accounting 2010 M 04/09/1982 78 176 2
1 Sarah Rayner Engineering 2018 F 14/04/1981 80 160 1
2 Jeanette Sloan Engineering 2012 F 06/05/1997 66 169 0
3 Kaycee Acosta HR 2014 F 08/01/1986 67 157 1
4 Henri Conroy HR 2014 M 10/10/1988 90 185 1
5 Emma Peralta HR 2018 F 12/11/1992 57 164 0
6 Martin Butt Data Science 2020 M 10/04/1991 115 195 2
7 Alex Jensen Data Science 2018 M 16/07/1995 87 180 0
8 Kim Howarth Accounting 2020 M 08/10/1992 95 174 3
9 Jane Burnett Data Science 2012 F 11/10/1979 57 165 1
data = pd.DataFrame({'EmployeeName': ['Callen Dunkley', 'Sarah Rayner', ' Jeanette Sloan', 'Kaycee Acosta', 'Henri Conroy', ' Emma Peralta', 'Martin Butt', 'Alex Jensen', 'Kim Howarth', 'Jane Burnett'],
'部门'。['会计', '工程', '工程', '人力资源', '人力资源', '数据科学', '数据科学', '会计', '数据科学'] 。
'HireDate': [2010, 2018, 2012, 2014, 2014, 2018, 2020, 2018, 2020, 2012],
'性别': ['m', 'f', 'f', 'f', 'm', 'f', 'm', 'm', 'f'] 。
'出生日期': ['04/09/1982', '14/04/1981', '06/05/1997', '08/01/1986', '10/10/1988', '12/11/1992', '10/04/1991', '16/07/1995', '08/10/1992', '11/10/1979'] 。
'重量'。[78, 80, 66, 67, 90, 57, 115, 87, 95, 57],
'身高': [176, 160, 169, 157, 185, 164, 195, 180, 174, 165],
'孩子'。[2, 1, 0, 1, 1, 0, 2, 0, 3, 1]
})
display(data)
雇员姓名 部门 雇用日期 性别 出生日期 体重 身高 孩子
0 Callen Dunkley Accounting 2010 M 04/09/1982 78 176 2
1 Sarah Rayner Engineering 2018 F 14/04/1981 80 160 1
2 Jeanette Sloan Engineering 2012 F 06/05/1997 66 169 0
3 Kaycee Acosta HR 2014 女 08/01/1986 67 157 1
4 Henri Conroy HR 2014 男 10/10/1988 90 185 1
5 Emma Peralta HR 2018 女 12/11/1992 57 164 0
6 Martin Butt 数据科学 2020 男 10/04/1991 115 195 2
7 Alex Jensen 数据科学 2018 男 16/07/1995 87 180 0
8 Kim Howarth 会计 2020 男 08/10/1992 95 174 3
9 Jane Burnett 数据科学 2012 女 11/10/1979 57 165 1
注意
在本节中,我们将研究由公司人力资源部门发起的假请求。我们将通过不同的场景来学习如何使用apply()方法。我们将在每个场景中探索一个新的用例,并使用apply()方法解决它。
场景1
我们假设人力资源部门想发送一封邀请邮件,邮件的开头是对所有员工的友好问候(例如,嘿,Sarah!)
他们要求你创建两列,分别存储员工的名和姓,这样就可以很容易地提到员工的名字。要做到这一点,我们可以使用一个lambda函数,在通过指定的分隔符将字符串分割成一个列表;split()方法的默认分隔符是任何白色空间。让我们看一下代码。
data['FirstName'] = data['EmployeeName'].apply(lambda x : x.split()[0])
data['LastName'] = data['EmployeeName'].apply(lambda x : x.split()[1])
display(data)
EmployeeName Department HireDate Sex Birthdate Weight Height Kids FirstName LastName
0 Callen Dunkley Accounting 2010 M 04/09/1982 78 176 2 Callen Dunkley
1 Sarah Rayner Engineering 2018 F 14/04/1981 80 160 1 Sarah Rayner
2 Jeanette Sloan Engineering 2012 F 06/05/1997 66 169 0 Jeanette Sloan
3 Kaycee Acosta HR 2014 F 08/01/1986 67 157 1 Kaycee Acosta
4 Henri Conroy HR 2014 M 10/10/1988 90 185 1 Henri Conroy
5 Emma Peralta HR 2018 F 12/11/1992 57 164 0 Emma Peralta
6 Martin Butt Data Science 2020 M 10/04/1991 115 195 2 Martin Butt
7 Alex Jensen Data Science 2018 M 16/07/1995 87 180 0 Alex Jensen
8 Kim Howarth Accounting 2020 M 08/10/1992 95 174 3 Kim Howarth
9 Jane Burnett Data Science 2012 F 11/10/1979 57 165 1 Jane Burnett
在上面的代码中,我们在EmployeeName列上应用了lambda函数,从技术上讲,它是一个Series对象。lambda函数将雇员的全名拆分为名和姓。因此,代码又创建了两列,包含了雇员的名和姓。
情景二
现在,我们假设人力资源部门想知道每个员工的年龄和员工的平均年龄,因为他们想确定员工的年龄是否会影响工作满意度和工作投入。
为了完成这项工作,第一步是定义一个函数,获取员工的出生日期并返回其年龄。
def calculate_age(birthdate):
birthdate = datetime.strptime(birthdate, '%d/%m/%Y').date()
today = date.today()
return today.year - birthdate.year - (today.month < birthdate.month)
函数calculate_age()以适当的格式获得一个人的出生日期,在对其进行简单计算后,返回他们的年龄。
下一步是使用apply()方法在DataFrame的Birthdate列上应用该函数,如下所示。
data['Age'] = data['Birthdate'].apply(calculate_age)
display(data)
EmployeeName Department HireDate Sex Birthdate Weight Height Kids FirstName LastName Age
0 Callen Dunkley Accounting 2010 M 04/09/1982 78 176 2 Callen Dunkley 39
1 Sarah Rayner Engineering 2018 F 14/04/1981 80 160 1 Sarah Rayner 40
2 Jeanette Sloan Engineering 2012 F 06/05/1997 66 169 0 Jeanette Sloan 24
3 Kaycee Acosta HR 2014 F 08/01/1986 67 157 1 Kaycee Acosta 36
4 Henri Conroy HR 2014 M 10/10/1988 90 185 1 Henri Conroy 33
5 Emma Peralta HR 2018 F 12/11/1992 57 164 0 Emma Peralta 29
6 Martin Butt Data Science 2020 M 10/04/1991 115 195 2 Martin Butt 30
7 Alex Jensen Data Science 2018 M 16/07/1995 87 180 0 Alex Jensen 26
8 Kim Howarth Accounting 2020 M 08/10/1992 95 174 3 Kim Howarth 29
9 Jane Burnett Data Science 2012 F 11/10/1979 57 165 1 Jane Burnett 42
雇员姓名 部门 雇用日期 性别 出生日期 体重 身高 孩子 名字 姓氏 年龄
上面的单行语句在Birthdate列的每个元素上应用calculate_age()函数,并将返回的值存储在Age列。
最后一步是计算雇员的平均年龄,如下所示。
print(data['Age'].mean())
32.8
情景3
公司的人力资源经理正在探索为所有员工提供医疗保障的方案。潜在的供应商需要有关雇员的信息。由于DataFrame包含每个员工的体重和身高,让我们假设人力资源经理要求你提供每个员工的身体质量指数(BMI),这样她就可以从潜在的医疗保健供应商那里获得报价。
要完成这个任务,首先,我们需要定义一个计算身体质量指数(BMI)的函数。BMI的公式是体重(公斤)除以身高(米)的平方。因为员工的身高是以厘米为单位的,所以我们需要用身高除以100来得到米的身高。让我们来实现这个函数。
def calc_bmi(weight, height):
return np.round(weight/(height/100)**2, 2)
下一步是在DataFrame上应用该函数。
data['BMI'] = data.apply(lambda x: calc_bmi(x['Weight'], x['Height']) , axis=1)
这个lambda函数接收每一行的体重和身高值,然后对它们应用calc_bmi()函数来计算其BMI。axis=1参数意味着在DataFrame中迭代行数。
display(data)
EmployeeName Department HireDate Sex Birthdate Weight Height Kids FirstName LastName Age BMI
0 Callen Dunkley Accounting 2010 M 04/09/1982 78 176 2 Callen Dunkley 39 25.18
1 Sarah Rayner Engineering 2018 F 14/04/1981 80 160 1 Sarah Rayner 40 31.25
2 Jeanette Sloan Engineering 2012 F 06/05/1997 66 169 0 Jeanette Sloan 24 23.11
3 Kaycee Acosta HR 2014 F 08/01/1986 67 157 1 Kaycee Acosta 36 27.18
4 Henri Conroy HR 2014 M 10/10/1988 90 185 1 Henri Conroy 33 26.30
5 Emma Peralta HR 2018 F 12/11/1992 57 164 0 Emma Peralta 29 21.19
6 Martin Butt Data Science 2020 M 10/04/1991 115 195 2 Martin Butt 30 30.24
7 Alex Jensen Data Science 2018 M 16/07/1995 87 180 0 Alex Jensen 26 26.85
8 Kim Howarth Accounting 2020 M 08/10/1992 95 174 3 Kim Howarth 29 31.38
9 Jane Burnett Data Science 2012 F 11/10/1979 57 165 1 Jane Burnett 42 20.94
最后一步是根据BMI的测量结果对员工进行分类。BMI小于18.5为第一组,18.5到24.9之间为第二组,25到29.9之间为第三组,30以上为第四组。为了实现这个解决方案,我们将定义一个函数来返回各种BMI指标,然后在DataFrame的BMI列上应用这个函数来查看每个员工属于哪一类。
def indicator(bmi):
if (bmi < 18.5):
return 'Group One'
elif (18.5 <= bmi < 25):
return 'Group Two'
elif (25 <= bmi < 30):
return 'Group Three'
else:
return 'Group Four'
data['BMI_Indicator'] = data['BMI'].apply(indicator)
display(data)
EmployeeName Department HireDate Sex DoB Weight Height Kids FirstName LastName Age BMI BMI_Indicator
0 Callen Dunkley Accounting 2010 M 04/09/1982 78 176 2 Callen Dunkley 39 25.18 Group Three
1 Sarah Rayner Engineering 2018 F 14/04/1981 80 160 1 Sarah Rayner 40 31.25 Group Four
2 Jeanette Sloan Engineering 2012 F 06/05/1997 66 169 0 Jeanette Sloan 24 23.11 Group Two
3 Kaycee Acosta HR 2014 F 08/01/1986 67 157 1 Kaycee Acosta 36 27.18 Group Three
4 Henri Conroy HR 2014 M 10/10/1988 90 185 1 Henri Conroy 33 26.30 Group Three
5 Emma Peralta HR 2018 F 12/11/1992 57 164 0 Emma Peralta 29 21.19 Group Two
6 Martin Butt Data Science 2020 M 10/04/1991 115 195 2 Martin Butt 30 30.24 Group Four
7 Alex Jensen Data Science 2018 M 16/07/1995 87 180 0 Alex Jensen 26 26.85 Group Three
8 Kim Howarth Accounting 2020 M 08/10/1992 95 174 3 Kim Howarth 29 31.38 Group Four
9 Jane Burnett Data Science 2012 F 11/10/1979 57 165 1 Jane Burnett 42 20.94 Group Two
场景4
让我们假设新年即将来临,公司管理层宣布那些有10年以上工作经验的员工将获得额外的奖金。人力资源经理想知道谁有资格获得奖金。
要准备请求的信息,需要在HireDate列上应用下面的lambda函数,如果当前年份和雇佣年份之间的差值大于或等于十年,则返回True,否则返回False。
mask = data['HireDate'].apply(lambda x: date.today().year - x >= 10)
print(mask)
0 True
1 False
2 True
3 False
4 False
5 False
6 False
7 False
8 False
9 True
Name: HireDate, dtype: bool
为了显示合格的员工,我们使用布尔掩码过滤DataFrame行。让我们运行下面的语句并查看结果:
显示(数据(员工画像))
雇员名部门雇佣日期性别年龄体重身高孩子名字姓年龄bmi
EmployeeName Department HireDate Sex DoB Weight Height Kids FirstName LastName Age BMI
0 Callen Dunkley Accounting 2010 M 04/09/1982 78 176 2 Callen Dunkley 39 25.18
2 Jeanette Sloan Engineering 2012 F 06/05/1997 66 169 0 Jeanette Sloan 24 23.11
9 Jane Burnett Data Science 2012 F 11/10/1979 57 165 1 Jane Burnett 42 20.94
0 callen dunkley会计2010 m 04/09/1982 78 176 2 callen dunkley 39 25.18
2珍妮特斯隆工程2012 f 06/05/1997 66 169 0珍妮特斯隆24 23.11
9简·伯内特数据科学2012 f 11/10/1979 57 165 1简·伯内特42 20.94
场景5
假设明天是母亲节,公司为所有有孩子的女性员工准备了一份母亲节礼物。人力资源团队让你准备一份有资格获得这份礼物的员工名单。要完成这项任务,我们需要编写一个简单的lambda函数,该函数考虑Sex和Kids列以提供所需的结果,如下所示:
data[data.apply(lambda x: True if x ['Gender'] == 'F' and x['Kids'] > 0 else False, axis=1)]
EmployeeName Department HireDate Sex Birthdate Weight Height Kids FirstName LastName Age BMI
1 Sarah Rayner Engineering 2018 F 14/04/1981 80 160 1 Sarah Rayner 40 31.25
3 Kaycee Acosta HR 2014 F 08/01/1986 67 157 1 Kaycee Acosta 36 27.18
9 Jane Burnett Data Science 2012 F 11/10/1979 57 165 1 Jane Burnett 42 20.94
运行上面的代码将返回将收到礼物的员工列表。
如果女性员工至少有一个孩子,lambda函数返回True;否则,返回False。在DataFrame上应用lambda函数的结果是一个布尔掩码,我们直接使用它来过滤DataFrame的行。
结论
在本教程中,我们通过不同的示例了解了apply()方法的作用以及如何使用它。apply()方法是对pandas中的Series或DataFrame的每个值应用函数的一种强大而有效的方法。由于apply()方法使用了Python的C扩展,所以当遍历pandas DataFrame的所有行时,它执行得更快。但是,这不是一般的规则,因为通过列执行相同的操作会比较慢。