python中DataFrame数据帧的筛选:使用布尔表达式返回是否引用序列

类似excel表格中的筛选功能,我们有些时候需要根据条件筛除部分不需要的数据,保留那些我们感兴趣的数据,一般都是数据条(item),对应表格中的某些行。pandas库中提供了方便的筛选指令来实现这个功能。
本质上,可以使用一些布尔表达式来表示删选的条件,比如data[‘column’]>100这样的值,或者data[‘column’].isin(condition_list)这样的is表达式,这样的表达式会返回一个布尔型的序列Series。再使用引用方法data[series],就可以使用符合条件的数据条,也就是使用True的元素,而跳过False的元素。
我们可以使用以下的数据对DF数据的筛选功能进行演示:

import pandas as pd
dict_data = {
	'student':["Li Lei","Han Meimei","Tom","Adam","Bob","Curry"],
	'score'	:[95,98,92,89,82,93],
	'gender':['M','F','M',"M","M","M"]
}
DF_data = pd.DataFrame(dict_data,columns=['gender','student','score'],index=['a','b','c','d','e','f'])
print(DF_data[DF_data['score']>=90])

selected_gender = "M"
print(DF_data[DF_data['gender']==selected_gender])

selected_score = [92,93]
print(DF_data[DF_data['score'].isin(selected_score)])

运行之后,我们可以得到结果如下:

  gender     student  score
a      M      Li Lei     95
b      F  Han Meimei     98
c      M         Tom     92
f      M       Curry     93
  gender student  score
a      M  Li Lei     95
c      M     Tom     92
d      M    Adam     89
e      M     Bob     82
f      M   Curry     93
  gender student  score
c      M     Tom     92
f      M   Curry     93

你可能感兴趣的:(python高级数据处理方法)