pandas利用关系运算(><=)和逻辑运算(&|~)选取数据

import pandas as pd
df = pd.DataFrame(……)
说明:以下“df”为DataFrame对象。

df['col1']:获取col1列的数据
df.col1:同样是获取col1列的数据
两者的区别是df[['col1','col2',…]]可以同时获取多列,而dif.col1只能获取1列。

原始数据

df = pd.DataFrame({'b':[-1,-2,3,2],'a':[4,3,-2,1],'c':[1,-3,8,-2]},index=[2,0,1,-3])
    b   a   c
2   -1  4   1
0   -2  3   -3
1   3   -2  8
3   2   1   -2

1. 对DataFrame对象或者Series对象用关系运算符(><==!=)作用后,返回的是相同维度的由bool值(False或True)组成的对象。

df>0
    b       a       c
2   False   True    True
0   False   True    False
1   True    False   True
3   True    True    False
这里df表示整个对象,df>0对每个元素判断,并返回同维bool值组成的对象。

df.b>0 或者df['b']>0
 2    False
 0    False
 1     True
3     True
Name: b, dtype: bool
这里df.b>0 或者df['b']>0都表示对b列每个数据进行判断,返回一列bool值。

df[['b','c']]>0
    b       c
2   False   True
0   False   False
1   True    True
3   True    False
同时判断b和c列中元素,返回两列bool值

(df.b>0)&(df.c>0) 
 2    False
 0    False
 1     True
3    False
dtype: bool
b列元素>0且同时满足c列元素也>0,可见只有序号为“1”的行满足条件
注意:用逻辑运算符(&|~)时,前后条件都要带上括号()。

2. 根据关系运算符(><==!=)返回的结果抽取数据

因为关系运算符返回的是由bool值组成的结果 ,因此本质上是根据bool值选值。

(1)根据判断条件从整个df中选取,即抽出的都是整行数据
形如:df[ 限制条件1&限制条件2… ]或df[ 限制条件1 ][ 限制条件2]…
df[df.b>0] 或者df[df['b']>0] 
    b   a   c
1   3   -2  8
3   2   1   -2
在df中选择b列元素>0的所有行。

df[ (df.b>0)&(df.c>0) ]
    b   a   c
1   3   -2  8
在df中选择选择b和c同时大于0的那些行。

df[ df[['b','c']]>0 ]
    b   a   c
2   NaN NaN 1.0
0   NaN NaN NaN
1   3.0 NaN 8.0
3   2.0 NaN NaN
这种情况特别要注意,并不是指b和c列要同时>0,两者是“并|”逻辑关系。
(2)根据判断条件从df的部分列中选取,即抽出的都是指定列的数据
形如:df[ ['col1','col1',…] ][ 限制条件1&限制条件2… ]或df.col[ 限制条件1&限制条件2… ]

或df[ ['col1','col1',…] ][ 限制条件1 ][ 限制条件2 ]…或df.col[ 限制条件1 ][ 限制条件2 ]…

df['a'][df.b>0]
1   -2
3    1
Name: a, dtype: int64
首先判断b列元素>0的行,即1行和3行,然后抽取这两行中a列的数据,即-2和1。
即判断条件[df.b>0]限制了在哪些行中寻找。

df[['a','b']][(df.b>0) & (df.c>0)]
    a   b
1   -2  3
同上面完全一样,先找出b和c列同时>0的行(即1行),然后抽出a和b列的值,即-2和3。

你可能感兴趣的:(pandas利用关系运算(><=)和逻辑运算(&|~)选取数据)