【pandas】空行相关操作及判断两列是否相同

1 判断元素是否为空:

df.isnull()
df[['A','B']].isnull()

df.notnull()    
df["A"].isnull()  
df[["A","B"]].isnull()

np.isnan(df)   # 等同于df.isnull()
np.isnan(df["A"])   # 等同于 df["A"].isnull()
np.isnan(df[["A","B"]])  # 等同于 df[["A","B"]].isnull()

df.isnull().sum()  # 统计每列的空值数量
df.isnull().any()  # 判断是否有任意元素为空的行

# 筛选出A列为空的所有行
df[df.A.isnull()]    
df[df["A"].isnull()]
 
# 筛选出A列非空的所有列
df[df.A.T.notnull()]   
df[df["A"]T..notnull()]        

空值填充:

df.fillna(0)
df.fillna(df.mean())  # 用df中数据的平均值来填充空值
values = {'A': 0, 'B': 1}   # A列空值用0填充,B列空值用1填充
df.fillna(value=values)
df.fillna("unkown") # 用指定字符串来填充空值

# 不同的填充方式{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}
# 每列的空值,用其列下方非空数值填充
df.fillna(method="backfill")  
df.fillna(method="bfill")   # 同backfill
# 每列的空值,用其所在列上方非空数值填充,若上方没有元素,保持空值
df.fillna(method="ffill")  
df.fillna(method="pad")     # 同 ffill

2 删除操作

dropna()

  • axis:默认为 0,表示逢空值剔除整行,如果设置参数 axis=1 表示逢空值去掉整列。
  • how:默认为 'any' 如果一行(或一列)里任何一个数据有出现 NA 就去掉整行,如果设置 how='all' 一行(或列)都是 NA 才去掉这整行。
  • thresh:设置需要多少非空值的数据才可以保留下来的。
  • subset:设置想要检查的列。如果是多个列,可以使用列名的 list 作为参数。
  • inplace:如果设置 True,将计算得到的值直接覆盖之前的值并返回 None,修改的是源数据。
# 对特定列空值进行删除
df.dropna(how="any",subset=["A"])  # 删除A列中存在空值的行
df.dropna(how="any",subset=["A","B"])  # 删除A,B列中只要有一列存在空值的行
 
#将删除操作作用于原数据,修改替换原数据
df.dropna(how="all",subset=["A","B"],inplace=True)  # 删除A,B列都为空值的行,并替换原数据

3 判断两列内容是否相同

import pandas as pd;
 
def function(a, b):
    if a == b:
        return 1
    else:
        return 0

data = pd.read_csv('filename.csv')
df = pd.DataFrame(data)
df['bool'] = df.apply(lambda x : function(x['A'],x['B']),axis = 1)

你可能感兴趣的:(pytorch,pandas,python,数据分析)