pandas数据清洗

读取csv文件

df =pd.read_csv(self,csvdir,sheet_name=0)

所有空值替换

df=df.fillna("此处未填写")

特殊字符替换

df["产品系列"].replace(regex={r"\(.+":"",r"(.+":"",r"\[.+":""},inplace = True)
df["产品系列"].replace(regex={r"/":""},inplace = True)

分割日期获取月份

df["维修月份"]=df["制单日期"].str.split(r"/",expand=True)[1]

用正则+字典替换

df["故障"].replace(regex=dict2,inplace = True)

把不常见的分类统一替换为其他

df["故障分类"]=np.where(df.故障分类.isin(faultcategory),df["故障分类"],"其他故障")

删除list包含的列

df.drop(droplist,axis=1,inplace = True)

客户数量小于等于5

df["客户分类1"]=np.where(df.客户来源计数.isin(range(5)),"终端用户",df["客户来源计数"])

你可能感兴趣的:(pythonpandas)