定义函数
def data_cleaning(arguments):#数据清洗函数
arguments=str(arguments)
# arguments=re.sub('[ \s]+',' ',arguments)#去掉多余空格,保留一个 ,正则替换
arguments=arguments.strip(' ,;\n\t')#去掉首尾空格等
return arguments
函数应用
clean_columns=['涉及功能','元数据分类','涉及病种','是否治理'] # 需要清洗的字段
for clean_column in clean_columns:
logging.info('{}-数据清洗中!'.format(clean_column))
df[clean_column]=df.apply(lambda x:data_cleaning(x[clean_column]),axis=1)
完整代码
df=df.fillna('')
import re
def data_cleaning(arguments):#数据清洗函数
arguments=str(arguments)
# arguments=re.sub('[ \s]+',' ',arguments)#去掉多余空格,保留一个 ,正则替换
arguments=arguments.strip(' ,;\n\t')#去掉首尾空格等
return arguments
clean_columns=['涉及功能','元数据分类','涉及病种','是否治理']
for clean_column in clean_columns:
logging.info('{}-数据清洗中!'.format(clean_column))
df[clean_column]=df.apply(lambda x:data_cleaning(x[clean_column]),axis=1)