1、筛选表格中去除某一列包含的内容:
例如:
import pandas as pd
df = pd.read_excel(filename, usecols=['city', 'data', 'info'])
df = df[~df['info'].str.contains('河北|河南')] # 该操作将‘info’列中包含有河北或者河南的行去掉;~是取反的意思,str.contains是将该列内容转化成字符串并查看包含括号中内容.
2、修改dataframe中列的名字
df.rename(columns={'city':'contrary'}, inplace=True) # 将city列名改为contrary,加了inplace=True才能生效
3、将dataframe的删除内容后对应索引的重新排列
df.reset_index(drop=True, inplace=True) # 重新进行索引值排序
4、去除指定列中重复行
df.drop_duplicates(subset='city', keep='first', inplace=True) # 将city一列中有重复的整行去除