导入数据并合并为df_features 方便对训练集和测试集一起做处理。
#读取excel
train = pd.read_excel(r"filepath")
test = pd.read_excel(r"filepath")
#读取csv
train = pd.read_csv(r"filepath")
test = pd.read_csv(r"filepath")
#合并数据
df_features = train.append(test)
print("训练集:"+str(train.shape)+"\n测试集:"+str(test.shape))
#列号转中文
col = []
df_features.columns = col
#查看
bili = list((((df_features.isnull().sum())/df_features.shape[0]).map(lambda x:"{:.2%}".format(x))).values)
for index,values,isnull,bi in zip(list(df_features.dtypes.index),list(df_features.dtypes.values),list(df_features.isnull().sum()),bili):
print("{:12}{:12}{:12}{:12}".format(str(index),str(values),str(isnull),str(bi)))
或者用 df_features.info()
#相关性函数data.corr()
#打印相关性矩阵第一列
#for index,values in zip(df_features.corr().index,df_features.corr().values[0]):
# print("{:15}{:15}".format(index,values))
#查看相关性
import matplotlib.pyplot as plt
import seaborn as sns
from pylab import mpl
mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负
plt.figure(figsize=(20, 20))
ax = sns.heatmap(train.corr(),linewidths=5,vmax=1.0, square=True,linecolor='white',annot=True,center = 0)
ax.tick_params(labelsize=10)
plt.show()
#自动转换为数值类型数据,对于不可转换的数据设为NAN
df_features['columns_name'] = df_features['columns_name'].apply(pd.to_numeric,errors ='coerce')
详细可见Python pandas.to_numeric函数方法的使用
import matplotlib.pyplot as plt
plt.scatter(df_features['columns_name'].index, df_features['columns_name'].values)
plt.show()
删除重复的行:
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
Python Pandas去重复数据drop_duplicates详解
删除一列:
df_features.drop('columns_name',axis=1,inplace=True)
普通填充方法:
填充-1:
df_features['columns_name'].fillna(-1, inplace=True)
填充众数,平均数,中位数等:
df_features['columns_name'].fillna(df_features['columns_name'].mean(), inplace=True)#填充平均数
df_features['columns_name'].fillna(df_features['columns_name'].median(),inplace=True) # 填充中位数
df_features['columns_name'].fillna(df_features['columns_name'].mode()[0], inplace=True)#填充众数
knnimputer填充:
KNNImputer:一种可靠的缺失值插补方法
建议看这个:缺失值填充的几种方法
from sklearn.preprocessing import LabelEncoder
for feat in ['columns_name']:
lbl = LabelEncoder()
lbl.fit(df_features[feat])
df_features[feat] = lbl.transform(df_features[feat])
import pandas as pd
df = pd.DataFrame({"key":['green','red', 'blue'],
"data1":['a','b','c'],"sorce": [33,61,99]})
# get_dummies(data,....) 在不指定新列的列名的情况下,将以data原标签对为列名
print("-------df---------")
print(df)
df_dummies1 =pd.get_dummies(df["key"])
print('''-------pd.get_dummies(df["key"])--df_dummies1-------''')
print(df_dummies1)
#prefix参数可以给哑变量的名字加上一个前缀
df_dummies2 =pd.get_dummies(df["key"],prefix="key")
print('''---=pd.get_dummies(df["key"],prefix="key")----df_dummies2-----''')
print(df_dummies2)
#如果不指定data列的话,默认是所有的分类变量进行one_hot处理
df_dummies3 =pd.get_dummies(df)
print("-------pd.get_dummies(df)---df_dummies3------")
print(df_dummies3)
#prefix参数可以给哑变量的名字加上一个前缀,如果是多个则需要一个列参数
df_dummies4 =pd.get_dummies(df,prefix=["class","like"])
print('''-------pd.get_dummies(df,prefix=["class","like"])----df_dummies4-----''')
print(df_dummies4)
df_dummies5 =pd.get_dummies(df,columns=["key","sorce"])
print('''---=pd.get_dummies(df,columns=["key","sorce"])----df_dummies5-----''')
print(df_dummies5)
原文链接:Python 对数据one-hot编码
再看:AI基础:特征工程-文本特征处理