数据预处理常用操作

数据预处理常用操作

  • 数据导入
  • 数据分析
    • 查看数据大小
    • 查看数据类型,缺失值,缺失值占比
    • 查看数据相关性-热力图表示
  • 数据处理
    • 数据类型转换pd.to_numeric函数
    • 散点图观察
    • 缺失值处理
    • 数据删除
    • 缺失值填充:
    • 文本数据处理
  • 最后建议大家看一下飞桨的[数据准备和特征工程](https://aistudio.baidu.com/aistudio/education/group/info/1337)讲的非常好。

数据导入

导入数据并合并为df_features 方便对训练集和测试集一起做处理。

#读取excel
train = pd.read_excel(r"filepath")
test = pd.read_excel(r"filepath")
#读取csv
train = pd.read_csv(r"filepath")
test = pd.read_csv(r"filepath")
#合并数据
df_features = train.append(test)

数据分析

查看数据大小

print("训练集:"+str(train.shape)+"\n测试集:"+str(test.shape))

查看数据类型,缺失值,缺失值占比

#列号转中文
col = []
df_features.columns = col
#查看
bili = list((((df_features.isnull().sum())/df_features.shape[0]).map(lambda x:"{:.2%}".format(x))).values)
for index,values,isnull,bi in zip(list(df_features.dtypes.index),list(df_features.dtypes.values),list(df_features.isnull().sum()),bili):
    print("{:12}{:12}{:12}{:12}".format(str(index),str(values),str(isnull),str(bi)))

或者用 df_features.info()

查看数据相关性-热力图表示

#相关性函数data.corr()
#打印相关性矩阵第一列
#for index,values in zip(df_features.corr().index,df_features.corr().values[0]):
#    print("{:15}{:15}".format(index,values))
#查看相关性
import matplotlib.pyplot as plt
import seaborn as sns
from pylab import mpl

mpl.rcParams['font.sans-serif'] = ['FangSong'] # 指定默认字体
mpl.rcParams['axes.unicode_minus'] = False # 解决保存图像是负
plt.figure(figsize=(20, 20))
ax = sns.heatmap(train.corr(),linewidths=5,vmax=1.0, square=True,linecolor='white',annot=True,center = 0)
ax.tick_params(labelsize=10)
plt.show()

数据处理

数据类型转换pd.to_numeric函数

#自动转换为数值类型数据,对于不可转换的数据设为NAN
df_features['columns_name'] = df_features['columns_name'].apply(pd.to_numeric,errors ='coerce')

详细可见Python pandas.to_numeric函数方法的使用

散点图观察

import matplotlib.pyplot as plt
plt.scatter(df_features['columns_name'].index, df_features['columns_name'].values)
plt.show()

缺失值处理

数据删除

删除重复的行:

DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)

Python Pandas去重复数据drop_duplicates详解

删除一列:

df_features.drop('columns_name',axis=1,inplace=True)

缺失值填充:

普通填充方法:

填充-1:
df_features['columns_name'].fillna(-1, inplace=True)
填充众数,平均数,中位数等:
df_features['columns_name'].fillna(df_features['columns_name'].mean(), inplace=True)#填充平均数
df_features['columns_name'].fillna(df_features['columns_name'].median(),inplace=True) # 填充中位数
df_features['columns_name'].fillna(df_features['columns_name'].mode()[0], inplace=True)#填充众数

knnimputer填充:
KNNImputer:一种可靠的缺失值插补方法
建议看这个:缺失值填充的几种方法

文本数据处理

  • LabelEncoder编码
from sklearn.preprocessing import LabelEncoder

for feat in ['columns_name']:
    lbl = LabelEncoder()
    lbl.fit(df_features[feat])
    df_features[feat] = lbl.transform(df_features[feat])
  • OneHotEncoder编码
    将分类变量装换为“哑变量矩阵”(dummy matrix).如果DataFrame的某一列中含有K个不同的值,则可以派生出一个K列矩阵或者DataFrame(其值全为0和1)。pandas 有一个get_dummies函数可以实现该功能。
    pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
import pandas as pd
df = pd.DataFrame({"key":['green','red', 'blue'],
            "data1":['a','b','c'],"sorce": [33,61,99]})
# get_dummies(data,....) 在不指定新列的列名的情况下,将以data原标签对为列名
print("-------df---------")
print(df)
df_dummies1 =pd.get_dummies(df["key"])
print('''-------pd.get_dummies(df["key"])--df_dummies1-------''')
print(df_dummies1)
#prefix参数可以给哑变量的名字加上一个前缀
df_dummies2 =pd.get_dummies(df["key"],prefix="key")
print('''---=pd.get_dummies(df["key"],prefix="key")----df_dummies2-----''')
print(df_dummies2)
#如果不指定data列的话,默认是所有的分类变量进行one_hot处理
df_dummies3 =pd.get_dummies(df)
print("-------pd.get_dummies(df)---df_dummies3------")
print(df_dummies3)
#prefix参数可以给哑变量的名字加上一个前缀,如果是多个则需要一个列参数
df_dummies4 =pd.get_dummies(df,prefix=["class","like"])
print('''-------pd.get_dummies(df,prefix=["class","like"])----df_dummies4-----''')
print(df_dummies4)
 
 
df_dummies5 =pd.get_dummies(df,columns=["key","sorce"])
print('''---=pd.get_dummies(df,columns=["key","sorce"])----df_dummies5-----''')
print(df_dummies5)

原文链接:Python 对数据one-hot编码

  • 其他方法

再看:AI基础:特征工程-文本特征处理

最后建议大家看一下飞桨的数据准备和特征工程讲的非常好。

你可能感兴趣的:(数据分析,数据挖掘,机器学习)