对pandas进行数据预处理的实例讲解

引入包和加载数据
import pandas as pd
import numpy as np
train_df =pd.read_csv(‘…/datas/train.csv’) # train set
test_df = pd.read_csv(‘…/datas/test.csv’) # test set
combine = [train_df, test_df]

清洗数据
查看数据维度以及类型

缺失值处理

查看object数据统计信息

数值属性离散化

计算特征与target属性之间关系

查看数据维度以及类型
#查看前五条数据
print train_df.head(5)
#查看每列数据类型以及nan情况
print train_df.info()

获得所有object属性

print train_data.describe(include=[‘O’]).columns
查看object数据统计信息

#查看连续数值属性基本统计情况
print train_df.describe() 
#查看object属性数据统计情况
print train_df.describe(include

你可能感兴趣的:(Python框架,pandas,python,机器学习)