【阿里天池】蒸汽数据分析

1.导入第三方库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
#这个包python不显示警告
import warnings
warnings.filterwarnings("ignore")

2.读取文件程序

使用Pandas读取数据文件

train_data_file = "./zhengqi_train.txt"
test_data_file =  "./zhengqi_test.txt"
#read_csv()参数列表(1,文件数据,2,指定分隔符,3,指定编码格式)
#train_data :训练集   test_data :测试集
train_data = pd.read_csv(train_data_file, sep='\t', encoding='utf-8')
test_data = pd.read_csv(test_data_file, sep='\t', encoding='utf-8')

3.查看数据集的各种数据信息

1) xxx.info()查看训练集的特征变量

train_data.info()
test_data.info()
# 用来查看数据集是否有缺失值,以及特征变量的个数,变量类型是什么

2)xxx.describe()查看数据统计信息

train_data.describe()
test_data.describe()
# 上面数据显示了数据的统计信息,例如样本数,数据的均值mean,标准差std,最小值,最大值等

3)xxx.head()查看数据字段信息

train_data.head()
test_data.head()
# head只会显示前5行的数据详细信息,前5行已经足够了

3.绘图函数

箱型图

# 通过matplotlib库来指定绘图对象(画布)宽度和高度
fig = plt.figure(figsize=(4, 6))  
#选定训练集的V0列。
## column = train_data.columns.tolist()[:39]  # 列表头
sns.boxplot(train_data['V0'],orient="v", width=0.5)

boxplot 函数的参数列表如下


seaborn.boxplot的参数列表

你可能感兴趣的:(【阿里天池】蒸汽数据分析)