二手车交易价格预测-EDA

探索性数据分析(Exploratory Data Analysis)简称EDA,往往是我们了解、挖掘数据的至关重要的步骤。

EDA的主要工作有:

(1)了解数据基本属性:初步加载清洗数据、描述数据(了解数据大小、数据类型)、数据的异常情况分析(缺省值和异常值的刻画、处理)

(2)了解数据间的关系:数据分布的刻画、数据间关系刻画、数据与目标之间的关系刻画


1、数据加载和描述

数据下载地址:https://tianchi.aliyun.com/competition/entrance/231784/information

加载csv数据


加载数据、描述数据、基本属性获取

(1) 显示原始数据

            data.head(10),显示训练数据的前10行,结果见下图:

train_data.head(10)

 这里可以看出,数据大小为 10*31,有31列数据,但显示的时候,仅显示了一部分列。如果想显示全部列,可以这样设置,设置后显示结果如下:

pd.set_option('display.max_rows', None) #设置最大显示行数

pd.set_option('display.max_columns', None) #设置最大显示列数

train_data.head(3)

(2) 查看数据信息

data.info 包括每个字段的名称、非空数量、字段的数据类型,结果如下:

data.info()

从结果中可以看出,该df,共有150000行,索引从0-149999,共有31列,每一列的名称、非空行数、数据类型均给出;

且给出该df 有 20个float64, 10个int64, 1个object 数据类型;

占用内存大小为35.5+ MB

(3)数据缺省值刻画

        找出有缺省值的数据列,并给出缺省的行数,采用以下函数计算:

计算缺省值列,以及其缺省的行数

运行结果:

train 空值列名称,和空值个数:

{'model': 1, 'bodyType': 4506, 'fuelType': 8680, 'gearbox': 5981}

(4)数据统计特征刻画

            data.describe(),统计出所有列的以下信息:元素个数、均值、标准差、最小值、25%、50%、75%、以及最大值。从这里我们可看出,数据的取值范围和大致分布,对应数据有初步的了解。

data.describe()

2、数据间关系刻画

(1)数据大致分类

        根据数据类型,对数据进行初步分类,可分为,时间类型、连续类型、离散类型。这里我们可以通过统计大致区分连续数据和离散数据。

描述列可取值个数,以及占总比,大致区分数据类型
运行结果

        从上述结果可以看出,v_0至v_14数据取值多样化,占总比96%,可证明其为连续数值。同时,我们可以观测出部分变量的可取值范围,对数据有初步的了解。

(2)数据间关系刻画

            画图可采用seaborn 库,据图函数可参考,因分析关系较多,且与个人假设相关,后续如果时间允许,会添加部分自认为重要的关系结果图。

                https://blog.csdn.net/qq_40195360/article/details/86605860

你可能感兴趣的:(二手车交易价格预测-EDA)