数据探索性分析(EDA)常用方法大合集

EDA(Exploratory Data Analysis),全名为数据探索性分析,是通过了解数据集,了解变量间的相互关系以及变量与预测值之间的关系,从而帮助我们后期更好地进行特征工程和建立模型,是数据挖掘、机器学习中十分重要的一步。

下面我们会将EDA中常用的方法进行总结,帮助大家提高EDA效率。由于本节内容较多,我们将分几篇系列文章为大家分享。

首先来看看一个常规的EDA都需要做哪些事情。

一是对我们要分析的数据进行一个整体的了解即数据的整体概览,这一环节我们可以了解数据的特征、类型、量纲等基本信息,并对缺失值、异常值等进行处理

二是查看数据的分布情况,尽量将数据的分布调整成利于机器学习的输入形式,对于偏斜分布、重尾分布进行规整,一般调整为正太分布;

三是对类别型数据进行处理,通常采用不同的编码方式对其进行编码,以便转化成数值型数据

四是重点对数值型数据进一步进行探索分析,查看数据之间的相关性、独立性等,以便选取更为有效的特征

你可能感兴趣的:(白话机器学习,机器学习,人工智能,EDA)