数据的探索性分析

数据的探索性分析

探索性数据分析(Exploratory Data Analysis,EDA)是指对已有数据在尽量少的先验假设下通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,该方法在上世纪70年代由美国统计学家J.K.Tukey提出。传统的统计分析方法常常先假设数据符合一种统计模型,然后依据数据样本来估计模型的一些参数及统计量,以此了解数据的特征,但实际中往往有很多数据并不符合假设的统计模型分布,这导致数据分析结果不理想。EDA则是一种更加贴合实际情况的分析方法,它强调让数据自身“说话”,通过EDA我们可以最真实、直接的观察到数据的结构及特征。
EDA出现之后,数据分析的过程就分为两步了,探索阶段和验证阶段。探索阶段侧重于发现数据中包含的模式或模型,验证阶段侧重于评估所发现的模式或模型,很多机器学习算法(分为训练和测试两步)都是遵循这种思想。当我们拿到一份数据时,如果做数据分析的目的不是非常明确、有针对性时,可能会感到有些茫然(我在哪儿,我要干什么。。。我最初就是这样的),那此刻就更加有必要进行EDA了,它能帮助我们先初步的了解数据的结构及特征,甚至发现一些模式或模型,再结合行业背景知识,也许就能直接得到一些有用的结论。
EDA的技术手段主要包括:汇总统计、可视化,下面分别做介绍。

1.汇总统计

汇总统计是量化的(如均值和方差等),用单个数和数的小集合来捕获数据集的特征,从统计学的观点看,这里所提的汇总统计过程就是对统计量的估计过程。

1.1 单个属性情况

频率和众数
频率可以简单定义为属于一个类别对象的样本数占总样本的比例,这里类别对象可以是分类模型的中不同的类,也可以是一个区间或一个集合。众数指具有最高频率的类别对象。
频率可以帮助查看数据在不同类别对象上的分布情况,众数可以让我们获知数据主要集中在那个类别对象上,不过要注意是可能有多个类别对象上的频率与众数对象上的频率相差不大,此时就要权衡众数的重要性是否有那么大。

百分位数
在有序数据上,百分位数是一个重要的统计量。给定一组数据,百分位数是这样的数:这组数据中有%的数据小于。百分位数能让我们了解数据大小分布情况。

位置度量:均值和中位数
对于连续数据,均值和中位数是比较常用的统计量,其中中位数即1/2分位数。均值对数据中的离群点比较敏感,一些离群点的存在能显著的影响均值的大小,而中位数能较好的处理离群点的影响,二者视具体情况使用。
为了克服离群点对均值的影响,有时使用截断均值。截断均值有一个参数,计算截断均值时去除高端(/2)%和低端(/2)%的数据,剩下数据的均值即为截断均值。
均值、中位数和百分位数一样,都是用来观察数据值大小分布情况的。

散步分量:极差和方差
极差和方差是常用的统计量,用来观察数据分布的宽度和分散情况。极差是最大值与最小值的差值,它标识着数据的最大散步,但若大部分数值集中在较窄的范围内,极差反而会引起误解,此时需要结合方差来认识数据。

step1 导入函数工具箱/Step 2:数据读取
因为是算初学者,我的笔记会特别的幼稚哈哈哈哈。
输入的工具
numpy pandas warnings matplotlib seaborn jn display time (基础的)

Panda

学习链接:https://blog.csdn.net/qq_26591517/article/details/8004129
运用panda可以对数据进行读取(数据读取函数库)
使用:

数据降维处理:
数据规约产生更小但保持数据完整性的新数据集。在规约后的数据集上进行数据分析和挖掘将更有效率。
主要的代表模型 PCA LDA LLE 等
学习链接:

info

describe

通过 .describe() 可以查看数值特征列的一些统计信息
Train_data.describe()
(类似于统计建模所能得出的数据种类,包括mean,middle之类的)

step3 征与标签构建

数据的选取:(选择目标种类的数据类型)

A= B.select_dtypes(exclude/include='C').colums
print(A)

构建训练和测试样本

绘制标签统计图:

plt.(用于绘制多种图形,扇形,直方图等)
学习链接:https://blog.csdn.net/WYK1823376647/article/details/84561612?ops_request_misc=%257B%2522request%255Fid%2522%253A%2522158502636019725219928659%2522%252C%2522scm%2522%253A%252220140713.130056874…%2522%257D&request_id=158502636019725219928659&biz_id=0&utm_source=distribute.pc_search_result.none-task
(涉及一些 plt.x(Y/X)

缺省值(default value)

缺省值就是默认值。是指一个属性、参数在被修改前的初始值

step 4 模型训练与预测


切分数据集

MAE 图像质量评估指标


切分数据集(Train,Val)进行模型训练,评价和预测

你可能感兴趣的:(数据的探索性分析)