探索性数据分析 (EDA) 是一种数据分析方法/哲学,它采用多种技术(主要是图形)。
1、最大限度地洞察数据集;
2、揭示底层结构;
3、提取重要变量;
4、检测异常值和异常;
5、测试基本假设;
6、开发简约模型;
7、确定最佳因子设置。
EDA 方法不是一套技术或函数或图形,而是一种关于如何进行数据分析的态度/哲学。
EDA 与统计图形不同,尽管这两个术语几乎可以互换使用。统计图形是一组技术——所有技术都基于图形并且都专注于一个数据表征方面。EDA 包含更广的涵义;EDA 是一种数据分析方法,它通过允许数据本身揭示其底层结构和模型的更直接的方法来推断关于数据遵循何种模型的通常假设。EDA 不仅仅是技术的集合。EDA 是一种关于我们如何剖析数据集的哲学;我们在寻找什么;它们的样子;以及我们如何更好解释其内在联系。确实,EDA 大量使用了我们称之为“统计图形”的技术集合,但它与统计图形本身并不完全相同。
大多数 EDA 技术本质上是图形化的,带有一些定量技术。之所以高度依赖图形,是因为EDA本质上的主要作用是开放的探索,而图形赋予了分析师无与伦比的探索能力,诱使数据揭示其结构秘密,并时刻准备着以获得对数据的一些新的,通常是意想不到的,洞察力。结合我们所有人都拥有的自然模式识别能力,图形当然提供了无与伦比的能力来实现这一点。
EDA 中使用的特定图形技术通常非常简单,由以下各种技术组成:
1、绘制原始数据(例如 数据轨迹、 直方图、 双直方图、 概率图、 滞后图、 块图和约登图。
2、绘制简单的统计数据,例如原始数据的均值图、 标准差图、 箱线图和主效应图。
3、定位这些图以最大化我们的自然模式识别能力,例如每页使用多个图。
EDA 是一种数据分析方法。存在哪些其他数据分析方法以及 EDA 与这些其他方法有何不同?三种流行的数据分析方法是:
经典、探索性(EDA)、贝叶斯
这三种方法的相似之处在于它们都从一般的科学/工程问题开始,并且都得出科学/工程结论。不同之处在于中间步骤的顺序和重点。
经典分析 处理顺序:问题 => 数据 => 模型 => 分析 => 结论
EDA 处理顺序:问题 => 数据 => 分析 => 模型 => 结论
贝叶斯 处理顺序:问题 => 数据 => 模型 => 先验分布 => 分析 => 结论
因此,对于经典分析,数据收集之后是模型(正态性、线性等)的实施,随后的分析、估计和测试集中在该模型的参数上。对于 EDA,数据收集后不执行模型;相反,紧随其后的是分析,目的是推断哪种模型是合适的。最后,对于贝叶斯分析,分析师试图通过对所选模型的参数施加与数据无关的分布来将科学/工程知识/专业知识纳入分析;因此,分析包括正式结合参数的先验分布和收集的数据,以共同对模型参数进行推断和/或测试假设。
在现实世界中,数据分析师可以自由混合上述三种方法(和其他方法)的元素。进行上述区分是为了强调三种方法之间的主要区别。
汇总分析只是对历史数据集进行数值缩减。这是相当被动的。它的重点是过去。很常见的是,它的目的是简单地得出一些关键的统计数据(例如,平均值和标准差),然后可以替换数据集或以汇总表的形式添加到数据集中。
相比之下,EDA 的最广泛目标是深入了解数据背后的工程/科学过程。汇总统计是被动的和历史的,而 EDA 是主动的和未来的。为了“理解”流程并在未来改进它,EDA 使用数据作为“窗口”来窥探生成数据的流程的核心。摘要统计在研究和制造领域具有归档作用,但 EDA 方法的作用要大得多。
EDA 的主要目标是最大化分析师对数据集和数据集底层结构的洞察力,同时提供分析师希望从数据集中提取的所有特定项目,例如:
一个合适的模型、异常值列表、稳定的结论、参数估计、这些估计的不确定性、重要因素的排名列表、关于个别因素是否具有统计显着性的结论、最佳设置等等。
洞察力意味着检测和揭示数据中的底层结构。这样的底层结构可能不会被封装在上面的项目列表中;这些项目作为分析的特定目标,但对数据集的真正洞察力和“感觉”来自分析师明智地探索和探索数据的各种微妙之处。对数据的“感觉”几乎完全来自各种图形技术的应用,这些图形技术的收集充当了进入数据本质的窗口。图形是不可替代的——没有定量的类似物可以提供与精心挑选的图形相同的洞察力。
要获得对数据的“感觉”,分析师仅仅知道数据中的内容是不够的;分析人员还必须知道数据中没有什么,而做到这一点的唯一方法是在应用于数据的一系列明智的图形技术的背景下,利用我们自己的人类模式识别和比较能力。
统计和数据分析程序大致可以分为两部分:定量的、图形的。
定量技术是产生数字或表格输出的一组统计程序。定量技术的例子包括:假设检验、方差分析、点估计和置信区间、最小二乘回归。
这些和类似的技术都是有价值的,并且在经典分析方面是主流技术。
另一方面,有大量我们通常称为图形技术的统计工具。这些包括:散点图、直方图、概率图、残差图、箱形图、块图。
EDA 方法在很大程度上依赖于这些和类似的图形技术。图形程序不仅仅是我们可以在 EDA 环境中使用的工具,它们还是我们必须使用的工具。此类图形工具是深入了解数据集的最短路径。
测试假设、型号选择、模型验证、估计器选择、关系识别、因子效应测定、异常值检测等。
如果不使用统计图形,就不会对数据底层结构具有的良好洞察性。
1、对于单变量可以应用概率图、概率图相关系数图、单变量和多变量控制图、4-plot。
2、进行比较可使用块图、散点图、箱形图
3、进行筛选可以使用块图、概率图、双直方图
4、数据优化可以使用块图、最小二乘拟合、等高线图
5、回归问题可以使用最小二乘拟合、散点图、6-plot
6、对于时间序列可使用自相关图、光谱图、复解调幅度图、复解调相位图、ARIMA 模型
7、对于多变量分析可以使用星图、散点图矩阵、调节图、剖面图、主成分、聚类、Discrimination、分类等。