EDA

(笔记/心得来自udacity学习过程)

什么是EDA(Exploratory Data Analysis)?

-- Simply put it's an approach to understanding data using visualization and statistical tools.
简单说来,就是使用可视化和统计工具来理解数据的一种方法。

definition:
https://en.wikipedia.org/wiki/Exploratory_data_analysis

In statistics, exploratory data analysis (EDA) is an approach to analyzing data sets to summarize their main characteristics, often with visual methods. A statistical model can be used or not, but primarily EDA is for seeing what the data can tell us beyond the formal modeling or hypothesis testing task. Exploratory data analysis was promoted by John Tukey to encourage statisticians to explore the data, and possibly formulate hypotheses that could lead to new data collection and experiments. EDA is different from initial data analysis (IDA),[1]
which focuses more narrowly on checking assumptions required for model fitting and hypothesis testing, and handling missing values and making transformations of variables as needed. EDA encompasses IDA.

简单来说,就是使用可视化和统计工具来理解数据的一种方式。
考虑使用EDA进行你与数据的初次互动。


EDA的目标:

1)查看数据的分布结构和变量之间的关系:
例如,我们可以查看某个变量的分布是不是正态分布的,如果只是从table中查看数据,会非常模糊,因为很多东西不是一目了然。

EDA_第1张图片

如果做成这样的bar chart or scatter plot , we could see the distribution more clearly and the relationships are much more clear.


EDA_第2张图片

2)EDA第二个目标是用来评估和验证假设,基于这些假设将得到未来推理。
https://classroom.udacity.com/nanodegrees/nd002/parts/0021345407/modules/316518875375460/lessons/685569241/concepts/8245785540923#
例如,我们可以查看某个变量的分布是不是正态分布的,如果只是从table中查看数据,会非常模糊,因为很多东西不是一目了然。或者检查某个变量是否偏向某个特殊值。

3)在提出假说之前,EDA帮助我们先了解数据,EDA提供试验的想法,它并不是假说测试和预测建模的正规流程。最终,我们对数据集形成一个直觉,知道它是怎么形成的。通过研究数据,可以生成更好的假说。确定哪些变量具有最大的预测力,然后选择相应的统计工具,来建立我们的预测模型。


EDA例子:

Nathan YAO的研究:
http://flowingdata.com/2009/09/23/tv-size-over-the-past-8-years/

EDA_第3张图片
EDA_第4张图片

tips:

EDA的时候,永远饱有怀疑和好奇。

EDA_第5张图片

多多play with the data,测试自己对数据集的直觉,并培养新的直觉,对把玩数据感到兴奋,也可以敏感的发现数据中奇怪的地方,尤其是通过你做出的可视化图和总结。


你可能感兴趣的:(EDA)