探索性数据分析(EDA)

探索性数据分析(EDA)

举例:泰坦尼克仅供展示图用

定义:是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法

各种杂乱的 “脏数据” ,往往不知所措,不知道从哪里开始了解目前拿到手上的数据时候,探索性数据分析就非常有效。

安装3个包:**Pandas_Profiling** ,**Sweetviz**,**pandasGUI

**

第一:Pandas_Profiling

生成了一个快速的报告,具有很好的可视化效果。报告结果直接显示在notebook中,而不是在单独的文件中打开。

# 安装Jupyter扩展widget 
jupyter nbextension enable --py widgetsnbextension
# 或者通过conda安装
conda env create -n pandas-profiling
conda activate pandas-profiling
conda install -c conda-forge pandas-profiling
# 或者直接从源地址安装
pip install https://github.com/pandas-profiling/pandas-profiling/archive/master.zip

安装成功后即可导入数据直接生成报告了

初始代码:

import pandas as pd
mpg = pd.read_csv('xxxxx.csv')   #Titanic.csv
mpg.head()

from pandas_profiling import ProfileReport
profile = ProfileReport(mpg, title='MPG Pandas Profiling Report', explorative = True)
profile

总共提供了六个部分:概述、变量、交互、相关性,缺失值和样本。

Pandas profiling的变量部分是完整的,它为每个变量都生成了详细的报告。

由变量图可以看出,仅一个变量就有太多信息,比如可以获得描述性信息和分位数信息。

交互部分我们可以获取两个数值变量之间的散点图 。

相关性可以获得两个变量之间的关系信息。

缺失值可以获取每个变量的缺失值计数信息。

样本可以显示了数据集中的样本行,用于了解数据。

同理:

第二 2. Sweetviz

Sweetviz是另一个Python的开源代码包,仅用一行代码即可生成漂亮的EDA报告。

pip install sweetviz 

初始代码:

import sweetviz as sv
import pandas as pd
path = 'xxxxx.csv'   #Titanic.csv   scores.csv
my_dataframe = pd.read_csv(path)

my_report = sv.analyze(my_dataframe)
my_report.show_html()

Sweetviz不仅可以查看单变量的分布、统计特性,它还可以设置目标标量,将变量和目标变量进行关联分析。如上面报告最右侧,它获得了所有现有变量的数值关联和类别关联的相关性信息。

Sweetviz的优势不在于单个数据集上的EDA报告,而在于数据集的比较。

可以通过两种方式比较数据集:将其拆分(例如训练和测试数据集),或者使用一些过滤器对总体进行细分。

例如:比较两个数据集。

# 设置需要分析的变量
my_report = sv.compare_intra(mpg,mpg [“ origin”] ==“ usa”,[“ USA”,“ NOT-USA”],target_feat ='mpg')
my_report.show_html()

不需要敲太多的代码就可以让我们快速分析这些变量,这在EDA环节会减少很多工作量,而把时间留给变量的分析和筛选上。

Sweetviz的一些优势在于:

  • 分析有关目标值的数据集的能力
  • 两个数据集之间的比较能力

但也有一些缺点:

  • 变量之间没有可视化,例如散点图
  • 报告在另一个标签中打开

第二 3. pandasGUI

PandasGUI与前面的两个不同,PandasGUI不会生成报告,而是生成一个GUI(图形用户界面)的数据框,我们可以使用它来更详细地分析我们的Dataframe。

# pip安装
pip install pandasgui
# 或者通过源下载
pip install git+https://github.com/adamerose/pandasgui.git

初始代码:

from pandasgui import show
# 部署GUI的数据集
gui = show(mpg)

在此GUI中,可以做很多事情,比如过滤、统计信息、在变量之间创建图表、以及重塑数据。这些操作可以根据需求拖动选项卡来完成。

最牛X的就是绘图器功能了。用它进行拖拽操作简直和excel没有啥区别了,操作难度和门槛几乎为零。

还可以通过创建新的数据透视表或者融合数据集来进行重塑。

然后,处理好的数据集可以直接导出成csv。

故事接近结尾。。。

Pandas Profiling、Sweetviz和PandasGUI都很不错,旨在简化我们的EDA处理。在不同的工作流程中,每个都有自己的优势和适用性,三个工具具体优势如下:

  • Pandas Profiling 适用于快速生成单个变量的分析。
  • Sweetviz 适用于数据集之间和目标变量之间的分析。
  • PandasGUI适用于具有手动拖放功能的深度分析。

后续。。。。。

探索性分析的计划:

1、Form hypotheses/develop investigation theme to explore形成假设,确定主题去探索

2、Wrangle data清理数据,网上有一个网址公布斯坦福有一个软件叫datawrangler可以供大家自己免费下载,用于探索数据分析,很快的解决数据清洗的工作,作为一个将来想成为数据科学家的人,处理“脏数据”,是我们必须走的路。这个软件我还没有试,我把链接发在下面,供爱学习的小伙伴好好学习。http://vis.stanford.edu/wrangler/

https://www.trifacta.com/products/wrangler/

https://www.douban.com/note/501799325/

3、Assess quality of data评价数据质量

4、Profile data数据报表

5、Explore each individual variable in the dataset探索分析每个变量

6、Assess the relationship between each variable and the target探索每个自变量与因变量之间的关系

7、Assess interactions between variables探索每个自变量之间的相关性

8、Explore data across many dimensions从不同的维度来分析数据

通过以上的探索性分析,你还可以做以下的工作:

1、写出一系列你自己做的假设,然后接着做更深入的数据分析2、记录下自己探索过程中更进一步的数据分析过程3、把自己的中间的结果给自己的同行看看,让他们能够给你一些更有拓展性的反馈、或者意见。不要独自一个人做,国外的思维就是知道了什么就喜欢open to everybody,要走出去,多多交流,打开新的世界。4、将可视化与结果结合一起。探索性数据分析,就是依赖你好的模型意识,(在《深入浅出数据分析》P34中,把模型的敏感度叫心智模型,最初的心智模型可能错了,一旦自己的结果违背自己的假设,就要立即回去详细的思考)。所以我们在数据探索的尽可能把自己的可视化图和结果放一起,这样便于进一步分析。

你可能感兴趣的:(python笔记一天一个小知识,数据分析)