数据分析中数据概览神器pandas_profiling介绍

       Numpy、Scipy、Pandas、Matlpotlib在数据分析工程师手里几乎都是必备的工具选项,每一个库都有他自己强势的领域,让人爱不释手,当然还有其他的很多库,这里没有去一一列举出来。 

       在我前面的博文里面有一篇文章详细地介绍了一个详细的数据分析挖掘流程,地址在这里,感兴趣的话可以去看看。

       数据分析领域中有一个部分是很重要的,那就是数据探索,不同的人可能进行数据探索的角度、方法都不一样,今天这个文章就是想介绍一款工具,能够用一行代码就实现原始数据集的概览分析,这对于我们在尚未进行编码之前辅助我们了解数据集的分布等情况是很有帮助。

     这款工具名叫:pandas_profiling,安装方式很简单,如下:

pip install pandas_profiling

     用法如下:

数据分析中数据概览神器pandas_profiling介绍_第1张图片

      结果如下:
 

数据分析中数据概览神器pandas_profiling介绍_第2张图片

数据分析中数据概览神器pandas_profiling介绍_第3张图片

数据分析中数据概览神器pandas_profiling介绍_第4张图片

数据分析中数据概览神器pandas_profiling介绍_第5张图片

数据分析中数据概览神器pandas_profiling介绍_第6张图片

数据分析中数据概览神器pandas_profiling介绍_第7张图片

        默认是 Peasorn相关系数矩阵,也可以查看别的相关系数矩阵,如下:
 

数据分析中数据概览神器pandas_profiling介绍_第8张图片

数据分析中数据概览神器pandas_profiling介绍_第9张图片

数据分析中数据概览神器pandas_profiling介绍_第10张图片

数据分析中数据概览神器pandas_profiling介绍_第11张图片

数据分析中数据概览神器pandas_profiling介绍_第12张图片

数据分析中数据概览神器pandas_profiling介绍_第13张图片

数据分析中数据概览神器pandas_profiling介绍_第14张图片

     上面的结果是在jupyter-notebook得到的,我们也可以将上述报告生成静态的html文件存储本地使用:

     本文中我们使用到的数据集来源于国家空气监测总站里面的一段时间的数据,在单因子的分析结果里面我们可以看到,通过简单的数据概览,给出来的结果是:几个因为相关程度过高建议丢弃,当然这是数据概览模块给出来的直接计算结果,我们在实际使用的时候肯定也是需要考虑到具体的业务长场景的。

      下面是整个使用到的数据集的可视化曲线:
 

数据分析中数据概览神器pandas_profiling介绍_第15张图片

数据分析中数据概览神器pandas_profiling介绍_第16张图片

       记录学习了。

你可能感兴趣的:(编程技术,软件工具使用,机器学习)