Python如何快速创建强大的探索性数据分析可视化?

转自:https://www.wukong.com/answer/6542422582006644999/?iid=39055545733&app=news_article&share_ansid=6542422582006644999&app_id=13&tt_from=mobile_qq&utm_source=mobile_qq&utm_medium=toutiao_ios&utm_campaign=client_share

 

可以采用Python 数据分析库,如 matplotlib,或者Pandas等进行探索性数据分析可视化。

数据可视化是数据科学家工作中的重要组成部分。在项目的早期阶段,你通常会进行探索性数据分析(Exploratory Data Analysis,EDA)以获取对数据的一些理解。创建可视化方法确实有助于使事情变得更加清晰易懂,特别是对于大型、高维数据集。在项目结束时,以清晰、简洁和引人注目的方式展现最终结果是非常重要的,因为你的受众往往是非技术型客户,只有这样他们才可以理解。

Python如何快速创建强大的探索性数据分析可视化?_第1张图片

或者使用Pandas 库

尽管 Pandas 功能强大,但它并不为整个数据科学流程提供完整功能。Pandas 通常是被用在数据采集和存储以及数据建模和预测中间的工具,作用是数据挖掘和清理。

Python如何快速创建强大的探索性数据分析可视化?_第2张图片Python如何快速创建强大的探索性数据分析可视化?_第3张图片

数据科学管道

对于典型的数据科学家而言,Pandas 在数据管道传输过程中扮演着非常重要的角色。其中一个量化指标是通过社区讨论频率趋势(Stack Overflow trends app (https://insights.stackoverflow.com/trends))。

Python如何快速创建强大的探索性数据分析可视化?_第4张图片

 

快速创建,当然是用库啰。

主流的库:pandasseabornmatplotlib

另外plotlibbokeh也可以了解下。

pandas

pandas是基础,数据分析可视化,首先要分析,然后才谈得上可视化。

Python如何快速创建强大的探索性数据分析可视化?_第5张图片

(图片来源:pandas官网)

pandas的主要概念是DataFrame和Serie。其中用的最多的是DataFrame。DataFrame你可以简单理解为一张表格,每行是一个观测(observation)/实例(instance),每列是一个特征(feature)/属性(property)。理解了DataFrame,Serie也就不难理解,DataFrame的每行你都可以把它看成是一个Serie.

然后pandas提供了各种数据分析的方法,处理DataFrame和Serie.

绘图库

然后,seaborn、matplotlib、plotly、bokeh都是绘图库,用来绘制各种可视化的图形。(当然,其实pandas也可以用来绘图,但是pandas的绘图能力比较孱弱,一般不用。)

seaborn是基于matplotlib的,后出转精,API用起来比matplotlib简洁舒服。不过seaborn并不能完全替代matplotlib,有的时候还是需要使用matplotlib。

Python如何快速创建强大的探索性数据分析可视化?_第6张图片

(图片来源:seaborn官网)

seaborn和matplotlib都是绘制图片,而plotly和bokeh可以做出可交互的图片。当然,这也就意味着,为了实现交互功能,你需要自己搭一个服务(bokeh),或者是找平台host(plotly提供收费host)。

 

我就分享一下我的一些认识,先从探索性分析开始。

什么是探索性数据分析

探索性数据分析是我们数据分析中的第一步,假设我们已经拥有了数据,我们需要弄清楚如何构建数据,确定如何操纵可用的数据以获得所需的答案。

我们可以通过对数据中的模式、趋势、异常值和意外结果等进行广泛的分析,使用可视化和定量的方法来了解。

20世纪70年代由约翰图基开发的探索性数据分析通常被描述为一种哲学,可以帮助我们解决如下相关问题:

  • 发现错误和丢失的数据;

  • 绘制数据的底层结构;

  • 确定最重要的变量;

  • 列出异常和异常值;

  • 测试与具体模型相差的假设/检查假设;

  • 建立一个简约的模型;

  • 估计参数并计算相差的置信区间或误差范围。

数据可视化

Python和R一样都具有可视化模块,R比较有名的有ggplot2,python也有相应的模块ggplot

Python如何快速创建强大的探索性数据分析可视化?_第7张图片

Python如何快速创建强大的探索性数据分析可视化?_第8张图片

还有seaborn,matplotlib,都是我们在做数据可视化中使用的。详细的可以到相应的官网上去学习。

快速构建探索性可视化,应该必要的步骤或者说代码是必须的。

Python如何快速创建强大的探索性数据分析可视化?_第9张图片

你可能感兴趣的:(python)