不同需求下可视化图形选择(翻译)

原文链接:不同需求下可视化图形选择(翻译)

微信公众号:机器学习养成记    搜索添加微信公众号:chenchenwings


机器学习工程师George Seif的文章《5 Quick and Easy Data Visualizations in Python with Code》部分内容翻译。重点说明了散点图、线图、直方图、条形图和箱型图的适用条件。

    前言

数据可视化是数据科学家工作的重要组成部分。在项目开始阶段,人们需要做探索性数据分析(EDA)来获得数据的深层信息。强大的可视化功能可以帮助人们更简洁清晰的了解数据,尤其是大量的、多维度的数据。在项目快结束时,用一种直观简单的方法,让不具备很强专业知识的人明白相应结果,也是非常重要的。不同的分析与展示目的,需要选择不同的可视化图形,下图展示了不同的需求,建议选择的可视化图形。

不同需求下可视化图形选择(翻译)_第1张图片

    散点图

散点图可以直观展现原始点的分布和两个变量间的关系,并可以通过标记不同颜色,观察不同类别数据的关系,如下图:

不同需求下可视化图形选择(翻译)_第2张图片

通过对一些参数进行设置,如point size,我们可以观察三个变量间的关系,如下图:

不同需求下可视化图形选择(翻译)_第3张图片

    线图

线图可以表示两个具有相关性的变量,一个变量随另一个变量变化的情况。从下图,我们可以清楚地看到,所有专业的百分比随着时间的推移有很大的变化。如果用散点图来表示这类问题,图像会非常混乱,很难理解数据的变化趋势。线图在这种情况下是完美的,因为它们快速地展现了这两个变量的协方差(百分比和时间)。

不同需求下可视化图形选择(翻译)_第4张图片

    直方图

直方图可以有效的展现数据点的分布情况。下图为IQ的分布直方图,可以明显看出,分布集中在中央区域,并且我们可以清楚的了解IQ分布的中值,同样,还可以看出他是服从高斯分布的。直方图可以清楚的看到每个区间内频数的差异。使用直方图可以帮助我们看到“更大的图景”,因为如果我们使用散点图而不是直方图,那么在可视化中可能会有很多噪音,很难看清到底发生了什么。

不同需求下可视化图形选择(翻译)_第5张图片

    条形图

当你试图把只有少数(通常<10个)类别的分类数据可视化时,条形图最有效。如果类别太多,条形图会很杂乱以致于理解困难。条形图很容易根据各个条形观察出不同类别数据的差异,不同类别的数据很容易区分并且能设定不同的颜色。条形图分为三种:普通条形图,分组条形图,和堆积条形图。分组条形图可用来比较多重分类变量,堆积条形图可用来反映某一变量上,不同类别的组成情况。三种条形图的样式可依次参见下图:

不同需求下可视化图形选择(翻译)_第6张图片
不同需求下可视化图形选择(翻译)_第7张图片
不同需求下可视化图形选择(翻译)_第8张图片

    箱型图

之前提到的直方图可以展示数据的分布情况,但如果我们需要更详细的分布信息时,就要用到箱型图。箱型的上下两条边分别表示四分之一和四分之三分位点,箱内的线表示中值,虚线条上的条线从盒中伸出以显示数据的范围。

不同需求下可视化图形选择(翻译)_第9张图片

推荐文章:

《无问西东》豆瓣短评分析

《无问西东》豆瓣短评分析【二】

k折交叉验证(R语言)

聚类(二):k-means算法(R&python)

小案例(一):商业街抽奖

小案例(二):面包是不是变轻了

小案例(三):调查问卷

小案例(四):销售额下滑

微信公众号:机器学习养成记    搜索添加微信公众号:chenchenwings

不同需求下可视化图形选择(翻译)_第10张图片

扫描二维码,关注我们。

如需转载,请在开篇显著位置注明作者和出处,并在文末放置机器学习养成记二维码和添加原文链接。

快来关注我们吧!

不同需求下可视化图形选择(翻译)_第11张图片

你可能感兴趣的:(不同需求下可视化图形选择(翻译))