【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化

梳理大纲:「对比型数据」和「分布型数据」的可视化
【1】对比型数据
【2】分布型数据
【3】实践

资料共享:
【木东居士】公众号

From 数据可视化 学习小组:由【木东居士】公众号 定期发起
对数据感兴趣的伙伴们 可一同在此交流学习

汇总一览
「对比型数据」:对比两组或两组以上数据的差异。
「分布型数据」:研究数据分布的集中趋势、离散程度、偏态和峰度等。
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第1张图片

对比型数据

在实际工作中,我们经常需要对比多组数据之间的差异,而这些差异通常是通过不同的标记和视觉通道体现出来。

高度差异/宽度差异:柱状图、条形图。
面积差异:面积图、气泡图。
字号差异:单词云图。
形状差异:星状图。

1.柱状图

【1】单一柱状图:
适合单一类别的数据比对,也适合表示离散型时序数据的趋势。
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第2张图片
【2】重叠型柱状图:适合两个类别的数据对比,半透明柱形条,代表某项指标的「目标值」,内部偏窄且不透明的柱形条表示某项指标的「实际完成情况」。通常会搭配折线图使用,折线图则表示目标完成率。
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第3张图片

【3】并列柱状图:适合两个或三个数据类别的对比,若数据类别超出3个,不建议使用并列柱状图。
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第4张图片
【4】堆叠柱状图:适合既要对比总体的数据,又要对比总体各构成项的数据,但是总体各构成项一般不要大于5个,若大于5个,可按占总体的比例进行归类,展示TOP5的分类,剩下则归为「其他」。
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第5张图片

2.条形图

条形图,可以视为是柱状图的一种变体
优势1:相比柱状图而言,可以展示更多的数据条数,一般不要超过30条
优势2:分类项的文本过长时,依然可以阅读(柱状图文本容易重叠)

3.面积图

「重叠对比型面积图」和「堆砌对比型面积图」,两者的区别如下
重叠对比型:所有系列的面积基线都是X轴,系列之间有重叠和覆盖的关系
堆砌对比型:只有底层系列的面积基线和X轴重合,其他系列都是堆砌在它们下面一组的数据上面
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第6张图片
当需要分析各个系列,随时间的变化趋势时,此时使用「重叠对比型面积图」比较合适
当既需要分析整体随时间的变化趋势,又要了解整体的各构成项随时间的变化趋势时,使用「堆砌对比型面积图」比较合适

4.气泡图

区别散点图:
气泡图:用于三维数据的可视化
散点图:用于二维数据的可视化
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第7张图片

5.单词云图

单词云图,主要是用于网络文本中词频数据的可视化,如关键词搜索,文章高频词,热点事件关键词等
(通过单词的字号大小来反映词频的大小,字号越大,词频越高)
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第8张图片

6.雷达图/星状图

当需要对比一个主体、或多个主体本身,在不同维度上的特征时,雷达图和星状图是不错的选择
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第9张图片

【2】分布型数据

1.直方图

「频数直方图」和「频率直方图」
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第10张图片
2.茎叶图

茎叶图一般适合数据为整数的数据的可视化

【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第11张图片
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第12张图片

3.箱线图

常用的场景有如下几类:
(1)对比多组数据的分布情况。
(2)检测数据中的异常值或离群点。【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第13张图片

4.概率密度图

通过图形化的方式,我们可以清楚的看到随机变量分布的对称性情况,以及随机变量取值是集中还是分散,这些可以通过偏态系数和峰度系数来度量
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第14张图片

5.热力图
热力图,是通过密度函数进行可视化,用于表示地图中点的密度的热图
实际运用:
【1】热力地图:比如我们日常使用的导航APP,通过热力图来表示各个路况的拥挤程度,颜色越深表示人员越多,对应路段也就越拥挤,有了热力图可以很直观的看到区域内的人群流量,方便驾车人士进行路线规划。
【2】网页热力分析:常见的网页热力图,有按鼠标点击位置的热力图、按鼠标移动轨迹的热力图、按内容点击的热力图。还有一种是获取用户眼球在屏幕上的移动轨迹热力图,不过这种因为涉及到用户隐私,获取数据的难度很大。通过网页热力分析,可以直观清楚地看到页面上每一个区域的访客兴趣焦点,从而为营销推广、用户体验优化提供依据。
【3】业务数据分析:带有地理信息属性的数据、或者离散时间属性的数据,也可以使用热力图来进行数据展示。
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第15张图片

6.地图

【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第16张图片

【3】实践

比较三家电商公司在消费者心中的印象评分
使用:雷达图
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第17张图片
了解这50家店铺的收入、成本和店铺综合评分的分布
使用:频数直方图
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第18张图片
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第19张图片
【数据可视化 第三周】「对比型数据」和「分布型数据」的可视化_第20张图片

你可能感兴趣的:(数据可视化)