大数据可视化技术

数据可视化的标准

  • 实用性
  • 完整性
  • 真实性
  • 艺术性
  • 交互性

数据可视化流程

  • 数据采集
  • 数据预处理:数据质量、数据清洗、数据集成
  • 数据可视化映射
  • 用户感知

数据可视化的作用

  • 数据表达:是通过计算机图形技术来更加友好地显示数据信息,以便人们理解和分析数据。
  • 数据操作:是以计算机提供界面、接口和协议等条件为基础完成人与数据的交互需求,数据操作需要友好便捷的人机交互技术、标准化的接口和通信协议来完成对数据集的操作。
  • 数据分析:是通过计算机获得多维、多源、异构和海量数据所隐含信息的核心手段,它是数据存储、数据转换、数据计算和数据可视化的综合应用。

图表介绍

1、柱状图
柱状图使用垂直或者水平的柱子反映类别之间的数值比较。在柱状图中一个轴表示需要对比度分类维度,另一个轴表示相应的数值。

2、K线图
又称阴阳图、棒图、红黑线或蜡烛线,常用于表示股票交易数据,K线图就是指将各种股票每日、每周、每月的开盘价、收盘价、最高价、最低价等涨跌变化状况用图形的形式展现出来。

3、饼图
饼图用来表示不同分类的占比情况,通过弧度大小来对比各种分类。饼图通过将一个圆饼安照分类的比例分成多个区块(圆度),整个饼图代表数据的总量,每个区块(圆度)表示该分类占总体的比例大小,所有区块(圆弧)之和为100%。

4、直方图
直方图的形状类似与柱状图,却有着与柱状图望去不同的含义。直方图涉及统计学的概念,首先要对数据进分组,然后统计每个分组内数据源的数量。

5、热力图
热力图以特殊高亮的形式显示访客热衷的页面区域和访客所在的地理区域的图示,热力图可以显示不可点击区域发生的事情。

数据功能图介绍

在大数据的可视化图中,按照数据的作用和功能可以把图分为比较类图、分布类图、流程类图、地图类图、占比类图、区间类图、关联类图、时间类图和趋势类图等。
1、比较类图
比较类图可视化的方法通常是显示值与值之间的不同和相似之处,使用图形的长度、宽度、位置、面积、角度和颜色来比较数值的大小,通常用于展示不同分类间的数值对比一级不同时间点的数据对比。常见的比较类图主要有柱状图、双向柱状图、气泡图、子弹图、色块图、漏斗图和直方图等

2、分布类图
分布类图可视化的方法通常是显示频率,将数据分散在一个区间或分组,并使用图形的为、大小、颜色的渐变程度类表现数据的分布。分布类图通常用于展示连续数据上数值的分布情况。常见的分布类图主要有箱型图、热力图、散点图、分布曲线图、色块图和直方图

3、流程类图
流程类图可视化的方法通常是显示流程流转和流程流量。一般流程都会呈现出多个环节,每个环节之间会有相应的流量关系,因此这类图形可以很好的表示这些流量关系。常见的流程图主要有漏斗图和桑基图

4、地图类图
地图类图可视化的方法是显示地理区域上的数据,并在显示是使用地图作为背景,通过图形的位置来表现数据的地理位置。地图类图通常用来展示数据在不同地理区域上的分布情况。常见的地图类图主要有待气泡的地图和统计地图

5、占比类图
占比类图可视化的范式是显示同一维度上的占比关系。常见的占比类图主要有换图、马赛克图、堆叠面积图、堆叠柱状图和矩形树图

6、区间类图
区间类图可视化的方法是显示同一维度上值的上限和下限之间的差异。区间类图使用图形的大小和位置表示数值的上限和下限,通常用于表示数据在某一分类(时间点)上的最大值和最小值。常见的区间类图主要有仪表盘图和堆叠面积图

7、关联类图
关联类图可视化的方法显示数据之间的相互关系。关联类图使用图形的嵌套和位置表示数据之间的关系,通常用于表示数据之间的前后顺序、父子关系和相关性。常见的关联类图主要有和弦图、桑基图、矩阵树图、树状图和韦恩图

8、时间类图
时间类图可视化的方法显示以时间为特定维度的数据。时间类图使用图形的位置表现出数据在时间深的房补,通常用于表现数据在时间维度上的趋势和变化。常见的实践类图主要有面截图、K线图、卡吉图和螺旋图

9、趋势类图
趋势类图可视化的方式分析数据的变化趋势,趋势类图使用图形的位置表现出数据在连续区域上的分布,通常展示数据在连续区域上的大小变化的规律。常见的趋势类图主要有面积图、K线图、折线图和回归曲线图

常见可视化图表的选择

1、柱状图
柱状图利用柱子的高度能够比较清晰的反映数据的差异,通常用于不同时期或不同类别之间的比较,也可以用来反映不同时期和不同数据的差异。柱状图的局限在于它仅适用于中小规模的数据集,当数据较多是不易分辨。
2、条形图
条形图用来反映分类项目之间的比较,适用于跨类别比较数据。在进行数据可视化时如果需要比较项类的大小、高低,则适合使用条形图
3、折线图
折线图是数据随着时间的推移发生变化的一种图表,可以预测未来的发展趋势,相对于柱状图,折线图能反映大数据集的走势,还适合多个数据集走势的比较。
4、饼图
饼图主要用来分析内部各组成部分对事件的影响,其各部分的百分比之和必须是100%。在需要描述某个部分占总体的百分比时适合使用饼图,例如某公司员工的男女比例等。当需要比较数据时,尤其是比较两个以上的整体的成分时,请务必使用条形图或者饼图者将扇形转换成数据在饼图上相互比较,因为人眼对面积的大小不敏感,对导致对数据的误读。此外为了使饼图发挥最大的作用,在使用时一般不超过6个部分;如果要表达6个以上的部分,需要使用条形图
5、散点图
散点图使用两组数据构成多个坐标点,分析坐标点的分布情况,判断两个变量之间的关联或分布趋势。如果需要表达数据之间的关联关系,可以使用散点图或者气泡图
6、漏斗图
使用漏斗图可以清晰明了的看出每个层级的转化,如果想查看具体到每天的日期与实施转化数据的关系,则可以使用漏斗图。

可视化图表的使用技巧

1、柱状图

  • 柱状图中的颜色尽量不要超过3种。
  • 柱状图柱子间的宽度和间隙要是适当。住在太窄,用户的视觉可能会集中在两个柱子之间的负空间
  • 对多个数据系列排序时,最好复合一定的逻辑,用直观的方式引导用户更好的查看数据,此时可以通过升序和降序排列。

2、折线图

  • 折线图连接各点可以使用直线和曲线,这样更美观,数据展示更加清晰
  • 折线的颜色要清晰,尽量不要使用与背景色和坐标轴相近的颜色
  • 折线图中的线条尽量不要超过4条,过多的线条会导致界面混乱,无法阅读。

3、饼图

  • 饼图适合用来展示单一维度数据的占比,要求其数值没有零或者负值,并确保各个分块占比总和为100%。
  • 饼图不适合用于精确数据的比较,因此当各类别数据占比相似时,很难分辨出哪个类别占比比较大。
  • 大多数人的视觉习惯是按照顺时针自上而下的顺序去观察,因此在绘制饼图时建议从12点钟开始沿着顺时针右边的第一个分块绘制饼图最大的数据分块,这样可以有效地强调其重要性

4、散点图

  • 如果一个散点图没有显示变量的任何关系,那么或许该图表类型不是次数据的最佳选择
  • 散点图只有在足够多的数据点并且数据间有相关性时,才能呈现很好的结果。
  • 如果数据包含不同系列,可以给不同系列使用不同的颜色

视觉通道

1、什么是视觉通道:视觉通道就是接收视觉信号的感受器。视觉通道可顺利地传输可见光信号,但不能传送声音信号。视觉通道是指用于控制几何标记(点、线、面、体等)的展示特征,包括标记的位置、大小、长度、形状、色调、饱和度、亮度等。

2、人类对视觉通道的识别有两种基本的感知模式

  • 第一种感知模式得到的信息是关于对象本身的特征和位置等,对应视觉通道的定性性质或者分类性质
  • 第二种感知模式得到的信息是对象某一属性在数值上的大小,对应视觉通道的定量性质或者定序性质。
    形状是一种典型的定性视觉通道,长度时一种典型的定量视觉通道

3、视觉通道的类型

  • 定性和分类性质角度
    1)位置
    平面位置在所有的视觉通道中比较特殊,一方面,平面上相互接近的的对象会被分为一类,所以位置可以表示不同的分类;另一方面,平面使用坐标系来锁定对象属性大小时,位置可以代表对象的属性值大小,即平面位置可以映射定序和定量的数据。
    2)色调
    色调比较适合编码分类的数据属性,人们对色调的认知过程中几乎不存在定量的比较思维,由于颜色作为整体可以为可视化增加视觉效果,所以在实际的可视化设计中被广泛应用。
    3)形状
    对于人类的感知系统,形状所代表的含义很广,一般理解为对象的轮廓,或者对事物外形的抽象,用来定性描述一个东西。
    4)图案
    图案也称纹理,可分为自然纹理和人工纹理。自然纹理是指自然中存在有规则模式的图案;人工纹理是指人工实现的规则图案。由于纹理可看着对象表面或内部的装饰,所以可以将纹理映射到线、平面、曲线、三维体的表面来对不同的事物进行分类。
    5)方向
    方向可用于分类的或有序的数据属性的映射,标记的方向可用于表示数据中的向量信息。

  • 定量和定序性质角度
    1)坐标轴位置
    坐标轴的位置就是前面位置中的定量功能,使用坐标轴对数据的大小关系进行定量或者排序操作。
    2)尺寸
    尺寸是定量或者定序的视觉通道,适合于映射有序的数据属性。
    3)饱和度
    饱和度值色彩的纯度,也成为色度和彩度,它是三彩属性之一。
    4)亮度
    亮度表示人眼对发光体或者照射物体表面的发光或反射光强度实际感受的物理量。
    5)图案密度
    图案密度是表现力最弱的一个视觉通道,在实际应用中很少用到。

格式塔法则

格式塔理论是最基本的法则,是简单精炼法则,认为人们在进行观察的时候,倾向于将视觉感知内容理解为常规的、简单的、相对的、对称的或有序的结构。同时,人们在获取视觉感知的时候,会倾向于将事物理解为一个整体,而不是将事物理解为组成该事物所有部分的集合。

  • 贴近原则(proximity)
    当视觉元素在空间距离上相距较近时,通常倾向于归为一组,视觉感知是一个整理的过程,更倾向于感知简单的几何图形。贴近原则在可视化中的应用表现为,在图表中,将类型相同的图形尽量贴在一起,标题和对应的图表贴在一起。
    大数据可视化技术_第1张图片

  • 相似原则(similarity)
    人们在感知事物的时候会自然的根据事物的相似性进行分组,通常对形状、颜色、光照或其他性质的感知决定分组。相似原则在可视化中的应用表现为,在图表中,经常使用不同的颜色或形状来区分散点图中数据的不同分类
    大数据可视化技术_第2张图片

  • 连续原则(continuity)
    人们在观察事物的时候会自然沿着物体的边界,将不连续的物体视为连续的整体。连续原则在可视化中的应用表现为,通过散点图观察两个变量之间的趋势,或是通过螺旋线,显示周期性的变化
    大数据可视化技术_第3张图片

  • 闭合原则(closure)
    子某些视觉印象中,其中的物体可能是不完整或者不闭合的,但只要物体的形状足以表征物体本身人们会很容易感知整个物体而忽视未闭合的特征。
    大数据可视化技术_第4张图片

  • 共势原则(common fate)
    一组物体沿着相似的光滑路径运动趋势或具有相似的排列模式时,将会被识别为同一类物体。
    大数据可视化技术_第5张图片

  • 好图原则(good figure)
    人眼通常会自动将一组物体按照简单、规则、有序的元素排列方式识别,个体识别世界时,通常会消除复杂性和不熟悉性,并采纳最简化的形式
    大数据可视化技术_第6张图片

  • 对称原则(symmetry)
    人在意思倾向于将物体识别为沿着某点或某轴对称的形状。如果对称的形状彼此相似,更容易被认为是一个整体。
    大数据可视化技术_第7张图片

  • 经验原则(past experience)
    某些情况系视觉感知与过去的经验有关。如果两个物体看上去距离较近,或者时间间隔小,那么通常被识别为同一类。
    大数据可视化技术_第8张图片

你可能感兴趣的:(大数据可视化,可视化)