文章目录
- 可视化复习
-
- 一、大数据可视化概述
-
- (1)可视化意义
- (2)可视化简史
- (3)可视化分类(科学、信息、分析)
- 二、感知与认知、可视化流程
-
- (1)视觉感知与认知
- (2)格式塔理论
- (3)视觉通道分类(定性、定量)、表现力
- (4)数据可视化流程
- (5)数据的不确定性产生的原因----自加
- (6)基本数据类型适用的可视化编码方式(有优先级)-----自加上课提到(选择?填空?)
- 三、空间数据、向量张量数据可视化
-
- (1)二维标量场可视化方法
- (2)三维标量场可视化方法
- (3)向量场可视化方法
- 四、地理空间数据可视化
-
- 五、高维非空间数据可视化
-
- (1)高维非空间数据可视化的主要方法
-
- 主成分分析法PCA(*importance)
- 多维尺度分析法MDS
- (2)线性降维方法的思想与算法及应用
- (3)非线性降维方法的思想与算法及应用
- 六、跨媒体可视化
-
- (1)多媒体数据可视化方法
- (2)跨媒体数据可视化方法
-
- 七、层次数据可视化
-
- 八、网络数据可视化
-
- 九、可视化交互
-
- 十、可视化工具
-
- 十、可视化工具
-
可视化复习
一、大数据可视化概述
(1)可视化意义
- 将不可见现象转换为可见的图形符号,并从中挖掘规律和获取知识
- 针对复杂和大尺度的数据,数据可视化则可还原乃至增强数据中的全局结构和具体细节
- 最终生成的画面是真善美的,以有效挖掘、传播与沟通数据中蕴涵的信息、知识与思想,实现设计与功能之间的平衡。
(2)可视化简史
- 17世纪之前:图表萌芽
- 物理测量数据可视化
- 图形符号
- 数据图形
- 现代启蒙
- 多维信息的可视化编码
- 多维统计图形
- 交互可视化
- 可视化分析学
(3)可视化分类(科学、信息、分析)
1、科学可视化
- 应用领域包括了自然科学,如物理、化学、气象气候、航天航空、医学、生物等各个学科。
- 科学可视化大致分为三个类:
- 标量场可视化:标量指单个指标,标量场每个数据点记录一个标量值。
- 向量场可视化:向量场每个采用点记录一个向量(一维数组)。
- 张量场可视化:张量是矢量的推广:标量可以看作0阶的张量,矢量可以看作1阶的张量
2、信息可视化
- 处理的对象是抽象的、非结构化的数据集合(如文本、图表、层次结构、地图、软件、复杂系统等)
- 更关注于抽象、高纬的数据
- 表现形式通常在二维空间
3、可视化分析学
- 被定义为一门由可视化交互界面为基础的分析推理科学。综合图形学、数据挖掘和人机交互等技术…
- 强调人的干预的重要性
二、感知与认知、可视化流程
(1)视觉感知与认知
- 感知:指客观事物通过人的感觉器官在人脑中形成的直接反映。人类的感觉器官包括眼、鼻、耳以及遍布全身各处的神经末梢等。相应的感知能力为视觉、嗅觉、听觉和触觉等。
- 认知过程:由信息获取、分析、归纳、编码、存储、概念形成、提取和使用等一系列阶段组成的按一定程序进行信息加工的系统。
(2)格式塔理论
整体不等于部分之和。
格式塔法则包括:
1、贴近原则:当视觉元素(即一些被人识别的视觉感知对象)在空间距离上相距较近时,人们通常倾向于将它们归为一组。(强调空间)
2、相似原则:根据事物的相似性进行感知分组。通常根据形状、颜色、光照或其他性质的感知决定分组。(强调属性相似性)
3、连续原则:在观察事物时会很自然地沿着物体边界,将不连续的物体视为连续的整体。
4、闭合原则:在某些视觉映像中,其中的物体可能是不完整的或者不闭合的,然后格式塔心理学认为,只要事物的形状足以表征物体本身,人们会很容易地感知整个物体而忽略未闭合特征。
5、共势原则:指一组物体具有沿着相似的光滑路径运动趋势或具有相似的排列模式时,将被识别为同一物体。(强调方向、趋势等)
6、好图原则:指人眼通常会将一组物体按照简单、规则、有序的元素排列方式识别。
7、对称性原则:指人的意识倾向于将物体识别为沿某点或某轴对称的形状。
8、经验原则:指在某些情形下视觉感知与过去的经验有关。
格式塔(完形理论)的基本思想:视觉形象首先是作为统一的整体被认知的,而后才是以部分的形式被认识,也就是说,人们先看见一个构图的整体,然后才看见组成这一构图整体的各个部分。
(3)视觉通道分类(定性、定量)、表现力
视觉通道的类型决定了可视化不同的数据时可能采用的视觉通道,而视觉通道的表现力和有效性则指导可视化设计这如何挑选合适的视觉通道,实现对数据信息完整而具有目的性的展现。
视觉通道的类型:
空间、标记、位置、尺寸、颜色、亮度、饱和度、色调、配色方案、透明度、方向、形状、纹理、动画。
视觉通道的分类:
- 定性:适合用于编码分类的数据信息(形状、颜色的色调或空间位置)
- 定量或定序:适合编码有序的或者数值型的数据信息。(直线长度、区域面积、空间体积等)
- 分组:适合将存在相互联系得分类的数据属性进行分组,从而表现数据的内在关联性。
视觉通道的表现力:
视觉通道的表现力要求视觉通道准确编码数据包含的所有信息。也就是说,视觉通道在对数据进行编码的时候,需要尽量终于原始数据。
视觉通道表现力排序:
- 定性的(分类的):位置》色调》形状》图案
- 定量/定序的:坐标轴位置》长度》角度》面积》亮度|饱和度》图案密度
- 分组的:包含、连接、相似、接近
视觉通道表现力的判断标准:
- 精确性:主要用于衡量人类感知系统对于可视化的判断结果和原始数据的吻合程度。
- 可辩性:可视化通道具有不同的取值范围,然鹅如何取值使得人们能够区分该视觉通道的两种或多种取值状态,是视觉通道的可辩性问题。
- 可分离性:在同一个可视化结果中,一个视觉通道的存在可能会影响人们对另一个视觉通道的正确感知,从而影响用户对可视化结果的信息获取。
- 视觉突出:是指在很短的时间内,人们仅仅依赖感知的前向注意力即可直接察觉某一对象和其他对象的不同。
(4)数据可视化流程
- 数据采集:
- 数据处理和变换:被认为是可视化的前期处理
- 可视化映射:是整个可视化流程的核心。将数据的数值、空间坐标、不同位置数据间的联系等映射为可视化视觉通道的不同元素,如标记、位置、形状、颜色等。这种映射的最终目的是让用户通过可视化洞察数据和数据背后隐含的现象和规律。
- 用户感知:用户感知从数据的可视化结果中提取信息、知识和灵感。
(5)数据的不确定性产生的原因----自加
- 数据本身存在误差
- 从低精度数据集合转换到高精度数据集合的过程引入不确定性。
- 满足特殊应用需求
- 缺失值处理
- 数据集成
(6)基本数据类型适用的可视化编码方式(有优先级)-----自加上课提到(选择?填空?)
- 数值型:位置 》长度、角度、斜度、面积、体积》密度、饱和度、色调、纹理、连接关系、包含关系》形状
- 有序型:位置》密度、饱和度、色调、纹理、连接关系、包含关系》长度、角度、斜度、面积、体积》形状
- 类别型:位置》色调、纹理、连接关系、包含关系|密度、饱和度》形状》长度、角度、斜度、面积、体积
三、空间数据、向量张量数据可视化
(1)二维标量场可视化方法
二维标量数据比一维数据更为常见,如用于医学诊断的X-光片,实测的地球表面温度、遥感观测的卫星影像等。二维数据的定义域有两类:平面型或曲面型。
1、颜色映射法
使用颜色映射法需要建立一张将数值转换为颜色的颜色映射表,再将二维空间中的标量值转换为颜色映射表的索引值。
2、等值线提取法
等值线提取法通常用来提取二维标量数据中的某个特征,展示和分析特征的空间分布规律。广泛应用于地图上的等高线、天气预报中的等压线和等温线等。
3、高度映射法
高度映射将二维标量数据中的数值转换为二维平面坐标上的高度信息并加以展示。
4、标记法
标记是离散的可视化元素,可采用标记的颜色、大小和形状等直接进行可视表达,而不需要对数据进行插值操作。
(2)三维标量场可视化方法
1、等值面绘制法
利用等值面提取技术获取数据中的层面信息,并采用传统的图形硬件面绘制技术,直观地、展现数据中的形状和拓扑信息。
2、直接体绘制法
不提取几何表示,直接呈现三维空间标量数据中的有用信息。
根据数据处理流程,大致可分为图像空间和数据空间两大类。
(3)向量场可视化方法
- 标记法:直接显示数据空间中各个点上的向量信息。
- 积分曲线法:采用各类积分曲线揭示矢量场的内在特征和性质
- 纹理法:是一种密集的流场模式展现法
- 拓扑法:首先在数据中提取几何或拓扑特征,如临界点、分界线和拓扑区域等,并采用简单的颜色映射或标记法予以显示。
四、地理空间数据可视化
地理信息主要分为两类:描述空间对象方位的空间数据和空间对象的属性数据。
对这些地理数据进行采集、存储、管理、运算、分析、描述和可视化的技术系统称为地理信息系统()GIS
(1)地理空间数据可视化的主要方法
地理空间数据有不同的形式,可大致分为点数据、线数据和面数据。
点形数据的可视化:
点数据本身是离散的数据,可以用于描述连续的现象,如气温测量数据。
- 点地图:不仅可以表现数据的位置,也可以根据数据的某种变量调整可视化元素的大小。
- 像素地图:通过改变数据点位置避免了二维空间中的重叠问题。
线形数据的可视化:
- 网络地图:是一种以地图为定义域的网络结构,网络的线段表达数据中的连接关系和特征。
- 流量地图:是一种表达多个对象之间流量变化的地图。流出对象和流入对象之间通过类似于河流的曲线连接,曲线的宽度代表流量的大小。
区域数据的可视化:
- 等值线图:等值线图通过等直线显示各区域连续性数据的分布特征,也称为轮廓线图。
- 等值区间地图:
- 比较统计地图
五、高维非空间数据可视化
- 高维数据泛指高维和多变量数据
- 高维非空间数据通常不具备具体的空间形状,不以日常生活中所见的二维或者三维形式存在。
- 以下从三个角度描述常用的高维非空间数据可视化方法:数据变换、数据呈现、数据交互。
(1)高维非空间数据可视化的主要方法
主成分分析法PCA(*importance)
基本思想:
是用一组相互独立的综合指标代表数据的统计性质。每一项综合指标都可能包含初始数据的多个属性,并且表现数据的某种统计特性,其结果充分反映了数据之间个体的变异。
基本做法:
采用一个线性变换将数据变换到新的坐标系统,使得任何数据点投影到第一个坐标(称为第一主成分)的方差最大,在第二个坐标(第二主成分)的方差为第二大,依次类推。因此,主成分分析可以减少数据维度,并保持对方差贡献最大的特征,相当于保留低阶主成分,忽略高阶主成分。
算法流程(计算步骤):
- 原始指标数据的标准化采集p维随机向量 x=(x1,x2,…,xp)*T,n个样本 xi = (xi1,xi2,…,xip) *T,i=1,2,…,n,n>p,构造样本阵。
- 对样本阵元进行如下标准化变换,得到标准化阵 Z。
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XqbKgZBz-1655044506304)(C:\Users\sandy燕\AppData\Roaming\Typora\typora-user-images\image-20220609094538785.png)]
- 对标准化矩阵 Z 求相关系数矩阵R
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-USBWgb0n-1655044506306)(C:\Users\sandy燕\AppData\Roaming\Typora\typora-user-images\image-20220609094647210.png)]
- 解样本相关矩阵R的特征方程 |R - λIp| = 0,得到p个特征根。
- 对每个选中的λj,j=1,2,…,m,解方程组 Rb = λjb,得到单位特征向量bj。
- 将标准化后的指标变量转换为主成分 ,U1称为第一主成分,U2称为第二主成分,…,Up称为第p主成分。
- [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-toEkmNrf-1655044506307)(C:\Users\sandy燕\AppData\Roaming\Typora\typora-user-images\image-20220609094945226.png)]
- 对m个主成分进行综合评价,对m个主成分进行加权求和,即得到最终评价值,权数为每个主成分的方差贡献率。
多维尺度分析法MDS
基本思想:
根据数据集的相似程度,计算各数据点在K维空间中的位置。算法的关键在于定义数据之间的距离函数,使其尽可能逼近数据点在原始高维空间的相似程度。
基本类分:
- 经典的MDS方法采用数据之间的差异程度作为输入,同时应用最小化应变函数计算数据坐标
- 度量MDS 方法推广了计算的优化过程,并通过计算应力函数获得低维空间坐标
- 非度量的MDS方法采用无参数的单调函数描述数据之间的差异程度
- 一般化的MDS方法将度量的MDS方法推广到任意平滑的非欧式空间中。
算法流程:
- 给定一个包含M条记录的N维数据,创建一个M*N的矩阵Ds并且计算每对数据的相似程度(如数据点的欧式距离)
- 假设数据被投影到K维空间,创建一个M*K的矩阵L,以存放所有数据点在嵌入后的位置,初始化位置可以随机选取,或将PCA方法作用域原始高维数据后得到的K个特征向量作为初始位置
- 根据数据点在低维空间的位置,计算所有数据对的相似程度,保存与M*M的矩阵Ls中
- 通过测量Ds和LS的差别,采用特定的方法计算应力值S
- 若应力值小于提前设定的阀值,或者和前面几次循环没有明显变化,算法停止。否则将矩阵L中的数据点的位置向减少单个应力值的方向移动
- 回到第三步。
(2)线性降维方法的思想与算法及应用
- 多维尺度分析MDS
- 主成分分析PCA
- 非负矩阵分解NMF
(3)非线性降维方法的思想与算法及应用
- 等距映射法ISOMAP:寻求保持数据点之间距离的低维表示。
- 局部线性嵌套LLE:其结果能保持数据间原有的拓扑关系。
六、跨媒体可视化
- 多媒体是指组合两种或两种以上媒体的一种人际交互式信息交流和传播媒体
- 跨媒体则强调信息在不同媒体之间的分布和关联。(文本数据、社交网络数据、日志数据)
(1)多媒体数据可视化方法
(2)跨媒体数据可视化方法
文本与文档可视化
基本流程:(**)
文本可视化的主要方法和软件(库):
- 单文本内容可视化
- 多文档可视化
- 时序文本可视化
- 特殊文本可视化
- 文本检索结果可视化
- 软件可视化(see-soft)
社交网络可视化
- 结构型、语义型、统计型、时序型
- 基于关键词的可视化、基于位置信息的可视化、动态演化可视化、其他社交网络可视化。
日志可视化
- 商业交易数据可视化、移动轨迹数据可视化、系统日志数据可视化。
七、层次数据可视化
层次数据可视化的主要方法、优劣及应用示例
1、结点链接法
- 优点:能够直观表达父子结点的层次关系,结构清晰
- 缺点:当树的结点分布不均或树的广度深度相差较大时,部分结点占位系数而另一部分结点密集分布,可能造成空间浪费和视觉混淆。
- 应用实例:正交布局(网格型布局)、径向布局、三维布局。
2、空间填充法
3、其他方法
八、网络数据可视化
网络数据可视化的主要方法、优劣及应用实例
1、结点链接法
2、相邻矩阵布局
九、可视化交互
一般的交互系统及其功能
可视化交互方法或模式
- 选择:在可视化中,用户通常需要选择感兴趣的数据元素和其他数据区分开。
- 探索:让用户注定寻找并调动可视化程序去寻找感兴趣的数据。
- 布局:通过可视化元素在空间中的合理布局,有助于揭示蕴涵与数据中的信息
- 可视化编码:不同的数据需要不同的编码方式,需要结合实际处理
- ··抽象|具体:面对大规模数据的可视化通常需要先简化数据再进行显示。
- 过滤:数据过滤可选取满足某些性质和条件的数据,而滤除其他数据。
- 链接:
十、可视化工具
数据可视化的软件(库)
- 3D Slicer
- Amira
- ArcGIS
- AVS
- CommonGIs
- D3.js
- echarts
- tableau
- IDL
**:在可视化中,用户通常需要选择感兴趣的数据元素和其他数据区分开。
- 探索:让用户注定寻找并调动可视化程序去寻找感兴趣的数据。
- 布局:通过可视化元素在空间中的合理布局,有助于揭示蕴涵与数据中的信息
- 可视化编码:不同的数据需要不同的编码方式,需要结合实际处理
- ··抽象|具体:面对大规模数据的可视化通常需要先简化数据再进行显示。
- 过滤:数据过滤可选取满足某些性质和条件的数据,而滤除其他数据。
- 链接:
十、可视化工具
数据可视化的软件(库)
- 3D Slicer
- Amira
- ArcGIS
- AVS
- CommonGIs
- D3.js
- echarts
- tableau
- IDL
- openDX