利用人眼的感知能力 对数据进行交互的可视表达 以增强认知的技术
版本1:
记录信息,分析推理,证实假设,交流思想
【可视化扩充了人脑的记忆,帮助人脑形象理解和分析面临任务,显著提高分析信息的效率】
版本2:
协助思考
使用感知代替认知
作为大量工作记忆的外界辅助
增强认知能力
当我们同时经历着多样事物发生时 仅仅关注其中一样而忽视了其他样事物的发生 而且不知道它们的发生,我们称这种现象为变化盲视。
它体现了人的视觉信息处理和认知的局限性。
Echarts, R, Processing, D3.js
感知:关于输入信号的本质,指客观事物通过人的感觉器官在人脑中形成的直接反映
认知:关于怎么理解和解释看到的东西
视觉感知分为两个阶段:受到外部刺激接收信息阶段,解释信息阶段
视觉感知的特点:
格式塔心理学认为,整体不等于部分之和,意识不等于感觉元素的集合,行为不等于反射弧的循
最基本法则(简单精炼法则)
人们在进行观察的时候,倾向于将视觉感知内容理解为常规的、简单的、相连的、对称的或有序的结构。同时,人们在获取视觉感知的时候,会倾向于将事物理解为一个整体,而不是将事物理解为组成该事物所有部分的集合。
格式塔法则又称为完图法则,主要包括:
【注:要么考察列出8个,要么举例几个,举例较好的为贴近,相似,连续,经验】
贴近原则:当视觉元素在空间距离上相距较近时,人们通常倾向于将它们归为一组。
比如:由各种艺术元素组成的字母,或者人踩在比萨斜塔上的视觉错觉等
相似原则:人们在观察事物的时候,会自然地根据事物的相似性进行感知分组。通常依据对形状、颜色、光照或其他性质的感知进行分组。
比如:在散点图中,我们往往认为相同颜色的点是同一个类别
连续原则:人们在观察事物的时候会很自然地沿着物体的边界,将不连续的物体视为连续的整体。
比如:在生活中的“手臂延长”等
闭合原则: 只要物体的形状足以表征物体本身,人们就会很容易地感知整个物体而忽视未闭合的特征
比如:在熊猫的漫画表达中,只绘制黑色部分的做法
共势原则: 如一组物体具有沿着相似的光滑路径运动的趋势或相似的排列模式,人眼会将它们识别为同一类物体
比如:如果在杂乱的字母中有一行排列整齐的语句,人可以一眼看出来
好图原则: 人眼通常会自动将一组物体按照简单、规则、有序的元素排列方式进行识别。个体识别世界的时候通常会消除复杂性和不熟悉性,并采纳最简化的形式。
比如:人在观察语句时会自动对他们进行排序,即使语句是乱序的也可以识别出来。
对称性原则 :人的意识倾向于将物体识别为沿某点或某轴对称的形状。
经验原则 : 在某些情形下视觉感知与过去的经验有关。如果两个物体看上去距离相近,或者时间间隔小,那么它们通常被识别为同一类。
比如:父母往往难以注意到孩子的较小的胖瘦情况,但亲戚可以,这是经验原则下引起的变化盲视。
结论:
色彩的物理学基础
加性混合主要应用于主动发光的物体,如液晶显示器、电视机等
减性混合主要应用于被动发光的物体,其颜色由物体表面的反射参数决定
【其余略】
色彩的视觉系统基础
【生物学,略】
色彩的神经感知基础
脑神经感知颜色的几个特性:
颜色恒定性
人脑对颜色的感知取决于该颜色与周围颜色的关系
人脑对亮度变化的感知要比色相变化的感知敏感
【关于颜色恒定:我们最终感知到的颜色是大脑对视觉系统传递过来的信号进行二次加工处理的结果。人类的经验知识起到了非常重要的作用,这些经验知识会使得同一物体在不同光照环境下我们感知到的颜色尽量一致(我们会认为晚上看到的树叶和白天看到的树叶都是绿色的)。】
使用一组值(通常使用3个或4个值)表示颜色的方法的抽象数学模型。
例子:RGB/CMYK色彩空间;HSV/HSL色彩空间
绝对色彩空间:指不依赖于外部因素就可以准确地表示颜色的色彩空间
相对色彩空间:无法通过一组值准确地表示颜色,相同的值未必能使人得到相同的色彩感知
色盲在可视化上的解决方案:
可视化将数据以一定的变换和视觉编码原则映射为可视化视图。用户对可视化的感知和理解通过人的视觉通道完成。在可视化设计中,对数据进行可视化(视觉)元素映射时,需要遵循符合人类视觉感知的基本编码原则,这些原则跟数据类型紧密相关。【在通常情况下,如果违背了这些基本原则,将阻碍或误导用户对数据的理解】
人们通过眼睛所获得的信息被大脑处理后形成的关于事物的感知,与事物在客观世界中的物理现实并不一致,这种现象称为视觉假象
类型:尺寸错觉,细胞错觉,轮廓错觉,不可能错觉,运动错觉
例子见PPT 83,考到就画图吧
概念:将数据信息映射成可视化元素的技术,其通常具有表达直观、易于理解和记忆等特性
可视化编码包括:标记(图形元素)和用于控制标记的视觉特征的视觉通道
标记通常是一些几何图形元素;标记具有分类性质,因此不同的标记可用于编码不同的数据属性
视觉通道则用于控制标记的展现特征,从定量的角度描述标记在可视化图像中的呈现状态。(定量往往体现在长度,大小,亮度等)
视觉通道的表现力和有效性
表现力:视觉通道的表现力要求视觉通道准确编码数据包含的所有信息。视觉通道在对数据进行编码的时候,需要尽量忠于原始数据
有效性:通道表现力符合数据属性的重要性
衡量表现力的指标:
数据类型
①类别型属性 ②有序型属性 ③数值型属性 ④离散型和连续型
数据特征的基本统计描述
均值、中位数、 均方差 、相似度和相异度
ETL
抽取(Extract)、转化(Transform)、 装载(Load)
探索式数据分析
可视化数据挖掘作用
可视化质量指标
尺寸,视觉有效性,特征保留度
数据可视化流程以数据流为主线,包括数据采集、数据处理和变换、可视化映射、用户感知
核心三要素:数据处理和变换,可视化映射,用户感知
可视化编码是把数据信息映射成可视化元素的技术
包含标记和用于控制标记的视觉特征的视觉通道
标记:属性到可视化元素的映射,直观代表数据性质的分类
视觉通道:数据的值到标记的视觉表现属性的映射,展现数据属性的定量信息
几种图的标记,必备/常见视觉通道:
①散点图:(a)标记:点 (b)必备的视觉通道: x,y坐标 ©常见的视觉通道: 大小、色彩、形状
②折线图:(a)标记:折线 (b)必备的视觉通道:拐点的x,y坐标 ©常见的视觉通道:色彩、宽度、形态(虚实,箭头等)
③柱状图:(a)标记: 矩形 (b)必备的视觉通道: 矩形的高度与x坐标次序 ©常见的视觉通道:色彩、纹理、y坐标绝对位置
④箱须图:(a) 标记:矩形,点,线 (b)必备的视觉通道:矩形与点的y坐标位置与x坐标次序,矩形的高度 ©常见的视觉通道:矩形的形状
小面积和大面积
①感知特点:小面积区域的颜色难于感知 ;大面积区域中如果颜色明亮,会使得面积看上去更大。
②设计原则:在小区域中使用明亮的、饱和度高的颜色;在大区域和背景中使用低饱和度的蜡笔风格颜色。
其他结论:
视觉隐喻
①视觉隐喻:用真实的物体表达抽象概念或者额外的含义 。
②视觉隐喻的作用:让内容表达更加出色,符合我们日常的认知,引起观众的思考,并增加趣味性与更多含义。
聚类
作用:将一组属性(数值型\顺序型\类别型)变换为一个单一的类别型标签。
K-means
– 随机产生K个中心位置
– 将每个数据点归为距离最近的中心位置所属的类
– 根据新的类别划分重新计算中心位置
– 回到第二步,直到满足一定约束
K-means 和 K-medoids 的区别
对偶尺度:在两张关联的图表中建立不同尺度的可视化方法
why?
常见的对偶尺度模式:聚焦式,重叠式,中断式
地图映射主要包含以下三种类型:
点数据描述的对象是地理空间中离散的点,具有经度和纬度的坐标,但不具备大小尺寸
– 优点:简单,直观,与逻辑结构相匹配
– 缺点:对于密集数据点表述力差
【解决密集点问题:引入颜色通道,交互手段等】
线数据通常指的连接两个或更多地点的线段或者路径。线数据具有长度属性,即所经过的地理距离。
FlowMap算法
Layout Adjustment:将地图上的节点映射到屏幕上,调整节点布局以避免节点间的相互干扰。
Primary Clustering:将所有节点依位置关系聚类
Rooted Clustering:在聚类结果中考虑源\汇(Source\Terminal),并将其移动至根节点
Spatial Layout:对于二叉树中的每一个节点,选择其中权值较高的子节点,直接连接父节点a与该子节点的重心c交子节点的包围盒于b。取ab中点引出权值较低的子节点。
Edge Routing:上述操作并不保证边与边之间不相交——显然地,如果边与边(流与流)之间相交会引发图中较大的混乱,因此我们需要令这些边互相绕开。
【主要流程:布局调整,初步聚类,根聚类,空间布局,边路由】
基本处理:数据网格(无数据),离散采样,采样重建,可视化设计
注意:数据转换和坐标轴转换
1)颜色映射法
步骤:建立颜色映射表,将标量数据转换为颜色表的索引值,选择配色方案
2)等值线提取法
移动四边形法的基本思想
逐个处理二维空间标量场的网格单元,插值计算等值线与该网格单元边的交点,根据网格单元上每个顶点与等值线的相对位置,按一定顺序连接这些交点,生成等值线
3)高度映射法
截面可视化
采用二维截面对数据取样。截面可以是任意方向的平面、曲面甚至多个曲面
间接体绘制
等值面提取与绘制
直接体绘制
图像空间方法
光线投射算法:光线投射,采样,着色,合成
数据空间算法
传输函数设计
一维传输函数
优点:简单、方便 缺点:不能满足复杂分类需求
高维传输函数
优点:可以更精细的区分体数据
缺点:传输函数是可视化中一个很敏感的因素,需要精心调整,高维传输函数本身难以可视化,不利于交互选择
大数据可视化交互设计
动态改变视图,多视图关联,视图内容约减,焦点+上下文
将单个个体绘制成一个节点,节点之间的连线表示个体之间的层次关系
核心问题:如何在屏幕上放置节点;如何绘制节点及节点之间的链接关系
目的:
有电路图,缩进图,聚类树
Reingold-Tilford Algorithm
优点:与视觉识别习惯吻合,非常直观
缺点:对于大型的层次结构,特别是广度比较大的层次结构,这样的布局会导致不合理的长宽比
更加合理地利用空间
圆锥树(三维树)
结合了径向布局和正交布局两种思想
优点:
缺点:
用空间中的分块区域表示数据中的个体,并用外层区域对内层区域的包围表示彼此之间的层次关系
树图布局算法
Voronoi树图
为了克服矩形空间长宽比的困扰,人们提出了Voronoi树图,提出采用任意多边形来取代矩形空间
二者优点:
节点-链接法能清晰、直观地显示层次结构
空间填充法能有效地利用空间,从而支持大规模的层次数据
最常用的网络数据的布局:节点—链接法,相邻矩阵法
优点:
缺点:不适用于显示不具有原生自顶向下顺序的图
优点:
非常灵活,对各种类型的图都能生成较好的显示效果
相对容易实现
有现成软件包和算法可用
缺点:
节点链接法优缺点:
优点:
缺点:
文本数据可视化流程:
原始文本——文本信息挖掘——视图绘制——人机交互
文本特征抽取:关键词,词频,主题分布
向量空间模型
词袋模型:用来提取词汇级文本信息。在过滤掉停词等对文本内容影响较弱的词之后,词袋模型将一个文档的内容总结为在由关键词组成的集合上的加权分布向量
在基于词袋模型计算的一维词频向量中,每个维度代表一个单词;每个维度的值等于单词在文本中出现的统计信息,可引申为重要性;单词间没有顺序关系
TF-IDF
Tf(w)是词 w在文档中出现的次数, Df(w) 是文档集中包含词的文档数目
可以体现 代表词w对于某个文档的相对重要性