可视化定义:通过可视表达增强人们完成某些任务的效率
可视化意义:可视化作为某种外部内存,在人脑之外保存待处理信息,可补充人脑有限的记忆内存,有助于解决人脑的记忆内存和注意力的有限性问题。同时,图形化符号可将用户的注意力引导到重要的目标,可有效地传递信息。
传统可视化方法可以大致分为两大类:探索性可视化和解释性可视化。
探索性可视化:在数据分析阶段,不清楚数据中包含的信息,希望通过可视化快速的发现特征、趋势和异常,这是一个将数据中的信息传递给可视化设计与分析人员的过程
解释性可视化:在视觉呈现阶段,依据已知的信息或知识,以可视的方式将它们传递给公众。
数据分析的任务通常包括:定位、识别、区分、分类、聚类、分布、排列、比较、内外连接比较、关联和关系等
面向非结构化、非几何的抽象数据,例如:社交网络和文本数据的可视化(词云),更关注抽象高维的数据。
挑战:针对大尺度的高维数据尽可能减少视觉混淆,展示用户感兴趣的信息。
分类:
面向科学与工程领域,带有空间信息和几何信息的三维测量数据,计算模拟数据,医学影像数据,呈现实测或仿真的科学数据中的特征、模式和演化规律。
挑战:挖掘数据中几何拓扑的形状特性
分类:
可视分析学被定义为一门由可视交互界面为基础地分析推理科学。它通过综合可视化、图形学、数据挖掘和人机交互等方法,以可视化交互界面为通道,将人地感知和认知能力以可视的方式融入数据处理过程,形成人脑智能优势互补和相互提升,辅助用户从大尺度、复杂、甚至不完整的数据中快速挖掘有用的信息,支持用户决策。
以交互式界面为基础的分析推理科学,结合了可视化,人机交互与数据挖掘,解决需要人参与理解和决策的多种实际问题。
1.可视化的分类包含(A.科学可视化B.信息可视化D.可视分析学)。
3.张量场可视化属于可视化的哪个分支学科(科学可视化)。
5.可视分析学涉及到的学科包括(A.计算机图形学B.数据挖掘C.人机交互D.统计分析)。
6.使用以下哪种可视化工具不需要编程基础(Tableau)。
观察物体的变化需要集中注意力,在可视化中突出变化,可以减少认知负担
感知系统基于相对判断,而非绝对判断。使用相同的参照物或者相互对齐,有助于人们做出更加准确的相对判断。
格式塔Gestalt理论:结构比元素重要,视觉形象首先作为统一的整体被人认知,而不是将事物理解程组成该事物所有部分的集合。
将数据映射为可视化元素的方法叫可视化编码。
可视化编码由两方面组成:
当我们在编码数据的时候, 我可以选用什么视觉通道来进行编码呢?
数据的分类:
视觉通道分类:
视觉通道的选择标准?
表现力是怎么排出来的?
可视化编码的步骤:
1.有的人在发朋友圈的时候,会把一张图片切成9份,然后再按顺序拼出一个九宫格,如下图所示。虽然图片被分割开来,但是我们仍旧能够感知到图片原来完整的样子,这体现了格式塔理论的(连续)原则。
2.下图所示的图片体现了格式塔理论的(接近)原则。
3.下图所示的图片体现了格式塔理论的(相似)原则。
4.下图所示的可视化中运用了以下哪个视觉通道(高度)。
5.下图所示的可视化中体现了哪种类型的视觉通道(分组型)。
6.下列视觉通道中,哪些是定性/分类视觉通道(B.空间位置C.形状)。
7.下图所示的可视化中运用了哪些视觉通道(C.颜色色调D.角度)。
8.以下关于感知与认知的一些描述,正确的有哪些(A.可视化可以作为外部辅助来增强工作记忆B.认知是信息加工的过程C.在可视化中突出变化,可以减少认知负担)。
9.根据格式塔理论,人们在观看时,眼脑在一开始的时候会先区分一个形象的各个单一的组成部分,然后再将各个部分组合起来,使之成为一个易于理解的统一体(错误)。
10.形状是一种典型的定性视觉通道(正确)。
大数据四个特征:数量大,更新快,多样性,准确性。
分为:
统计方法在数据分析中的意义:了解数据总体情况的有力工具,分析数据的基础
方法有:均值,中位数,方差(表示数据的离散程度,方差越小越集中)
了解分布,了解数据对象之间的关系(相异性矩阵),去除冗余数据
数据相似性度量:
(A)可以用( )计算类别属性的距离,而用( )计算数值属性的距离。
基本统计特征:
数据的不确定性分类:
存在不确定性:数据是否存在具有一定概率
属性不确定性:属性的值不是一个单一值,而是按一定的概率取多种值
不确定性产生的原因:
目的:提高数据质量,使得可视化的效果和质量得以提高。
数据科学:
数据质量评判:
数据预处理步骤:
1、数据清理:修正数据中的错误,识别离群点及更正数据不一致的过程。
数据清理涉及的典型的数据错误类型:
2、数据集成:在实际应用中,经常会遇到来自不同数据源的同类数据,且用于分析之前需要进行合并操作,实施这种合并操作的步骤成为数据集成。
数据集成需要解决的问题:
文件存储
数据库(关系型数据库,非关系型数据库)
数据仓库(特征:面向主题、集成化、非易失和时变)
数据存储和可视化
目的:萃取和提炼隐藏在一大批数据中的信息,以找出所研究对象的内在规律
广义的数据分析可分为三个类别:统计分析,在线分析OLAP,和数据挖掘
探索式数据分析VS传统统计分析
探索式数据分析:指对已有的原始数据在尽量少的先验假定下,将统计方法与作图、制表、方程拟合和特征量计算等手段相结合,探索数据的结构和规律的一种数据分析方法。
探索式数据分析的可视化分为:
数据挖掘:是从大型数据库、网络上或其他大型储存库中,自动地发现和提取模式、特征或和知识(非常规的或以前未知的信息)。
数据挖掘的任务分类:
数据挖掘的常见功能:
分类与预测、聚类分析、关联分析、异常分析
数据轨迹:是一种单变量数据呈现方法,通过将自变量与因变量在图中用点呈现出来。数据轨迹可以直观地展现数据分布、走势以及离群异样品。
1、直方图:是对数据集的某个数据属性的频率统i计。
每个区间的数据之和为数据集整体
不同的数据分布在直方图下有不同的效果
2、等高线图
3、走势图:简单的数据变化趋势,通常是折线图
4、散点图:当数据大于二维,所有维度两两取出,每对维度一个散点图可以形成散点图矩阵
5、热力图:有3个维度的数据,利用颜色属性,将第三个维度的数值映射为颜色值,此时就成了热力图。可以展示三维数据点的分
布情况。
6、盒须图:
7、多协同视图:将多个视图结合起来,每个视图展现数据某个方面的属性,并允许用户进行交互分析。
(C)以下说法正确的是
1.现有两个数据(0, 1, 0, 1, 0)与(0, 0, 1, 1, 1),其中每个属性为二元属性类型,则它们的Jaccard相似系数为(0.75)。
2.以下哪种类型科学称为第四范式(数据密集型科学)。
3.以下哪种可视化方法能够反应每个数据项所占的比例(饼状图)。
4.以下哪种方法能够可视化统计的结果(盒须图)。
5.以下的哪种相似性度量方法能够用于计算类别属性的相似性(Jaccard相似系数)。
6.以下的哪些选项满足大数据的特征(A.多样性B.数量大D.更新快)。
7.以下的哪些类型的任务属于描述型任务(B.关联分析C.异常分析D.概念描述)。
8.数据挖掘算法主要可分为以下哪几类(A.统计方法C.机器学习D.传统算法)。
9.闵可夫斯基距离不能表达曼哈顿距离的形式(错误)。
10.数据轨迹不能展现自变量与因变量的关系(错误)。
数据可视化流程:
1、数据归一化:数据的归一化是将数据按比例缩放,使之落入一个小的特定范围。其中最典型的是数据统一映射到[0,1]区间上。数据变换方法有:线性变换,反正切变换,标准化及其他用户自定义变换
2、数据平滑化(曲线拟合):发现数据的趋势,分析变量之间的关系
3、数据采样:从总体中选出个体样本来估计总体特征(统计),将连续信息简化为离散信号(信号)
【一维】分箱:将一组连续值分组装进一些“小箱子”的方法(选择合适的区间大小)
【多维】数据降维:常见方法有线性PCA,多维尺度分析,非线性等距特征映射等。
数据聚类:例如kmeans
4、数据滤波:去噪,从数据信号中去除不需要的部分。
5、数据降维:线性由MDS,PCA ,NMF,非线性有ISOMAP,SOM,LLE
6、数据采样:将离散数据转换为连续信号进行处理或将数据的维度和粒度进行变换时,需要对数据进行重新采样,常见的例子包括:放大缩小视角,填补缺失信息,计算某精度位置的数据,针对离散数据集,往往通过插值法得到给定位置处的采样数据。
7、数据聚类和部分
1.可视化可以将难以理解的原始数据变换成用户可以理解的模式和特征,并显示出来。依据可视化流程概念图,在原始数据和可视化中间这一步骤是(数据处理和变换)。
2.常见的归一化方式中的反正切变换的值域是([-1, 1])。
3.在Tamara Munzner提出的可视分析模型中,可视设计的what why how三个维度中的what指代的是什么(对于要被可视化的数据的抽象)。
4.可视化和其他数据分析处理方法最大的不同是用户起到了关键作用,可视化映射后的结果只有通过(用户感知)才能转换成知识和灵感。
5.属性类型中包括了类别型和(有序型)。
6.在设计一个可视化解决方案的过程中,了解数据采集这一步骤中的(A.数据的属性B.数据的来源D.数据的采集方法),才能有的放矢地解决问题。
7.在Tamara Munzner的可视分析模型中的what这个维度中,数据集类型包括(A.网络数据B.表格型数据C.场数据D.地理数据)。
8.数据降维方法一般分为哪些种类(A.非线性方法C.线性方法)。
9.在可视化流程概念图中,各个模块的联系仅仅是顺序的线性联系(错误)。
10.数据离散化/分箱时,需要根据分析需求和可视化效果来选择合适的离散化区间大小(正确)。
不同视觉通道在点线面上的表示:
可视化编码有关视觉通道的内容可参考第二章感知与认知章节中的视觉通道
5.颜色的视觉通道包括(A.色相/色调C.饱和度D.透明度)。
8.视觉通道就是图像中的基本几何元素(错误)。
9.盒须图的IQR中包含上四分位数、下四分位数和平均数(错误)。
10.在对可展示的数据进行筛选时,要确保不能展示过多数据,同时也不能展示过少数据(正确)。
场数据是对连续的空间进行度量(现实世界/软件模拟),大多与空间时间,地理位置有关
命名:根据空间的维度,与属性值的特征共同命名 ,多元结构取决于属性值,多维结构取决于空间维度
例如:降水数据是二维标量场,湿度数据是三维标量场,风场数据是三维矢量场,核磁共振扫描是三维张量场
空间数据来源:实际测量的值和软件模拟的结果
进行采样时,单元格的栅格往往有三种形式
对数据进行采样的时候要考虑采样频率所带来的相关数学问题,一定程度上可以采样插值。
栅格VS表格:表格型数据存储离散的对象,仅代表空间中特定的点的值不会充满整个空间。
空间场数据的可视化:根据数据类型和分析任务确定
通常指沿空间某一路径采集的数据。一维时间标量数据记载一个标量随时间推移而变化的取值。
通常用二维坐标图或折线图来可视化。
例子:医学诊断的X光片,实测的地球表面温度,遥感观测的卫星影像,
从几何的角度,二维数据的定义域分为:
平面型二维数据可视化方法:
科学研究和社会活动通过模拟计算或实验观测产生三维数据,记录了三维空间场的物理化学等属性及演化规律。
获取数据方式:
三维数据可视化方法:
移动立方体结构分为256种,最后通过旋转对称等变换将256种情形归结为15种情形。
歧义性问题:
解决方法:
不适用场景:形状较小,结构复杂,存在噪声等无法利用几何表明准确描述的特征,容易产生大量散乱的三角形或存在漏洞的网格
直接体绘制不提取几何表示,直接呈现三维空间标量数据中的有用信息,像X光一样穿透整个空间,以模拟光学原理的方式将物质分布、内部结构和信息分布以半透明的方式表达
根据数据处理的流程分为:
常见绘制方式:
数据空间的直接体绘制方法以三维空间数据场为处理对象,从数据空间出发向图像平面传递数据信息,累积光亮度贡献。代表方法为雪球法:将三维空间中的数据点想象成一个个雪球,将数据向投影平面投影的过程相当于将雪球投掷到投影平面而形成二维的雪片。当所有网格上的雪球都被投掷到投影平面上,将雪片的密度叠加得到最终雪片的密度。
掷雪球法优点:简单有效,适合结构较为稀疏的三维标量场。但随着数据量增大,绘制效率会有所下降,且绘制质量低于光线投射法。
传输函数将数据值映射为有意义的光学属性(发射光的颜色和不透明度),实现对数据的分类,揭示空间数据场内部的结构。这个从数据到颜色和不透明度的映射被称为传输函数。
由于每个点上有多个数值,一种直接的做法是将每个数值分别用标量可视化方法显示。尽管可以完整表示所有变量,却难以表达变量之间的关联。
挑战:将多个变量统一在一个显示空间。
已有方法:
矢量场数据(流场数据):每一个点的天量的方向都代表流体在这个位置的流向,天量的大小代表流速。在动态流场中还要考虑时间变量
举例:流体力学中对水流的模拟,气象站对大气风向的观测,赛车设计时对风阻及压力的计算。
可视化方法:
张量场数据:常用于表示物理性质的各向异性。如固体力学和士木工程中,张量用来表示应力、惯性、渗透性和扩散。医学图像领域,张量场是弥散张量成像的理论基础。
张量表示标量、向量或其他张量之间的线性关系。由于代表的时两个向量(或张量)之间的关系,所以张量是一个与坐标系无关的值,可以用矩阵表示。一个张量在不同坐标系中有不同的矩阵形式,可以通过变换法则互相转换。
举例:弥散张量成像数据
由于张量过于复杂,无法直接可视化出所有分量,我们可以采用指数法或标记法。
标量指数法:将每一个张量转换为一个标量,运用标量的可视化方法进行展示。但是会丢失很多信息。标量指数设计的目的是在于找到能反映样本物理性质的值,这些值不应随坐标系的改变而变化。eg:两次扫描图像时样本和扫描仪之间的角度变了会得到不同的值,因此张量矩阵中任何一个元素都不是好的标量指数。相反,张量的最大特征根反映了水分子在所有方向上最快的扩散速度,而不随坐标系变化,时一个有意义的标量指数。
张量标记法:大多数张量标记有六个自由度并可以完全表示在一点上的张量。最常用的张量标记是扩散椭球。其他三维标记如立方体和圆柱体也可以用来表示扩散张量的特征根和特征向量。
纤维追踪法:扩散张量场中最重要的向量是与最大特征根对应的特征向量,它指向生物组织中水分子扩散最快的方向。由于生物组织结构对水分子扩散的夏至,这个方向在纤维大组织如脑白质或肌肉中往往与纤维组织的方向重合,可以重现生物组织的结构。
混合绘制:难点:正确显示不同类型会制对象间的层次关系和透明颜色的叠加
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SA5LJ9nN-1655478550425)(https://s2.loli.net/2022/05/17/czeKX9qxyrT3Q65.png)]
1.天气预报中的地表温度地图属于哪一种空间场(二维标量场)。
5.积分曲线法生成的各种曲线中,展现静态场特征的是(流线)。
6.以下哪些是空间场数据(B.X光片C.天气预报中的温度分布数据D.气象卫星遥感数据)。
7.以下哪些是标量场数据(C.三维云图(湿度)数据D.天气预报中的地表气温地图)。
8.以下哪些数据适合使用积分曲线法进行绘制(A.天气预报中的地表风向地图B.三维风向数据)。
9.只有分布在三维空间中的数据才是空间场数据(错误)
10.绘制二维标量数据时,颜色映射和高度映射的方法可以同时使用(正确)。
11.由于张量场数据通常较为复杂,无法直接可视化出张量的所有分量(正确)。
时间序列数据指任何随时间而变化的数据。
时间属性:
可视化方法:
分类:时间序列数据(股票走势图),顺序型数据(生物DNA测序)
特点:量大、维数多、变量多、类型丰富、分布范围广泛
表达维度:线性、径向、网格(日历)、螺旋、随机(排版/时间曲线)
比例维度:按时间顺序,相对,对数,次序,次序+ 中间时长
布局维度:单一时间线,多时间线,分段时间线
数据本身的属性+数据集的顺序型+数据分析的方法=展现挖掘数据中的规律
步骤:
可视化形式:
基于线表示:主要针对高维、抽象、时变非空间数据的可视化
基于图结构:基于事件的时变型数据可视化,核心是事件演化的组织
从时变型数据中查询特定的时间序列,以便交互地发现特征和趋势
流数据的输入数据并不存储在可随机访问的磁盘或内存中,而是以—个或多个“连续续数据流”的形式到达。
例如:移动通讯日志,网络数据,传感器网络记录
特点:
(多数据库的设计既保护了原始数据又提高了数据存储的效率)
数据可视化:
监控型:用滑动窗口固定一个时间区间,把流数据转化为静态数据,数据更新方式可以是刷新,属于局部分析。
叠加型或历史型:把新产生的数据可视映射到原来的历史数据可视化结果上,更新方式是渐进式更新,属于全局分析。
系统日志数据反映了一台机器、一个计算集群的系统性能,是商业智能中最重要的数据。
文本数据从事件角度对文本进行可视分析,挖掘事件的发生、发展及变化。
描述的是对象在空间中的位置和属性。
地理空间数据:真实的人类生活空间,由移动设备和传感器产生。
地理空间数据可视化:计算机自动生成视图支持用户的交互。
地图制图学:设计用于印刷的静态地图,手动设计。
地理空间数据可视化:数据展示与分析。
地理信息系统科学:地理信息的存储与管理。
表示地图投影的三种方法:等角度投影(航海),等距离投影(联合国国徽),等面积投影。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lnly4a6T-1655478550426)(https://s2.loli.net/2022/05/22/X62fa5CUlDPsVum.png)]
点:经纬度坐标和对象的名称,类别组成,是地理数据可视化中最基础的数据类型。
点数据的可视化:点标记,图标标记。
可视化原则:符号必须直观且符合常识,且符号的种类和数量不宜过多
点数据的可视化:聚合方法,采样方法(模拟原数据分布的低密度数据;减轻视图的员担和数据的交叠)
线:连接两个或多地点的线段或路径
线数据可视化方法:直接绘制。
【ABCD】当数据量过大时可以采用哪些方法高效的进行点数据和线数据的可视化
简单理解为地图的一个区域,有长度和宽度,是由一系列的点围成的一个封闭的二维空间。
可视化方法:等值线图
分级统计地图
①假设数据平均分布,不能很好的展示区域内数值分布。
②视觉误导,解决方法:比较统计图(适当变形)
不同位置的区域可能有关联关系,所以可以采用连线或集合的形式展现区域属性之间的多元关系,例如气泡集合,线集合地图。
更注重展现数据的地理位置,维度和数值。
最常见的是和气象相关(对三维数据进行体绘制),由于会有遮挡所以三维绘制伴随交互操作,允许旋转缩放等
挑战:数据量大,多源异构。需满足多样的分析任务。需表达让用户更容易发现数据特征的数据。
案例:交通管理,选址问题(购房)
1.以下哪种几何体不是典型的地图投影技术应用的投影目标(正方体)正确答案。
2.以下那幅图是线数据可视化中的边绑定技术(D)正确答案。
3.假设我们想要用颜色展示城市中各个路口的拥堵程度。请问下列颜色编码中最符合要求的一组颜色是(B)。
4.一般所指的地理信息数据,不包括下面哪种数据(人的社交网络数据)。
5.下列选项中,不是地理信息数据可视分析应用的是(自动计算异常的轨迹)。
6.在区域数据的可视化中,在关注对象在空间中实际位置的前提下,设计展示区域的交通状况时,以下那种可视化方法是合理的(B.使用斜线标注每一个区域,斜线越密表示区域中车辆越多。同时采用交互的方法,当用户选择某一区域时,展示区域的详细信息。C.使用区域的颜色编码拥堵程度,仅使用红单色,越红表示越拥堵)。
7.常见的地图可编码的元素中,包含下面哪些项(A.元素的间距B.元素的排列C.元素的方向D.元素的亮度)。
8.为了展示某地区的人流量,下列可视化方法可以采用的有(B.对该地区的人流量做线图,横坐标是时间,纵坐标是人流量C.对地区进行颜色编码。颜色越深表示人越多D.对地区设计图标,表示该地区人流量的大小和方向)。
9.为了展示城市中700万人群轨迹的真实情况,应该把所有收集到的人的轨迹按照他们的经纬度绘制在地图上(错误)。
10.在用户更加关注区域的某个数值属性时,可以对区域的形状或大小进行更改,展示这个数值的属性值(正确)。
数据降维的方法分为两种:
线性:MDS,PCA,NMF
非线性:ISOMAP(等距映射),LLE(局部线性嵌入 )
参考链接:http://www.moontang.xyz/2022/04/06/%E4%BB%A3%E7%A0%81%E5%9D%97/%E6%9D%82/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90%E6%B3%95PCA/
参考链接:http://www.moontang.xyz/2022/06/11/%E4%BB%A3%E7%A0%81%E5%9D%97/%E6%95%B0%E6%8D%AE%E5%8F%AF%E8%A7%86%E5%8C%96/%E5%A4%9A%E7%BB%B4%E5%B0%BA%E5%BA%A6%E5%88%86%E6%9E%90MDS/
数据的三类基本类型:数值型、有序型和类别型。
而本章关注另外两类更加特殊却广泛存在的泛序型数据,这种泛序并不是前面章节中提到的时间顺序或空间顺序,而是更加抽象却又广泛存在的关系顺序,即数据之间的关系层次或是关系网络。
表达事物之间的从属和包含关系,这种关系可以是事物本身固有的整体和局部的关系,也可以是人们在认识世界时赋予的类别与子类别的关系或逻辑上的承接关系。
可视化方法有:
树型结构的直观表达。包括正交布局、径向布局的树以及在三维空间中布局的树等方法。
优点:直观展现数据的层次结构
缺点:当树的结点分布不均或树的广度深度相差较大时,部分结点占位稀疏而另一部分结点密集分布,可能造成空间浪费和视觉混淆。
分类:正交布局,径向布局,三维布局
空间填充法采用嵌套的方式表达树型结构,代表性方法有圆填充、树图等。
优点:有效利用屏幕空间
缺点:在数据层次信息表达上,空间填充法不如结点链接法结构清晰,不易表现非兄弟结点之间的层次关系
分类:圆填充图,树图,Voronoi树图
结点链接法和空间填充法具有明显的互补性,因此可以针对数据特性混合应用两种布局方法,在空间填充图中嵌入结点链接图,或是对结点链接的某些分支使用空间填充图。
弹性层次图是混合布局的代表。
例如:旭日图,冰柱图
层次数据反映个体之间或语义上的从属关系,网络数据则表现更加自由、更加复杂的关系网络。例如:计算机网络中的路由关系,社交网络中的朋友关系,协作网络中的合作关系。
网络的结点中心性是网络的重要属性。
分析网络数据的核心:挖掘关系网络中的重要结构性质,如结点相似性,关系的传递性,社区,网络的中心性。
可视化方法:
网络结点链接法采用结点表达数据个体,链接表达个体间的关系。
优点:呈现网络拓扑结构,表达网络中心性和关系的传递性
缺点:太多边会造成多边交叉,造成视觉混乱
核心问题:由于关系数据的结点不存在位置信息,如何通过结点的布局表达个体的相似性
可视化方法:
优点:如实记录任意两结点之间的相互关系,不会引起可视元素的交叉重叠
缺点:网络拓扑结构欠清晰
核心问题:如何揭示网络的拓扑性质
目标:将关系紧密的结点聚集
nodetrix
图可视化领域最新技术:
图可视化交互:
媒体有多种形式,包括文本、图像、视频、音频等。综合多种传播媒体获取和理解信息已经成为信息传播的发展潮流,因此“多媒体”与“跨媒体”的概念应运而生。
多媒体指组合两种或两种以上媒体的一种人际交互式信息交流和传播媒体
跨媒体则强调信息在不同媒体之间的分布和关联
主要任务是根据用户需求对原始文本资源中的特征信息锦绣分析
三个基本步骤:
以合适的视觉编码和视觉布局方式呈现文本特征。
对同一个可视化结果,不同用户感兴趣的部分可能各不相同,而交互操作提供了在可视化视图中浏览和探索感兴趣部分的手段。
主要思路:将一个文档转换为一组高维空间的特征向量,由该组特征向量构成文档的特征向量空间。
在此基础上,可对文本进行计算和度量,如文档相似性计算、文档的分类和聚类等。
文本中可抽取的最小的度量单元,如字、词、词组或短语等,每篇文档都可以由若干个特征项所形成的一组特征向量表示。一般通过分词和词干提取来获取。
指某特征项在文档中所占比重。同一个特征项对不同文档的重要性不尽相同。因此,特征项对于文档的权重可以有效刻画文档的主体结构。
一种最简单直观的方法是将每个特征项在文档中的出现的频数作为该特征项在文档中的权重:频数越大,该特征项对于该文档的重要性越高,因此越能代表该篇文档。这样得到的由一组特征项以及特征项在文本中出现的频数所组成的向量成为该文本的词频向量。
词频向量是最简单也是最常用的刻画文档的特征向量。
注意事项:
以上可得到信息检索领域最重要发明之一即TF-IDF权重度量。TF为单文本词频,IDF为逆文本词频。一个词在越少的文档中出现,而在单个文档中出现的越多,则表明这个词的相对重要性较高,可区分文本能力越强。
时序型文本通常指具有内在顺序的文档集合,例如一段时间内的新闻报道。由于时间轴是时序型文本的重要属性,需重点考虑时间轴的表示与可视化。
社交网络服务指基于互联网的人与人之间的相互关系、信息沟通和互动娱乐的运作平台。
社交网络是一个网络型结构,由结点和结点之间的连接组成。单纯的探究网络中结点或边或计算物理中的统计信息并不能揭示网络的全部内容和潜在信息。
社交网络可视化最直观的呈现方式是网络结构。
研究重点:
着重展示社交网络的结构,即体现社交网络中参与者和他们之间关系的拓扑结构。常用可视化方法是结点链接图。
社交网络某些特性的统计变量的分布可用柱状图、折线图、饼图等基本统计图表进行可视化。
对复杂社交网络中的语义信息进行可视化,可以有效地发现社交网络中的舆情和突发事件等。
社交网络中用户的行为具有时间戳,将时间信息作为属性融入社交网络的可视化可反映社交网络的动态变化情况。
一种记录所观察对象的行为信息的数据。
日志数据类型的特点:
可视化显示:数据经过处理和可视化映射转换成可视化元素并呈现。
可视化交互:将用户探索数据的意图传达到可视化系统中以改变可视化显示。
直接方式:鼠标直接点击、鼠标画方框等形式
间接方式:用户输入一些约束条件选择数据
普通模式
只能模式:由算法确定最终选取的数据,选取方式简单而且效果好。
由于数据维度、大小、可视化角度和用户感知能力等限制,任何用户在任何一个时间段只能看到有限的数据。
探索操作则让用户主动寻找并调动可视化程序区寻找感兴趣的数据。在探索过程中通常需要在可视化中加入新数据或者去除不相关的数据。可以用户手工操作,也可以自动完成。
优化布局的目的是避免绘制元素的过度重叠,显示数据中的某种隐藏图案,或者展示数据之间的某种关系等
可视化编码不仅仅是可视化的一个必要过程,而且是探索过程中常用的操作。衡量一个可视化编码是否适用取决于能否绘制出数据的特征。
面向大规模数据的可视化通常需要先简化数据再进行显示。抽象或具体的程度可以划分为不同等级。简化数据不可避免地回丢失一部分低层细节或掩盖一些高层结构。通过用户交互改变数据的简化程度并且显示不同层次上的结构是一个可视化中广泛应用的方法。
过滤和选择的区别:过滤删除数据,选择只显示指定数据。
由于空间有限,难以在同一空间显示所有链接,因而需要根据用户需求即时展示重要的链接。
先概括概貌,进而用户与视图进行交互,例如探索或过滤,最后可视化用户所关注内容的细节。
聚焦指为用户感兴趣的内容展示更多细节,上下文指适度展示用户关注点之外的其他数据,使用户理解聚焦数据和周围数据的关系。
对偶界面指对于同一数据同时采用两种不同方式的可视化,并且允许用户同时在两个视窗内进行可视化交互操作和交互结果的关联。
Paraview
Visualization Toolkit(VTK)
D3
R