摘要:伴随着大数据时代的到来,数据可视化成为一个热门的话题,引起了人们极大的关注。本文从研究背景、数据可视化的定义、常用数据可视化工具、可视化效果的评估、可视化面临的挑战及发展方向介绍数据可视化。
关键词:数据可视化 可视化工具 效果评估 挑战 发展方向
**
**
普通意义上讲,数据可视化伴随着统计学的出现而出现。事实上,从人们开始观察世界之时,就在利用图形图像记录、描绘信息。
数据可视化发展历程
15世纪-17世纪:可视化思想诞生,数据可视化的早期探索正式拉开序幕
18世纪: 数据可视化初步发展,直方图、饼图、柱状图等开始出现
19世纪前半叶:数据开始受到重视,数据图形出现 19世纪后半叶 数据可视化第一个黄金时期,图表、图形等被广泛应用
20世纪前期:前期的可视化表达方式已经够用,图表、图形表达的研究没有新进展
20世纪中后期至今:数据可视化依附计算机科学与技术拥有了新的生命力,并会在不久的将来大放异彩
当前,整个世界已经步入了大数据时代,伴随着互联网、云计算、物联网等信息技术的飞速发展,信息技术正在与人类世界的各个方面进行深入融合,产生出比以往任何年代都多的海量数据。对海量数据进行统计、分析,并挖掘出其中蕴含的潜在价值,是我们一直在深入研究的。从前,由数据分析师、统计学方面的专家及其科研工作者对数据进行统计、分析。但在当前大数据背景下,海量的数据只有在被合理的采集、解读、表达后才可完美的呈现出它们的深奥,而数据可视化让数据的更加亲切、更加让人理解。
一副图传达出的信息胜过千言万语。人类从外界获得信息的80%以上均来自人的视觉系统。将大数据通过直观的、可视化图形方式展示给分析者,更容易方便分析者挖掘出数据背后隐藏的信息。
数据可视化伴随着大数据时代的到来而兴起,可视化分析是大数据分析不可或缺的一种重要手段和工具,只有在真正理解可视化概念本质后,才能更好的研究并应用其方法和原理,获得数据背后隐藏的价值。
数据可视化,是关于数据视觉表现形式的科学技术研究。可视化技术是利用计算机图形学及图像处理技术,将数据转换为图形或图像形式显示到屏幕上,并进行交互处理的理论、方法和技术。它涉及计算机视觉、图像处理、计算机辅助设计、计算机图形学等多个领域,成为一项研究数据表示、数据处理、决策分析等问题的综合技术。
2.1数据可视化的基本概念
1)数据空间。由n维属性、m个元素共同组成的数据集构成的多维信息空间。
2)数据开发。利用一定的算法和工具对数据进行定量推演及计算。
3)数据分析。对多维数据进行切片、块、旋转等动作剖析数据,从而可以多角度多侧面的观察数据。
4)数据可视化。将大型数据集中的数据通过图形图像方式表示,并利用数据分析和开发工具发现其中未知信息。
2.2数据可视化的标准
为实现信息的有效传达,数据可视化应兼顾美学与功能,直观的传达出关键的特征,便于挖掘数据背后隐藏的价值。
可视化技术应用标准应该包含以下4个方面:
1)直观化。将数据直观、形象的呈现出来。
2)关联化。突出的呈现出数据之间的关联性。
3)艺术性。使数据的呈现更具有艺术性,更加符合审美规则。
4)交互性。实现用户与数据的交互,方便用户控制数据。
**
**
目前常用的数据可视化工具有很多。下面从以下6个方面介绍常用的数据可视化工具。
1)入门级。
EXCEL是常用的入门级的数据可视化工具。
可视化应用:报表、统计图表等方面。
优点:快速、方便。
不足:样式选择范围有限
2)在线数据可视化
A)Google Chart API
可视化应用:动态图表、丰富的现成的图表类型。
优点:丰富的图表选择、SVG、CANVAS、VML浏览器。
不足:客户端动态图生成会引发问题。
B)Flot
可视化应用:jQuery JavaScript绘图库。
优点:操作简单、定制、灵活。
不足:在展现不同效果时,难度会增加。
C)RaphaёL
可视化应用:在线输出图表、图形等。
优点:SVG/VML矢量输出格式,分辨率高。
不足:速度比画布创建栅格化图像慢。
D)D3(Data Driven Documents)
可视化应用:复杂的可视化图形。
优点:复杂的交互、展现效果好。
不足:不够简洁。
E)Visual.ly
可视化应用:信息可视化图形、信息图设计师的在线集市。
优点:大量的信息图模板。
不足:功能有一定限制。
3)互动图形用户界面(GUI)控制
Crossfilter是常用的GUI工具。
可视化应用:交互式GUI图形图表。
优点:方便快速查看、操作有交互性。
不足:操作复杂性增加。
4)地图工具
A)Modest Maps
可视化应用:基本的地图功能。
优点:小型、拓展性好。
不足:基本形式非常有限。
B)Leaflet
可视化应用:移动端平面地图。
特点:小巧轻便、灵活、备份。
C)Polymaps
可视化应用:网络地图功能。
优点:强大的资源库、全方位信息可视化。
D)OpenLayers
可视化应用:地图库。
优点:强大的地图库,可靠性高。
不足:文档注释不完善,操作难度高。
E)Kartogragh
可视化应用:区域地图绘制。
优点:标记线、定义,更多的选择。
不足:处理世界范围的数据有一定的困难。
F)CartoDB
可视化应用:地图库。
优点:轻易结合表格数据与地图。
不足:需要按月付费。
5)编程进阶
Processing是一款适合于编程进阶的常用可视化工具。
可视化应用:开源的编程语言;
优点:语法简易,大量实例和代码。
6)专家级工具
A)R
可视化应用:分析大数据集的统计组件包。
优点:强大社区和组件库。
不足:复杂、学习难度大。
B)Weka
可视化应用:机器学习、数据挖掘。
优点:免费。
C)Gephi
可视化应用:社交图谱数据可视化。
当然,Tableau、SAS、IBM、SAP、ORACLE、Qlik、Microsoft等是目前商业主流的数据可视化工具。
目前关于信息可视化评价的研究还比较少,少量的研究也没有提出一种直接和通用的可视化评估准则。大量研究表明,界面的美观性和感知易用性存在密切关系,但是感知易用性有可能与实际可用性不相关。一些学者专注于研究人的认知心理学对于可视化效果的评估,但效果还不明显。
总的来说,信息可视化效果的评估已经引起了一些专家学者的注意,但是研究成果还不是很好,因此,可视化效果的评估是一个值得深入研究的课题。
伴随着大数据时代的到来,数据可视化日益受到关注,可视化技术也日益成熟。然而,数据可视化仍存在许多问题,且面临着巨大的挑战。
1)视觉噪声。在数据集中,大多数数据具有极强的相关性,无法将其分离作为独立的对象显示。
2)信息丢失。减少可视数据集的方法可行,但会导致信息的丢失。
3)大型图像感知。数据可视化不单单受限于设备的长度比及分辨率,也受限于现实世界的感受。
4)高速图像变换。用户虽然能够观察数据,却不能对数据强度变化做出反应。
5)高性能要求。对于静态可视化对性能要求不高,因为可视化速度较低,性能要求不高,然而动态可视化对性能要求会比较高。
数据可视化面临的挑战主要指可视化分析过程中数据的呈现方式,包括可视化技术和信息可视化显示。目前,数据简约可视化研究中,高清晰显示、大屏幕显示、高可扩展数据投影、维度降解等技术都试着从不同角度解决这个难题。
在大数据应用程序中,大规模数据及高维数据使数据可视化变得十分困难。
由于人和机器的限制,在可预见的未来,大数据的可视化问题会是一个重要的挑战。
1)可视化技术与数据挖掘有着紧密的联系。数据可视化可以帮助人们洞察出数据背后隐藏的潜在信息,提高了数据挖掘的效率,因此,可视化与数据挖掘紧密结合是可视化研究的一个重要发展方向。
2)可视化技术与人机交互拥有着紧密的联系。实现用户与数据的交互,方便用户控制数据,更好地实现人机交互这是我们一直追求的目标。因此,可视化与人机交互相结合是可视化研究的一个重要发展方向。
3)可视化与大规模、高维度、非结构化数据有着紧密的联系。目前,我们身处于大数据时代,大数据时代,大规模、高纬度、非结构化数据层出不穷,要将这样的数据以可视化形式完美的展示出来,并非易事。因此,可视化与大规模、高维度、非结构化数据结合是可视化研究的一个重要发展方向。
参考文献:
[1] 韩家炜,Micheline Kamber,裴健.数据挖掘:概念与技术(原书第三版)[M].北京:机械工业出版社,2012.7
[2] 张 浩,郭 灿.数据可视化技术应用趋势与分类研究[J].软件导刊,2012(5)
[3] 杨彦波,刘 滨,祁明月.信息可视化研究综述[J].河北科技大学学报,2014(2)
[4] 任永功,于 戈.数据可视化技术的研究与进展[J].计算机科学,2004(12)
[5] 王维江,张俊霞.数据可视化技术研究的新进展[J].Computer era,2002(2)
[6] 刘 勘,周晓峥,周洞汝.数据可视化的研究与发展[J].计算机工程,2002(8)