4.2 数据可视化

一、 数据可视化介绍
1. 概念

数据可视化:是指以 图形、图像、地图、动画 等更为生动、易于理解的方式展现具体数据,诠释数据之间的关系和发展的趋势,以期更好地理解和使用数据。

大数据可视化分析利用支持信息可视化的用户界面以及支持分析过程的人机交互方式与技术,有效融合计算机的计算能力和人的认知能力,以获得对于大规模复杂数据集的洞察力。

二、数据可视化作用

在大数据时代,可视化技术可以支持实现多种不同的目标:

  • 记录、观测、跟踪数据
  • 分析数据
  • 辅助理解数据
  • 分析推理
    4.2 数据可视化_第1张图片
  • 增强数据吸引力
三、数据可视化方法和技术
1. 网络(图)可视化技术

1.1 结点链接图
优:比较直观的反映网络关系;能够表现图的总体结构、簇、路径。
问题1:对于密集(尤其是关系密集)的图不是很适用。
4.2 数据可视化_第2张图片

  • 问题1-解决1:图的简化-聚类可视化
    通过 聚类 减少 的数目。
    4.2 数据可视化_第3张图片
  • 问题1-解决2:图的简化-边绑定
    通过 边绑定 减少 的数目。
    4.2 数据可视化_第4张图片
    1.2 相邻矩阵
    矩阵内的位置 (i,j) 表达了第i个节点和第j个节点之间的关系。
    优:视觉伸缩性强,适用于密集的图。
    缺:可视化结果比较抽象,难以跟踪出路径。
    4.2 数据可视化_第5张图片
    1.3 GMap
    用平面代表实体,平面的连通代表实体关系的一种“地图”。
    4.2 数据可视化_第6张图片
2. 多维数据可视化技术

回顾 一、二、三维数据:
4.2 数据可视化_第7张图片
多维数据定义:具有 多个维度属性 的数据变量。

2.1 平行坐标系
以 N 条平行的线为背景,每条线代表一个属性,一个在高维空间的点被表示为一条在 N 条平行坐标轴的折线,在第 K 个坐标轴上的位置就表示这个点在第 K 维的值。
4.2 数据可视化_第8张图片

2.2 散点图矩阵

  • 散点图矩阵是散点图的高维扩展,它在一定程度上克服了在平面上展示高维数据的困难,在 展示多维数据的两两关系 时有着不可替代的作用。
  • 如果数据具有 N 维特征,需要一个 N * N 的散点图矩阵对它进行可视化。
  • 散点图矩阵会构建两种基本图形: 直方图散点图 。位于对角线位置的直方图让我们看到了每一个变量的分布,而对角线上下的散点图则展示了变量两两之间的关系。
    4.2 数据可视化_第9张图片
    优:直观显示两个维度间的相关性。
    缺:散点图数目与数据维度平方成正比。

2.3 径向轴
平行坐标的径向排列版本,如雷达图、星状图等。
雷达图和星状图的区别:

  • 雷达图是一体多维的数据,即可视化的对象是一个主体,只是这个主体具有多个维度上的数据特征;对比的是,同一个主体,在不同维度上的数值,可以看出主体在不同维度上的偏向。
  • 星状图是多体多维的数据,即可视化的对象是多个主体,且多个主体维度相同,单个主体具有多个维度上的数据特征;对比的是,多个主体在同一维度上的数值,可以看出不同主体之间的差异和侧重点。

简单理解就是,雷达图可以视为是星状图中的一行记录。而且,一般情况下,会给予不同维度上的数值一定的权重,从而算出各个主体的综合得分,我们的芝麻信用分就是这么来的。
4.2 数据可视化_第10张图片
2.4 高维数据的降维
降维:使用线性或非线性变换把高维数据投影到低维空间。4.2 数据可视化_第11张图片
常用的降维方法:

  • 主成分分析 ( Principal Component Analysis,PCA )
    4.2 数据可视化_第12张图片

  • 线性判别分析 ( Latent Dirichlet Allocation,LDA )
    4.2 数据可视化_第13张图片

  • 多维定标 ( Multidimensional Scaling ,MDS )

  • 因子分析 ( Factor Analvsis ,FA )

3. 文本可视化技术

文本可视化将文本中蕴含的语义特征 ( 词频、逻辑结构、主题聚类、动态演化规律等 ) 直观的展示出来。

3.1 文本内容可视化
标签云 ( 最常用的可视化方法 )

  • 普通版本 ( 主要是使用一些主题词,然后根据这些主题词出现的频率,或者其它的一些排序规则,用字体、字体的大小、形状和颜色的来表达文本的内容 )
    4.2 数据可视化_第14张图片

  • SparkClouds ( 在传统标签云的基础之上呢,增加了一个时间的信息 )
    4.2 数据可视化_第15张图片
    3.2 语义结构可视化

  • DocuBurst、Phrase Nets
    4.2 数据可视化_第16张图片

  • Word Tree ( 最常用 )
    对文本中的每一个句子都用一个树形结构去表达。
    4.2 数据可视化_第17张图片
    3.3 文本动态可视化

  • 添加时间序列的折线图
    4.2 数据可视化_第18张图片

  • 河流图
    4.2 数据可视化_第19张图片

4. 交互可视化技术
  • 可视分析 是一种 通过交互式可视化界面 来辅助用户对大规模复杂数据集进行分析推理的科学与技术。
  • 表征交互 是数据可视化的两个主要成分。
    • 表征 ( representation ) 是用户的关注对象。
    • 交互 ( interaction ) 提供用户可操作的手段。
  • 交互的类型
    • 选择 ( Select ) : mark something as interesting
    • 探索 ( Explore ) : show me something else
    • 再布局 ( Reconfigure ) : show meadifferent arrangement
    • 视觉编码 ( Encode ) : show meadifferent representation
    • 抽象化 / 具体化 ( Abstract / Elaborate ) : show me moreor less
      detail
    • 过滤 ( Filter ) : show me something conditionallv
    • 链接 ( Connect ) : show me related items
  • 展示在可视化分析中的交互技术
    4.2 数据可视化_第20张图片
    • 向前映射
      4.2 数据可视化_第21张图片
    • 向后映射
      4.2 数据可视化_第22张图片
四、 数据可视化工具
  • 底层程序框架:OpenGL、Java2D
  • 第三方库:D3、Echart、Google chart、Highcharts
  • 软件工具:Tableau 、Infogram、Datawrapper、Gephi

你可能感兴趣的:(#,大数据技术导论,信息可视化)