10.可视化、可视分析、探索式数据分析

前言:基于人大的《数据科学概论》第十章。主要内容为可视化的定义、可视化的意义、可视化的一般过程、科学可视化与信息可视化、可视化的原则、可视化实例、可视化的挑战和趋势、可视分析技术、探索式数据分析、可视化工具。

一、可视化的定义

可视化是数据的可视表现形式以及交互技术的总称。

它通过图形化的方式把数据给表现出来,方便用户进行观察和理解,并且帮助用户对数据进行探索、发现数据里面隐藏的模式,获得对数据的洞察力和理解。

二、可视化的意义

某些事物,用文字/数字来表达,相当地繁琐,但是用图形来表现,则更加容易把握和理解。

在大数据时代,数据来源多样,数据的规模巨大,可视化技术可以帮助我们对数据进行观察、理解、探索和发现。

三、可视化的一般过程

过滤,映射,渲染,交互

  1. 过滤,(Filtering)是选取原始数据集的一部分进行可视化。
  2. 映射,(Mapping)是指将抽象数据,转换为可视化表示的过程。
  3. 渲染,(Rendering)是通过图形渲染库和显示卡的帮助,把经过映射的数据,以二维或者三维图形的形式绘制出来。
  4. 交互,(Interaction)是指计算机对用户的某种特定动作,做出反应。比如,计算机可以识别用户的手势,适时地改变渲染的效果。

映射交互两个环节是达成这个目标的关键。

四、科学可视化与信息可视化

目前,可视化领域包括三个主要的分支,分别是科学可视化信息可视化、以及可视分析等。

五、可视化的原则

可视化的目的,是把复杂数据有效地展示出来,首要的原则是准确清晰

  • 准确是指可视化结果反映的是数据的本来面目或者本质
  • 清晰是指可视化结果,所表达的含义要明确。

此外,还要尽量做到

  1. 在更小的空间里,用最少的图形,在最短的时间里,传达给用户最多的信息。对数据进行合理简化,突出重点。
  2. 可视化的结果,需要阐明事物之间的相互关系,以及事物的变化趋势,对于类似的事物要方便用户进行比较。
  3. 使用用户熟悉的事物,对需要比较的数据进行比较
  4. 在可视化设计过程中,要考虑把交互方式和动画效果加进去。动画效果可以从时间和空间维度对事物的发展变化过程进行刻画,以便给用户创造沉浸式的体验。

六、可视化实例

散点图、直方图、线图、柱状图、饼图、树状结构、圆锥树、信息立方体、堆叠的河流、景区热力图、高维数据可视化、高维数据可视化。

七、可视化的挑战和趋势

  • 海量的异构数据的可视化,对算法设计和硬件基础设施,都提出了更高的要求。
  • 各种新硬件被应用到可视化领域,可视化系统将支持更高的显示分辨率
  • 可视化技术被应用到更多的业务领域
  • 可视化技术支持更多样的数据的可视化
  • 新的研究热点,是基于可视化、以及可视化分析结果,进行叙事,将一个故事,并且把故事讲完整、讲精彩
  • 可视化软件提供更加强大的可视化分析能力

八、可视分析技术

可视分析包括三个要素

  • 数据(Data),数据是所有可视化分析的基础
  • 模型(Model),包括统计模型、以及机器学习、数据挖掘模型。
  • 利用可视化(Visualization),探索数据中变量之间的关系。

10.可视化、可视分析、探索式数据分析_第1张图片

可视分析包括三个回路:

  • 探索回路,描述分析者如何和可视化分析系统进行交互,目的是生成新的可视化结果或者调整模型,并且据此对数据进行分析。涉及动作发现
  • 验证回路,包括洞察和假设。
  • 产生新知识回路,分析者为某个假设寻找证据,或者从数据中学习到新的知识。从证据到知识,需要一个推理的过程。

九、探索式数据分析

所谓探索式数据分析,是指对已有的数据,在尽量少的先验假定情况下进行探索,逐步了解数据的特点。

当我们对数据的内在特点、它包含的信息,没有足够经验,不知道应用用什么统计分析、数据挖掘、机器学习方法进行分析时,探索式数据分析是一种有效的分析方式。

在探索式数据分析中对高维数据进行降维

降维,是把数据或特征的维数降低,一般分为线性降维、和非线性降维。

降维的方法有:主成分分析、线性判别分析、多维尺度分析等。

十、可视化工具

  • D3.js

  • Matplotlib

  • Prefuse

降维。

降维的方法有:主成分分析、线性判别分析、多维尺度分析等。

十、可视化工具

  • D3.js

  • Matplotlib

  • Prefuse

你可能感兴趣的:(可视化,数据可视化,探索式数据分析)