数据可视化学习笔记

注: 课程来自于智慧树、浙江大学陈为老师的大数据可视化
课程链接:大数据可视化(陈为 · 浙江大学)

数据可视化

  • 1 打开可视化的大门
    • 1.1 可视化初识
    • 1.2 可视化的今生前世
    • 1.3 可视化深入理解与掌握
  • 2 感知与认知
    • 2.1视觉感知与认知
    • 2.2 格式塔理论
    • 2.3 视觉通道
  • 3 数据
    • 3.2 数据分析与探索
    • 3.3 可视化+
  • 4 数据可视化基础(上)
    • 4.1 可视化基础流程初探
    • 4.2 数据可视化的框架
    • 4.3 数据处理与变换1
    • 4.4 数据处理与变换2
  • 5 数据可视化基础(下)
    • 5.1 可视化编码
    • 5.2 可视化图表
    • 5.3 可视化设计三部曲
    • 5.4 可视化设计进阶

1 打开可视化的大门

1.1 可视化初识

数据可视化学习笔记_第1张图片

1.2 可视化的今生前世

数据可视化学习笔记_第2张图片

1.3 可视化深入理解与掌握

数据可视化分为科学可视化,信息可视化和可视分析
数据可视化学习笔记_第3张图片
科学可视化应用在科学与工程领域,可视化带有空间信息和几何信息的三维测量数据、计算模拟数据和医学影像数据

数据可视化学习笔记_第4张图片
信息可视化面向非结构化、非几何的抽象数据。
数据可视化学习笔记_第5张图片
可视分析学是以交互式界面为基础的分析推理科学,结合了可视化、人机交互与数据挖掘,解决需要人参与理解和决策的多种实际问题。
数据可视化学习笔记_第6张图片

2 感知与认知

2.1视觉感知与认知

  • 记忆在人类认知过程中起着至关重要的作用,但工作记忆容量十分有限,可视化可以作为外部辅助来增强工作记忆。
  • 观察物体的变化需要集中注意力,在可视化中突出变化可以减少认知负担。
  • 感知系统基于相对判断,而非绝对判断。

2.2 格式塔理论

格式塔Gestalt理论:结构比元素重要,视觉形象首先作为统一的整体被认知。

格式塔理论的八大原则:

  1. 接近原则:当视觉元素在空间距离上相距较近时,人们通常倾向于将它们归为一组。
  2. 相似原则:人们在观察事物的时候,会自然地根据事物的相似性进行感知分组。通常依据对形状、颜色、光照或其他的性质的感知决定分组。
  3. 连续原则:人们在观察事物的时候会很自然地沿着物体的边界,将不连续的物体视为连续的整体。
  4. 闭合原则:在某些视觉映像中,其中的物体可能是不完整的或者不闭合的。只要物体的形状足以表征物体本身,人们会很容易地感知整个物体而忽视未闭合的特征。
  5. 共势原则:一组物体具有沿着相似的光华路径运动趋势或具有相似的排列模式时,将被识别为同一类物体。
  6. 好图原则:人眼通常会消除复杂性和不熟悉性来理解被识别的物体。
  7. 对称原则:人的意识倾向于将物体识别为沿某点或某轴对称的形状。
  8. 经验原则:某些情形下视觉感知与过去的经验有关。如果两个物体看上去距离相近,或者时间间隔小,那么它们通常被识别为同一类。

格式塔的基本思想:视觉形象首先是作为统一的整体被认知的,而后才以部分的形式被认知。

2.3 视觉通道

视觉通道:用于控制标记的展现特征,包括标记的位置、大小、形状、方向、色调、饱和度、亮度等。

数据分为类别型、有序型和数值型。
视觉通道分为定性/分类型、定量/定序型和分组型。

定性/分类型:描述感知对象是什么或在哪里,适合编码分类型的数据信息。
数据可视化学习笔记_第7张图片
定量/定序型:描述感知对象某一属性的具体数值是多少,适合编码有序型的或者数值型的数据信息。
数据可视化学习笔记_第8张图片
分组型:描述多个或多种标记的组合,适合将存在相互联系的分类的数据属性进行分组,从而表现数据的内在关联性。
数据可视化学习笔记_第9张图片

3 数据

数据具有属性,属性分为类别属性和序数属性。
数据可视化学习笔记_第10张图片
数值属性:如果一个序数属性中的数据在算数运算下具有意义,那么这种更细分的类型称为数值属性。
数据可视化学习笔记_第11张图片
类别属性度量:失配比,jaccard相似系数
数据可视化学习笔记_第12张图片
数据可视化学习笔记_第13张图片
因为数据1和数据2都不含伏特加,所以只剩三个属性

3.2 数据分析与探索

为了保证数据分析的可靠性,需要数据清洗纠正数据当中的错误和不一致,提高数据的质量。
数据可视化学习笔记_第14张图片
数据可视化是数据清洗的重要方法。
数据可视化学习笔记_第15张图片
数据可视化学习笔记_第16张图片
以数据获取顺序对行列排序。
数据可视化学习笔记_第17张图片

3.3 可视化+

可视化方法按信息复杂程度分为:原始数据可视化、统计结果可视化和多协同视图。

  • 数据轨迹:是一种单变量数据呈现方法,通过将自变量与因变量在图中用点呈现出来。数据轨迹可以直观地展现数据分布、走势以及离群异常点。
  • 柱状图:用长方形的形状与颜色编码数据的属性。常用柱子的高度表示属性值的大小,可以揭示数据的趋势与分布。
  • 饼状图:用环状方式呈现各分量在整体之中的比例。能快速且直观的传达数据中的比例信息。
  • 直方图:是对数据集的某个数据属性的频率统计。每个区间的数据之和为数据集整体,不同的数据分布在直方图下有不同的效果。
  • 等高线图:将相等数值所在的位置用曲线连接起来所形成的图形。反映数据的连续变化与分布情况。
  • 走势图:简单的数据变化趋势,通常以折线图为基础。
  • 散点图/散点图矩阵:数据点在直角坐标系平面上的分布图。
    数据可视化学习笔记_第18张图片
  • 热力图:有3个维度的数据,利用颜色属性,将第三个维度的数值映射为颜色值。可以展示三维数据点的分布情况。
  • 箱线图:又称为盒须图、盒式图或盒状图,是一种用作显示一组数据分散情况资料的统计图。
    数据可视化学习笔记_第19张图片
  • 多协同视图:将多个视图结合起来,每个视图展现数据某个方面的属性,并允许用户进行交互分析。
    数据可视化学习笔记_第20张图片

数据挖掘:是从大型数据库、网络或其他大型储存库中,自动地发现和提取模式、特征或知识。
数据可视化学习笔记_第21张图片
数据可视化学习笔记_第22张图片
数据可视化学习笔记_第23张图片
数据可视化学习笔记_第24张图片
数据可视化学习笔记_第25张图片

4 数据可视化基础(上)

4.1 可视化基础流程初探

数据可视化:指用图形化的手段处理数据并发现数据中潜在的模式。

数据获取
数据处理
任务分析
数据可视化
可视化分析

4.2 数据可视化的框架

可视化流程:以数据流向为主线,包括数据采集、数据处理和变换、可视化映射和用户感知。
在这里插入图片描述

可视化交互:可视化过程中,用户控制修改数据采集、数据处理和变换、可视化映射各模块而产生新的可视化结果,并反馈给用户。

数据采集:传感器采样、调查记录、模拟计算等方式采集。直接决定了数据的格式、维度、尺寸、分辨率和精确度等重要性质,并在很大程度上决定了可视化结果的质量。

数据的处理和变换:前期处理,原始数据不可避免的含有噪音和误差,数据的模式和特征往往是隐藏的。包括数据清洗和提取特征。

可视化映射:核心。
数据可视化学习笔记_第26张图片

用户感知:从数据可视化结果中提取信息、知识和灵感。

可视化:从数据中探索新的假设,证实相关假设与数据是否吻合,帮助专家向公众展示数据中的信息。

可视化设计要思考三点

What? 要展示什么数据?数据抽象
数据可视化学习笔记_第27张图片

Why? 为什么用户看这些?任务抽象
数据可视化学习笔记_第28张图片
数据可视化学习笔记_第29张图片

How? 如何呈现?视觉编码形式:如何画图 用户交互形式:如何操作
数据可视化学习笔记_第30张图片

4.3 数据处理与变换1

数据处理与变换1:数据归一化、数据平滑化和数据采样。

  • 数据归一化:是将数据按比例缩放,使之落入一个小的特定范围。其中最典型的是数据统一映射到[0,1]区间上。
    数据可视化学习笔记_第31张图片
  • 数据平滑化:曲线拟合用来发现数据的趋势,分析变量之间的关系,将数据转化成平滑连续的曲线,将注意力从“微小的细节”中转移到“更高层面的趋势观察和判断”。其基本思想为表达并观测“趋势”,即让低的数据点和高的数据点尽可能均匀分布在拟合曲线周围。
  • 数据采样:选出具备原始数据特征的数据。原因是获取或处理全部数据集代价太高,时间开销无法接受。
    数据可视化学习笔记_第32张图片

4.4 数据处理与变换2

  • 分箱:将一些连续值分组装进一些“小箱子”的方法。
    数据可视化学习笔记_第33张图片

  • 数据降维:把数据从多维的空间投影到二维或者三维的空间,对降维后的数据运用简单的可视化手段。
    数据可视化学习笔记_第34张图片

  • 聚类:k均值聚类(k-means
    数据可视化学习笔记_第35张图片数据可视化学习笔记_第36张图片

5 数据可视化基础(下)

5.1 可视化编码

标记:是图像中的基本图形元素,即原始的几何元素。
数据可视化学习笔记_第37张图片
视觉通道:主要用来控制标记的外观,与几何元素的维度无关。

标记确定了可视化的形式,而视觉通道则是确定了可视化的外观样式。
数据可视化学习笔记_第38张图片

视觉通道的类型:定量型视觉通道和定性型视觉通道。
数据可视化学习笔记_第39张图片
数据可视化学习笔记_第40张图片

不同视觉通道有不同的表现力和有效性。
数据可视化学习笔记_第41张图片

表现力判断标准:

  • 精确性:描述了人们从可视化中获取的信息结果和原始数据的吻合程度。
  • 可辨认性:描述的是如何在给定的取值范围内,选择合适数目的不同取值,使得人们能够轻易地区分这些不同的数值。
  • 可分离性:主要描述的是在表达数据的时候,不同视觉通道之间的干扰问题。
    数据可视化学习笔记_第42张图片
  • 视觉突出:指的是人们可以依靠本能的感知能力,在很短时间内发掘和其他所有对象都不相同的对象。
    数据可视化学习笔记_第43张图片

5.2 可视化图表

数据可视化学习笔记_第44张图片

数据可视化学习笔记_第45张图片
数据可视化学习笔记_第46张图片

数据可视化学习笔记_第47张图片
数据可视化学习笔记_第48张图片
数据可视化学习笔记_第49张图片
数据可视化学习笔记_第50张图片
数据可视化学习笔记_第51张图片

数据可视化学习笔记_第52张图片
数据可视化学习笔记_第53张图片
数据可视化学习笔记_第54张图片

数据可视化学习笔记_第55张图片

数据可视化学习笔记_第56张图片

数据可视化学习笔记_第57张图片

5.3 可视化设计三部曲

可展示数据筛选,可视化编码映射和视图交互设计。

可展示数据筛选:
数据可视化学习笔记_第58张图片

数据可视化学习笔记_第59张图片

数据可视化学习笔记_第60张图片

数据可视化学习笔记_第61张图片

可视化编码映射:
数据可视化学习笔记_第62张图片
数据可视化学习笔记_第63张图片

数据可视化学习笔记_第64张图片

视图与交互设计:
数据可视化学习笔记_第65张图片

数据可视化学习笔记_第66张图片

数据可视化学习笔记_第67张图片

数据可视化学习笔记_第68张图片

数据可视化学习笔记_第69张图片

数据可视化学习笔记_第70张图片

数据可视化学习笔记_第71张图片

数据可视化学习笔记_第72张图片

5.4 可视化设计进阶

考虑因素:
数据可视化学习笔记_第73张图片
数据可视化学习笔记_第74张图片

数据可视化学习笔记_第75张图片

数据可视化学习笔记_第76张图片

数据可视化学习笔记_第77张图片

隐喻:是用人们熟悉的某帏事物去表达信息,从而使得可化内容更加直观、易懂。

数据可视化学习笔记_第78张图片

未完待续。。。

你可能感兴趣的:(数据可视化)