数据可视化初学笔记(一)

数据可视化简介

可视化:对数据进行交互的可视表达以增强认知的技术。

•它将不可见或难以直接显示的数据映射为可感知的图形、符号、颜色、纹理等,增强数据识别效率,高效传递有用消息。

• 数据可视化的意义
1.视觉是人类获得信息的最主要途径
2.可视化能够帮助人们提高理解与处理数据的效率
3.数据可视化能够在小空间中展示大规模数据

• 数据可视化的作用( 记录信息、分析推理、证实假设、交流思想 )

  1. 可视化可以增强工作记忆
  2. 可以突出变化
  3. 使用高对比度,使得物体更容易区分。

** 数据可视化的基本特征**

特征 描述
易懂性 可视化使人们更加容易地理解数据和使用数据,进而便于人们将数据与他们的经验知识相关联。可视化使得原本碎片化的数据转换为具有特定结构的知识,从而为科学决策支持提供强有力的支持。
必然性 数据量已远远超出了人们直接读取、浏览和操作数据的能力,必然要求人们对数据进行形象化的归纳和总结,对数据的结构和表现形式进行有效的转换处理。
多维性 通过数据可视化的多维呈现,能够清楚地对数据相关的多个变量或者多个属性进行标识,并且所处理的数据可以根据每一维的量值来进行显示、组合、排序与分类。
片面性 数据可视化往往只是从特定的视角或需求来认识数据,并得到符合特定目的的可视化模式。数据可视化的片面性特征意味着可视化模式不能替代数据本身,只能作为数据表达的一种特定形式。
专业性 数据可视化与领域专业知识紧密相关,其形式需求多种多样并随行业、用户和环境等条件而动态变化。专业化特征是人们从可视化模型中提取专业知识的必要环节,是数据可视化应用的最后流程。

视觉感知与视觉通道

(*)格式塔(gestalt)原则

—— 结构比元素重要,视觉形象首先作为统一的整体被认知。

1.贴近原则 (接近性 proximity)
2.相似原则 (相似性 similarity)
3.连续原则 (连续性 continuity)
4.闭合原则 (闭合性 closure)
5.共势原则 (common fate)
6.好图原则 (good figure)
7.对称性原则 (symmetry)
8.经验原则(past experience)
9.简单性(simplicity)

相对性&绝对性感知系统基于相对判断,而非绝对判断(Weber‘s Law)

视觉通道的类型
(空间、标记、位置、尺寸、颜色、亮度、饱和度、色调、配色方案、透明度、方向、形状、纹理、动画)

表现力&&有效性

视觉通道的表现力要求视觉通道准确编码数据包含的所有信息,视觉通道在对数据进行编码的时候,需要尽量忠于原始数据。

有效性通常表现力符合属性的重要性。

表现力判断标准

标准 描述
精确性 能否能够准确得在视觉上表达数据之间的变化
可辨性 同一个视觉通道能够编码的分类个数,即可辨识的分类个数上限
可分离性 不同视觉通道的编码对象放置到一起,是否更容易分辨
视觉突出 重要的信息,是否用更加突出的视觉通道进行编码

折线图多用于展现趋势,而不适合用在非连续的项目上。

数据

数据属性

数据对象的特征(Characteristics) 或特性 (feature)(别名:特征、维度、变量)
属性集合:属性向量

1.类别型属性
2.序数型属性
3.数值型属性

数据相似性度量
1.类别型属性
如果有两个对象X、Y,均有p个类别属性,则他们的相异度为
d ( X , Y ) = p − m p \\d(X,Y)= \frac {p-m}{p}\\ dX,Y=ppm
其中,m是X,Y中取值相同的属性数目。

2.比值型数据属性
距离可被用来衡量两个比值型数值属性对象的相异度。距离函数d(X,Y)的定义需要同时满足以下三个准则:
1)非负性,d(X,Y)≥0(d(X,Y)=0当且仅当X=Y,即任何对象到自己的距离为0)。
2)对称性,d(X,Y) = d(Y,X),即X到Y的距离等于Y到X的距离。
3)三角形不等式(两边之和大于第三边),d(X,Y)+d(Y,Z)≥d(X,D)。下面介绍常见的几类距离函数,设对象X, Y均为n维数据X= (x,L…x), Y= (y.+y,*y) 。

3.序数型属性
假设某个序数属性t有N,个可能取值,排序后顺序为1, 2, … N,则将属性值归一化到[0, 1]区间中的值。

4.区间型数值属性

数据预处理

数据的基本统计方式:均值、中位数、方差

数据的不确定性
来源:本身误差、精度转换、特定应用需求、缺失值、数据集成
分类:存在不确定性、属性不确定性

数据质量评价标准——数据质量高 -> 对目标用途的符合度高

精确性(Accuracy)、完整性(Completeness)、一致性(Consistency)、适时性(Timeliness)、可信性(Believability)、可解释性(Interpretability)

数据可视化质量的衡量标准: 数据墨水比(data-ink ratio)

数据清理&数据集成

数据清洗:检测和清除数据中的错误和不一致,以提高数据质量。

数据处理涉及的典型数据错误类型

错误类型 处理方法
缺失值 (1)使用常量代替缺失值(2)属性平均值填充(3)利用回归、分类方法进行预测试填充(4)人工填充
噪声值 (1)回归分析(2)离群点分析

数据整合包括:
(1)合并来自多个数据源的数据
(2)向用户提供一个关于这些数据的统一视图

数据集成需要解决的问题
(1)属性匹配
(2)冗余去除
(3)数据冲突检测与处理

数据清洗和整合步骤
初步分析:在操作之前进行数据分析
冲突解析:解析数据源间的数据冲突
定义数据转换工作流和转换规则:使用工作流方式完成模式(schema)配准和转换
工作流验证:验证工作流中的步骤是否正确
数据转换:开始流程

数据存储

文件存储
Csv文件:逗号分隔值(comma-separated values)
xml 文件:通用格式(可扩展标记语言,eXtensible Markup Language)
kml地图:在基于web的二维或三维地图上表达地理标注信息(Keyhole Markup Language)

数据库和数据仓库的异同

数据库 数据仓库
特点 处理数据操作 处理数据中的信息
面向领域 事务 分析
用户 终端用户:职员、数据库管理员(DBA) 知识工作者:经理、分析师、执行官
功能 日常操作 长期决策支持分析
数据 当前最新的数据 历史数据、时变数据
访问方式 读写平均 (主要)读
聚焦点 数据输入 信息/知识输入
容量尺度 1GB~ 1TB >TB

探索式数据分析中的可视化方法分类:原始数据绘图、简单统计值标绘、多视图协调关联。

数据挖掘

数据挖掘中的任务
一、描述性任务

  1. 概念描述(Concept Description )
  2. 关联分析(Association Analysis)
  3. 聚类(Clustering)
  4. 离群点分析(Outlier Mining)

二、预测性任务

  1. 分类(Classification)
  2. 演化分析(Evolution Analysis)

数据挖掘中的方法
(1)统计方法(回归分析;参数估计)
(2)机器学习(决策树;神经网络)
(3)算法方法(K-means,K-最近邻)

数据挖掘的常见功能
(1)分类与预测
(2)聚类分析
(3)关联分析和异常分析

可视数据挖掘的关系
数据与可视化紧密相关:
没有数据,没有可视化
可视化能够帮助增强数据科学中的每一个阶段

你可能感兴趣的:(大数据)