[数据科学笔记]第8章 可视化、可视分析、探索式数据分析

可视化、可视分析、探索式数据分析

–可视化,是数据的可视表现形式(Visual Representation of Data)以及交互技术的总称。它通过图形化的方式把数据给表现出来,方便用户进行观察和理解,并且帮助用户对数据进行探索(exploration),发现(discovery)数据里面隐藏的模式,获得对数据的洞察力(insight)和理解。


•可视化的一般过程,包括:

–(1) 过滤,是选取原始数据集(Raw Dataset)的一部分进行可视化

–(2) 映射(Mapping),是指将抽象数据,转换为可视化表示的过程

–(3) 渲染(Rendering),是通过图形渲染库和显示卡的帮助,把经过映射的数据,以二维或者三维图形的形式绘制出来

–(4) 交互(Interaction),是指计算机对用户的某种特定动作,做出反应。 比如,计算机可以识别用户的手势,适时地改变渲染的效果。


•散点图(Scatter Plot)是对点数据(Point Data, 即向量)的集中趋势、分布形状、离散趋势进行把握的基本的可视化形式。

直方图,也称为频率直方图(frequency histogram)。它是统计学中用于表示频率分布的图形

•线图通过画折线、或者样条曲线,把若干个数据点连接起来。线图分单线图(Line graph)和多线图(Multiple line graph)。


•柱状图和饼图,一般用来显示一个数据系列里各个数值之间的相对大小关系。柱状图的各个柱子的高度的比例关系、以及饼图的每个扇面的大小的比例关系,反应了数据系列中各个数值之间的大小关系。


•树状结构( Tree ),是可视化中应用得最广泛的一种图形结构之一,它一般用于表现某种层级关系,比如某个组织的各个部门、某个家族的族谱等。


•圆锥树( Cone Tree ),用于对层次结构进行可视化展现。在圆锥树中,层次结构通过3维方式进行展现,以利于最大化使用屏幕空间,以及展现整个层次结构。


•信息立方体(Infor Cube),是一种多维的数据结构,用于从不同维度对数据进行汇总和观察。


高维数据可视化的重要步骤是降维。可以使用的方法包括奇异值分解SVD、多维尺度分析 Multi Dimensional Scaling等方法


•可视分析包括三个要素,分别是

–数据(Data) ,数据是所有可视化分析的基础 。

–模型(Model),包括统计模型、以及机器学习、数据挖掘模型。

利用可视化(Visualization),探测(Detect)数据中变量之间的关系(relationships)


•可视分析包括三个回路,第1个是探索回路(Exploration Loop)

–发现,指的是分析者使用可视化分析系统,获得的一个有趣的观察结果(interesting observation)。

–动作,操控可视化效果,改变观察角度,加深对数据的理解。


•第2个是验证回路(Verification Loop) ,第3个是与产生新知识

–洞察,对发现进行理解和解释。

–假设,是针对问题领域构造了一个假设,以便后续进行验证性的分析。

–在可视化分析过程中,分析者为某个假设,寻找证据,或者从数据中学习到了新的知识。从证据到知识,需要一个推理(reasoning)的过程。


你可能感兴趣的:(数据科学概论,可视化,机器学习,python,人工智能,数据分析)