Tableau基础知识

1.文件与数据

Tableau使用的数据结构必须是标准的关系型数据库中的二维表结构。

1.1 Tableau文件类型

文件类型 文件大小 使用场景 具体内容
数据源.tds 频繁使用的数据源 完整的数据源定义
数据提取.tde 数据源为远程,希望提高库性能 筛选出的部分或完整的源数据本地副本
工作薄.twb 默认保存方式 仅包括数据源定义和可视化图表定义,无源数据
工作薄.twbx 与无法访问源数据的用户分享工作结果 所有信息和源数据

1.2 数据整理操作

  • 名称与重命名
  • 更改数据类型:数值、日期、字符、逻辑
  • 字符型变量:别名、数值拆分
  • 数值型变量:数值分段(创建级)
  • 创建:新变量(创建计算字段)、数据组
  • 隐藏数据列

1.3 重复测量数据的记录方式

  • 宽型:每一个个体被记录为一个Case,所有不同时间所进行的相同测量被记录在不同的变量中,仅在一行数据呈现。
  • 长型:每一次测量被单独记录为一个Case,所有不同时间所进行的相同测量被记录在不同行中,用多行数据呈现。
  • 如果原始数据是宽型数据,先用Python或用Tableau的数据透视表进行长宽转换。

1.4 纬度和度量

纬度:对应(无序/有序)分类变量,用于对案例进行分组

  • 字符串变量、日期时间变量、布尔(逻辑)变量默认设为维度
  • 强行将连续变量拖动为维度
  • 数据桶:分段后的数据桶会被作为维度
  • 度量名称:代表所有度量变量的集合

度量:对应连续变量,在图表中呈现为原始信息或汇总信息

  • 数值变量默认设为度量
  • 强行将字符串变量拖动为度量
  • 记录数:代表符合筛选条件的案例数量
  • 度量值:代表相应度量的汇总数值,常与度量名称联合使用

2.制表

2.1 表格类型

叠加表(Stacking)


屏幕快照 2018-04-29 22.12.42.png
  • 指在同一张表格中对两个变量进行描述,或在表格中有一个维度的元素是由两个以上的变量构成。
  • 叠加表可以被理解为,为两个变量分别绘制两个简单的报表,然后拼接(可以横行拼接)。

交叉表(Crosstabulation)

  • 观察两个分类变量间联系时常用表格,它的两个维度都是由分类变量的各类别(及汇总)构成。

嵌套表(Nesting)


屏幕快照 2018-04-29 22.18.34.png
  • 显示两个分类变量的联系,两个变量被放置在同一个表格维度中,即该维度由两个变量的各种类别组合构成。
  • 嵌套表不如交叉表直观,但当每个单元格内需要呈现的统计指标非常多时,嵌套表更为美观和紧凑。

多层表(Layers)


屏幕快照 2018-04-29 22.23.34.png
  • 如果指定层元素,表格就由二维扩展到三维,即多层表。
  • 多层表每次观察到其中的一层,而嵌套表每次可以观察到所有层。

复合表

  • 叠加-交叉表:一个维度是分类变量,另一个维度是两个变量的叠加。
  • 嵌套-交叉表:一个维度是分类变量,另一个维度是两个分类变量的嵌套。

2.2 制表步骤

  1. 确定表格结构与行列构成,是否在表格中出现多个元素的嵌套,有多少种汇总,是否有嵌套汇总等。
  2. 绘制表格的基本结构。
  3. 完善细节,使单元格的输出格式符合要求。
  4. 添加其余变量、统计量到表格中。
  5. 对表格的附加文本和格式进行修饰。
  6. 最后审核绘制的表格,查缺补漏。

3.绘图

3.1 统计图的分类框架

  1. 根据呈现变量的数量,将统计图分为单变量图、双变量图和多变量图。
  2. 根据相应变量的测量尺度进行更细划分。

3.2 单个-分类变量

  • 简单条图:按分类区分直条,直条高度代表频数大小。
  • 分段条图:按分类区分颜色,条段大小代表频数/构成比大小。
  • 饼图:饼块大小代表频数/构成比大小。
  • 气泡图:气泡大小代表频数/构成比大小。

3.3 单个-数值变量

直方图

  1. 对数值进行分组频数汇总,呈现整个取值区间上的数据分布特征。
  2. Tableau是通过对原始数据生成分段变量(数据图)来实现。

箱图

  1. 使用百分位数体系刻画整个取值区间。
  2. 箱体最中间的粗线为P50(中位数),方框上下界为P75和P25(四分位数)。
  3. 数据用散点的方式表示。
  4. 与四分位数(即方框上下界)的距离超过1.5倍四分位间距(即方框长度)的都会被定义为离群值,相应的界限在图中以线段表示。
  5. 所有数值均未超界时,该线段就是最大/最小值。

3.4 数值因变量

  • 条图:呈现分类自变量的影响,同时衍生出点图。
  • 线图:单线图呈现时间变量的影响,双线图提供两个纵轴尺度对比数值相差较大的两个指标,同时衍生出面积图。
  • 散点图:呈现连续自变量的影响

3.5 分类因变量

  • 基本使用各类条图对数据进行呈现。
  • 复式条图:呈现两个分类变量各个类别组合情况下的频数分布。
  • 分段条图:主要突出一个分类变量各类别的频数,并在此基础上表现两个类别的组合频数情况。
  • 百分条图(马赛克图):呈现在一个变量不同类别下,另一个变量各类别的百分比变化情况。
  • 树状图:将两个分类变量置于同等地位,直接显示各个组合单元格所占百分比。

3.6 更复杂的图形

  • 呈现多个变量的关系:用线图/条图的组合对二维图进行扩充。
  • 统计地图:与Tableau地图数据结合,或自定义地图数据。
  • 甘特图:异化的条图,反映项目进展是否按时间计划进行。
  • 标靶图:在条图的基础上增加目标值,反映任务完成情况。
  • 词云:反映各词汇在语料库中的出现频次。

你可能感兴趣的:(Tableau基础知识)