数据可视化——Davinci

数据可视化——Davinci对比及功能使用

  • 文档地址
  • 一. 数据可视化
    • 个人引用部分
    • 1.有趣的意义
    • 2.常规的意义
  • 二.图形的内涵
    • 1. 图形类型
    • 2. 优秀可视化的特点
  • 三.可视化需求分析
    • 1. 四个问题
    • 2. 三个沟通点
  • 四.Davinci功能详解
    • 1. 可视化构建流程
    • 2. 数据源-Source
    • 3. 数据视图-View
    • 4. 可视化组件-Widget
      • 1. 可视化配置本质
      • 2. 功能支持
      • 3. 图表支持
    • 5. 仪表板-Dashboard
      • 1. 图表联动
      • 2. 全局控制器
      • 3. 数据钻取
      • 6. 大屏-Display
      • 1 区别

原创声明:本创作是本人的原创内容,未经授权及禁止肆意转载。此外并未与任何机构合作,原创不易,尊重原创

文档地址

【腾讯文档】Davinci
https://docs.qq.com/doc/DRkRKbWpXQU5jcFdw

数据可视化——Davinci_第1张图片

一. 数据可视化

个人引用部分

Refer:

  • Davinci官方文档:https://edp963.github.io/davinci/
  • Datart官方文档:https://running-elephant.github.io/datart-docs/about/
  • Davinci使用手册:https://blog.csdn.net/qq_32648939/article/details/120666758
  • Datart安装手册:https://blog.csdn.net/qq_32648939/article/details/120823042
  • 个人文章:https://blog.csdn.net/qq_32648939/article/details/120666758
  • 个人文章:https://blog.csdn.net/qq_32648939/article/details/86625554

1.有趣的意义

数据可视化——Davinci_第2张图片
美国心里学家斯佩里博士的左右脑分工理论

  • 左半脑(“意识脑”、“学术脑”、“语言脑”)主要负责逻辑理解、记忆、判断、排列、分类、逻辑、分析、推理、抑制、五感,主要是连续性、延续性和分析性的思维方式。
  • 右半脑(“本能脑”、“潜意识脑”、“创造脑”、“音乐脑”、“艺术脑”)主要负责空间形象记忆、直觉、情感、身体协调、视知觉、美术、音乐节奏、想像、灵感、顿悟等,是无序性、跳跃性、直觉性的思维方式。
  • 数据可视化的本质就是将人脑对数据的处理从左脑切换到右脑。处理看到的文字和数字,我们也能看到一些逻辑,是逻辑推理,是左脑,但如果用图像的方式展现,更加直观,而且趋势占比一目了然,而且对数据有记忆点,是右脑。

2.常规的意义

  • 数据展示:将相对复杂的数据通过可视的、交互的方式进行展示,从而形象、直观的表达数据蕴含的信息和规律,为繁多的数据证明价值,使用直观的媒介处理在瞬间传达的所有信息,作为对数据分析结果的视觉辅助。
  • 数据分析:基于可视化图表的"二次分析",可以达成对数据的深层挖掘。通过对图表中的特点分析,对数据的进一步洞察分析。能够得到数据的隐藏属性,比如最大值最小值,趋势,概率分布(连续型随机变量分布模型:正态分布,瑞利分布;离散型随机变量分布模型:泊松分布,二项分布)

二.图形的内涵

  • 有了可视化思想,实际上是理解数据的第一步。为了以一种简单的方式转换和呈现数据及数据相关性,我们可能会使用折线图,饼状图,表格等数据表现形式。但是只有选择正确的数据展现形式才能使数据易于理解,选择不当会降低数据的价值,甚至可能对结论有反作用。

1. 图形类型

  • 根据图形可展示的信息和功能可以将其进行分类,我们需要在已知一定的图表的内涵后才能明确这些可视化需求想要表达的二次分析是什么样的。
  1. 比较类
    比较类型的图形是对比各个值之间的差别,此外需注意要展示的指标之间是否有明确的可对比关系,对比也是一种相关关系,只有有关联的才能做对比。
    示例:柱图,雷达,漏斗,极坐标,旋风漏斗,词云
  2. 占比类
    这类数据展示主要表达部分占整体的比例,要注意是否需要或可以抛弃一定的数据比例。因为某些数据是占比0%,我们看起来实际上是没问题的,但是要注意这样的数据如果增长到一定的程度是会影响整体的分母的,这种情况可以考虑将该类占比0%的数据去除,不要因小失大。
    示例:饼图,漏斗,仪表盘,矩阵树图
  3. 相关类
    相关关系实际上是展示各个值之间的关系,是展示一定的业务路径或业务走向的图表,也可以展示数据是否在某一个节点有聚集,是一类极具有数学含义的图表。
    示例:散点,矩阵树图,树图,来源去向
  4. 趋势类
    这类图表展示数值随维度的变化情况,线图和柱图很多时间都会组合使用,前者展示占比,后者展示具体量级,两者在一定意义上有耦合点,单独的线图和柱图都会带来一定的问题(分子分母都很小,但是很接近,百分比很大,但是基数小)。
    示例:线图,柱图
  5. 地图类
    地图类图表多为展示数值和地理信息的映射图,可以以人口区域图为例,不做赘述。
    示例:气泡地图,颜色地图

2. 优秀可视化的特点

  • 选择合适、优秀的可视化图表能够带来的远比你想象的要多,很多业务的优秀业务导向都依赖对于正确可视化的二次分析:
    ● 直观易懂匹配需求
    ● 关键信息展示到位
    ● 展现方式选择合适
    ● 图表视觉效果良好

三.可视化需求分析

1. 四个问题

  • 可视化需求其实也就是指标类需求,在数据仓库中已有可满足指标构建需求的基础上进行上层展示可视化需求。当然,也有在可视化需求的处理过程中需要对基础数据进行补充的,所以可能也会包含一部分数据仓库的构建需求。这类需求大多基于对整体业务的理解和拆解进行数据的可视化展示,所以在需求沟通中要注意底层基础数据能否满足上层指标处理需求的问题。产品的角度和开发的角度是不同的,所以是否可实现,是否正确,实际上需要后端开发的同学和数据仓库的同学共同确认。前者是确认是否目前的产品或者业务逻辑中是否可以满足产品这个角色的需求,并对需求逻辑进行保障;后者是确认该指标的数据加工逻辑是否正确,是否能够正确反应业务需要或分析需要(数据思维是很重要的)。
  1. 我要解决的核心问题是什么?
    在明确业务的基础上,对指标类需求所需要的图表要解决的问题,希望传达的内容需要进行整理总结。可视化需求是要基于对业务一定的理解和一定的分析,我们要针对其中有价值有意义的结论型数据进行可视化展示,产品同学提出的这些需求中的核心问题其实也就是业务核心关注的转化,是整个业务的核心。
  2. 我要展现成什么样的框架?
    在明确了需求之后,我们还需要对可视化需求进行整体把控,这是因为其一指标应用层的需求极少数是单独呈现或单独提出的,都是会佐以一定的体系化分析或者其他的指标支持。那么我们在整理这些指标时,哪个在前,哪个在后,有怎样的承上启下作用是需要需求方给出整个看板的初步设计框架的。可以是一个概览图,也可以是一个processon的可视化图。主要的排序依据就是核心关注—>次关注或核心业务—>拆解业务。
  3. 我的核心指标是什么?
    将最终产品需要提供的信息转化成明确的指标,是对业务上的总结。业务需要通过图表设计将用户的注意力引向关键信息,也就是核心指标,也可以称之为北极星指标。这就是指标体系的基础,数据仓库的同学在接到可视化需求后一定要自己拆解一次指标,保证对业务的理解是在同一或更高的水平线上,无论是理解业务还是理解指标体系都是非常重要的。
  4. 我应该用什么图表合理展示?
    现在我们明确了业务的核心问题,需求的整体版型,指标体系的核心指标,那么相关的我们就需要知道所有指标的展现形式是什么。这个时候我们需要针对该指标是否能展示想要的信息内容进行一些思考,选择合适的图表类型。

2. 三个沟通点

  • 这里指的是可与产品或者需求方进行沟通的问题点,与其沟通一定要注意尺寸!
    ● 需求紧急性:确定排期
    ● 需求合理性:分析结论
    ● 需求必要性:减少工作

四.Davinci功能详解

功能点 SuperSet Davinci
基础背景 Airbnb开源数据可视化工具,使用python Flask-Appbuilder作为后端的开发框架 宜信开源数据可视化平台类工具,使用java作为后端的开发框架
权限控制 √ 支持针对数据表的权限控制,权限控制操作复杂× 不支持行级权限控制,若需变更需要二次开发 √ 数据表权限由项目分割,项目内细分数据权限,权限控制操作简便√ 支持行级权限控制,提供登录用户等基础权限控制字段,也可以自定义行级权限控制字段
交互能力 √支持可视组件控制器,控制器自动控制×不支持可视组件间级联联动√支持对数据看板的CSS变更×不支持可视组件全屏显示 √支持可视组件本地控制器,控制器可全局可分项控制√支持可视组件间级联联动×若需对数据看板的原始形态进行变更需要二次开发√支持可视组件全屏显示
看板构建 √支持对原始数据的重构×不支持可视组件的分享×可视组件构建步骤不友好×看板组件排布复杂×由于无法进行较清晰的可视组件权限控制导致需要重复进行可视组件开发×不支持大屏类看板输出 √支持SQL视图方式对原始数据进行重构√可视组件由项目进行权限分割,可项目内共享或公共分享√可视组件构建步骤友好,针对组件可变更项说明清晰√支持看板组件自动排布√由于可以进行可视组件分项权限控制,无需进行可视组件重复开发√支持类PPT形式的看板构建
使用统计 × 不支持对看板使用的统计 √ 支持对看板使用的统计,包括登录用户,查询路径等
数据下载 √ 支持数据下载,需进入可视组件编辑状态方可下载 √ 支持数据下载,在看板内即可下载
数据视图 √ 支持SQL测试 √ 支持SQL测试
定时任务 × 不支持结果数据的定时发送功能 √ 支持看板结果的定时发送邮件等功能
  • Davinci和Datart都是同一个公司的产出,两者之间有递进关系。

1. 可视化构建流程

  • 类似于数仓构建的流程:
    ● 数据源探查:通过数据同步工具将MYSQL,日志数据同步到数据仓库中
    ● 数据清洗:对入仓的数据进行ETL清洗
    ● 数据建模:针对业务进行数据模型的构建
    ● 指标构建:依赖对于业务的理解来分析需求构建指标
    数据可视化——Davinci_第3张图片
  • 可视化构建流程:
    ● 数据源探查:通过数据同步工具将数据仓库的数据同步到MYSQL中
    ● 数据清洗:对同步的数据进行属性定义和处理
    ● 组件构建:针对可视化需求进行可视化组件的构建
    ● 指标构建:依赖对于业务的理解来分析需求构建看板或大屏

2. 数据源-Source

  • 用于管理用户数据源连接配置。Davinci 目前支持两种类型数据源:JDBC和CSV文件。
  1. JDBC数据源
    支持使用JDBC(Java Data Base Connectivity,java数据库连接)连接的数据库,包括常见的MySQL,ClickHouse,Kylin,Mongo,Oracle,Presto,Sql Server,Impala等等。
    注意:集成除MySQL以外的JDBC数据库需将数据库驱动放在指定目录下方可使用。
参数名称 参数说明
user 数据库用户名(用于连接数据库)
password 用户密码(用于连接数据库)
useUnicode 是否使用Unicode字符集,如果参数characterEncoding设置为gb2312或gbk,本参数值必须设置为true
characterEncoding 当useUnicode设置为true时,指定字符编码。比如可设置为gb2312或gbk
autoReconnect 当数据库连接异常中断时,是否自动重新连接?
autoReconnectForPools 是否使用针对数据库连接池的重连策略
failOverReadOnly 自动重连成功后,连接是否设置为只读?
maxReconnects autoReconnect设置为true时,重试连接的次数
initialTimeout autoReconnect设置为true时,两次重连之间的时间间隔,单位:秒
connectTimeout 和数据库服务器建立socket连接时的超时,单位:毫秒。 0表示永不超时,适用于JDK 1.4及更高版本
socketTimeout socket操作(读写)超时,单位:毫秒。 0表示永不超时
  1. CSV数据源
  • 同样支持CSV上传数据文件的方式,但是是用Excel导入MySQL的方式进行的数据存储,所以即使选择了CSV文件上传方式也同样需要进行MySQL连接的配置,用以承接数据。相应的也对CSV文件有一定的格式要求:
    ● 第一行为字段名称,建议使用英文
    ● 第二行为字段类型,使用大写字母
    ● 第三行之后为明细数据
    ● CSV 文件需要保存为 UTF-8 格式
    e.g.
    数据可视化——Davinci_第4张图片
  • 在明确了文件格式之后,可以点击上传进行CSV文件导入MySQL的信息配置,表名就是CSV文件导入数据库的名称,主键(唯一性)和索引键是可选的配置项,同时支持四种导入方式:
    新增:首次上传文件到新表
    替换:保持原有表结构不变,清空原有表数据后上传
    追加:保持原有表结构不变,保持原有表数据并追加
    覆盖:重建表结构并替换数据
    数据可视化——Davinci_第5张图片

3. 数据视图-View

  • View实际上是借用了数据库的视图的概念(是一个虚拟表,其内容由查询定义,同真实表相同,视图包括一系列带有名称的列和行数据,但是视图并不在数据库中以存储的数据值集形式存在,而是在引用视图时动态生成),我们所做的操作都是在这个查询语句所传递的数据中,所有上层的聚合操作也是在这个视图的基础上,也就是在外层包裹一层查询后进行的。这种方式其一是为了防止上层数据有一些问题未能处理或有特定的数据展示需求,那么我们无需在数据仓库侧进行原始数据的修改,而是在使用数据连接对应的数据库进行一次视图查询时进行数据的修改;其二是可以使得一些复杂的查询更易于理解和使用。
    数据可视化——Davinci_第6张图片
    3.1 数据视图表单
  • 数据视图表单包含了我们定义的视图名称和简介,重点是包括我们定义的Source数据源并且可以在其中进行一些数据表的查询。该模块仅供参考使用
    3.2 数据源信息
  • 数据源信息展示了我们选择的数据库中的所有数据表,并且在选择了对应数据表后同样展示了该表中的所有字段。也对字段的类型进行了一定的展示。该模块仅供参考使用
    3.3 SQL 编辑区
  • 这个模块主要就是我们对我们想要进行二次处理的数据表或数据进行一些整理的区域,同一些数据库工具相同,编辑器会常用SQL关键字,所选数据源的数据库 / 表 / 字段名称,变量名称进行智能提示。
    3.4 数据展示区
  • 这个模块主要展示SQL模板执行后获取的数据列表,默认展示 500 条预览数据,要注意的是当且仅当所写的SQL是可以通过的才能进行我们的下一步操作。
    3.5 变量声明区
  • 管理SQL模板中使用的变量,提供了查询变量和权限变量两种。前者是通过与Widget和Dashboard中的控制器关联,能够起到动态变化SQL模板的作用,查询变量需要添加默认值以避免SQL执行错误,用户可以选择手动添加或使用表达式(SQL函数)作为默认值,如果没有默认值可以使用指定的SQL查询
    数据可视化——Davinci_第7张图片
    3.5.1 查询变量
  • 查询变量支持的数据类型很多,包括字符串,数字,布尔,日期和SQL表达式格式。前四类都可以简介为依赖对于SQL的理解进行一些默认值或变量的处理。而SQL表达式格式是非常独特的,原则上不会对SQL表达式类型的查询变量做处理,所以我们甚至可以使用任意的SQL片段作为该变量。
    3.5.2 权限变量
  • 权限变量能通过与角色关联,起到控制数据行权限的作用,同样拥有查询变量的相同的五中数据类型,要注意的是权限变量所在的条件判断片段一定要用小括号包裹。在后续的权限控制页面可以进行相关锁关联的角色和权限变量的对应关系。
  • Davinci有一些内置的系统变量可供使用,可以通过判断登录用户的个人信息来进行权限控制:
    ● $ DAVINCI.USER.ID $:登录用户ID
    ● $ DAVINCI.USER.NAME $:登录用户姓名
    ● $ DAVINCI.USER.USERNAME $:登录用户用户名
    ● $ DAVINCI.USER.EMAIL $:登录用户邮箱
    ● $ DAVINCI.USER.DEPARTMENT $:登录用户部门
  1. 模型与权限
    在保证SQL模板成功执行后,可以在数据模型页面进行数据属性的设置,一般基本的属性是不需要修改的。在Auth权限页可以控制项目相关角色可以看到的字段和我们的权限变量值可以控制的值,当且仅当变量等于设定值时,该角色才可以看到或该角色仅能看到数据中变量等于设定值的部分统计数据。

4. 可视化组件-Widget

  • 如上所述,Widget是可视化的最小单元,可视化组件编辑器会在原始数据的外围包括一层查询拿到我们最终要获取的数据。
  • View SQL:
select
    *
from source_table
  • Widget SQL:
select
    a
    ,b
    ,count(1)
from(
    select
        *
    from source_table
) t
group by a,b

1. 可视化配置本质

  • 可视化配置的本质实际上是在原始数据上做聚合操作,SQL的聚合操作依赖于维度和统计指标,我们要明确要展示的内容,要做的聚合操作和预期能完成的效果,配置就很简单。
  • 目前支持的聚合函数包括:
    ● 总计(SUM)
    ● 平均数(AVG)
    ● 计数(COUNT)
    ● 去重计数(COUNT DISTINCT)
    ● 最大值(MAX)
    ● 最小值(MIN)

2. 功能支持

  • 目前支持单图表控制器,参考线,Redis缓存和数据量限制。
  • 控制器根据聚合的维度属性进行筛选,相当于:
select
    a
    ,b
    ,count(1)
from(
    select
        *
    from source_table
) t
group by a,b
where a = "XXXXX" AND b = 'XXXXX'

  • 参考线是查询对应字段的最大值和最小值或使用常量作为新查询字段进行展示,相当于:
select
    a
    ,b
    ,count(1)
    ,(select max(c) from source_table) as max_c
    ,(select min(c) from source_table) as min_c
    ,1 as const_c
from(
    select
        *
    from source_table
) t
group by a,b

  • Redis缓存是将查询的数据结论按照String的数据格式存储在Redis中,那么每次查询的首选就是先去Redis中先看是否存在,没有才去做查库操作。
  • 数据量限制是在原始数据的基础上进行一些量级的限制,常规是不用做限制的,那么有些图例展示的数据不够清晰的时候就可以对数据量进行一个限制。

3. 图表支持

  • 也整理了一些表格,在最后,可以各取所需。
    1.1 透视表
  • 同Excel中的透视表功能相同,使用X轴和Y轴进行数据聚合和展示,同时需要行表头和列表头。
  • 场景:
    ● 提供两维数据的聚合查询
    ● 适用于少量数据在客户端的自由分析场景
  • 优点:
    ● 结果数据明细数据可供查询使用
  • 缺点:
    ● 不够直观
  • 类似图表:表格
    数据可视化——Davinci_第8张图片
    1.2 表格
  • 将基础数据进行平铺展示
  • 场景:
    ● 提供基础数据的查询(权限问题)
    ● 一目了然的结果类型数据
  • 优点:
    ● 结果数据明细数据可供查询使用
  • 缺点:
    ● 不适合展示较大的数据集
    ● 不适合展示变化趋势
  • 类似图表:透视表
    示例:
    数据可视化——Davinci_第9张图片

1.3 翻牌器

  • 是文字组件的一种,支持自定义翻牌器的标题、数字、前缀、后缀等样式,可以动态展示核心KPI数据
  • 场景:
    ● 关注核心指标的变化
  • 优点:
    ● 聚焦到一个点上看事情
  • 缺点:
    ● 不适合展示较多的数据,会分散思维
    示例:
    数据可视化——Davinci_第10张图片

1.4 折线图

  • 将值标为点,并通过直线将这些点按照某种顺序连接起来的图
  • 场景:
    ● 数据在一个有序的因变量上的变化,他的特点是反映事物随序类别而变化的趋势,可以清晰的展现数据的增减趋势、增减的速率、增减的规律、峰值等
  • 优点:
    ● 很好的展现沿某个维度的变化趋势
    ● 能比较多组数据在同一个维度上的变化趋势
    ● 适合展现较大的数据集
  • 缺点:
    ● 每张图上不不适合展示太多折线图
  • 类似图表:堆积图,曲线图,双Y轴折线图,面积图
    示例:
    数据可视化——Davinci_第11张图片

1.5 柱状图

  • 是一种以长方形的长度来表达数值的统计报告图,由一系列高度不等的纵向条纹表示数据分布情况
  • 场景:
    ● 适合用于展示二维数据集,其中一个轴表示需要对比的分类维度,另一个轴表示相应的值。(如:月份,商品销量),或者展示在一个维度上多个同质可比的指标的比较。(如:月份,苹果产量,桃子产量)
  • 优点:
    ● 简单直观,很容易根据柱子的长短看出值的大小
    ● 易于比较各组数据之间的差别
  • 缺点:
    ● 不适合较大的数据集展现
  • 类似图表:条形图,直方图,堆积图,百分比堆积图,双Y轴,分组柱图等
    示例:
    数据可视化——Davinci_第12张图片

1.6 散点图

  • 将数据以点的形式展示,以显示变量之间的相互关系或影响程度,点的位置由变量数量决定
  • 场景:
    ● 显示若干数据系列中的各数值之间的关系,类似XY轴,判断两变量之间是否存在某种联系,或者发现数据分布或聚合情况
  • 优点:
    ● 可以展示数据分布和聚合情况
    ● 适合展现较大的数据集
  • 缺点:
    ● 看上去较为凌乱,基本只能看分布和聚合情况,其他信息均不能好好展现
    类似图表:气泡图(面积,三维数据)
    示例:
    数据可视化——Davinci_第13张图片

1.7 饼状图

  • 以饼状图形显示一个数据系列中的各项的大小和各项的总和的比例,也被称为扇形统计图
  • 场景:
    ● 适应于二维数据,即一个分类字段,一个连续字段,当用户更关注于简单占比时适合
  • 优点:
    ● 简单直观,很容易看到组成成分占比
  • 缺点:
    ● 不适合较大的数据集展现
    ● 数据项中不能有负值
    ● 当比例接近时,人眼很难准确区别
  • 类似图表:环形图,3D饼图
    示例:
    数据可视化——Davinci_第14张图片

1.8 漏斗图

  • 有多个梯形从上而下叠加而成。从上而下的项是有逻辑上的顺序关系,梯形面积表示某个环节业务量与上一个环节之间的差异
  • 场景:
    ● 适用于业务流程比较规范,周期长,环节多的单流程单向分析,通过漏斗各项节点业务数据的比较能直观的发现和说明问题所在的环节,进而做出决策(漏斗图总是开始于100%的数量,结束于一个较小的数量;在开始和结束之间由N个流程环节组成,每个环节用一个梯形表示;梯形的上宽度表示当前环节的输入情况,下底表示当前环节的输出,上底和下底之间的差表示了在当前环节业务量的减小量,当前梯形的斜率表示当前环节的减小率;漏斗图的所有环节的流量都应该使用同一个度量)
  • 优点:
    ● 清晰展示存在关联关系的层级业务过程或指标之间的转化关系
  • 缺点:
    ● 转化关系层层递进,不能展示占整体的转化
    类似图表:金字塔图,对称漏斗图(旋风图),对比漏斗图
    示例:
    数据可视化——Davinci_第15张图片

1.9 雷达图

  • 又称为蜘蛛网图,将多个维度的数据量映射到起始于同一个圆心的坐标轴上,结束于圆周边缘,然后将同一组点连接起来
  • 场景:
    ● 雷达图适用于多为数据集
  • 优点:
    ● 适合展现某个数据集的多个关键特征
    ● 适合展现某个数据集的多个关键特征和标准值的对比
    ● 适合比较多条数据在多个维度上的取值
  • 缺点:
    ● 多维但是不能太多,一般为4—8个
    ● 比较的记录条数不能太多
    示例:
    数据可视化——Davinci_第16张图片

1.10 桑基图

  • 通过页面访问量PV和访客的数量UV推算网页的转化率,进而了解网站的整体运营效果和某一类商品的最终成交量
  • 场景:
    ● 适用于电商或营销相关的数据分析,比如分析购物网站中,那些商品最畅销或者哪一个时间段是访问高峰
  • 优点:
    ● 特别适合分析展现网站流量的运营数据
    ● 显示结果直观,可以清晰的看到各个维度指标变化的情况
    ● 适合比较多条数据在多个维度上的取值
  • 缺点:
    ● 应用面窄,只能显示三级维度的流程数据
    ● 对显示的度量要求严格
    1.11 平行坐标图
  • 为了显示多维空间中的一组对象,绘制由多条平行且等距分布的轴,并将多维空间中的对象表示为在平行轴上具有顶点的折线。
  • 场景:
    ● 适合多维数据的处理,不局限于描述一种或几种趋势的变化
  • 优点:
    ● 数据在多维度的变化趋势很明显,不需要多张图表进行整合
  • 缺点:
    ● 不适合展示庞大的数据,曲线会非常密集,难以辨认
  • 类似图表:桑葚图
    示例:
    数据可视化——Davinci_第17张图片

1.12 地图

  • 使用地图作为背景,通过图形的位置表示数据的地理位置,将数据在不同地理位置的分布通过颜色或气泡映射在地图
  • 场景:
    ● 适合带有地理位置信息的数据集展示,展示的通常是以某个地区为单位的汇总的连续值信息
  • 优点:
    ● 和地图相结合,对数据的地理分布显示直观
    ● 通过颜色深浅,气泡大小等容易判断度量的大小
  • 缺点:
    ● 必须有地理信息,且数据为汇总数据,气泡容易叠加
    ● 显示的都是非精确值,气泡大小和颜色深浅相近时不易分辨
    ● 地理面积大小和度量值无关,容易误读
  • 类似图表:气泡地图,颜色地图(分级统计地图),描点地图
    示例:
    数据可视化——Davinci_第18张图片

1.13 词云图

  • 文字云,是文本数据的视觉表示,由词汇组成类似云的彩色图形,用于比较展示大量文本数据,每个词的重要性以字体大小或颜色显示
  • 场景:
    ● 适合用于描述网站的关键词,或可视化自由格式文本,可以对比文字的重要程度。其本质是点图,是在相应的坐标点绘制具有特定样式的文字的效果
  • 优点:
    ● 快速感知最突出的文字,或权重不同的文字
    ● 可展示大量文本
  • 缺点:
    ● 不适合展现的数据太少的数据集
    ● 不适合展示区
    ● 分度不高的数据集,即无重点关键词
  • 类似图表:点图,柱图
    示例:
    数据可视化——Davinci_第19张图片

1.14 瀑布图

  • 需要一个维度一个指标进行瀑布式的数据下降或者提升展示
  • 场景:
    ● 在企业经营分析、财务分析中使用较多,用以表示企业成本的构成、变化等情况
  • 缺点:
    ● 需要对数据和这种展现形式所带来的数据结论有一定的理解能力
  • 类似图表:折线图
    示例:
    数据可视化——Davinci_第20张图片

1.15 双Y轴图

  • 一个X轴两个Y轴的折线图展现形式,一般侧轴分别展示不同的数据量级或者不同的数据单位的聚合值,比如左侧展示分子分母,右侧展示比值
  • 场景:
    ● 适用于相关的多数据统计
  • 优点:
    ● 明确展示比率对应的分子和分母的分布,避免理解偏差
    类似图表:折线图
    示例:
    数据可视化——Davinci_第21张图片

1.16 仪表盘

  • 像一个钟表或者刻度盘,有刻度和指针,其中刻度表示度量,指针表示维度,指针角度表示数值,指针指向当前
  • 场景:
    ● 管理报表或报告,直观的展现出某个指标的进程或者实际情况
  • 优点:
    ● 将专业数据通过常见的刻度表形式展现,直观易懂
    ● 拟物化的展现更人性化
  • 缺点:
    ● 适用场景窄,主要用于进度或占比的展现
    ● 只能一个维度,指标不宜过多,展示信息有限
  • 类似图表:堆积图
名称 简介 场景 优点 缺点 相似图形
透视表 同Excel中的透视表功能相同,使用X轴和Y轴进行数据聚合和展示,同时需要行表头和列表头 ●提供两维数据的聚合查询●适用于少量数据在客户端的自由分析场景 结果数据明细数据可供查询使用 不够直观 表格
表格 将基础数据进行平铺展示 ●提供基础数据的查询(权限问题)●一目了然的结果类型数据 结果数据明细数据可供查询使用 ●不适合展示较大的数据集●不适合展示变化趋势 透视表
翻牌器 是文字组件的一种,支持自定义翻牌器的标题、数字、前缀、后缀等样式,可以动态展示核心KPI数据 关注核心指标的变化 聚焦到一个点上看事情 不适合展示较多的数据,会分散思维
折线图 将值标为点,并通过直线将这些点按照某种顺序连接起来的图 数据在一个有序的因变量上的变化,他的特点是反映事物随序类别而变化的趋势,可以清晰的展现数据的增减趋势、增减的速率、增减的规律、峰值等 ●很好的展现沿某个维度的变化趋势●能比较多组数据在同一个维度上的变化趋势●适合展现较大的数据集 每张图上不不适合展示太多折线图 堆积图,曲线图,双Y轴折线图,面积图
柱状图 是一种以长方形的长度来表达数值的统计报告图,由一系列高度不等的纵向条纹表示数据分布情况 适合用于展示二维数据集,其中一个轴表示需要对比的分类维度,另一个轴表示相应的值。(如:月份,商品销量),或者展示在一个维度上多个同质可比的指标的比较。(如:月份,苹果产量,桃子产量) ●简单直观,很容易根据柱子的长短看出值的大小●易于比较各组数据之间的差别 不适合较大的数据集展现 条形图,直方图,堆积图,百分比堆积图,双Y轴,分组柱图等
散点图 将数据以点的形式展示,以显示变量之间的相互关系或影响程度,点的位置由变量数量决定 显示若干数据系列中的各数值之间的关系,类似XY轴,判断两变量之间是否存在某种联系,或者发现数据分布或聚合情况 ●可以展示数据分布和聚合情况●适合展现较大的数据集 看上去较为凌乱,基本只能看分布和聚合情况,其他信息均不能好好展现 气泡图(面积,三维数据)
饼状图 以饼状图形显示一个数据系列中的各项的大小和各项的总和的比例,也被称为扇形统计图 适应于二维数据,即一个分类字段,一个连续字段,当用户更关注于简单占比时适合 简单直观,很容易看到组成成分占比 ●不适合较大的数据集展现●数据项中不能有负值●当比例接近时,人眼很难准确区别 环形图,3D饼图
漏斗图 有多个梯形从上而下叠加而成。从上而下的项是有逻辑上的顺序关系,梯形面积表示某个环节业务量与上一个环节之间的差异 适用于业务流程比较规范,周期长,环节多的单流程单向分析,通过漏斗各项节点业务数据的比较能直观的发现和说明问题所在的环节,进而做出决策(漏斗图总是开始于100%的数量,结束于一个较小的数量) 清晰展示存在关联关系的层级业务过程或指标之间的转化关系 转化关系层层递进,不能展示占整体的转化 金字塔图,对称漏斗图(旋风图),对比漏斗图
雷达图 又称为蜘蛛网图,将多个维度的数据量映射到起始于同一个圆心的坐标轴上,结束于圆周边缘,然后将同一组点连接起来 雷达图适用于多为数据集 ●适合展现某个数据集的多个关键特征●适合展现某个数据集的多个关键特征和标准值的对比●适合比较多条数据在多个维度上的取值 ●多维但是不能太多,一般为4—8个●比较的记录条数不能太多
桑基图 通过页面访问量PV和访客的数量UV推算网页的转化率,进而了解网站的整体运营效果和某一类商品的最终成交量 适用于电商或营销相关的数据分析,比如分析购物网站中,那些商品最畅销或者哪一个时间段是访问高峰 ●特别适合分析展现网站流量的运营数据●显示结果直观,可以清晰的看到各个维度指标变化的情况●适合比较多条数据在多个维度上的取值 ●应用面窄,只能显示三级维度的流程数据●对显示的度量要求严格
平行坐标图 为了显示多维空间中的一组对象,绘制由多条平行且等距分布的轴,并将多维空间中的对象表示为在平行轴上具有顶点的折线 适合多维数据的处理,不局限于描述一种或几种趋势的变化 数据在多维度的变化趋势很明显,不需要多张图表进行整合 不适合展示庞大的数据,曲线会非常密集,难以辨认 桑葚图
地图 使用地图作为背景,通过图形的位置表示数据的地理位置,将数据在不同地理位置的分布通过颜色或气泡映射在地图 适合带有地理位置信息的数据集展示,展示的通常是以某个地区为单位的汇总的连续值信息 ●和地图相结合,对数据的地理分布显示直观●通过颜色深浅,气泡大小等容易判断度量的大小 ●必须有地理信息,且数据为汇总数据,气泡容易叠加●显示的都是非精确值,气泡大小和颜色深浅相近时不易分辨●地理面积大小和度量值无关,容易误读 气泡地图,颜色地图(分级统计地图),描点地图
词云图 文字云,是文本数据的视觉表示,由词汇组成类似云的彩色图形,用于比较展示大量文本数据,每个词的重要性以字体大小或颜色显示 适合用于描述网站的关键词,或可视化自由格式文本,可以对比文字的重要程度。其本质是点图,是在相应的坐标点绘制具有特定样式的文字的效果 ●快速感知最突出的文字,或权重不同的文字●可展示大量文本 ●不适合展现的数据太少的数据集●不适合展示区●分度不高的数据集,即无重点关键词 点图,柱图
瀑布图 需要一个维度一个指标进行瀑布式的数据下降或者提升展示 在企业经营分析、财务分析中使用较多,用以表示企业成本的构成、变化等情况 需要对数据和这种展现形式所带来的数据结论有一定的理解能力
双Y轴图 一个X轴两个Y轴的折线图展现形式,一般侧轴分别展示不同的数据量级或者不同的数据单位的聚合值,比如左侧展示分子分母,右侧展示比值 适用于相关的多数据统计 明确展示比率对应的分子和分母的分布,避免理解偏差 折线图
仪表盘 像一个钟表或者刻度盘,有刻度和指针,其中刻度表示度量,指针表示维度,指针角度表示数值,指针指向当前 管理报表或报告,直观的展现出某个指标的进程或者实际情况 ●将专业数据通过常见的刻度表形式展现,直观易懂●拟物化的展现更人性化 ●适用场景窄,主要用于进度或占比的展现●只能一个维度,指标不宜过多,展示信息有限 堆积图
富文本和内嵌网页 适用于做外部引用或整体看板说明

5. 仪表板-Dashboard

  • Davinci中的仪表板就是看板的含义,在一个WEB侧的看板中整体的结构会是以门户的形式来展示。门户在可视化需求中的字面意思就是一个业务框架或一套相关的指标看板的集合,那么展现形式实际上是类似文件夹的。我们将同一类业务指标放在同一个看板中,相同的,我们把相关的业务看板放在一个文件夹中。这就是整体看板的左侧,实际上在控制整体看板的分布情况。Davinci支持的额外功能很多,包括看板的分享,数据的下载,自动布局等等,这些属于针对可视化的功能拓展,这里不做赘述,主要功能模块为主。

1. 图表联动

  • 图表联动是针对相关的或者相同的维度的属性进行一个关联触发,在一个看板中可以配置多条联动关系,每一个联动关系都饱含一个触发器和一个对应的图表。联动实际上在维护的就是对应关系,在触发器字段与联动图表的字段类型一致的情况下,联动图表可以选择View视图中的任意字段和变量。
  1. 什么情况下用图表联动?
  • 当且仅当该图表与要关联的图表有一定的数据耦合,我们才能正确使用图表联动。
    e.g.UV ,PV在城市上的联动,指标是通过维度进行加工的,在相同维度上的指标有一定的关联。而后就是要看这两个指标在业务上的耦合关系,那么UV和PV是最常见的可以结合来观测业务形态的两个指标。

2. 全局控制器

  • 在Widget中有单图表的控制器,全局控制器顾名思义可以针对一个或多个Widget组件进行条件过滤或者变量输入。
    1 控制器类型
  • 筛选器在数值选取可以用自动关联,手动关联和自定义三种类型:
    ● 自动关联的取值来源就是控制器所关联的数据视图View的字段值列表,如果是同时关联多个了多个数据视图,那么就是多个视图的所选数据的并集。
    ● 手段关联可以选择任何数据视图中的字段进行选择,展示的字段对应文本也是一样手段选择,如果不选择则默认展示数值。
    ● 如果不希望从数据视图字段中取值,可以自定义选项
名称 释义 支持取值类型 适用场景
下拉菜单 只能关联维度,对类似城市等大量属性的维度选择会很麻烦,一般会支持输入查询 自动关联/手动关联/自定义 较少属性维度
单选按钮 单选按钮配置项类似,要注意必须默认值 自动关联/手动关联/自定义 极少
日期选择 只能关联维度,支持将所选字段进行日期格式标准化,默认值支持固定值和动态值 固定值/动态值 单日或指定范围一般被范围选择替代
日期范围选择 只能关联维度,范围字段必须关联两个变量用于时间起始和终止 固定值/动态值 是日期类的常用筛选器
文本输入框 只能关联维度 / 极少
数字范围输入框 只能关联指标 / 极少
数字滑块 只能关联指标 / 极少
下拉树 维度层级关联使用 / 极少

3. 数据钻取

  • 存在层级关系的在使用数据钻取功能时才是正确的,最常见的就是国家,省份,城市。如下图就是数据立方体,每聚合几个维度的数据实际上就是在做上卷,每发散几个维度的数据实际上就是在做下钻。
    数据可视化——Davinci_第22张图片
    3.1 上卷(roll-up)
  • 上卷是沿着维的层次向上聚集汇总数据。例如,对产品销售数据,沿着时间维上卷,可以求出所有产品在所有地区每月(或季度或年或全部)的销售额
    3.2 下钻(drill-down)
  • 下钻可以理解成增加维的层次,从而可以由粗粒度到细粒度来观察数据。比如对产品销售情况分析时,可以沿着时间维从年到月到日更细粒度的观察数据

6. 大屏-Display

  • 数据大屏的展现形式类似于PPT,大屏和看板的区别在于前者是对于一定的指标在一个无需滚动的页面的集合,是不支持筛选等功能的定维数据展示。大屏的定义上常见的会是对核心实时数据的静态展示,因为实时数据的观测一般是固定维度观测的,比如说我们在双十一的时候看的阿里的大屏,我们不会要求实时关注到每个城市的每段时间的交易额,而是对整体的,核心的数据进行展示。
  • 注意:大屏展示指标无法进行筛选,故初始值即为目标展示值,要注意Widget的不可复用性。
  • 在常规的组件外,支持一些外部视频或时间计时器,其他使用形式实际上与看板或者说与PPT类似,主要理解概念上的区分,不做赘述。
    数据可视化——Davinci_第23张图片
    数据可视化——Davinci_第24张图片

1 区别

  • 从定义上理解看板 ≠ 大屏,但是从指标数据的使用上两者用法上是相同的。
    ● 面向用户不同:看板的核心用户是数据的使用或初步分析者,也就是运营,产品,业务小leader。这类用户需要对数据有一定的理解能力,是需要有总结性的结论产出的。大屏的核心用户是外部客户,领导高层等。这类用户需要的是结果,一目了然的结果性展示。
    ● 功能特点不同:看板的功能特点就是支持页面定制,可交互查阅数据和手动更新数据。大屏则主要是为了进行数据结果展示,通常放置的是不可交互,自动刷新的结果信息。

你可能感兴趣的:(big,data,数据分析,大数据)