前言
大家都知道,数据分析项目从需求提出到最终交付要经历一个漫长的过程,需要进行数据源整合、指标定义、模型开发、数仓任务开发及运维、报表开发等一系列环节,开发周期动辄都是以周为单位,而且业务场景也并非一成不变,一旦发生指标逻辑的变更,数仓就要重新开发刷数,这让需求和开发两方本就紧张的关系更加“雪上加霜”。总结起来,就是当下 BI 使用中的痛点:
- 数据加工链路长,灵活性差
- PB 级数据难以实现秒级响应能力
- 数据来源繁杂,缺乏统一语义管理能力
- 指标数量越来越多,达到上千甚至更多
- 业务人员使用门槛过高
只有打破了这些 BI 使用中的壁垒,才能让数据分析平民化不只停留在一句口号,数据分析师们才有机会把更多时间投入到业务分析这些更具价值的地方。那么问题来了,有没有一个“低门槛”的平台,可以让业务人员自主进行模型构建、指标定义和任务管理等操作,然后无缝对接 BI 工具进行探索性分析呢?现在 Kyligence + Tableau 给企业提供了一个优秀的解决方案。
Tableau 作为 BI 工具领域的领导者, 一直是众多企业进行数据可视化的首选,其强大而灵活的开发能力让数据分析师可以快速进行报表开发,也可以让业务人员进行直观的自助式分析。
Kyligence 提供了 AI 增强的数据服务和管理平台,帮助数据分析师和工程师轻松从本地到多云架构上构建受治理的数据服务。Kyligence 提供了针对企业级客户场景的本地部署产品 Kyligence Enterprise 和云端托管产品 Kyligence Cloud。
无论是单独使用 Tableau Desktop,还是通过将内容发布到 Tableau Server,用户都可以直接使用存储在 Kyligence 中的数据。
Kyligence 向下可对接关系型数据或 Hadoop 数据源,如 Hive 等,在云上支持对象存储,及云上数据仓库,有效屏蔽底层数据源差异,在 Kyligence 统一建模,进行维度指标定义。同时向上连接到 Tableau Desktop 或 Tableau Server,进行数据发布和分析。
Kyligence + Tableau 联合解决方案的核心优势如下:
- 架构可扩展,查询响应快。使用 Tableau 直连方式可处理万亿行数据,直连查询性能保持在秒级,支持高并发的同时保持高性能。
- 统一的语义层。屏蔽底层数据源差异,在 Kyligence 端统一建模;同时支持一键同步 Kyligence 模型语义定义至 Tableau,无需重复建模。
- 自助式分析。在 Kyligence 多维模型与预计算技术支撑下,充分发挥 Tableau 灵活、自助特性,满足 BI 平民化的自助式分析需求。
- AI 自动建模。Kyligence AI 智能推荐引擎可利用自动建模技术快速设计和构建数据模型,提高数据开发效率,缩减数据分析周期。
现在就让我们用数据说话,看看 Kyligence + Tableau 的解决方案是如何在实际业务场景中帮助客户突破数据分析链路上的瓶颈,赋能数据分析平民化的吧。
用户案例1:某大型银行多维分析平台架构分析演化
亮点:Kyligence + Tableau 自助分析方案助力企业提升查询效率,有效降低开发和运维成本
场景描述:
某全国性金融机构,传统 BI 的单次查询时间平均在 15 分钟,最长超过 1 小时,数据分析人员无法进行多维分析,只能查看预先生成的固定报表。同时为了减少权限变动导致的数据刷新次数,同样的分析主题需要为每个分行单独构建模型,导致全行模型数量上千个,开发和运维压力非常大。
为了解决这些挑战,该金融机构将其 OLAP 分析平台迁移到了 Kyligence,用于应对超大规模数据集的分析,基于大数据的分布式数据架构,提高了查询效率,也极大减轻了运维负担。
Kyligence 依托大数据分布式技术框架部署,提供低代码的模型能力——单一模型支持数百 TB 甚至 PB 级数据,模型维度和指标数目实现敏捷扩展,支持百万级高基数维度分析,以及高并发数据查询。Kyligence 模型能够作为数据源无缝连接企业 BI,在保留业务用户使用习惯的同时,提升多维分析性能和体验。
除了提升数据分析性能和用户体验以外,开发模式的最佳实践也是很多企业关心的问题。那么如何进行企业内各种职能角色的协同呢?以下是 Kyligence + Tableau 这套方案的全貌,来展示在新的架构下,分析链路上的不同角色人员是如何进行分工协作的。
我们结合现有客户的使用场景,提炼出了一套开发模式供大家参考。首先我们将分析连路上的不同人员抽象成了四类角色:开发人员、建模人员、分析人员、业务人员。这四类角色并非一定要严格对应四个岗位,有些企业可能一个开发人员就负责了准备数据、建模、分析等一整套工作,企业可以依照实际情况灵活安排。
- 开发人员——准备数据。基于业务需求,IT 部门在平台的业务集市中建立各主题领域的数据,通过数据交换中心把数据从业务数仓同步到 Hadoop 构建集群中。
- 建模人员——模型开发与发布。在 Kyligence 中设计基于业务主题的模型,创建好的模型包含该主题中可能用到的各种标准分析指标和维度,同时在调度管理平台上为当前的模型创建定时构建任务,用来定时更新模型内的数据。接着可以基于创建好的模型,导出 Tableau TDS 文件,并发布至 Tableau Server。
- 分析人员——自助式分析。基于 Tableau Server 已发布 TDS 数据源,分析人员可以在 Tableau Server Web 端或 Tableau Desktop 进行自助式多维分析、报表制作,另外可依据分析场景,二次定义指标、层级等。
- 业务人员——直接访问分析报表。同时也可以基于 Tableau Server 来进行自助式数据分析。
用户案例2:某车企利用 Kyligence 实现数据变现
亮点:Kyligence + Tableau 自助分析方案帮助企业有效实现数据闭环,实现数据变现。
场景描述:
车联网是信息化与工业化深度融合的重要领域,围绕车辆全生命周期数字化管理,协同车联跨域融合态势,可衍生出多样的商业模式与创新型服务。例如:车企可能会在不同触发条件下对不同画像群体的车主进行服务推送,车主在导航结束前,车联网系统会根据用户的实时位置为他/她推荐最合适的 3 个停车场,同时根据行为预测结果适时推送餐饮或购物信息,这一系列的创新服务背后都需要强大的数据计算能力作为支撑。
某全球大型车企就面临着以下难题:如何将这些来自人、车、路的数据,形成具有业务价值的指标和标签,并及时输出至业务一线,最终形成数据闭环。车辆和用户每天都会产生大量的状态和行为数据,并且近些年随着车联网技术的成熟,车辆和用户驾驶行为相关的数据还在快速增加。企业要处理这些不断增长的数据,同时还能及时通过数据模型生成具有业务逻辑的画像标签,就需要有一个具备可弹性伸缩架构,PB 级数据的亚秒级查询响应,支持高并发的同时保持高性能的数据平台。但是由于传统 BI 和数仓平台的局限,一个新的指标加工周期至少在3天以上,而且随着指标数量的膨胀,维护成本也越来昂贵,导致车企的大数据团队长期处于疲于奔命的状态,对新业务需求的响应度也越来越低。
目前 Kyligence + Tableau 就可以利用已有优势有效解决企业痛点:
- 基于多维模型和预计算技术实现 PB 级数据查询的亚秒级响应;
- 利用自动建模技术快速设计和构建数据模型,提高数据开发效率,缩减数据的分析周期;
- 一键同步 Kyligence 模型语义至 Tableau,业务人员无须重复建模,从而可以高效地进行海量数据的快速分析。
更多亮点能力助力企业实现数据分析平民化
除了以上我们提到的查询响应快、统一的语义层、AI 自动建模及优化等 Kyligence 已有核心优势,Kyligence + Tableau 联合方案中还有不少亮点功能为企业在智能数据服务和管理提供更进一步的支持。
首先,Kyligence 提供了多种方式可以快速与 Tableau 建立数据连接:
- Kyligence Connector 专用连接器
Kyligence 基于 Tableau 提供的 Connector SDK 开发了专用的数据源连接器,针对 Kyligence 查询语法特性定制,保证查询兼容性,支持 Tableau Desktop 和 Server 主要功能,支持企业级权限集成等。 - 一键同步 Kyligence 模型语义定义至 Tableau,平滑切换数据源
在 Kyligence 完成建模后,数据模型开发人员可以直接导出 Tableau 对应的数据源文件(.TDS),业务用户导出的 TDS 文件可以直接通过 Tableau 打开,并使用之前在 Kyligence 中创建的数据模型,实现了建模与分析的无缝衔接。
当然,现实中的业务场景并非一成不变的,业务人员前一天定义的指标逻辑往往在第二天就要根据实际的市场反馈重新进行定义,因此数据模型的更新成本必须足够低才能满足业务快速演化的需求。有了 Kyligence 支持后,业务人员只需要在更新数据模型后,重新导出 TDS 文件并在 Tableau Server 中发布并覆盖之前的数据源和报表,即可实现数据源和模型变更的平滑切换,无须冗长的数仓开发流程!
通过以上任意一种方式完成连接后,您就可以在 Tableau Desktop 或 Tableau Server 使用 Kyligence 数据源接口访问到 Kyligence 进行数据探索啦!
- 利用多种指标度量,实现高效聚合及明细查询
Kyligence 为用户准备了业务场景中常用的指标度量,如:Count Distinct,以及自定义聚合(基于窗口函数)查询。这可以帮助用户更有效地利用 Kyligence 数据模型进行高性能聚合及明细查询。
3.1 聚合查询
Count Distinct
在 OLAP 多维分析中,Count Distinct(去重计数)是一种常用的指标度量,比如一段时间内的 UV、活跃用户数等。Kyligence 提供了两种 Count Distinct 计算方式:
- 首先是基于 HyperLogLog 算法的近似 Count Distinct,这种实现方式用在需要快速计算、节省存储空间,并且能接受一定错误率的 Count Distinct 指标计算,提供了从 9.75% 到 1.22% 几种不同的误差率以支持不同的查询需求;
- 其次是基于 Bitmap 的精确 Count Distinct,虽然它的精确度很高,但在构建指标的时候会消耗更多的资源(内存和存储),构建的过程也比较慢。
自定义聚合函数
Kyligence 也提供了 ANSI SQL 规范之外的许多自定义聚合函数。一些用于特定分析场景,如用户画像、用户行为分析、Intersect_count 等;另一些用于完成更多复杂的查询,如窗口函数等。
3.2 明细查询
除了聚合查询,Kyligence 同时也支持明细查询,这也是业务分析中经常遇到的分析场景。用户只需在创建模型时,勾选明细索引选项,用户就可以在 Tableau 中利用 Kyligence 明细索引进行快速明细查询了。
4.权限集成:严格把控数据安全,数据“各有所用”
企业级 BI 在落地使用中经常遇到的问题就是角色的安全隔离,因为人员和部门繁多,而不同部门、甚至同一个部门不同地区的业务用户在查看数据时都需要设置不同的权限。比如:上海地区的销售经理只能看到上海市的销售数据,因此不同角色在 Tableau 中查询时返回的数据行、列也都不同。
考虑到企业级数据的这些隐私安全需求,Kyligence 提供针对项目级/表级/行列级的细粒度数据访问控制,从而为不同用户提供不同的数据视图。
- 统一的权限管理体系:使用 Kyligence 进行统一的权限访问控制,行列级别控制,提供用户细粒度的权限控制,最大限度满足企业多样的数据管控需求。
- 更便捷的连接体验:Kyligence Connector 的提供更顺畅的 Tableau 连接体验,省去额外的连接配置。
- 用户权限委任:报表制作者可使用高权限账号进行报表的开发与发布,而浏览者在查看报表时会切换其对应权限来进行对访问数据的限制。
- 免密查看报表:Tableau 用户在 Server 端查看报表时,无需再次输入数据源的登录用户与密码,可以减少管理员运维成本,提升用户访问体验。
简单来说,Tableau Server 把当前登陆用户账号的查询请求委任给 Kyligence,让用户以相应的账号权限进行查询,从而实现了数据库层级的安全管理。
总结
以上就是整套 Kyligence + Tableau 自助式分析的解决方案了,欢迎感兴趣的小伙伴点击「链接」下载《Kyligence 对接 Tableau 使用最佳实践》白皮书,一起来了解更多吧!
关于 Kyligence
Kyligence 由 Apache Kylin 创始团队创建,致力于打造下一代智能数据云平台,为企业实现自动化的数据服务和管理。基于机器学习和 AI 技术,Kyligence 从多云的数据存储中识别和管理最有价值数据,并提供高性能、高并发的数据服务以支撑各种数据分析与应用,同时不断降低 TCO。Kyligence 已服务中国、美国及亚太的多个银行、保险、制造、零售等客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、YUM、Costa、UBS、Metlife、AppZen 等全球知名企业和行业领导者。公司已通过 ISO9001,ISO27001 及 SOC2 Type1 等各项认证及审计,并在全球范围内拥有众多生态合作伙伴。