实时数仓中OLAP的能力要求

实时数仓的传统架构有lambda和Kappa。技术选型上实时计算、消息队列都有解决方案,但是实时数仓也需要一个强大的OLAP,对于OLAP有哪些选择条件,本文做一下分析。
在实时数仓的建设中,OLAP数据库的选型制约实时数仓的可用性和功能性。
为什么要构建实时数据仓库
传统的离线数据仓库将业务数据集中进行存储后,以固定的计算逻辑定时进行ETL和其它建模后产出报表等应用。离线数据仓库主要是构建T+1的离线数据,通过定时任务每天拉取增量数据,然后创建各个业务相关的主题维度数据,对外提供T+1的数据查询接口。计算和数据的实时性均较差,业务人员无法根据自己的即时性需要获取几分钟之前的实时数据。数据本身的价值随着时间的流逝会逐步减弱,因此数据发生后必须尽快的达到用户的手中,实时数仓的构建需求也应运而生。
OLAP介绍
OLAP,也叫联机分析处理(Online Analytical Processing)系统,有的时候也叫DSS决策支持系统,就是我们说的数据仓库。与此相对的是OLTP(on-line transaction processing)联机事务处理系统。
联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。
Codd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的要求,SQL对大数据库的简单查询也不能满足用户分析的需求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,Codd提出了多维数据库和多维分析的概念,即OLAP。
OLAP委员会对联机分析处理的定义为:从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业多维特性的数据称为信息数据,使分析人员、管理人员或执行人员能够从多种角度对信息数据进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心是"维"这个概念,因此OLAP也可以说是多维数据分析工具的集合。
OLAP的准则和特性
E.F.Codd提出了关于OLAP的12条准则:
准则1 OLAP模型必须提供多维概念视图
准则2 透明性准则
准则3 存取能力准则
准则4 稳定的报表能力
准则5 客户/服务器体系结构
准则6 维的等同性准则
准则7 动态的稀疏矩阵处理准则
准则8 多用户支持能力准则
准则9 非受限的跨维操作
准则10 直观的数据操纵
准则11 灵活的报表生成
准则12 不受限的维与聚集层次
OLTP系统强调数据库内存效率,强调内存各种指标的命令率,强调绑定变量,强调并发操作,强调事务性;OLAP系统则强调数据分析,强调SQL执行时长,强调磁盘I/O,强调分区。
市场上的OLAP
目前市面上OLAP引擎包含不限于:OUSHUDB, Hive、Presto、Kylin、Impala、Sparksql、Druid、Clickhouse、Greeplum、星环,GAUSSDB,ADP等,目前对比下来,OUSHUDB(开源社区是HAWQ)在数据量,灵活程度和性能上相比其他的OLAP更具有优势。
Hive, Impala,星环 - 基于SQL on Hadoop
Presto和Spark SQL类似 - 基于内存解析SQL生成执行计划
Kylin - 用空间换时间,预计算
Druid-一个支持数据的实时摄入
ClickHouse - OLAP领域的Hbase,单表查询性能优势巨大
Greenpulm,GaussDB - OLAP领域的Postgresql
OUSHUDB: OLAP领域唯一的云数据库,同时支持MPP和hadoop
OUSHUDB 4.0不仅仅具备了MPP强大的计算能力,也支持HDFS的扩展能力,如果你的场景解决分布式查询问题,有实时性要求,OUSHUDB也可以符合期望;

实时数仓需要强大的OLAP
实时数仓中OLAP的能力要求_第1张图片

Gartner提出的实时数据处理的三个阶段:
实时数据流处理任务分三个阶段:
第一阶段:对事件做出实时处理响应,包括指标对比,告警,趋势分析,自动决策;
第二阶段:生成报告,支持即席查询,延申数据探索,记录操作流程;
第三阶段:离线任务,包括报告,即席查询,实时决策,建模及长期决策;
第一阶段任务主要通过Sparkstreaming/Flink进行处理,即可以通过传统的实时数仓架构Lambda和Kappa实现;
第二阶段任务realtime on-demand intelligence以及第三阶段任务需要强大的OLAP数仓实现;
OUSHUDB在实时数仓中的OLAP能力
• 基于云原生技术进行深度优化,采取计算、存储分离的技术架构,充分适应云上数字化应用对高度弹性、无限扩容能力的要求,保证数据服务能力高可用;
• 面向PB级大数据,具备比MPP、SQL-on-Hadoop数据仓库更快的复杂查询性能,从而明显降低批处理、即席查询所需的时间,保证数据服务能力的高时效;
• 完整支持ACID特性,可以保证数据在并发更新、查询失败等情况下保持数据的完备性、一致性和准确性,支持基于Oracle、DB2等传统交易型数据库的数字化应用的平滑移植;
• 具备对各类SQL标准的兼容性,如ANSI SQL-92、SQL-99、SQL-2003等,支持OLAP扩展,支持标准的JDBC/ODBC,并支持基于传统交易型数据库的数字化应用的平滑移植;
• 具备对自动化机器学习技术的支持能力,基于AutoML等技术,为业务人员提供自动化AI建模能力,实现AI模型全生命周期管理,降低AI研发与管理成本。

你可能感兴趣的:(数据云,混合负载,数据仓库,实时大数据,olap,数据仓库,数据库)