开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍

摘要:本文将分享阿里云与 StarRocks 社区合作打造的云上 StarRocks 极速湖仓的云原生产品实践。主要包括四个部分,第一部分介绍 StarRocks 全托管形态,以及免运维服务的 OLAP 云产品;第二部分介绍 StarRocks Manager 的实例管理、诊断分析、元数据管理、安全中心等功能;第三部分介绍在社交、在线教育、电商等场景的使用案例;最后是对产品的长短期规划:
1.StarRocks 产品介绍
2.StarRocks 功能介绍
3.StarRocks 场景案例
4.StarRocks 未来规划

一、StarRocks 产品介绍

阿里云与 StarRocks 社区从2022年初开始以半托管的形态合作。现有大概200客户已经在用半托管的 StarRocks 产品。今年开始做全托管的产品形态,希望帮助大家更进一步降低管理、使用门槛,也配合社区将产品推向更多的 OLAP 用户。

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第1张图片

EMR Serverless StarRocks 是 StarRocks 在阿里云上的一个全托管服务,结合 StarRocks 自身极速和统一的特性,重点围绕降低门槛和降低运维复杂度这两个目标,为客户提供了更多的能力。

易用性方面,在 Serverless 的形态下,提供了全托管、免运维的服务,大家不用再去担心 StarRocks 集群的稳定性,比如日常使用中宕机等问题。在数据管理方面,提供了易用的慢 SQL 分析和集群健康诊断,便捷的导入任务管理,以及可视化的元数据管理。

结合阿里云上的一些产品,集成了云原生的能力。首先是集成了底层资源,结合K8S,实现了即开即用,仅需三四分钟,即可完成一个集群的快速创建。并且提供了后续高效扩缩容、升降配的能力,实现了资源的快速交付。另外,与 DLF 深度集成,实现了整个云上数据湖体系的打通。与 Flink VVP 深度集成,进一步降低开发成本。

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第2张图片

上图展示了 EMR 产品体系。本次介绍重点在 OLAP 部分。StarRocks 是 EMR 推出的第一个全托管形态,接下来还会有 Serverless Doris,以及 Presto 等更多的全托管形态,帮助用户低门槛地去使用大数据的技术栈。

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第3张图片

利用 StarRocks 我们可以构建极速统一的新一代数据架构,在分析层可以通过 StarRocks 统一 OLAP 引擎,覆盖所有 OLAP 场景,这样可以技术栈统一,一份技术及运维,多种 OLAP 分析场景都可以适用。

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第4张图片

StarRocks 系统架构如上图所示,整个系统的核心就是 FE(Frontend)和BE(Backend)。

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第5张图片

EMR 全托管主要是围绕K8S的布署形态,半托管主要是围绕 ECS 的布署形态。半托管,主要提供快速部署的能力,包括监控、告警等基础集群管理能力。全托管更上一层,对于FE、BE自身的服务管理也去托管,这样用户就可以不用关心计算资源这一层的运维和管理。更进一步,期望将平台运维能力,包括扩缩容、集群监控告警等,都进行全托管,从而帮助用户省去更多的运维成本。全托管提供的能力一方面是全方位的服务免运维,另一方面是自动升级的能力。还有一些 Manager 的能力,更好地管理数据,包括导入任务、元数据、权限等。

二、StarRocks 功能介绍

实例管理

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第6张图片

实例管理,主要是快速解决集群在全托管形态下的部署能力和监控能力,是最基础的能力。并且可以更好地实现自动化升级。另外,提供了可视化配置的能力,以及一些监控和告警规则的模板。

诊断与分析

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第7张图片

在日常数据查询或数据应用的过程中经常会碰到 SQL 慢的问题,需要分析其原因,并找到相应的解决方案。EMR StarRocks Manager 提供了可视化的 SQL 诊断分析能力,可以帮助用户快速找到根因。

元数据管理

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第8张图片

目前元数据管理只提供了一个比较基本的能力,即展示了表的内容。后续会实现更多更细粒度的功能,比如关于导入任务的、关于物化视图的、关于外表管理的能力等等。

安全中心

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第9张图片

当前在 Serverless 版本里提供了一个基础的用户基本管理以及库级别的权限控制。因为3.0要做一个社区的权限重构,所以计划会在3.0发布之后去做一个更细粒度的权限控制。

版本功能说明

以下表格中列出了 EMR StarRocks 不同版本功能的差别。

内核层面基本上是保持一致的。个别功能,比如数据湖查询的一些场景下,在迭代节奏上,因为与阿里云内部产品适配会更快一些,所以阿里云的版本推出得更快一些,但最终也都会贡献到社区。Flink VVP CTAS 这种场景,因为跟Flink之间是一个特殊定制的版本,所以无法贡献到社区。

实例运维管理方面,全托管版本提供的可视化、免运维能力范围会更广一些。前文介绍的 Manager 的一些能力,比如可视化数据库/表管理、慢 SQL 分析等,目前也只能在 Serverless 的版本里用到。

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第10张图片

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第11张图片

三、StarRocks 场景案例

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第12张图片

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第13张图片

四、StarRocks 未来规划

开源大数据平台 E-MapReduce Serverless StarRocks 产品介绍_第14张图片

EMR Serverless 版本从今年一月份开始邀测,当时只具备了一些基本能力。从4月10号开始公测之后发布了更多的能力。

Q2的计划,一个是商业化发布,另一个是围绕 DLF 湖仓分析的场景,去做更多的增强,因为在湖仓分析对计算资源的要求更加灵活,所以需要按量付费以及弹性的一些能力。另外,会去提供实例的健康检查,帮助大家快速定位到集群有问题的地方。围绕 Manager,实现物化视图的管理能力,虽然目前物化视图的使用还不多,但随着3.0的发布,存算分离架构发布之后,物化视图会使用得越来越多。还有数据导入管理,以及 SQL Editor 等等。

Q3,在3.0存算分离发布之后,期望能够围绕 Iceberg、Hudi 等湖格式直接应用整个大数据场景,可以使用物化视图以及湖格式的一些能力,两者结合,去快速实现 LakeHouse 的场景。另外,还有重构权限模型,以及 MaxCompute 集成等。

Q4,会在实例的备份和恢复,以及实例迁移方面,增强易用性和产品化。并继续对已有功能做更深层的优化和迭代。

以上就是今年的一个整体规划,当然还会结合客户具体场景需求去做调整。

原文链接

本文为阿里云原创内容,未经允许不得转载。

你可能感兴趣的:(云栖号技术分享,阿里云,云计算,大数据)