StarRocks 的数据分析进化论

如果说,操作系统的研发难度是肉眼可见的冰山,那么数据库的研发难度则大都隐藏在冰山之下,看似相对容易,但没有足够的实力也无法生产出好用易用的产品。

1989 年,当 Oracle 带着数据库产品第一次出现在中国市场时,国外数据库已经迭代了超过 7 个版本,国产数据库“不如人”的尴尬直至 20 世纪 80 年代之后才得以转变。

2021年,StarRocks 向量化 1.0 版本发布。同年,StarRocks 社区诞生。StarRocks开始探索国产数据库“极速统一”的道路。两年来,在社区贡献和合作伙伴支持下,StarRocks 在 GitHub 上收获了 5.8k Stars,并被超过 300 家市值超过 10 亿美元的头部用户所采用。仅过去一年,StarRocks 就发布了 v2.5、v3.0、v3.1 三个重大的里程碑版本,其中包括 3.0 版本推出的开源业界首创存算分离架构,以及湖仓分析、物化视图等重量级特性,并完成了从全场景 OLAP 分析进化到云原生湖仓分析的进化。

2023 年 11 月 17 日,由 StarRocks 社区发起、镜舟科技主办的 StarRocks 年度大型技术交流峰会 StarRocks Summit 2023 在上海成功举行。本次大会共设有 1 个主论坛和 4 个分论坛,以“极速进化,融合‘新’生”为主题,今年 StarRocks 所展示的用户新面孔,构建的湖仓新范式,都为我们进一步描绘了国产数据的开源生态与商业生态共生共荣的新未来。

新范式:StarRocks 引领湖仓一体趋势

如果说 Pipeline 引擎、主键模型、数据湖分析、资源隔离等一系列能力让用户能够利用 StarRocks 实现全场景数据分析的融合统一,成功将 StarRocks 带入了极速统一的 2.0 时代;那么用户可以使用 StarRocks 轻松构建湖仓一体架构的 StarRocks 3.0 新范式,则是 StarRocks 向 One Data、All Analytics 极速进化的又一个里程碑。

StarRocks TSC Member、镜舟科技 CTO 张友东介绍,升级到存算分离架构后,用户的存储成本能下降 80%,而计算节点则因为无状态,可以通过快速弹性、跨可用区部署等方式来提高计算的可用性,并且计算资源能够进行物理隔离,按需独立弹性伸缩。到 3.1 版本,开启 Data Cache 的情况下,存算分离架构下的性能表现更是已经接近本地存储的水平。

与此同时,现在 StarRocks 的湖仓分析能力已非常完备,既支持高效分析导入到 StarRocks 里的数据,也能直接分析外部数据源的数据,包括开放的数据湖 Hive、Iceberg、Hudi、关系型数据库 MySQL、PostgreSQL ,以及Elastic search 等,并能实现跨数据源的联邦分析。

另外,主键模型的能力在过去一年也得到持续提升,已经同时支持全内存和持久化的索引,并支持了 partial update、conditional update 的能力,在性能方面,针对批量更新的场景,引入了按列更新的模式,性能相比按行更新提升 10 倍以上。

张友东表示,未来数据演进的趋势是湖仓一体,用户无需关注是建湖还是建仓,不管是构建数据湖还是构建数据仓库,企业最终的目标是低成本、高效的解决数据分析问题。StarRocks 在具备存算分离、湖仓分析、物化视图等一系列重量级特性后,实现了往 Lakehouse 引擎的升级,借助 StarRocks 可兼具数据湖和数据库仓库的优势。

目前已有数十家企业在基于 StarRocks 实践湖仓新范式,并取得非常好的业务效果。其中,芒果 TV 采用 StarRocks 存算分离作为统一的 Lakehouse,所有数据导入到 StarRocks 进行统一管理;微信近实时的数据写入到 Iceberg,通过 Iceberg 直接分析;携程数据统一存储在 Hive,采用 StarRocks 直接查询加速报等等。

新面孔:StarRocks 大用户阵容不断壮大

作为一款技术领先的开源 OLAP 数据库产品,StarRocks 一直备受大用户青睐,随着 StarRocks 加速向各行各业渗透,大用户阵容也在不断扩大。除了腾讯、阿里、京东等在去年峰会上分享过经验的互联网“老面孔”,还有芒果 TV、伊利、平安银行等来自金融、制造、零售等行业的新面孔,也在峰会上做了精彩分享。

嘉宾们分享的场景包括金融营销、用户画像、自助分析、报表体验升级等,基本涵盖了当前实时数仓技术的所有经典应用场景。据孙文现介绍,镜舟科技基于 StarRocks 打造的企业级产品全年经历了近百次 POC,成功率达到 90% 以上。

此外,在 StarRocks 开源社区,用户数高速增长,目前已突破1万,同时有超过 300 名贡献者通过贡献文档、函数、connector、周边生态等功能,为 StarRocks 提供了备受用户欢迎的重要特性。镜舟科技 CEO 孙文现表示,StarRocks 开源社区为制胜场景的诞生提供了肥沃的土壤,各行各业、各种需求在社区中碰撞、交融,产生出 StarRocks 的制胜场景。

新未来:StarRocks 的进化故事还在继续

据张友东介绍,未来 StarRocks 还会朝着云原生方向继续迈进,推动实时分析链路进一步精简,通过 ETL on lakehouse,all in one 的作业模式,帮助企业低成本、高效率地发掘数据价值。

值得一提的是,StarRocks 社区是由镜舟科技与阿里云、腾讯、小红书、滴滴等互联网公司共同建设,包括全局字典函数、同步物化视图增强、Paimon Catalog 等在内的许多 feature 都由互联网大厂贡献,以后注定也还会从大厂生产环境中持续吸收灵感和助力,给业界带来更多惊喜。

与此同时,围绕 StarRocks 形成的商业生态也越来越完善,以镜舟科技为代表的商业团队不断提升着产品的易用性、稳定性,将产品能力落地到复杂的需求环境中,创造更大价值。


从起步缓慢到范式引领,以 StarRocks Summit 2023 为原点,我们看到了 StarRocks 向着 "One data,all analytics" 的目标不断前行的决心和信心。我们也期待看到越来越多的企业和开发者参与进来,利用 OLAP 领域的最前沿技术,完成自身业务场景的升级和进化,进而推动行业发展。

你可能感兴趣的:(数据库开发者)