2021 年 9 月 8 日,StarRocks 社区诞生。
这一年里,StarRocks 共发布了 5 个大版本和 41 个小版本,合并了 7200+ 次 Pull Requests,全球用户也从 0 增长到现在的 7000+。
这些数字的背后代表着什么样的意义和热情?
我们想借这个机会做个总结,也感谢跟每位社区朋友的遇见!
#01
关于技术的一些总结
—
对于“极速统一”这件事,我们是认真的。
各行各业对数据分析的需求日新月异。为了更好满足场景需求,StarRocks 不断迭代创新,在过去一年里共发布了 46 个大小版本,维持着两个月一大版本,每周一小版本的速度快速迭代。
2021 年 10 月,StarRocks 发布了开源后的第一个大版本—— v1.19:
这个版本核心特性是主键模型(Primary Key),主键模型解决了在列存分析型数据库中更新的难题,通过完全自主设计的存储引擎,在秒级数据导入场景下实现了高效的数据分析效率。同时也补充了外表写入功能,以满足集群数据同步的需求,通过 Global Runtime Filter 提升多表分析能力。
2022 年 1 月,具有里程碑意义的 StarRocks 2.0 发布,这是 StarRocks 的第一个 LTS (Long-term support) 版本: 在 2.0 版本中,StarRocks 创新性实现了基于全局字典的低基数字符串查询优化,树立了查询性能的业界新标杆,也标志着向量化引擎的完全成熟。另一个重要更新是全新设计的内存管理模式,也从根本上解决了 BE OOM 的问题。此外,2.0 版本还支持了 S3 上的 Hive 外表功能、通过了国产 CPU 鲲鹏架构的适配,加强了技术生态上的适配与链接。
2022 年 3 月,StarRocks 2.1 版本面世。 在这个版本中,StarRocks 实现了全新的 Pipeline 计算调度引擎,可以解决高并发下复杂计算调度的瓶颈。通过对 bitmap index 和 cache 的优化,当时单表性能完全超越了同类主流产品。对 Iceberg 外表的支持,则让数据湖分析的能力初步成型。
2022 年 5 月,StarRocks 2.2 版本面世。 在这个版本中,我们补充了大量核心功能,包括通过资源组管理解决多种负载之间的资源隔离问题,通过 Java UDF 方便用户对数据库函数进行自定义的扩展,通过实现 Json 类型来扩展半结构化数据的处理能力。由此,StarRocks 在统一负载、计算和数据类型上迈出了重要的一步。
2022 年 7 月,StarRocks 发布了最新版本—— StarRocks 2.3: 这个版本里我们支持了 External Catalog,让数据湖分析的易用性大大提升。另外进一步优化了主键模型,支持完整的 DELETE WHERE 语句,让用户可以更加方便地直接使用 SQL 命令完成带有复杂逻辑的数据删除操作,从而支持更加丰富的更新需求。主键模型的索引落盘可以把原来的内存消耗降低到 1/10 的水平。至此,StarRocks 的实时分析能力也达到了一个全新的高度。
02
关于社区的一些总结
—
与开发者共创价值是 StarRocks 社区成立的初心,也是我们不断努力的方向。
这一年,StarRocks 在全球增加了 7000 多名用户,助力超过 150 家大型用户构建了全新的数据分析能力。
这是一个什么样的概念?
当你早起晨练、上班打车、中午点外卖、下班去超市采购、收快递、刷微博微信、没事玩手机打游戏、或是在网上购物,这些场景的平台底层可能都有 StarRocks 在做数据分析。
除了帮助企业级用户构建全新的数据分析能力, StarRocks 社区还有四个核心价值:学习、分享、成长、链接。 我们希望通过不断的分享与共同学习,让更多人了解 StarRocks 和大数据技术、成为行业专家。
为了达成上述目标,我们也积极地推动社区体系的建立和流程的优化。我们把社区分成了以代码共建为主的 Developer Group 和由众多使用 StarRocks 的用户所组成的 User Group, 还有不同的 SIGs (专项兴趣小组) ,让开发者可以根据自己的兴趣和能力投身到自己感兴趣的项目/组织中。
(感谢积极参与活动和讨论的社区气氛组!)
想知道你在 StarRocks 社区的成长路径吗?点击解锁社区攻略 《 StarRocks 社区架构出炉,等你通关升级!》
#03
关于极速统一的现在和未来
—
新一代流批融合的极速湖仓(Lakehouse)是 StarRocks 项目的目标,也是我们社区这一年努力的方向。
目前,StarRocks 已经能作为批流一体的存储来对接像 Apache Kafka 这样的消息中间件,流式计算引擎 Apache Flink,也能对接 Apache Hive 这样的离线数仓和批处理引擎 Apache Spark。未来我们会在批处理和流计算上做进一步的融合,让用户更简单地进行实时和离线数据的统一分析。
在湖仓方向上,StarRocks 已经对接了Apache Hive、Apache Iceberg、Apache Hudi 等数据湖存储,可以无缝对接湖上的数据和元数据进行查询加速。未来我们会进一步融合湖仓,让湖上的数据有统一管理的基础上实现仓中的分析体验。
在新的云原生架构支持下,StarRocks 还会提供完全的存算分离方案来降低存储成本,提升计算弹性,支持多租户的资源隔离和数据共享能力。
未来,StarRocks 社区将一如既往秉持“开放、包容、合作、共赢”的社区文化,与全球开发者和用户并肩创新、探索极致之境,在顶级开源社区中携手开启极速统一的数据分析新范式。
下面一起来看看社区小伙伴对 StarRocks 社区的祝福:
https://www.bilibili.com/vide...
在这个值得庆祝的日子,社区特别准备了 StarRocks 一周年限量卫衣与各位小伙伴分享。
只需将本文分享朋友圈、留下温暖祝福语,发送截图给小助手(微信:StarRocks-1)。
我们将选出 10 条走心留言,将礼物送到你的手上。
参与规则:
1. 本活动截止至 9 月 13 日上午 10:00
2. 活动结束后,请联系 StarRocks 小助手领取奖品,并将朋友圈转发截图发送给小助手
3. 若 9 月 15 日前未联系小助手,默认放弃领奖
#04
StarRocks Summit Asia 2022 !
—
一周年没有 Party 怎么行?
StarRocks Summit Asia 2022 即将在 9 月 24 日举办!
届时将有来自华润万家、OPPO、携程、中原银行、众安保险、京东物流、百草味、腾讯游戏等 30 多家用户和社区共建伙伴一起共襄盛举,为大家共同描绘极速统一的数据分析新范式!
敬请期待!
关于 StarRocks
StarRocks 创立两年多来,一直专注打造世界顶级的新一代极速全场景 MPP 数据库,帮助企业建立“极速统一”的数据分析新范式,助力企业全面数字化经营。
当前已经帮助腾讯、携程、顺丰、Airbnb 、滴滴、京东、众安保险等超过 150 家大型用户构建了全新的数据分析能力,生产环境中稳定运行的 StarRocks 服务器数目达数千台。
2021 年 9 月,StarRocks 源代码开放,在 GitHub 上的星数已超过 3200 个。StarRocks 的全球社区飞速成长,至今已有超百位贡献者,社群用户突破 7000 人,吸引几十家国内外行业头部企业参与共建。