开源之夏是由中科院软件所“开源软件供应链点亮计划”发起并长期支持的一项暑期开源活动,旨在鼓励在校学生积极参与开源软件的开发维护,培养和发掘更多优秀的开发者,促进优秀开源软件社区的蓬勃发展,助力开源软件供应链建设。
2023 年,开源之夏与 133 家优秀开源社区紧密合作,成功为本届活动上线 594 个项目任务,项目涵盖了操作系统、编译器、人工智能、大数据、数据库、云原生、RISC-V 等众多热门领域,涉及技术标签 110 多个。
数据库作为现代软件系统的核心组成部分,扮演着存储、管理和处理数据的重要角色。了解数据库的原理和技术,掌握数据库管理和优化的方法,对于从事软件开发、数据分析和系统架构等领域的学生和专业人士来说,都具有极大的价值和必要性。
作为一款高性能分析型数据库,StarRocks 社区在本次活动中提供了 3 个项目供同学们认领,分别涵盖基础难度和进阶难度,适合不同阶段的同学进行实战练习!通过参与 StarRocks 社区的项目,你将深入了解最前沿的数据库技术发展动态,零距离体验顶级开源项目,并通过社区导师的耐心指导和实际项目参与经历,培养良好的编码习惯和能力,实质性提升自身的专业能力,为未来的职业生涯奠定坚实基础。
参与开源之夏的同学们将获得丰厚的回报。除了开源之夏的结项证书,你还有机会赢得最高 12000 元的结项奖金。作为 StarRocks 社区的一员,你还将收获专属的社区周边礼品。
加入我们,一起开启数据库技术的奇妙之旅吧!期待与你相约 StarRocks 社区!
编辑切换为居中
添加图片注释,不超过 140 字(可选)
报名时间:4 月 29 日 至 6 月 3 日 15:00 UTC+8
报名方式:扫描上方「海报左侧二维码」报名或复制链接到浏览器打开:https://summer-ospp.ac.cn/org/orgdetail/fbddcc44-29d8-407b-abc4-13dcaf02d662?lang=zh
报名指南及注意事项:开源之夏学生报名官方公告
报名要求:本活动面向年满 18 周岁在校学生
StarRocks 社区简介
StarRocks 是一款高性能分析型数据仓库,使用向量化、MPP 架构、CBO、智能物化视图、可实时更新的列式存储引擎等技术实现多维、实时、高并发的数据分析。StarRocks 既支持从各类实时和离线的数据源高效导入数据,也支持直接分析数据湖上各种格式的数据。
StarRocks 兼容 MySQL 协议,可使用 MySQL 客户端和常用 BI 工具对接。同时 StarRocks 具备水平扩展,高可用、高可靠、易运维等特性。广泛应用于实时数仓、OLAP 报表、数据湖分析等场景。
截至 2022 年底,StarRocks 已被全球超过 200 家市值 70 亿人民币以上的头部企业采用,开源社区聚集 200 多位贡献者,近万社群用户。目前 StarRocks 在 GitHub 星数已超 4400 个,是《2022 开源大数据热力报告》中热力值增速第一的项目。StarRocks 也是全球顶级基金会 Linux Foundation 旗下的开源项目。
开源协议:Apache License 2.0
社区邮箱:[email protected]
官网地址:https://www.starrocks.io/
社区项目主仓库:https://github.com/StarRocks/starrocks
导师介绍
StarRocks 开源之夏 2023 任务详情
任务一(基础难度)
支持 StarRocks Kettle Connector
项目简介:Kettle 是一款开源的 ETL 工具,采用 Java 编写,可以在 Windows、Linux、Unix 上运行,支持低代码、拖拽方式开发 ETL 数据管道,可对接包括传统数据库、文件、大数据平台、接口、流数据等数据源。本项目为 StarRocks 支持 Kettle connector,支持通过 Kettle 将数据写入到 StarRocks。
项目产出要求:
实现 StarRocks Kettle Connector,并贡献到开源社区
项目技术要求:
熟悉 Java 语言,了解数据库基本操作
导师:李鹏飞 [email protected]
任务二(基础难度)
在 StarRocks 中实现 ORC Chunk Writer
项目简述:
ORC 文件格式是 Hadoop 生态圈中的一种列式存储格式,用于降低 Hadoop 数据存储空间和加速 Hive 查询速度,也是当前 OLAP 系统中最常用的列存格式之一。和 Parquet 类似,ORC 并不是一个单纯的列式存储格式,而是根据行组分割整个表,在每一个行组内进行按列存储。StarRocks 当前已经实现对 ORC 文件的读取功能,能够正常访问其他数据源的 ORC 数据文件。本项目考虑在 StarRocks 中实现 ORC Chunk Writer,支持将 StarRocks 的 chunk 数据写入到 ORC 文件当中。
项目产出要求
在 StarRocks 上实现 ORC Chunk Writer,并贡献到开源社区
项目技术要求
熟悉C++语言,有一定的数据库基础
导师:杨关锁 [email protected]
任务三(进阶难度)
用 JIT 加速 StarRocks 表达式执行
项目简述:
Just-in-Time (JIT) compilation 技术广泛应用于现代的数据库系统中。它是将用户输入的表达式、查询、存储过程等现场编译成二进制代码再执行,相比解释执行的方式,运行效率要高得多。尤其是对于计算密集型查询、或频繁重复使用的计算过程,运用代码生成技术能达到数十倍的性能提升。StarRocks 的执行引擎主要是采用向量化技术加速,如何将向量化和 JIT 结合是一件值得研究的课题。本次实践主要是用 JIT 优化 StarRocks 向量化执行引擎的表达式计算。
项目产出要求
用 LLVM 来完成表达式的 JIT 优化,并贡献到开源社区
项目技术要求
有一定的 C++ 和 数据库执行引擎的基础
导师:方祝和 [email protected]
欢迎各位同学报名参 StarRocks 项目 ,与广大的 StarRocks 社区伙伴们携手共建极速统一的湖仓分析新范式!
无论是技术上的疑问还是项目中的挑战,如果你遇到任何问题,别担心!点击下方链接加入“开源之夏 2023 x StarRocks 活动群”,我们将为你提供最大程度的帮助和指导。
https://842372.ma3you.cn/articles/OdX21k6/