Doris Summit 2022 将于 1 月 6 -7 日在线上正式举办,本次峰会共分 2 天进行,首日上午为主论坛:核心技术解析,下午为商业与数据生态分论坛,7日全天为行业用户最佳实践案例。大会汇聚了来自全球顶尖云厂商、一线互联网企业、明星创业公司以及开源领域的众多资深技术专家,旨在探讨和洞悉 Apache Doris 最新技术趋势、行业最佳实践、以及数据上下游生态应用。
其中在首日的主论坛上,来自 Apache 基金会、SelectDB、百度、美团、字节跳动等企业的社区核心贡献者将与大家一道:
- 回顾过去,如何在 Apache Way 的指引下打造一个强大而繁荣的开源社区;
- 立足现在,如何在用户真实业务的考验下实现核心技术特性的飞跃性进步;
- 展望未来,如何在数据分析架构的变革中探明并引领技术演进趋势;
一场精彩的技术盛宴,不容错过!
议题介绍
Doris in Apache
“作为全球最大的开源软件基金会,Apache 基金会的使命是为公众提供免费开源软件。随着多年的发展,以 Apache Hadoop、Apache Spark、Apache Flink 等为代表的 Apache 项目几乎构成大数据技术领域的事实标准,Apache Doris 也正是因此成为 Apache 大数据生态的一员,并逐渐成长为 Apache 顶级项目,获得了全球开发者的关注与认可。
在这次演讲中,我将以 Apache Doris 的故事为例,为大家介绍如何基于 Apache Way 打造一个强大而繁荣的开源社区,并帮助开源项目取得最终的成功。”
新起点、新征程,Apache Doris 社区回顾与展望
“2022 年必定是 Apache Doris 发展历程中至关重要的年份之一。在这一年,Apache Doris 的飞速进展有目共睹,社区贡献者和提交代码量成倍数增长,核心功能特性取得了全面进化,全球范围内用户企业规模超过 1000 家,并且于 6 月正式毕业成为 Apache 顶级项目。
在本次演讲中,我将与大家一同回顾过去一年来 Apache Doris 的里程碑时刻以及重要进展,并揭晓 2023 年社区的重要规划以及 RoadMap。”
执行模型变迁与性能优化
“ 凭借 MPP 查询框架、向量化执行引擎以及众多查询优化手段,Apache Doris 实现了极致的查询性能,尤其是近期公布的最新版本,无论是宽表模型或星型模型都取得了近 10 倍的性能提升,更是在公开的数据库评测榜单中取得了极为亮眼的表现。而未来 Apache Doris 又将在哪些方向进一步实现性能的突破?
在本次演讲中,我将为大家介绍 Apache Doris 执行模型的变迁与性能优化背后的技术实现,以及在最新版本中实现的全新内存管理框架,同时将揭秘后续性能持续突破的方向。”
全新查询优化器的设计与实现
“从一条查询 SQL 命令的提交到最终查询计划的生成与执行,查询优化器是数据库高效运行至关重要的一环。而现代查询优化器面临着越来越复杂的查询需求以及越来越多样的场景负载,对查询优化器提出更高的性能和准确性要求。在这样的背景下,Apache Doris 全新查询优化器应运而生。
在本次演讲中,我们将为大家介绍 Apache Doris 全新查询优化器的设计思考与技术实现,并正式公开当前的开发进展以及后续的版本规划。”
多模数据分析与复杂类型的设计与实现
“随着数据量的爆炸式增长,数据结构日趋复杂,半结构化、非结构化数据的分析需求快速增长。在这样的背景下,Apache Doris 在最新版本中对实现了二进制 JSON 类型 JSONB、数组类型 Array 的支持,后续并将进一步强化多模分析能力,旨在同一数据库中实现对结构化、半结构化、非结构化数据的统一存储与分析。
在本次演讲中,我们将为大家介绍 Apache Doris 在多模数据分析场景取得的进展,并一一揭晓后续在 JSON Native 支持、文本分析以及 Array、Map、Struct 等复杂数据类型上的迭代计划。”
数据湖联邦分析特性揭秘
“依托于强大的并行处理能力和高性能算子,Apache Doris 在海量数据集上提供了亚秒级的交互式查询体验。而近年来,随着数据湖技术的迅猛发展,越来越多用户开始依托数据湖技术构建其基础数据的存储架构,并利用数据湖的批流一体、事务隔离与数据更新能力,结合各类计算引擎实现湖仓一体的架构,加速海量数据的深度洞察。
在本次演讲中,我将为大家介绍湖仓一体的技术演进,并揭秘如何通过 Apache Doris 的数据湖联邦分析能力,构建湖仓一体化的现代数据平台。”
全新 Unique Key 的设计与存储模型优化
“在实时数据仓库的业务场景中,能够友好地支持数据实时更新是一项重要的能力,而这也是业内常见 OLAP 数据库一贯的短板之一。在 Apache Doris 最新版本中,在原 Unique Key 的基础上引入了全新的数据更新模式 Merge-on-Write,力求在实时更新和高效查询间得到统一。经过测试,在多个真实场景的模拟测试中,性能有了数倍至数十倍的提升。
在本次演讲中,我将为大家介绍全新 Unique Key 的设计思考与实现细节,同时也将分享新版本在存储引擎上进行的诸多优化以及后续的工作规划。”
多表物化视图的设计与实现
“物化视图是一种典型的「空间换时间」思路,通过预先计算并将定义的查询结果存储起来,以加速相同查询的效率。目前 Apache Doris 的物化视图由于底层实现方案的缘故,在使用场景中存在着许多限制,例如不支持多表Join、聚合函数不支持表达式等,无法彻底发挥预计算带来的性能提升。因此,在 2022 年我们正式启动了多表物化视图的设计与开发。
在本次演讲中,我将为大家介绍当前多表物化视图特性的设计思考,并进一步同步该功能特性的研发进展以及后续的版本计划。
”
稳定性提升与代码质量保证
“在 Apache Doris 社区贡献者规模与提交代码量日益递增的今天,我们势必需要一套稳定可执行的质量保障机制及相应的配套工具,保证社区贡献者工作效率的同时,也能进一步提升贡献者所提交代码的质量。
在本次演讲中,我将为大家介绍 Apache Doris 社区在稳定性建设和代码质量保证方面作出的努力与成果。”
主论坛议程
交流群
您可通过下方二维码加入 Doris Summit 2022 峰会交流群,关注实时峰会资讯,参与峰会直播互动! 还有机会与讲师1v1在线交流~
关于 Doris Summit
Doris Summit 是 Apache Doris 社区年度技术盛会,大会汇聚世界各地 Apache Doris 社区成员及实时分析数据库领域的专家。社区通过大会公布最新动态以及年度 Roadmap,集结国内外各大厂商分享基于 Doris 的实践经验及行业未来发展趋势,更有领域内大咖与大家在线互动交流。这是社区用户及相关领域从业者不可多得的技术盛会,不容错过,诚邀您来参加!
关于组织方
SelectDB 是Doris Summit Asia 2022 的组织者,也是 Apache Doris 背后的商业化公司。致力于为 Apache Doris 社区提供一个由全职工程师、产品经理和支持工程师组成的团队,繁荣开源社区生态,打造实时分析型数据库领域的国际工业界标准。基于 Apache Doris 研发的新一代云原生实时数仓 SelectDB,运行于多家云上,为用户和客户提供开箱即用的能力。