Catalyst——Spark SQL中的函数式关系查询优化框架

概要
Catalyst是Spark SQL中的一套函数式关系查询优化框架。传统上认为查询优化器是关系型数据库最为复杂的核心组件。在Catalyst的帮助下,Spark SQL的开发者们只需编写极为精简直观的申明式代码即可实现各种复杂的查询优化策略,从而大大降低了Spark SQL查询优化器的开发复杂度,也加快了项目整体的迭代速度。 本演讲将Catalyst中最为关键的TreeNode和Rule结构提炼出来,并用之实现了一个完整的带编译优化的Brainfuck解释器, 全部代码不到三百行。通过这个迷你解释器,观众将可以完整理解Catalyst的基本工作原理,并体会到函数式、申明式编程的强大。

个人简介

连城,Databricks软件工程师。2006年加入网易杭州研究院,参与分布式即时通讯集群开发。2008年至2012年间加入百度,后任客户端软件部技术委员会主席,并建立了统一的后端服务研发团队,负责百度多款PC客户端软件的综合后端服务研发。工作若干年间,以即时通讯服务为契机接触了Erlang,进而对函数式语言、程序语言理论与分布式系统产生了浓厚兴趣,闲暇时间翻译了《Erlang并发编程(第一篇)》和《Erlang/OTP并发编程》两册小书。2013年初出于对函数式语言的兴趣通过Coursera学习Scala,后同样因为对函数式语言和分布式系统的兴趣加入Intel物联技术研究院研究Spark,并有幸于2014年初加入Databricks,目前主要精力集中于Spark SQL的开发。

QCon是由InfoQ主办的全球顶级技术盛会,每年在伦敦、北京、东京、纽约、圣保罗、杭州、旧金山召开。自2007年3月份首次举办以来,已经有包括传统制造、金融、电信、互联网、航空航天等领域的近万名架构师、项目经理、团队领导者和高级开发人员参加过QCon大会。

你可能感兴趣的:(Catalyst——Spark SQL中的函数式关系查询优化框架)