Easy Sql让ETL开发变轻松

原创公众号文章《Easy Sql让ETL开发变轻松》- 作者:阳沁珂

ETL任务的搭建是数据型项目的必要,但是在搭建ETL任务时,你是否有过这样的烦恼?

  • 多种数据库平台连接,使得连接的管理变得混乱,更改数据库连接方式的时候需要改大量散步各处的代码。
  • SQL的代码整洁度不够,在不同的SQL文件中存在大量的重复语句。
  • SQL能做的处理有限,大部分时候对于数据还需要衔接额外的处理,使得整个ETL流程不清晰。
  • 没有log和debug的工具

公司自主研发的开源代码Easy SQL (https://github.com/easysql/easy_sql)使用python搭建了一套工具系统,使得上述问题能被轻松解决。下面就这几个方面讲解一下如何使用Easy SQL来加速ETL的搭建与管理。

一键换数据库

在设计上,虽然可扩展的数据库后端不同,但是Easy SQL的process模块是通用的。这就意味着,只需将所需的数据库后端引擎传入process模块,即可完成数据库后端的转换。如下代码所示,对于sparkSQL的后端,只需依据spark session创建spark backend对象,而对于使用SQLAlchemy直接连接的关系型数据库,则创建RDB Backend对象。目前支持的后端引擎有:SparkSQL,Clickhouse,Postgre,Bigquery。通过这样的解耦,可以实现一键切换数据库连接,其执行逻辑由processor封装好再进行调用。

Template组装SQL

在项目中,我们经常强调代码的整洁性,但是容易忽略ETL的执行SQL也是代码的一部分,SQL的整洁性低会给项目带来不必要的混乱。举个例子,许多项目需要被执行的SQL文件单独放在一个文件里,并且不同的SQL中可能存在大量重复的语句,比如where的过滤条件,或者join的对应约束。虽然这样的SQL文件简单直接明了,但是设想一个场景如果我们的数据库表列名改变,导致所有相关的join与where都需要被修改。这时,我们并不知道在大量的SQL文件中有哪些文件是调用了修改列的,甚至需要开发人员一个一个文件查看排查,这无疑会使得代码变得沉重难以修改并且降低项目的开发速度。当然这个问题已经被许多的开发人员发现,他们有在实践中自定义template模块来加强对SQL的管理。但是不同项目的管理方法并没有统一,这又增加了on boarding成员的学习成本。因为这时读懂一个ETL,不仅仅需要懂SQL的调用,还需要了解单属于这一个项目的template系统是怎样运作来管理和生成执行语句的。

我推荐使用Easy SQL中的template功能,因为他通过简易的语句快速组装SQL。在Easy SQL中,一份SQL执行文件,不是单独的一个SQL语句,而是一整个的执行逻辑。其中语句的功能除了一般的增删改查,还有新加入声明变量,声明模版等功能,其中每个语句的作用,由他所在行上方的target定义。一个应用场景如下方的例子中,需要将两张表的部分列数据使用union 的方法select,如果每一个select都写出需要的列名会使得代码变得冗余。但是在Easy SQL里,我们将所需要的列名放入了名叫dim_cols的template中,在之后的语句中使用@{dim_cols}代替了列名。通过对template的调用,大幅度提高代码整洁性,减少不必要的重复语句。

除了声明template以外,Easy SQL的变量声明功能也使得ETL变得更加灵活易用。一个应用场景,假设我们有一张规则表记录阈值,一张数据表。并且情境下不允许我们使用join,要知道有哪些数据超过了阈值,我们需要先从规则表得到阈值再到数据表中做过滤。一般需要两个SQL,并且使用第一个SQL的执行结果来动态生成第二个SQL的执行过滤条件。在这个时候,整个执行过程由于需要额外的处理来生成下一个执行语句而割裂开了。在代码中,整体的可读性会大幅降低,因为开发人员需要到多个文件中去理解生成的过程。而Easy SQL的动态组建功能,将所需的信息拼接在一个文件之中。当一个执行语句的目标被定义为variables,该语句的执行结果会变成变量名与变量值储存到内存之中。其中变量名是由select as { }预设的,变量值由执行结果产生。在后续的SQL的任意位置中使用这个变量名,这个变量名会被替代为变量值之后再被执行。对比之下,在使用了easy sql时,执行过程不再是被割裂的,在一个文件中开发人员就能清晰得了解到整个语句的生成逻辑。

Function流程衔接

在上面所描述的情形中,我们将一种拼接的需求衔接了起来,使得代码变得整体化。但是通常还有另外一种情况需要将执行割裂开来,那就是需要SQL语句以外的python模块的一些方法之后再继续SQL逻辑。在这里可以使用Easy SQL,其function功能十分强大,使用者自定义任意的python函数,将其注册在processor之中后,既可以在SQL中调用。举个例子,我们自己定义一个简单的相加的方法在easy SQL中直接使用(如下方左图)。这种function的调用还能用于控制流程(如下方右图),在SQL的处理当中穿插python的处理模块。其优势是让我们的流程在一个文件中一目了然。

除此之外,Easy SQL的功能还可以在SQL语句较为复杂的时候,使用function来生成执行语句。比如,在select的时候,我们想要过滤掉不需要的列名,留下剩余的列。在写SQL的时候我们并不想明确写出列名,而是通过function的调用来帮助我们生成需要的语句。比如下面的例子中的function,就是通过在被调用时执行select语句查找table的所有列,并且排除掉不需要的列,返回正确的select中的语句。这种方法可以大幅提高我们的SQL整洁性,不再需要枚举所有的需要的列名,而且避免因为table的列名改变而需要改变大量的select语句。

Log 与debug的工具

日志的记录是项目健康必不可少的清单,一份好的日志帮助开发人员在遇错的时候准确得把握原因。但是通常的SQL执行缺少统一的日志,往往都是在代码中生成日志信息。但是这样的日志处理也是一种割裂,因为开发人员只看SQL文件并不能知道有哪些信息被log记录了,而是需要翻看代码去了解。Easy SQL提供的log工具能在SQL文件中随时指定需要被log的信息。假设一个情景,我们需要检查order表的数据量是否达标,并且将信息放入到log系统之中。easy sql通过封装到模块,我们可以直接用target=log来控制需要被log出的信息,其中log之后的名字是会被一起log出的message用于定位。除了信息的log之外,还可以使用target=check来实现一个核查的功能。这样的设计,让log与debug的指定信息与SQL位于同一份文件之中,整个代码更加得易读易懂。

总结

Easy SQL致力于将ETL变得更加容易轻松易于管理,使得开发人员能将更多的时间用于产品的研发之中。目前项目刚刚开源,还在继续迭代加入新的功能,近期正在结合SQL Fluff工具实现自动排查SQL代码整洁性。

你可能感兴趣的:(Easy Sql让ETL开发变轻松)