Ta oo

MaxCompute - ODPS重装上阵　第六弹 - User Defined Type

功能简介

MaxCompute中的UDT（User Defined Type）功能支持在SQL中直接引用第三方语言的类或者对象，获取其数据内容或者调用其方法。

在其他的SQL引擎中也有UDT的概念，但是和MaxCompute的概念有许多差异。很多SQL引擎中的概念比较像MaxCompute的struct复杂类型。而某些语言提供了调用第三方库的功能，如Oracle 的 CREATE TYPE。相比之下，MaxCompute的UDT更像这种CREATE TYPE的概念，Type中不仅仅包含数据域，还包含方法。而且MaxCompute做的更彻底：开发者不需要用特殊的DDL语法来定义类型的映射，而是在SQL中直接使用。

一个简单的例子如下:

set odps.sql.type.system.odps2=true;    -- 打开新类型，因为下面的操作会用到 Integer，即 int类型

SELECT java.lang.Integer.MAX_VALUE;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-o6DlMiy6-1577083585688)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fkipUBLr-1577083585689)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== “点击并拖拽以移动”)]

上面的例子输出：

+-----------+
| max_value |
+-----------+
| 2147483647 |
+-----------+

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XodFDzEP-1577083585690)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-S0o5mAjo-1577083585690)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== “点击并拖拽以移动”)]

和java语言一样，java.lang这个package是可以省略的。所以上面例子更可以简写为:

set odps.sql.type.system.odps2=true;

SELECT Integer.MAX_VALUE;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yJWJhTDj-1577083585691)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-219Re2tM-1577083585691)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== “点击并拖拽以移动”)]

可以看到，上面的例子在select列表中直接写上了类似于java表达式的表达式，而这个表达式的确就按照java的语义来执行了。这个例子表现出来的能力就是MaxCompute的UDT。

UDT所提供的所有扩展能力，实际上用UDF都可以实现。譬如上面的例子，如果使用UDF实现，需要做下列操作。

首先，定义一个UDF的类：

package com.aliyun.odps.test;

public class IntegerMaxValue extends com.aliyun.odps.udf.UDF {
  public Integer evaluate() {
    return Integer.MAX_VALUE;
  } 
}

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-beJg1DcY-1577083585692)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-XVVtaoAR-1577083585693)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== “点击并拖拽以移动”)]

然后，将上面的UDF编译，并打成jar包。然后再上传jar包，并创建function

add jar odps-test.jar;
create function integer_max_value as 'com.aliyun.odps.test.IntegerMaxValue' using 'odps-test.jar';

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-WL45hijy-1577083585693)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TmPLLsbc-1577083585693)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== “点击并拖拽以移动”)]

最后才可以在sql中使用

select integer_max_value();

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-rXhrvQXT-1577083585694)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Rsf5RjHu-1577083585694)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== “点击并拖拽以移动”)]

UDT相当于简化了上述一系列的过程，让开发者能够轻松简单地用其他语言扩展SQL的功能。

上述例子表现的是java静态域访问的能力，而UDT的能力远不限于此。譬如下面的例子：

-- 示例数据
@table1 := select * from values ('100000000000000000000') as t(x);
@table2 := select * from values (100L) as t(y);

-- 代码逻辑
@a := select new java.math.BigInteger(x) x from @table1;          -- new创建对象
@b := select java.math.BigInteger.valueOf(y) y from @table2;      -- 静态方法调用
select /*+mapjoin(b)*/ x.add(y).toString() from @a a join @b b;   -- 实例方法调用

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KycEbw9A-1577083585696)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-T6agt9wz-1577083585696)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== “点击并拖拽以移动”)]

上述例子输出结果 100000000000000000100。

这个例子还表现了一种用UDF比较不好实现的功能：子查询的结果允许UDT类型的列。例如上面变量a的x列是java.math.BigInteger类型，而不是内置类型。UDT类型的数据可以被带到下一个operator中再调用其他方法，甚至能参与数据shuffle。比如上面的例子，在MaxCompute studio中的执行图如下：

可以看出图中共有三个STAGE: M1, R2 和 J3。熟悉MapReduce原理的用户会知道，由于join的存在需要做数据reshuffle，所以会出现多个stage。一般情况下，不同stage不仅是在不同进程，甚至是在不同物理机器上运行的。双击代表M1的方块，显示如下：

可以看到，M1仅仅执行了 new java.math.BigInteger(x) 这个操作。而同样点开代表J3的方块，可以看到 J3 在不同的阶段执行了 java.math.BigInteger.valueOf(y) 的操作，和 x.add(y).toString() 的操作：

这几个操作不仅仅是分阶段执行的，甚至是在不同进程，不同物理机器上执行的。但是UDT把这个过程封装起来，让用户看起来和在同一个JVM中执行的效果几乎一样。

UDT同样允许用户上传自己的jar包，并且直接引用。如上面UDF的jar包。用UDT来使用:

set odps.sql.type.system.odps2=true;
set odps.sql.session.resources=odps-test.jar; --指定要引用的jar，这些jar一定要事先上传到project，并且需要是jar类型的资源

select new com.aliyun.odps.test.IntegerMaxValue().evaluate();

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Tae4RqCS-1577083585698)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TZ76ROIu-1577083585699)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== “点击并拖拽以移动”)]

如果觉得写 package全路径麻烦，还可以像java的import一样，用flag来指定默认的package。

set odps.sql.type.system.odps2=true;
set odps.sql.session.resources=odps-test.jar;
set odps.sql.session.java.imports=com.aliyun.odps.test.*;  -- 指定默认的package

select new IntegerMaxValue().evaluate();

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-OxYTOnlo-1577083585699)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw==)][外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-bm90ZKyz-1577083585700)(data:image/gif;base64,R0lGODlhAQABAPABAP///wAAACH5BAEKAAAALAAAAAABAAEAAAICRAEAOw== “点击并拖拽以移动”)]

详细说明

目前UDT 只支持java语言。
提供一些提升使用效率的flag：
- odps.sql.session.resources :指定引用的资源，可以指定多个，用英文逗号隔开：set odps.sql.session.resources=foo.sh,bar.txt;注意这个flag和SELECT TRANSFORM中指定资源的flag相同，所以这个flag会同时影响SELECT TRANSFORM和UDT两个功能。
- odps.sql.session.java.imports ：指定默认的package，可以指定多个，用逗号隔开。和java的import语句类似，可以提供完整类路径，如 java.math.BigInteger，也可以使用 *。暂不支持static import。
UDT支持的操作包括：
- 实例化对象的new操作。
- 实例化数组的new操作，包括使用初始化列表创建数组，如new Integer[] { 1, 2, 3 }。
- 方法调用，包括静态方法调用（因此能用工厂方法构建对象）.
- 域访问，包括静态域。
- 注意:
  - 只支持公有方法和共有域的访问。
  - UDT中的标识符是大小写敏感的，包括package，类名，方法名，域(field)名。
  - UDT支持类型转换，但限于SQL形式，如 cast(1 as java.lang.Object)。不支持java形式的类型转换，如（Object)1。
  - 暂不支持匿名类和lambda表达式（后续版本可能会支持）。
  - 暂不支持无返回值的函数调用（这个是因为UDT都是出现在expression中，没有返回值的函数调用无法嵌入到expression中，这个问题在后续的版本中可能会有解决方案）。
Java SDK 的类都是默认可用的。但是需要注意目前runtime使用的JDK版本是JDK1.8，比该版本更新的JDK功能可能不支持。
需要特别注意的是，所有的运算符都是MaxCompute SQL的语义，不是UDT的语义。如 String.valueOf(1) + String.valueOf(2)的结果是 3 (string隐式转换为double，并且double相加），而不是’12’ (java中string相加是concatenate的语义）。
除了string的相加操作比较容易混淆外，另一个比较容易混淆的是 = 操作。SQL中的=不是赋值而是判断相等。而对于java对象来说，判断相等应该用equals方法，通过等号判断的相等无法保证其行为（在UDT场景下，同一对象的概念是不能保证的，具体原因参考下述第8点）。
内置类型与特定java类型有一一映射关系，见UDF类型映射。这个映射在UDT也有效：
- 内置类型的数据能够直接调用其映射到的Java类型的方法，如 '123'.length() , 1L.hashCode()。
- UDT类型能够直接参与内置函数或者UDF的运算，如 chr(Long.valueOf('100'))，其中 Long.valueOf 返回的是 java.lang.Long 类型的数据，而内置函数chr接受的数据类型是内置类型BIGINT。
- Java的primitive类型可以自动转化为其boxing类型，并应用上面两条规则
- 注意：某些内置类型是需要 set odps.sql.type.system.odps2=true;才能使用的。否则会报错。
UDT对泛型有比较完整的支持，如 java.util.Arrays.asList(new java.math.BigInteger('1'))，编译器能够根据参数类型知道该方法的返回值是 java.util.List类型
注意构造函数需要指定类型参数，否则使用java.lang.Object，这一点和java保持一致:

new java.util.ArrayList(java.util.Arrays.asList('1', '2'))的结果是 java.util.ArrayList