Flink 使用介绍相关文档目录

简介

在使用纯Flink SQL的场景下，对于复杂业务逻辑，Flink提供的内置fucntion是无法满足要求的。我们需要实现自定义的function，来扩充Flink的功能。用户自己实现的function称为UDF(user defined function)。

Flink支持如下四种UDF：

ScalarFunction: 类似于Flink算子的map，一对一转换。
TableFunction: 类似于flatmap，一对多。
AggregateFunction: 类似于reduce，多对一。通过聚合操作把多行输出为一个值。
TableAggregateFunction: 多对多。目前没发现如何在SQL中使用（官网给出了在Table API中的使用方法），暂不介绍。

编写注意事项

编写UDF需要在项目中引入如下依赖。


    org.apache.flink
    flink-table-common
    ${flink.version}
    provided

UDF必须继承自ScalarFunction等基类。
UDF必须定义为public，不能为abstract。必须能被全局访问到。所以说不能包含非静态内部类或者匿名类。
必须拥有默认构造函数（无参数构造函数）。使用Table API的时候可以支持使用有参数构造函数的UDF来构造有状态UDF。SQL模式建议使用无状态UDF。
UDF必须无状态，只能包含static字段和transient字段。

注册UDF

定义好的UDF在SQL使用之前，必须要注册。注册方法有如下两种。

使用Java API：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tEnv = StreamTableEnvironment.create(env);

// 注册UDF
// 创建UDF，无法覆盖已经存在的同名function。该function位于目前所在的catalog和database中（有命名空间）。全名为catalog_name.database_name.function_name
tEnv.createFunction("function_name", new MyFunction());
// 创建临时function，可以覆盖已存在的function，有命名空间
tEnv.createTemporaryFunction("function_name", new MyFunction());
// 创建临时系统function，可以覆盖已存在的function，位于全局，无命名空间概念
tEnv.createTemporarySystemFunction("function_name", new MyFunction());

使用SQL方式：

CREATE [TEMPORARY|TEMPORARY SYSTEM] FUNCTION
  [IF NOT EXISTS] [[catalog_name.]db_name.]function_name
  AS identifier [LANGUAGE JAVA|SCALA|PYTHON]

具体解释和Java API相同，不再赘述。

例如：

CREATE TEMPORARY SYSTEM FUNCTION changecase AS 'com.paultech.ChangeCaseTool';

注意：必须把UDF的jar包添加到Flink框架的classpath下（例如放置到$FLINK_HOME/lib中）。或者通过ADD JAR动态加载用户jar到classpath。参见https://nightlies.apache.org/flink/flink-docs-release-1.15/zh/docs/dev/table/sql/jar/。

结果计算

UDF可以按照实际需要，重写基类提供的open()，close()和isDeterministic()方法。

UDF的结果计算方法例如eval(), accumulate(), 或者 retract()方法，在运行阶段被动态生成的代码调用。

结果计算方法可以定义一个或者多个参数，可以使用重载方法，也可以使用变长参数。

类型推断

Flink Table API是强类型API，所有函数的参数类型和返回类型都必须映射为DataType。Flink支持自动类型推断和通过注解（@DataTypeHint和@FunctionHint）指定类型。如果有更为复杂的类型推断逻辑，可以重写父类的getTypeInference方法。

自动类型推断

对于自动类型推断，Java数据类型和DataType类型对应关系参见https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/dev/table/types/#data-type-extraction。

注解显式指定类型

@DataTypeHint可用于返回值，方法体（作用于返回值）和方法参数上，从而修改返回值或者式参数的DataType。

@DataTypeHint支持复杂类型，例如@DataTypeHint("ROW")。

@FunctionHint适用于一个eval等结果计算方法可以接收多组类型不同的参数，返回值类型和接收参数类型相关的这种场景。我们贴出官网的例子：

import org.apache.flink.table.annotation.DataTypeHint; import org.apache.flink.table.annotation.FunctionHint; import org.apache.flink.table.functions.TableFunction; import org.apache.flink.types.Row; // function with overloaded evaluation methods // but globally defined output type @FunctionHint(output = @DataTypeHint("ROW")) public static class OverloadedFunction extends TableFunction { public void eval(int a, int b) { collect(Row.of("Sum", a + b)); } // overloading of arguments is still possible public void eval() { collect(Row.of("Empty args", -1)); } } // decouples the type inference from evaluation methods, // the type inference is entirely determined by the function hints @FunctionHint( input = {@DataTypeHint("INT"), @DataTypeHint("INT")}, output = @DataTypeHint("INT") ) @FunctionHint( input = {@DataTypeHint("BIGINT"), @DataTypeHint("BIGINT")}, output = @DataTypeHint("BIGINT") ) @FunctionHint( input = {}, output = @DataTypeHint("BOOLEAN") ) public static class OverloadedFunction extends TableFunction

Flink 使用之 SQL UDF

Flink 使用介绍相关文档目录

简介

编写注意事项

注册UDF

结果计算

类型推断

自动类型推断

注解显式指定类型

自定义类型推断

确定性

open和close方法

ScalarFunction

TableFunction

AggregateFunction

参考文档

你可能感兴趣的:(Flink 使用之 SQL UDF)