Flink SQL 如何实现列转行 ?

在 SQL 任务里面经常会遇到一列转多行的需求,下面就来总结一下在 Flink SQL 里面如何实现列转行的,先来看下面的一个具体案例.

需求

原始数据格式如下:

name	data
JasonLee	[{"content_type":"flink","url":"111"},{"content_type":"spark","url":"222"},{"content_type":"hadoop","url":"333"}]

data 格式化

{
    "name": "JasonLee",
    "data": [{
            "content_type": "flink",
            "url": "111"
        }, {
            "content_type": "spark",
            "url": "222"
        },
        {
            "content_type": "hadoop",
            "url": "333"
        }
    ]
}

现在希望得到的数据格式是这样的:

name	content_type	url
JasonLee	flink	111
JasonLee	spark	222
JasonLee	hadoop	333

这是一个典型的列转行或者一行转多行的场景,需要将 data 列进行拆分成为多行多列,下面介绍两种实现方式.

使用 Flink 自带的 unnest 函数解析
使用自定义 UDTF 函数解析

建表 DDL

CREATE TABLE kafka_table (
name string,
`data` ARRAY>
)
WITH (
    'connector' = 'kafka', -- 使用 kafka connector
    'topic' = 'test',
    'properties.bootstrap.servers' = 'master:9092,storm1:9092,storm2:9092',  -- broker连接信息
    'properties.group.id' = 'jason_flink_test', -- 消费kafka的group_id
    'scan.startup.mode' = 'latest-offset',  -- 读取数据的位置
    'format' = 'json',  -- 数据源格式为 json
    'json.fail-on-missing-field' = 'false', -- 字段丢失任务不失败
    'json.ignore-parse-errors' = 'true'  -- 解析失败跳过
)

这里在定义 data 字段类型的时候直接定义为 ARRAY 类型,因为 unnest 函数需要一个数组类型的参数.

unnest 解析

select name,content_type,url
from kafka_table CROSS JOIN UNNEST(`data`) AS t (content_type,url)

select name,content_type,url
from kafka_table, UNNEST(`data`) AS t (content_type,url)

select name,content_type,url
from kafka_table left join UNNEST(`data`) AS t (content_type,url) on true

自定义 UDTF 解析

自定义表值函数（UDTF），自定义表值函数，将 0 个、1 个或多个标量值作为输入参数（可以是变长参数）。与自定义的标量函数类似，但与标量函数不同。表值函数可以返回任意数量的行作为输出，而不仅是 1 个值。返回的行可以由 1 个或多个列组成。调用一次函数输出多行或多列数据。必须继承 TableFunction 基类,并实现一个或者多个名为 eval 的方法, 在使用 UDTF 时,需要带上 LATERAL TABLE两个关键字.

@FunctionHint(output = @DataTypeHint("ROW"))
public class ParserJsonArrayTest extends TableFunction {

    private static final Logger log = Logger.getLogger(ParserJsonArrayTest.class);

    public void eval(String value) {
        try {
            JSONArray snapshots = JSONArray.parseArray(value);
            Iterator

Flink SQL 如何实现列转行 ?

需求

data 格式化

使用 Flink 自带的 unnest 函数解析

使用自定义 UDTF 函数解析

建表 DDL

unnest 解析

自定义 UDTF 解析

Flink SQL 使用 UDTF

注意:

打印的结果

总结

你可能感兴趣的:(Flink SQL 如何实现列转行 ?)