undo_try

flink1.14 sql基础语法（二） flink sql表定义详解

一、表的概念和类别

1.1 表的标识结构

每一个表的标识由 3 部分组成：

catalog name (常用于标识不同的“源”，比如 hive catalog，inner catalog 等)
database name(通常语义中的“库”)
table name (通常语义中的“表”)

package cn.yyds.sql;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.DataTypes;
import org.apache.flink.table.api.Schema;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.TableDescriptor;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

public class _09_FlinkTableDb {
    public static void main(String[] args) {
        // 1、混合环境的创建
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.STREAMING);
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        // 2、建表
        TableDescriptor descriptor = TableDescriptor
                .forConnector("kafka")  // 指定连接器
                .schema(
                        Schema.newBuilder() // 指定表结构
                                .column("id", DataTypes.INT())
                                .column("name", DataTypes.STRING())
                                .column("age", DataTypes.INT())
                                .column("gender", DataTypes.STRING())
                                .build()
                )
                .format("json")
                .option("topic","kfa_person")
                .option("properties.bootstrap.servers","centos01:9092")
                .option("properties.group.id","g1")
                .option("scan.startup.mode","earliest-offset")
                .option("json.fail-on-missing-field","false")
                .option("json.ignore-parse-errors","true")
                .build();

        Table table = tableEnv.from(descriptor);
        
        // 注册在默认的catalog和默认的database中
        tableEnv.createTemporaryView("kfa_person",table);

        // 注册在默认的catalog和指定的database中
        tableEnv.createTemporaryView("ods.kfa_person",table);

        // 注册在指定的catalog和指定的database中(可以和hive整合，保存到mysql中)
        tableEnv.createTemporaryView("hive_catalog.ods.kfa_person",table);
        
    }
}

1个flinksql程序在运行时，tableEnvironment 通过持有一个 map 结构来记录所注册的 catalog;

public final class CatalogManager {
    private static final Logger LOG = LoggerFactory.getLogger(CatalogManager.class);
    private final Map<String, Catalog> catalogs;
    private final Map<ObjectIdentifier, CatalogBaseTable> temporaryTables;
    ......
}

1.2 表和视图

Flinksql中的表，可以是 virtual的 (view 视图) 和 regular 的 (table 常规表)

table 描述了一个物理上的外部数据源，如文件、数据库表、kafka 消息 topic
view 则基于表创建，代表一个或多个表上的一段计算逻辑(就是对一段查询计划的逻辑封装);
不管是 table 还是 view，在 tableAPI 中得到的都是 Table 对象

1.3 临时和永久

临时表(视图) :

创建时带 temporary 关键字 (crate temporary view，createtemporary table)

永久表(视图) :

创建时不带 temporary 关键字 (create view ，create table )

临时表与永久表的本质区别: schema 信息是否被持久化存储
临时表(视图)

表 schema 只维护在所属 flink session 运行时内存中
当所属的 flink session 结束后表信息将不复存在，且该表无法在 flink session 间共享。

常规表(视图)

表 schema 可记录在外部持久化的元数据管理器中(比如 hive 的 metastore)
当所属 flink session 结束后，该表信息不会丢失，且在不同 flink session 中都可访问到该表的信息。

// sql 定义方式
tableEnv.executeSql("create view view_1 as select .. from projectedTable");
tableEnv.executeSql("create temporary view_2 as select .. from projectedTable");
                    
                    
tableEnv.executeSql("create table (id int,...) with ( 'connector'= ...)");
tableEnv.executeSql("create temporary table (id int,...) with ('connector'= ...)");
                    
  
// table api方式
tenv.createTemporaryView("v_1", dataStreamschema);
tenv.createTemporaryView("v_1", table);


tenv.createTable("t_1", tableDescriptor);
tenv.createTemporaryTable("t_1", tableDescriptor);

二、表定义概览

2.1 Table Api创建

Table 对象获取方式解析:

从已注册的表
从 TableDescriptor (连接器/format/schema/options)
从 DataStream
从 Table 对象上的查询 api 生成
从测试数据

涉及的核心参数:

已注册的表名 (catalog name.database_name.object_name)
TableDescriptor (表描述器，核心是 connector 连接器)
Datastream(底层流)
测试数据值

package cn.yyds.sql;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.DataTypes;
import org.apache.flink.table.api.Schema;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.TableDescriptor;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.types.Row;
import org.apache.kafka.clients.consumer.OffsetResetStrategy;

import static org.apache.flink.table.api.Expressions.$;

/**
 * 创建table的几种方式
 *
 * 1、从已注册的表
 * 2、从 TableDescriptor (连接器/format/schema/options)
 * 3、从 DataStream
 * 4、从 Table 对象上的查询 api 生成
 * 5、从测试数据
 */
public class _04_TableCreate {
    public static void main(String[] args) {

        // 混合环境的创建
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.STREAMING);
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);


        // 1、从 TableDescriptor (连接器/format/schema/options)
        TableDescriptor descriptor = TableDescriptor
                .forConnector("kafka")  // 指定连接器
                .schema(
                        Schema.newBuilder() // 指定表结构
                                .column("id", DataTypes.INT())
                                .column("name", DataTypes.STRING())
                                .column("age", DataTypes.INT())
                                .column("gender", DataTypes.STRING())
                                .build()
                )
                .format("json")
                .option("topic","t_kafka_1")
                .option("properties.bootstrap.servers","centos01:9092")
                .option("properties.group.id","g1")
                .option("scan.startup.mode","earliest-offset")
                .option("json.fail-on-missing-field","false")
                .option("json.ignore-parse-errors","true")
                .build();

        Table table1 = tableEnv.from(descriptor);


        // 2、从已注册的表
        Table table2 = tableEnv.from("t_kafka_1");


        // 3、从 DataStream
        KafkaSource<String> kafkaSource = KafkaSource.<String>builder()
                // 设置订阅的目标主题
                .setTopics("tp01")
                // 设置消费者组id
                .setGroupId("gp01")
                // 设置kafka服务器地址
                .setBootstrapServers("centos01:9092")
                // 起始消费位移的指定：
                //    OffsetsInitializer.committedOffsets(OffsetResetStrategy.LATEST) 消费起始位移选择之前所提交的偏移量（如果没有，则重置为LATEST）
                //    OffsetsInitializer.earliest()  消费起始位移直接选择为 “最早”
                //    OffsetsInitializer.latest()  消费起始位移直接选择为 “最新”
                //    OffsetsInitializer.offsets(Map)  消费起始位移选择为：方法所传入的每个分区和对应的起始偏移量
                .setStartingOffsets(OffsetsInitializer.committedOffsets(OffsetResetStrategy.LATEST))
                // 设置value数据的反序列化器
                .setValueOnlyDeserializer(new SimpleStringSchema())
                // 开启kafka底层消费者的自动位移提交机制
                //    它会把最新的消费位移提交到kafka的consumer_offsets中
                //    就算把自动位移提交机制开启，KafkaSource依然不依赖自动位移提交机制
                //    （宕机重启时，优先从flink自己的状态中去获取偏移量<更可靠>）
                .setProperty("auto.offset.commit", "true")
                .build();

        // env.addSource();  //  接收的是  SourceFunction接口的 实现类
        DataStreamSource<String> streamSource = env.fromSource(kafkaSource, WatermarkStrategy.noWatermarks(), "kfk-source");//  接收的是 Source 接口的实现类


        Table table3 = tableEnv.fromDataStream(streamSource);

        // 4、从 Table 对象上的查询 api 生成
        Table table4 = table1.groupBy($("gender"))
                .select($("gender"), $("age").avg().as("avg_age"));



        // 5、从测试数据
        Table table5 = tableEnv.fromValues(
                DataTypes.ROW(
                        DataTypes.FIELD("id", DataTypes.INT()),
                        DataTypes.FIELD("name", DataTypes.STRING()),
                        DataTypes.FIELD("info", DataTypes.MAP(DataTypes.STRING(), DataTypes.STRING())),
                        DataTypes.FIELD("ts1", DataTypes.TIMESTAMP(3)),
                        DataTypes.FIELD("ts3", DataTypes.TIMESTAMP_LTZ(3))
                ),
                Row.of(1, "a", null, "2023-02-02 13:00:00.200", 1654236105000L)
        );
    }
}

2.2 Table Sql创建

从已存在的 datastream 注册
从已存在的 Table 对象注册
从 TableDescriptor (连接器)注册
执行 Sql 的 DDL 语句来注册

package cn.yyds.sql;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.api.common.serialization.SimpleStringSchema;
import org.apache.flink.connector.kafka.source.KafkaSource;
import org.apache.flink.connector.kafka.source.enumerator.initializer.OffsetsInitializer;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.DataTypes;
import org.apache.flink.table.api.Schema;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.TableDescriptor;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.kafka.clients.consumer.OffsetResetStrategy;

/**
 * 注册 sql表 (视图)方式
 *   从已存在的 datastream 注册
 *   从已存在的 Table 对象注册
 *   从 TableDescriptor (连接器)注册
 *   执行 Sql 的 DDL 语句来注册
 */
public class _04_SqlCreate {
    public static void main(String[] args) {
        // 混合环境的创建
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.setRuntimeMode(RuntimeExecutionMode.STREAMING);
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);


        // 1、从 TableDescriptor (连接器)注册
        TableDescriptor descriptor = TableDescriptor
                .forConnector("kafka")  // 指定连接器
                .schema(
                        Schema.newBuilder() // 指定表结构
                                .column("id", DataTypes.INT())
                                .column("name", DataTypes.STRING())
                                .column("age", DataTypes.INT())
                                .column("gender", DataTypes.STRING())
                                .build()
                )
                .format("json")
                .option("topic","t_kafka_1")
                .option("properties.bootstrap.servers","centos01:9092")
                .option("properties.group.id","g1")
                .option("scan.startup.mode","earliest-offset")
                .option("json.fail-on-missing-field","false")
                .option("json.ignore-parse-errors","true")
                .build();


        tableEnv.createTable("kfk_person",descriptor);


        // 2、从已存在的 datastream 注册
        KafkaSource<String> kafkaSource = KafkaSource.<String>builder()
                // 设置订阅的目标主题
                .setTopics("tp01")
                // 设置消费者组id
                .setGroupId("gp01")
                // 设置kafka服务器地址
                .setBootstrapServers("centos01:9092")
                // 起始消费位移的指定：
                .setStartingOffsets(OffsetsInitializer.committedOffsets(OffsetResetStrategy.LATEST))
                // 设置value数据的反序列化器
                .setValueOnlyDeserializer(new SimpleStringSchema())
                .setProperty("auto.offset.commit", "true")
                .build();

        DataStreamSource<String> streamSource = env.fromSource(kafkaSource, WatermarkStrategy.noWatermarks(), "kfk-source");//  接收的是 Source 接口的实现类


        tableEnv.createTemporaryView("kfk_source",streamSource);



        // 3、从已存在的 Table 对象注册
        Table table = null;
        tableEnv.createTemporaryView("k_table",table);
        
        // 4、执行 Sql 的 DDL 语句来注册
        tableEnv.executeSql("create table t_kafka_1(\n" +
                "  id int,\n" +
                "  name string,\n" +
                "  age int,\n" +
                "  gender string\n" +
                ") WITH (\n" +
                " 'connector' = 'kafka',\n" +
                " 'topic' = 't_kafka_1',\n" +
                " 'properties.bootstrap.servers' = 'centos01:9092',\n" +
                " 'properties.group.id' = 'g1',\n" +
                " 'format' = 'json',\n" +
                " 'scan.startup.mode' = 'earliest-offset',\n" +
                " 'json.fail-on-missing-field' = 'false',\n" +
                " 'json.ignore-parse-errors' = 'true'\n" +
                ")");
        

    }
}

三、Catalog详解

3.1 catalog概念

catalog 就是一个元数据空间，简单说就是记录、获取元数据(表定义信息)的实体。

flink sql 在运行时，可以拥有多个 catalog，它们由 catalogManager 模块来注册、管理。

CatalogManager 中可以注册多个元数据空间。

1、环境创建之初，就会初始化一个默认的元数据空间

空间名称: default_catalog
空间实现类: GenericInMemoryCatalog(基于内存)

public class GenericInMemoryCatalog extends AbstractCatalog {
    public static final String DEFAULT_DB = "default";
    // 用于记录 本catalog空间所有database
    private final Map<String, CatalogDatabase> databases;
     // 用于记录 本catalog空间所有table
    private final Map<ObjectPath, CatalogBaseTable> tables;
    ......
}

2、用户还可以向环境中注册更多的 catalog，如下代码新增注册了一个 hivecatalog

// 创建hive元数据空间的实现对象
HiveCatalog hiveCatalog = new HiveCatalog("hive", "default", "d:/conf/hiveconf");

// 将hive的元数据对象注册到环境中
tableEnv.registerCatalog("hive_catalog",hiveCatalog);

注意：需要导入jar包，并把hive-site.xml的配置文件放入到hiveconf目录下


<dependency>
    <groupId>org.apache.flinkgroupId>
    <artifactId>flink-sql-connector-hive-3.1.2_2.12artifactId>
    <version>${flink.version}version>
dependency>

3.2 临时表与永久表的底层差异

结论 1: 如果选择 hive 元数据空间来创建表、视图，则

永久表(视图)的元信息，都会被写入 hive 的元数据管理器中，从而可以实现永久存
在临时表(视图)的元信息，并不会写入 hive 的元数据管理其中，而是放在 catalogManager 的一个 temporaryTables 的内存 hashmap 中记录
临时表空间中的表名(全名) 如果与 hive 空间中的表名相同，则查询时会优先选择临时表空间的表

结论 2: 如果选择 GenericInMemoryCatalog 元数据空间来创建表、视图，则

永久表(视图)的元信息，都会被写入 GenericInMemoryCatalog 的元数据管理器中(内存中)
临时表(视图)的元信息，放在 catalogManager 的一个 temporaryTables 的内存 hashmap 中记

3.3 理解Hive catalog

flink sql利用 hive catalog 来建表 (查询、修改、删除表)，本质上只是利用了 hive 的 metastore 服务

更具体来说，flinksql 只是把 flinksal 的表定义信息，按照 hive 元数据的形式，托管到 hive 的 metastore中而已。

当然，hive 中也能看到这些托管的表信息，但是，并不能利用它底层的 mapreduce 或者 spark 引擎来查询这些表

因为 mapreduce 或者 spark 引擎，并不能理解 flinksql 表定义中的信息，也无法为这些定义信息提供相应的组件去读取数据(比如，mr 或者 spark 就没有 flinksql 中的各种 connector 组件)

四、表定义详解

定义表时所需的核心要素

表名 (catalog_name.database_name.object_name)
TableDescriptor

TableDescriptor 核心要素

Schema 表结构(字段)
Format 数据格式
Connector 连接器
Option 连接器参数

4.1 Schema字段定义详解

4.1.1 physical column(物理字段)

物理字段: 源自于外部存储系统本身 schema 中的字段

如 kafka 消息的 key、value (json 格式)中的字段；mysql表中的字段…

-- 一些连接器需要设置主键，例如upsert-kafka，因为支持change-log流
-- 单字段主键约束语法
id INT PRIMARY KEY NOT ENFORCED ,
name STRING


-- 多字段主键约束语法:
id,
name,
PRIMARY KEY(id,name) NOT ENFORCED

4.1.2 computed column(表达式字段)

表达式字段(逻辑字段) : 在物理字段上施加一个 sql 表达式，并将表达式结果定义为一个字段。

4.1.3 metadata column(元数据字段）

元数据字段: 来源于 connector 从外部存储系统中获取到的外部系统元信息

比如，kafka 的消息，通常意义上的数据内容是在 record 的 key 和 value 中的，而实质上 (底层角度来看), kafka 中的每一条 record,不光带了 key 和 value 数据内容，还带了这条record 所属的 topic,所属的 partition，所在的 offset，以及 record 的 timetamp 和 timestamp 类型等“元信息”。

fink 的 connector 可以获取并暴露这些元信息,并允许用户将这些信息定义成 flinksal表中的字段

官网中可以查到暴露的元数据字段

比如kafka元数据字段: https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/kafka/

// DDL方式
tableEnv.executeSql("create table t_kafka_person(\n" +
                "  id int,                                          -- 物理字段\n" +
                "  name string,                                     -- 物理字段\n" +
                "  nick string,                                     -- 物理字段\n" +
                "  age int,                                         -- 物理字段\n" +
                "  big_age as age + 10,                             -- 表达式字段\n" +
                "  my_offset bigint METADATA FROM 'offset',         --元数据字段，来自kafka\n" +
                "  ts TIMESTAMP_LTZ(3) METADATA FROM 'timestamp',   --元数据字段，来自kafka\n" +
                "  gender string\n" +
                ") WITH (\n" +
                " 'connector' = 'kafka',\n" +
                " 'topic' = 't_kafka_2',\n" +
                " 'properties.bootstrap.servers' = 'centos01:9092',\n" +
                " 'properties.group.id' = 'g1',\n" +
                " 'format' = 'json',\n" +
                " 'scan.startup.mode' = 'earliest-offset',\n" +
                " 'json.fail-on-missing-field' = 'false',\n" +
                " 'json.ignore-parse-errors' = 'true'\n" +
                ")");

        // API 方式
        TableDescriptor descriptor = TableDescriptor
                .forConnector("kafka")  // 指定连接器
                .schema(
                        Schema.newBuilder() // 指定表结构
                                .column("id", DataTypes.INT())                   //column是物理字段
                                .column("name", DataTypes.STRING())              //column是物理字段
                                .column("nick", DataTypes.STRING())              //column是物理字段
                                .column("age", DataTypes.INT())                  //column是物理字段
                                .column("gender", DataTypes.STRING())            //column是物理字段
                                .columnByExpression("big_age","age + 10")                   // 声明表达式字段
                                .columnByMetadata("my_offset",DataTypes.BIGINT(),"offset")  // 声明元数据字段
                                // 声明元数据字段 isVirtual表示，当这个表被当作sink表时候，该字段是否出现在schema中
                                .columnByMetadata("ts",DataTypes.TIMESTAMP_LTZ(3),"timestamp",true)
                                /*.primaryKey("id")*/  // 主键约束，upsert-kafka需要填写主键
                                .build()
                )
                .format("json")
                .option("topic","t_kafka_2")
                .option("properties.bootstrap.servers","centos01:9092")
                .option("properties.group.id","g1")
                .option("scan.startup.mode","earliest-offset")
                .option("json.fail-on-missing-field","false")
                .option("json.ignore-parse-errors","true")
                .build();

4.2 format概述

connector 连接器在对接外部存储时，根据外部存储中的数据格式不同，需要用到不同的 format 组件

format 组件的作用就是:告诉连接器，如何解析外部存储中的数据及映射到表 schema

format 组件的使用要点

导入 format 组件的 jar 包依赖
指定 format 组件的名称
设置 format 组件所需的参数(不同 format 组件有不同的参数配置需求)

官网：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/formats/overview/

4.2.1 json format

官网：https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/formats/json/

1、需要引入依赖

<dependency>
      <groupId>org.apache.flinkgroupId>
      <artifactId>flink-jsonartifactId>
      <version>1.14.4version>
dependency>

2、常用参数

参数	是否必须	默认值	类型	描述
format	required	(none)	String	组件名json
json.fail-on-missing-field	optional	false	Boolean	缺失字段是否失败
json.ignore-parse-errors	optional	false	Boolean	是否忽略json解析错误
json.timestamp-format.standard	optional	`'SQL'`	String	json中timestamp类型字段格式
json.map-null-key.mode	optional	`'FAIL'`	String	可选值`'FAIL'`, `'DROP'` ，`'LITERAL'`
json.map-null-key.literal	optional	‘null’	String	替换null的字符串

3、数据类型映射

Flink SQL type	JSON type
`CHAR / VARCHAR / STRING`	`string`
`BOOLEAN`	`boolean`
`BINARY / VARBINARY`	`string with encoding: base64`
`DECIMAL`	`number`
`TINYINT`	`number`
`SMALLINT`	`number`
`INT`	`number`
`BIGINT`	`number`
`FLOAT`	`number`
`DOUBLE`	`number`
`DATE`	`string with format: date`
`TIME`	`string with format: time`
`TIMESTAMP`	`string with format: date-time`
`TIMESTAMP_WITH_LOCAL_TIME_ZONE`	`string with format: date-time (with UTC time zone)`
`INTERVAL`	`number`
`ARRAY`	`array`
`MAP / MULTISET`	`object`
`ROW`	`object`

4、使用案例(复杂json解析)

package cn.yyds.sql;

import org.apache.flink.api.common.RuntimeExecutionMode;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

/**
 * 文件中有如下的数据：
 *
 * {"id":10, "name":"tom", "age":28, "ts":"2023-03-02 00:00:00.000"}
 */
public class _10_JsonFormatTest1 {
    public static void main(String[] args)  {

        // 创建环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);


        tableEnv.executeSql("create table t_kafka_p(\n" +
                "  id int,\n" +
                "  name string,\n" +
                "  age int,\n" +
                "  ts TIMESTAMP(3)\n" +
                ") WITH (\n" +
                " 'connector' = 'filesystem',\n" +
                " 'path' = 'file:///D:/works/flink-live/files/sql-data/test1.txt',\n" +
                " 'format' = 'json',\n" +
                " 'json.ignore-parse-errors' = 'true'\n" +
                ")");


        tableEnv.executeSql("select * from t_kafka_p").print();
    }
}
+----+-------------+--------------------------------+-------------+-------------------------+
| op |          id |                           name |         age |                      ts |
+----+-------------+--------------------------------+-------------+-------------------------+
| +I |          10 |                            tom |          28 | 2023-03-02 00:00:00.000 |
+----+-------------+--------------------------------+-------------+-------------------------+

复杂json类型的解析

{
    "id":1238123899121,
    "name":"hank",
    "date":"2022-10-14",
    "obj":{
        "time1":"12:12:43Z",
        "str":"sfasfafs",
        "lg":2324342345
    },
    "arr":[
        {
            "f1":"f1str11",
            "f2":134
        },
        {
            "f1":"f1str22",
            "f2":555
        }
    ],
    "time":"12:12:43Z",
    "timestamp":"2022-10-14T12:12:43Z",
    "map":{
        "flink":123
    },
    "mapinmap":{
        "inner_map":{
            "key":234
        }
    }
}

-- 复杂json解析的表定义
CREATE TABLE json_source (
    id            BIGINT,
    name          STRING,
    `date`        DATE,
    obj           ROW<time1 TIME,str STRING,lg BIGINT>,
    arr           ARRAY<ROW<f1 STRING,f2 INT>>,
    `time`        TIME,
    `timestamp`   TIMESTAMP(3),
    `map`         MAP<STRING,BIGINT>,
    mapinmap      MAP<STRING,MAP<STRING,INT>>,
    proctime as PROCTIME()
 ) WITH (
 'connector' = 'filesystem',
 'path' = 'file:///D:\doit\works\flink-live\files\sql-data\test3.txt',
 'format' = 'json',
 'json.ignore-parse-errors' = 'true'
);

-- 从表中获取数据
-- 注意数组index从1开始
select id, name,`date`,obj.str,arr[1].f1,`map`['flink'],mapinmap['inner_map']['key'] from json_source;

4.2.2 csv format

官网: https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/formats/csv/

<dependency>
      <groupId>org.apache.flinkgroupId>
      <artifactId>flink-csvartifactId>
      <version>1.14.4version>
dependency>

参数解释

参数	是否必须	默认值	类型	描述
format	required	(none)	String	csv
csv.field-delimiter	optional	`,`	String	分割符
csv.allow-comments	optional	false	Boolean	是否允许注释`'默认#开头注释'`
csv.ignore-parse-errors	optional	false	Boolean	是否忽略解析错误
csv.array-element-delimiter	optional	`;`	String	数组元素之间分隔符
csv.escape-character	optional	(none)	String	转义字符
csv.null-literal	optional	(none)	String	null的字面量字符串

4.3 watermark和时间属性

时间属性定义，主要是用于各类基于时间的运算操作(如基于时间窗口的查询计算)。

4.3.1 eventTime和watermark定义

核心要点:

需要一个 timestamp(3)类型字段(可以是物理字段,也可以是表达式字段,也可以是元数据字段)
需要用一个 watermarkExpression 来指定 watermark 策略

package cn.yyds.sql;

import org.apache.flink.api.common.eventtime.SerializableTimestampAssigner;
import org.apache.flink.api.common.eventtime.WatermarkStrategy;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.Schema;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

public class _11_SqlWatermark {
    public static void main(String[] args) {

        // 创建环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);


        // guid,uuid,eventId,pageId,ts
        DataStreamSource<String> sourceStream = env.socketTextStream("centos04", 9999);

        SingleOutputStreamOperator<EventBean> mapStream = sourceStream.map(line -> {
            String[] arr = line.split(",");
            return new EventBean(Integer.parseInt(arr[0]), arr[1], arr[2], arr[3], Long.parseLong(arr[4]));
        });


        // 分配wm
        SingleOutputStreamOperator<EventBean> wmStream = mapStream.assignTimestampsAndWatermarks(
                WatermarkStrategy.<EventBean>forMonotonousTimestamps()
                        .withTimestampAssigner(new SerializableTimestampAssigner<EventBean>() {
                            @Override
                            public long extractTimestamp(EventBean eventBean, long l) {
                                return eventBean.getTs();
                            }
                        })
        );

        // 转换为table
        Table table = tableEnv.fromDataStream(wmStream,
                Schema.newBuilder()
                        // 声明表达式字段，并声明为 processing time 属性字段
                        // .columnByExpression("pt","proctime()")
                        // 声明表达式字段
                        .columnByExpression("rt","to_timestamp_ltz(ts, 3)")
                        // 将 rt 字段指定为 event time 属性字段，并基于它指定 watermark 策略: = rt
                        .watermark("rt","rt")
                        // 将 rt 字段指定为 event time 属性字段，并基于它指定 watermark 策略: = rt-8s
                        .watermark("rt","rt - interval '8' second")
                        //  将 rt 字段指定为 event time 属性字段，并沿用“源头流”的 watermark
                        .watermark("rt","source_watermark()")
                        .build()
        );

        table.printSchema();
    }
}

-- DDL方式定义水位线


-- {"id":1,"eventId":"e1","ts":1679754806020,"pageId":"p01"}
--加上水位线及处理时间
create table t_kafka_wm(
  id int,
  eventId string,
  ts bigint,
  pageId string,             -- 物理字段
  pt as PROCTIME(),          -- 声明处理时间
  wc_time as TO_TIMESTAMP_LTZ(ts, 3),                     -- 表达式字段，将long转换为TIMESTAMP_LTZ
  WATERMARK FOR wc_time AS wc_time - INTERVAL '5' SECOND  -- 水位线
) WITH (
 'connector' = 'kafka',
 'topic' = 't_kafka_3',
 'properties.bootstrap.servers' = 'centos01:9092',
 'properties.group.id' = 'g1',
 'format' = 'json',
 'scan.startup.mode' = 'earliest-offset',
 'json.fail-on-missing-field' = 'false',
 'json.ignore-parse-errors' = 'true'
)

4.3.2 processing time

定义一个表达式字段，并用表达式 proctime() 将其声明为 processing time 即可;

        // 转换为table
        Table table = tableEnv.fromDataStream(wmStream,
                Schema.newBuilder()
                        // 声明表达式字段，并声明为 processing time 属性字段
                        .columnByExpression("pt","proctime()")
                        .build()                      
               )

4.3.3 表和流之间水位线的传递

4.3.3.1 流转表的时候

流转表的过程中，无论“源流”是否存在 watermark，都不会自动传递 watermark

如需时间运算(如时间窗口等)，需要在转换定义中显式声明 watermark 策略

先设法定义一个 timestamp(3)或者 timestamp_ltz(3)类型的字段 (可以来自于数据字段，也可以来自于一个元数据: rowtime)

rt as to_timestamp_ltz(ts,3)  -- 从一个bigint中得到timestamp(3)类型的字段

rt timestamp(3) metadata from 'rowtime'

然后基于该字段，用 watermarkExpression 声明 watermark 策略

watermark for rt AS rt - interval '1' second  

watermark for rt AS source_watermark()   -- 代表使用底层流的 watermark 策略

4.3.3.2 表转流的时候

源表定义了 wartermark 策略，则将表转成流时，将会自动传递源表的 watermark。

        /**
         * 前提：table是一个存在watermark的表对象
         */
        tableEnv.toDataStream(table)
                .process(new ProcessFunction<Row, String>() {
                    @Override
                    public void processElement(Row value, Context ctx, Collector<String> out) throws Exception {
                        long watermark = ctx.timerService().currentWatermark();
                        System.out.println(watermark + "=>" + value);
                    }
                }).print();

4.4 connector详解

connector 通常是用于对接外部存储建表(源表或目标表)时的映射器、桥接器
connector 本质上是对 flink 的 table source /table sink 算子的封装

连接器使用的核心要素

1、导入连接器jar 包依赖
2、指定连接器类型名
3、指定连接器所需的参数 (不同连接器有不同的参数配置需求)
4、获取连接器所提供的元数据

flink1.14支持的连接器

4.4.1 kafka连接器

产生的数据以及能接受的数据流，是 append-only 流 (只有 +I 这种 changemode)

所需依赖

<dependency>
      <groupId>org.apache.flinkgroupId>
      <artifactId>flink-connector-kafka_2.12artifactId>
      <version>1.14.4version>
dependency>

入门案例

CREATE TABLE KafkaTable (
  `user_id` BIGINT,
  `item_id` BIGINT,
  `behavior` STRING,
  `ts` TIMESTAMP(3) METADATA FROM 'timestamp'
) WITH (
  'connector' = 'kafka',
  'topic' = 'user_behavior',
  'properties.bootstrap.servers' = 'localhost:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'csv'
)

复杂案例

解析kafka生产者产生具有key以及headers的数据

package cn.yyds.sql;

import com.alibaba.fastjson.JSONObject;
import org.apache.kafka.clients.producer.KafkaProducer;
import org.apache.kafka.clients.producer.ProducerConfig;
import org.apache.kafka.clients.producer.ProducerRecord;

import org.apache.kafka.common.header.Header;
import org.apache.kafka.common.header.internals.RecordHeader;
import org.apache.kafka.common.serialization.StringSerializer;

import java.util.*;

/**
 * 生产者生产数据
 */
public class _12_KafkaProducer {
    public static void main(String[] args) throws InterruptedException {

        // 泛型 K: 要发送的数据中的key
        // 泛型 V: 要发送的数据中的value
        // 隐含之意： kafka中的 message，是 Key-value结构的 （可以没有key）
        Properties props = new Properties();
        // 因为kafka底层的存储是没有类型维护机制的，用户所发的所有数据类型，都必须变成 序列化后的byte[]
        // 所以，kafka的producer需要一个针对用户要发送的数据类型的序列化工具类
        // 且这个序列化工具类，需要实现kafka所提供的序列工具接口： org.apache.kafka.common.serialization.Serializer
        props.setProperty(ProducerConfig.BOOTSTRAP_SERVERS_CONFIG, "centos01:9092,centos02:9092,centos03:9092");
        props.setProperty(ProducerConfig.KEY_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        props.setProperty(ProducerConfig.VALUE_SERIALIZER_CLASS_CONFIG, StringSerializer.class.getName());
        props.setProperty(ProducerConfig.ACKS_CONFIG, "all"); // 消息发送应答级别


        // 构造一个生产者客户端
        KafkaProducer<String, String> producer = new KafkaProducer<>(props);

        // 检查是否发送成功的消费者命令：
        //    kafka-console-consumer.sh  --bootstrap-server centos01:9092 --topic abcd
        for(int i = 0; i < 10; i++){
            // 将业务数据封装成客户端所能发送的封装格式
            // 0->abc0
            // 1->abc1
            List<Header> headers = new ArrayList<>();
            headers.add(new RecordHeader("k1", "v1".getBytes()));

            JSONObject jsonObject = new JSONObject();
            jsonObject.put("guid",i);
            jsonObject.put("pageId","page" + i);
            jsonObject.put("eventId","e" + i);
            jsonObject.put("eventTime",System.currentTimeMillis());

            ProducerRecord<String, String> message = new ProducerRecord<>("abcd", 0, "key_" + (i % 3), jsonObject.toJSONString(),headers);

            // 调用客户端去发送
            // 数据的发送动作在producer的底层是异步线程去异步发送的
            producer.send(message);

            Thread.sleep(100);
        }


        // 关闭客户端
        producer.close();
    }
}

{"eventId":"e0","eventTime":1680615780889,"guid":0,"pageId":"page0"}
{"eventId":"e1","eventTime":1680615781420,"guid":1,"pageId":"page1"}
{"eventId":"e2","eventTime":1680615781521,"guid":2,"pageId":"page2"}
{"eventId":"e3","eventTime":1680615781622,"guid":3,"pageId":"page3"}
{"eventId":"e4","eventTime":1680615781724,"guid":4,"pageId":"page4"}
{"eventId":"e5","eventTime":1680615781825,"guid":5,"pageId":"page5"}
{"eventId":"e6","eventTime":1680615781925,"guid":6,"pageId":"page6"}
{"eventId":"e7","eventTime":1680615782027,"guid":7,"pageId":"page7"}
{"eventId":"e8","eventTime":1680615782129,"guid":8,"pageId":"page8"}
{"eventId":"e9","eventTime":1680615782229,"guid":9,"pageId":"page9"}

-- 解析kafka
create table t_kafka_w(
  guid int,
  pageId string, 
  eventId string,
  eventTime bigint,
  msgkey string,
  `partition` bigint METADATA VIRTUAL,
  `offset` bigint METADATA VIRTUAL,
  `headers` MAP<string,bytes> METADATA FROM 'headers'
) WITH (
 'connector' = 'kafka',
 'topic' = 'abcd',
 'properties.bootstrap.servers' = 'centos01:9092',
 'properties.group.id' = 'g1',
 --'format' = 'json',
 'key.format' = 'raw',     -- 解析key用raw
 'key.fields' = 'msgkey',
 'value.format' = 'json',  -- 解析value用json
  -- 解析key的值是，要加上 'value.fields-include' = 'EXCEPT_KEY' 参数
  -- 不然这个 key_field列也会被当成 value 的一部分参与 value 的解析，从而导致解析不出来数据
 'value.fields-include' = 'EXCEPT_KEY',
 'scan.startup.mode' = 'earliest-offset'
)


-- 查找数据
select guid,pageId,eventId,eventTime,msgkey,`partition`,`offset`,cast(headers['k1'] as string) as headers_value from t_kafka_w


+----+-------------+--------------------------------+--------------------------------+----------------------+--------------------------------+----------------------+----------------------+--------------------------------+
| op |        guid |                         pageId |                        eventId |            eventTime |                         msgkey |            partition |               offset |                  headers_value |
+----+-------------+--------------------------------+--------------------------------+----------------------+--------------------------------+----------------------+----------------------+--------------------------------+
| +I |           0 |                          page0 |                             e0 |        1680615780889 |                          key_0 |                    0 |                    0 |                             v1 |
| +I |           1 |                          page1 |                             e1 |        1680615781420 |                          key_1 |                    0 |                    1 |                             v1 |
| +I |           2 |                          page2 |                             e2 |        1680615781521 |                          key_2 |                    0 |                    2 |                             v1 |
| +I |           3 |                          page3 |                             e3 |        1680615781622 |                          key_0 |                    0 |                    3 |                             v1 |
| +I |           4 |                          page4 |                             e4 |        1680615781724 |                          key_1 |                    0 |                    4 |                             v1 |
| +I |           5 |                          page5 |                             e5 |        1680615781825 |                          key_2 |                    0 |                    5 |                             v1 |
| +I |           6 |                          page6 |                             e6 |        1680615781925 |                          key_0 |                    0 |                    6 |                             v1 |
| +I |           7 |                          page7 |                             e7 |        1680615782027 |                          key_1 |                    0 |                    7 |                             v1 |
| +I |           8 |                          page8 |                             e8 |        1680615782129 |                          key_2 |                    0 |                    8 |                             v1 |
| +I |           9 |                          page9 |                             e9 |        1680615782229 |                          key_0 |                    0 |                    9 |                             v1 |

4.4.2 upsert kafka连接器

所需依赖和kafka相同。

作为source

根据所定义的主键，将读取到的数据转换为 +I/-U/+U 记录，如果读到 null，则转换为-D 记录。

-- kafka 中假设有如下数据
1,zs,18
1,zs,28


-- kafka-connector产生出 appendonly 流
+I[1,zs,18]
+I[1,zs,28]


-- upsert-kafka-connector 产生出 upsert 模式的 changelog 流
+I [1,zs,18]
-U [1,zs,18]
+U [1,zs,28]

作为sink

对于 -U/+U/+I 记录，都以正常的 append 消息写入 kafka
对于-D 记录，则写入一个 null 到 kafka 来表示 delete 操作:

案例

package cn.yyds.sql;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.DataTypes;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.types.Row;

public class _13_UpsertKafka {
    public static void main(String[] args) {
        // 创建环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        // 创建测试数据
        Table table = tableEnv.fromValues(
                DataTypes.ROW(
                        DataTypes.FIELD("province", DataTypes.STRING()),
                        DataTypes.FIELD("user_id", DataTypes.STRING())
                ),
                Row.of("sh","u001"),
                Row.of("sh","u002"),
                Row.of("sh","u003")
        );

        tableEnv.createTemporaryView("s_source",table);

        // 创建upsert-kafka sink表
        tableEnv.executeSql("create table t_upsert_kafka_w(\n" +
                "  province string,\n" +
                "  pv bigint, \n" +
                "  primary  key(province) not enforced -- 需要设置主键字段  \n" +
                ") WITH (\n" +
                " 'connector' = 'upsert-kafka',\n" +
                " 'topic' = 't_upsert_kafka',\n" +
                " 'properties.bootstrap.servers' = 'centos01:9092',\n" +
                " 'key.format' = 'csv',\n" +
                " 'value.format' = 'csv'\n" +
                ")");


        tableEnv.executeSql("insert into t_upsert_kafka_w select province,count(distinct user_id) as uv from s_source group by province");

        /**
         *+----+--------------------------------+----------------------+
         * | op |                       province |                   uv |
         * +----+--------------------------------+----------------------+
         * | +I |                             sh |                    1 |
         * | -U |                             sh |                    1 |
         * | +U |                             sh |                    2 |
         * | -U |                             sh |                    2 |
         * | +U |                             sh |                    3 |
         * +----+--------------------------------+----------------------+
         */
        // 从kafka读取结果
        tableEnv.executeSql("select * from t_upsert_kafka_w").print();

    }
}

4.4.3 jdbc连接器

jdbc connector作为source有如下特性

可作为scan source，底层产生bounded stream
可作为 lookup source，底层是“事件驱动"式查询。可以将jdbc连接器作为一个维表进行时态关联。
具体可参考：flink1.14 sql基础语法（一） flink sql表查询详解

jdbc connector作为sink有如下特性

可作为 Batch 模式的sink
可作为Stream模式下的append sink和upsert sink

所需依赖

<dependency>
    <groupId>org.apache.flinkgroupId>
    <artifactId>flink-connector-jdbc_2.12artifactId>
    <version>1.14.4version>
dependency>


根据所连接的数据库不同，还需要相应的 jdbc 驱动，比如连接 mysql
<dependency>
    <groupId>mysqlgroupId>
    <artifactId>mysql-connector-javaartifactId>
    <version>5.1.49version>
dependency>

幂等写出

jdbc connector 可以利用目标数据库的特性，实现幂等写出
幂等写出可以避免在 failover 发生后的可能产生的数据重复

实现幂等写出，本身并不需要对jdbc connector 做额外的配置，只需要指定主键字段，jdbc connector 就会利用目标数据库的 upsert 语法，来实现幂等写出。

package cn.yyds.sql;

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.DataTypes;
import org.apache.flink.table.api.Table;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;
import org.apache.flink.types.Row;

public class _14_UpsertJdbcSink {
    public static void main(String[] args) {
        // 创建环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);


        Table table = tableEnv.fromValues(
                DataTypes.ROW(
                        DataTypes.FIELD("province", DataTypes.STRING()),
                        DataTypes.FIELD("user_id", DataTypes.STRING())
                ),
                Row.of("sh","u001"),
                Row.of("sh","u002"),
                Row.of("sh","u003")
        );

        tableEnv.createTemporaryView("s_source",table);

        
        // 创建jdbc sink表
        tableEnv.executeSql("create table t_province_uv(\n" +
                "  province string,\n" +
                "  uv bigint, \n" +
                "  primary  key(province) not enforced \n" +
                ") with(\n" +
                "    'connector' = 'jdbc',\n" +
                "    'url' = 'jdbc:mysql://localhost:3306/test?serverTimezone=UTC',\n" +
                "    'table-name' = 't_province_uv_res',\n" +
                "    'driver' = 'com.mysql.jdbc.Driver',\n" +
                "    'username' = 'root',\n" +
                "    'password' = 'root'\n" +
                ")");


        tableEnv.executeSql("insert into t_province_uv select province,count(distinct user_id) as uv from s_source group by province");

        /**
         * +----+--------------------------------+----------------------+
         * | op |                       province |                   uv |
         * +----+--------------------------------+----------------------+
         * | +I |                             sh |                    3 |
         * +----+--------------------------------+----------------------+
         */
        // 从kafka读取结果
        tableEnv.executeSql("select * from t_province_uv").print();

    }
}

分区并行读取 (partitioned scan)
jdbc connector 持有一个多并行度的 source task，因而可以多并行度加快表数据的读取

通过设置如下参数即可实现多并行读取

scan.partition.column: 划分并行任务的参照列
scan.partition.num: 任务并行数
scan.partition.lower-bound: 首分区的参照字段最小值
scan.partition.upper-bound: 末分区的参照字段最大值
分区参照字段必须是: numeric, date,或 timestamp 类型

4.4.4 filesystem连接器

filesystem connector 表特性

可读可写
作为 source 表时，支持持续监视读取目录下新文件，且每个新文件只会被读取一次
作为 sink 表时，支持多种文件格式、分区、文件滚动、压缩设置等功能

CREATE TABLE MyUserTable (
  column_name1 INT,
  column_name2 STRING,
  ...
  part_name1 INT,
  part_name2 STRING
)
PARTITIONED BY (part_name1, part_name2)
WITH (
  'connector' = 'filesystem',                   -- 必填: 指定连接器名称
  'path' = 'file:///path/to/whatever',          -- 必填: 目录路径
  'format' = '...',                             -- 必填: 文件系统连接器要求指定一个format格式化
  'partition.default-name' = '...',             -- 可选: 如果动态分区字段值为null/空字符串，则使用指定的默认分区名称
  'sink.shuffle-by-partition.enable' = '...',   --可选：在sink阶段开启对动态分区文件数据的shuffle，开启之后可以减少写出文件的数量，但是有可能造成数据倾斜。默认为false。
  ...
);

1、分区文件

文件系统分区支持使用标准的hive format格式，而且，它不要求分区被预注册在表的catalog中。分区通过目录结构来进行发现和推断。比如，下面基于目录的表分区将会被推断为包含日期和小时分区。

path
└── datetime=2019-08-25
    └── hour=11
        ├── part-0.parquet
        ├── part-1.parquet
    └── hour=12
        ├── part-0.parquet
└── datetime=2019-08-26
    └── hour=6
        ├── part-0.parquet
12345678910

使用insert overwrite覆盖一个分区表时，只有相关联的分区被覆盖，而不是整张表。

2、文件format

文件系统连接器支持多种format格式：

CSV: RFC-4180. 未压缩
JSON: 注意，文件系统的JSON格式并不是标准的JSON文件，而是未压缩的newline delimited JSON。
Avro: Apache Avro. 支持通过配置avro.codec来支持压缩。
Parquet: Apache Parquet. 兼容Hive.
Orc: Apache Orc. 兼容Hive.
Debezium-JSON: debezium-json.
Canal-JSON: canal-json.
Raw: raw.

3、Source

file system 连接器在单个表中可以被用于读取单个文件，或者是整个目录。

当使用目录作为 source 路径时，目录中的文件并没有定义好的读取顺序。

目录监控

默认情况下，file system 连接器是有界的，该连接器只会读取一次配置的目录，然后关闭它。

你可以通过配置 option source.monitor-interval 选项配置持续的目录监控：

Key	默认值	类型	描述
source.monitor-interval	(none)	Duration	source 检查新文件的时间间隔，该数值必须大于0。每个文件都会使用他们自己的路径作为唯一标识符，并且在被发现后处理一次。已经被处理过的文件集合会在整个 source 的生命周期内被保存到 state 中，因此他们和 source state 一起被持久化到 checkpoint 和 savepoint 中。更小的时间间隔意味着文件会更快被发现，但是会对文件系统或对象存储进行更频繁的文件列出或目录遍历。如果没有配置该选项，则提供的路径将只会被扫描一次，此时该 source 将会是有界的。

可用元数据

下面的连接器元数据可以通过被定义为表的元数据字段来访问，所有的元数据都是只读的。

Key	数据类型	描述
file.path	STRING NOT NULL	输入文件的路径
file.name	STRING NOT NULL	文件名称，他是距离文件路径根目录最远的元素。
file.size	BIGINT NOT NULL	文件的字节数。
file.modification-time	TIMESTAMP_LTZ(3) NOT NULL	文件的修改时间。

下面的代码片段展示了 CREATE TABLE 案例如何访问元数据属性：

CREATE TABLE MyUserTableWithFilepath (
    column_name1 INT,
    column_name2 STRING,
    `file.path` STRING NOT NULL METADATA
) WITH (
    'connector' = 'filesystem',
    'path' = 'file:///path/to/whatever',
    'format' = 'json'
)

4、Streaming Sink

文件系统连接器基于Streaming File Sink 写入记录到文件以支持文件系统连接器流式写入。行编码格式支持csv和json。块编码格式支持parquet、orc和avro。

可以通过sql直接写入，插入流数据到不分区的表中。如果是分区表，可以配置分区关联操作。

滚动策略

数据通过分区目录会被切分为多个文件。每个分区将包含其对应sink子任务接收到数据之后写入的至少一个文件，正在处理的文件将会根据配置的滚动策略来关闭并成为分区中的一个文件。文件的滚动策略基于大小、文件可以被打开的最大超时时间间隔来配置。

Key	要求	是否可被传递	默认值	类型	描述
sink.rolling-policy.file-size	可选	是	128MB	MemorySize	滚动之前文件的最大大小。
sink.rolling-policy.rollover-interval	可选	是	30 min	Duration	被滚动之前，一个文件可以保持打开的最大时间间隔（默认为30分钟，以避免产生很多小文件）。通过 `sink.rolling-policy.check-interval` 选项来控制检查的频率。
sink.rolling-policy.check-interval	可选	是	1 min	Duration	滚动策略的检查时间间隔。该选项基于 `sink.rolling-policy.rollover-interval` 选项来控制检查文件是否可以被滚动。

注：对于块格式（parquet、orc、avro），滚动策略将会根据checkpoint间隔来控制大小和他们的数量，checkpoint决定文件的写入完成。

注：对于行格式（csv、json），如果想查看文件是否在文件系统中存在，并且不想等待过长的时间，则可以在连接器配置 sink.rolling-policy.file-size 和 sink.rolling-policy.rollover-interval ，并且在flink-conf.yaml中设置 execution.checkpointing.interval 参数。

对于其他的格式（avro、orc），可以只在flink-conf.yaml中配置execution.checkpointing.interval参数。

文件压缩

文件系统sink支持文件压缩，该特性允许应用程序设置更小的checkpoint间隔，而不会产生很多的文件。

Key	要求	是否可被传递	默认值	类型	描述
auto-compaction	可选	否	false	Boolean	是否在流slink中开启自动压缩。数据将会被写入临时文件。checkpoint完成之后，通过checkpoint生成的临时文件将会被压缩。临时文件在被压缩之前是不可见的。
compaction.file-size	可选	是	(none)	Boolean	压缩的目标文件大小，默认值为滚动文件大小。

如果开启，文件压缩将会基于目标文件大小合并多个小文件为大文件。在生产生运行文件压缩时，需要注意以下问题：

只有单个checkpoint中的文件可以被合并，因此，至少有和checkpoint次数相同的文件被生成。
文件在被合并之前是不可见的，因此文件可见时间为：checkpoint间隔+压缩时间。
如果压缩运行时间过长，则将会造成任务的反压，并且增加checkpoint的时间。

5、分区提交

通常来说，写入分区之后通知下游应用程序是非常必要的。比如：增加分区信息到hive的元数据，或者是在分区目录中写入一个 _SUCCESS 文件。文件系统sink连接器提供了分区提交特性，以允许配置自定义策略。提交行为基于合并的触发器和策略。

Trigger触发器：分区提交的时间可以通过水印或处理时间来确定。

Policy策略：如何提交一个分区，支持通过success文件和元数据提交，也可以自定义实现策略。比如触发hive的指标分区，或者是和并小文件等等。

注：分区提交只在动态分区插入时起作用。

分区提交触发器

定义何时提交分区，提供分区提交触发器：

Key	要求	是否可被传递	默认值	类型	描述
sink.partition-commit.trigger	可选	是	process-time	String	分区提交触发的类型： process-time：基于机器时间，既不需要分区时间提取，也不需要水印生成。一旦当前系统时间超过了分区创建时的系统时间加上指定的delay延迟就会提交分区。 partition-time：基于分区字段值提取的时间，要求生成水印。当水印超过了分区值提取的时间加上delay延迟时提交水印。
sink.partition-commit.delay	可选	是	0 s	Duration	分区在延迟时间到达之前不会提交。如果是按天分区，则应该是1 d，如果是按小时分区，则应该是1 h。
sink.partition-commit.watermark-time-zone	可选	是	UTC	String	转换`long`类型的水印值为`TIMESTAMP`类型是使用的时区，转换之后的水印时间戳将被用于和分区时间计算，以决定分区是否应该被提交。该选项只有在 `sink.partition-commit.trigger` 选项设置为 partition-time 时起作用。如果该选项没有被正确配置，比如source的rowtime被定义为`TIMESTAMP_LTZ`字段，但是该选项没有配置，则用户将会延迟几小时之后看到提交的分区。默认值为UTC，这意味着水印需要被定义为`TIMESTAMP`字段，或者是不被定义。如果水印被定义为`TIMESTAMP_LTZ`字段，则水印时区为会话时区。该选项值可以是完全名称，比如America/Los_Angeles，或者是自定义的时区id，比如GMT+08:00。

有两种触发器类型：

第一个是分区的处理时间，既不要求分区时间提取，也不要求水印生成。该触发器根据分区的创建时间和当前系统时间触发分区提交。该触发器更常用，但不是很精确。比如，数据延迟或失败，将会导致不成熟的分区提交。
第二个是根据水印和从分区中提取的时间来触发分区提交。该触发器要求任务有水印生成，并且分区根据时间来划分，比如按小时或按天分区。

如果想要下游尽快看到新分区，而不管数据写入是否完成：

‘sink.partition-commit.trigger’=‘process-time’ （默认值）
‘sink.partition-commit.delay’=‘0s’ （默认值），分区一旦写入数据，将会立即提交。注：分区可能会被提交多次。

如果想要下游在数据写入完成之后看到分区，并且job任务有水印生成，则可以通过分区值来提取时间：

‘sink.partition-commit.trigger’=‘partition-time’
‘sink.partition-commit.delay’=‘1h’ （如果分区为小时分区，则使用 1h，取决于分区时间类型）这是提交分区更准确的方式。它将尝试在数据写入完成之后再提交分区。

如果想要下游在数据写入完成之后看到分区，但是没有水印，或者是无法从分区值提取时间：

‘ink.partition-commit.trigger’=‘process-time’ （默认值）
‘sink.partition-commit.delay’=‘1h’ （如果分区为小时分区，则使用 1h，取决于分区时间类型）尝试准确的提交分区，但是迟到的数据或者是失败将会导致不成熟的分区提交。

迟到数据处理：支持写入分区的记录将会被写入已经提交的分区，并且该分区提交将会被再次触发。

默认提取器基于分区属性和时间戳默认组成。也可以通过实现 PartitionTimeExtractor 接口来完全自定义分区提取器。

public class HourPartTimeExtractor implements PartitionTimeExtractor {
    @Override
    public LocalDateTime extract(List<String> keys, List<String> values) {
        String dt = values.get(0);
        String hour = values.get(1);
        return Timestamp.valueOf(dt + " " + hour + ":00:00").toLocalDateTime();
    }
}

分区提交策略

分区提交策略定义分区提交时执行哪些操作

第一个是元数据，只有hive表支持元数据策略，文件系统通过目录结构管理分区。
第二个是success文件，在分区对一个的目录下写一个空文件。

Key	要求	是否可被传递	默认值	类型	描述
sink.partition-commit.policy.kind	可选	是	(none)	String	指定提交分区并通知下游应用程序，该分区已经完成写入并可进行读取的策略。 metastore：将分区写入元数据。只有hive表支持元数据策略，文件系统通过目录结构来管理分区。 success-file：在目录中增加 _success 文件。这两个方式可以同时配置： metastore,success-file custom：使用策略类创建一个提交策略。支持配置多个策略：metastore,success-file。
sink.partition-commit.policy.class	可选	是	(none)	String	实现了`PartitionCommitPolicy`接口的分区提交策略实现类。只在自定义custom提交策略中起作用。
sink.partition-commit.success-file.name	可选	是	_SUCCESS	String	`success-file`分区提交的文件名称，默认为： _SUCCESS 。

6、sink并行度

写入文件到外部文件系统的并行度（包括hive），可以通过表的option选项来配置，流模式和批模式都支持这么做。
默认情况下，slink的并行度和上游链在一起的算子并行度一致。如果配置了和上游算子不同的并行度，则写入文件算子的并行度将使用配置的并行度。

Key	要求	是否可被传递	默认值	类型	描述
sink.parallelism	可选	否	(none)	Integer	将文件写入外部文件系统的并行度。数值应该大于0，否则将抛出异常。

注：目前，配置sink并行度只支持上游算子为仅插入INERT-ONLY类型的变更日志模式，否则将抛出异常。

7、完整案例

下面的例子展示文件系统连接器如何通过流查询从kafka读取数据，然后写入文件系统，并且通过批查询从文件系统中读取写入的数据。

CREATE TABLE kafka_table (
  user_id STRING,
  order_amount DOUBLE,
  log_ts TIMESTAMP(3),
  WATERMARK FOR log_ts AS log_ts - INTERVAL '5' SECOND
) WITH (...);

CREATE TABLE fs_table (
  user_id STRING,
  order_amount DOUBLE,
  dt STRING,
  `hour` STRING
) PARTITIONED BY (dt, `hour`) WITH (
  'connector'='filesystem',
  'path'='...',
  'format'='parquet',
  'sink.partition-commit.delay'='1 h',
  'sink.partition-commit.policy.kind'='success-file'
);

-- streaming sql, insert into file system table
INSERT INTO fs_table 
SELECT 
    user_id, 
    order_amount, 
    DATE_FORMAT(log_ts, 'yyyy-MM-dd'),
    DATE_FORMAT(log_ts, 'HH') 
FROM kafka_table;

-- 批式sql，查询指定分区下的数据
SELECT * FROM fs_table WHERE dt='2020-05-20' and `hour`='12';

如果水印定义在TIMESTAMP_LTZ类型的字段上，并且被用于分区提交时间，则sink.partition-commit.watermark-time-zone配置必须设置为会话时间分区，否则分区提交将会晚几个小时。

CREATE TABLE kafka_table (
  user_id STRING,
  order_amount DOUBLE,
  ts BIGINT, -- 毫秒值
  ts_ltz AS TO_TIMESTAMP_LTZ(ts, 3),
  WATERMARK FOR ts_ltz AS ts_ltz - INTERVAL '5' SECOND -- 在TIMESTAMP_LTZ字段上定义水印
) WITH (...);

CREATE TABLE fs_table (
  user_id STRING,
  order_amount DOUBLE,
  dt STRING,
  `hour` STRING
) PARTITIONED BY (dt, `hour`) WITH (
  'connector'='filesystem',
  'path'='...',
  'format'='parquet',
  'partition.time-extractor.timestamp-pattern'='$dt $hour:00:00',
  'sink.partition-commit.delay'='1 h',
  'sink.partition-commit.trigger'='partition-time',
  'sink.partition-commit.watermark-time-zone'='Asia/Shanghai', -- 表名用户配置的时区为：'Asia/Shanghai'
  'sink.partition-commit.policy.kind'='success-file'
);

-- 流式sql，插入数据到文件系统
INSERT INTO fs_table
SELECT 
    user_id, 
    order_amount, 
    DATE_FORMAT(ts_ltz, 'yyyy-MM-dd'),
    DATE_FORMAT(ts_ltz, 'HH') 
FROM kafka_table;

-- 批式sql，查询指定分区下的数据
SELECT * FROM fs_table WHERE dt='2020-05-20' and `hour`='12';

4.4.5 第三方连接器

例如：flink-doris-connector

create table cdc_mysql_source(
  id int,
  name varchar,
  primary key(id) not enforced
)with(
  'connector' = 'mysql-cdc',
  'hostname' = 'centos01',
  'port' = '3306',
  'username' = 'root',
  'password' = 'root',
  'database-name' = 'test',
  'table-name' = 't_test'
)

-- 支持删除事件同步(sink.enable-delete='true'),需要 Doris 表开启批量删除功能
CREATE TABLE doris_sink (
  id INT,
  name STRING
) WITH (
    'connector' = 'doris',
    'fenodes' ='centos01:8030',
    'table.identifier' = 'test.t_test',
    'username' = 'root',
    'password' = 'root',
    'sink.properties.format' = 'json',
    'sink.properties.strip_outer_array' = 'true',
    'sink.enable-delete' = 'true'
)

insert into doris_sink select id,name from cdc_mysql_source;

flink-hudi-connector

-- 1、创建测试表
CREATE TABLE sourceT (
  uuid varchar(20),
  name varchar(10),
  age int,
  ts timestamp(3),
  `partition` varchar(20)
) WITH (
  'connector' = 'datagen',
  'rows-per-second' = '1'
);

create table t2(
  uuid varchar(20),
  name varchar(10),
  age int,
  ts timestamp(3),
  `partition` varchar(20)
)
with (
  'connector' = 'hudi',
  'path' = '/tmp/hudi_flink/t2',
  'table.type' = 'MERGE_ON_READ'
);

-- 2、执行插入
insert into t2 select * from sourceT;

你可能感兴趣的:(#,flink,sql,flink)

Python与C ++开发匿名捐赠1对1管理APP Geeker-2025 python c++
开发一款用于**匿名捐赠1对1管理**的App，结合Python和C++的优势，可以实现高效的后端数据处理、实时的捐赠监控以及用户友好的前端界面。以下是一个详细的开发方案，涵盖技术选型、功能模块、开发步骤等内容。##技术选型###后端（Python）-**编程语言**：Python-**Web框架**：Django或Flask-**数据库**：PostgreSQL或MySQL-**实时通信**：W
5. MYSQL_存储引擎二多实例安装 q375923078 MYSQL 存储引擎 slow_log generic_log audit
文章目录一.MyISAM存储引擎(下)1.MyISAM还在使用的原因2.MyISAM文件组成3.myisamchk二.Memory存储引擎1.Memory介绍2.Memory特性3.Memory的物理特性三.CSV存储引擎1.CSV介绍2.CSV文件组成2.CSV特性四.Federated存储引擎1.Federated介绍2.Federated语法五.多实例安装1.多实例介绍2.安装要求3.安装操
PyPI 镜像源使用国内镜像，提升下载速度和安装成功率 zhiranyouni 同事技术分享
临时使用：可以在使用pip的时候加参数-ihttps://pypi.tuna.tsinghua.edu.cn/simple如：pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplepymysql这样会从清华源的镜像去安装pymysql永久修改，一劳永逸：修改~/.pip/pip.conf(没有就创建一个文件夹及文件）mkdir.pipcd.pipt
PostgreSQL vs MySQL——哪种关系数据库更好? 全能资料库 postgresql mysql 数据库
PostgreSQL和MySQL是世界上最流行的两种关系数据库管理系统(RDMS)。包括商业企业和开源基金会在内的所有市场人口都在使用它们。它们的共同点是强大的网络容错能力和对数据聚类的支持。这篇文章的主题是将它们区分开来。RDMS起源和历史1973年,加州大学伯克利分校启动了一个名为“Ingres”的项目,为关系数据库管理系统制定新标准。该项目是用C编写的,并根据开源许可证向公众发布。根据[Wi
一条查询sql的执行流程和底层原理 weixin_30608503 大数据数据库
1、一条查询SQL执行流程图2、查询SQL执行流程之发送SQL请求（1）客户端按照Mysql通信协议将SQL发送到服务端，SQL到达服务端后，服务端会单起一个线程执行SQL。（2）执行时Mysql首先判断SQL的前6个字符是否为select。并且语句中是否带有SQL_NO_CACHE关键字，如果没有则进入查询缓存。3、查询SQL执行流程之查询缓存查询缓存说白了就是一个哈希表，将执行过的语句及其结果
MySQL(二)：逻辑查询 2401_84003690 程序员 mysql android 数据库
CREATETABLEt(aCHAR(5))ENGINE=INNODB;INSERTINTOt(a)VALUES(‘a’),(NULL),(‘b’),(‘c’),(NULL);SELECT*FROMtORDERBYa;//这也是一个小技巧，当想使用GROUPBY后，想统计各个组/块的数量，可以使用COUNT(1)SELECTa,COUNT(1)FROMtGROUPBYa;结果如上，很清楚可以看到o
利用DataX从文本文件读取数据并写入MySQL数据库，但是老是报用户密码错误，但是密码是正确的。 2301_81122542 数据库 mysql
这里很有可能是'root'@'master'对应的密码错误，可以修改一下'root'@'master'的密码。代码为：SETPASSWORDFOR'root'@'master'=PASSWORD('newpassword');FLUSHPRIVILEGES;
MyBatis简单配置 T何必当初 Java后端框架 mybatis java mysql
1、在Maven的pom.xml中导入Mybatis和MySQL数据库驱动依赖org.mybatismybatis3.5.5mysqlmysql-connector-java5.1.382、在Maven项目中的resources下创建mybatis-config.xml配置文件-->3、在com.tyh.utils下创建MybatisUtils.java工具类packagecom.tyh.util
MySQL相关面试题努力的搬砖人. mysql java 面试后端
以下是150道MySQL相关面试题：一、SQL和基本操作1.SQL的执行顺序是什么？SQL查询的执行顺序大致如下：1.FROM：指定数据来源表。2.WHERE：对表中的行进行筛选。3.JOIN：将多个表连接起来。4.GROUPBY：对数据进行分组。5.HAVING：对分组后的数据进行筛选。6.SELECT：选择需要的列。7.ORDERBY：对结果进行排序。8.LIMIT：限制返回的行数。2.如何优
Mysql - 锁常见问题小杨xyyyyyyy Mysql mysql 数据库面试
通过一些问题来讨论Mysql中的锁mysql有哪些锁，介绍一下？mysql是怎么实现乐观锁和悲观锁的？哪些情况下会使用乐观锁，哪些情况使用悲观锁，可以举一些sql例子吗？间隙锁的原理？什么时候会加间隙锁？1.Mysql有哪些锁，介绍一下?按照锁的粒度，可以分为全局锁，表级锁和行锁全局锁会使整个数据库处于只读状态，在做全库逻辑备份时经常用到；表级锁在操作数据数会锁定整张表或表结构，具体可以分为表锁，
Qt SQL-1 EPICS Technical Qt qt sql
QtSQL是一个必要模块，它提供了对SQL数据库的支持。QtSQL的APIs被划分为不同层：驱动层SQLAPI层用户接口层SQL编程指南包含了有关使用QtSQL开发的信息。开始要在一个项目中启用QtSQL，添加以下指令到C++文件：#include要链接QtSQL模块，添加这一行到这个项目文件：QT+=sql相关信息这些链接指向API参考材料和相关的页：C++类SQL示例内容命名空间类详细描述Qt
Mysql - 日志相关问题小杨xyyyyyyy Mysql mysql 数据库面试
通过一些问题来讨论Mysql中的日志:Mysql是怎么保证原子性的？Mysql怎么保证持久性的？Mysql怎么保证隔离性的？介绍一下binlog和redolog，他们两有啥区别？两阶段提交了解吗？介绍一下，为啥需要两阶段提交呢？幻读了解吗？介绍一下，innodb引擎是如何解决幻读问题等？刚才我们说到了原子性，那宕机时还能保证原子性吗？undolog在宕机是怎么保证原子性的？1.Mysql是怎么保证
Mmybatis xml 连接数据库的方法墨香染城城 xml 数据库
1.添加依赖（Maven项目）在pom.xml中添加MyBatis和数据库驱动的依赖（以MySQL为例）：org.mybatismybatis3.5.13mysqlmysql-connector-java8.0.332.配置MyBatis核心文件在resources目录下创建mybatis-config.xml，配置数据库连接和全局设置：3.创建实体类定义与数据库表对应的实体类，例如User：pu
goldengate sqlserver mysql_使用 Oracle GoldenGate 在 Microsoft SQL Server 和 Oracle Database 之间复制事务... weixin_39907713 goldengate sqlserver mysql
大多数关注数据复制的Oracle技术专家都熟悉OracleStreams。在2009年之前，Streams一直是推荐使用的最流行的Oracle数据分发技术。2009年7月，Oracle收购了GoldenGate这一数据库复制软件供应商。Oracle现在鼓励客户使用OracleGoldenGate(Oracle融合中间件系列的组成部分)来满足新应用中的数据复制需求。Oracle关于OracleStr
oracle 01476,GoldenGate 常见错误分析（一）来来来看看 oracle 01476
(1)解决GoldenGate错误的一个关键点就是通过错误分析工具(包括report文件，ggserr.logdiscard文件logdump工具，GGSCI命令行)确定错误的根源是哪个组件引起的。系统或者网络？数据库报错或者应用报错？GoldenGate安装报错？GoldenGate的某个进程报错？GoldenGate的参数配置文件报错？SQL语句或者存储过程报错？然后再确定错误的原因，逐个排查
goldengate sqlserver mysql_Oracle GoldenGate 之 SqlServer数据同步到Mysql数据库 Huawei_Germany goldengate sqlserver mysql
C:\OGG>INSTALLADDSERVICEService'GGSMGR'created.Installprogramterminatednormally.C:\OGG>配置ODBC数据源MicrosoftSQLServerODBC驱动程序版本06.01.7601数据源名称:oa_test数据源描述:服务器:WIN-UGCMTTOTKE7数据库:(Default)语言:(Default)翻译字
用 AI 提高开发效率：自动生成代码、优化 SQL 查询、写测试用例 Js_x 人工智能 sql 测试用例
引言人工智能（AI）正在深刻改变软件开发行业。从代码自动补全到SQL查询优化，再到自动化测试，AI工具已经成为开发者提高生产力的重要助手。本文将介绍ChatGPT、GitHubCopilot、Tabnine等AI编程工具的实际应用，帮助开发者更高效地编写代码、优化数据库查询，并自动生成测试用例。1.AI代码生成：提升开发效率1.1ChatGPT代码生成ChatGPT具备强大的自然语言处理能力，可以
MySql数据库（表数据的增、删、改操作）8 阿志的IT信息室 mysql 数据库
8.1插入数据在MySQL中，INSERT语句有3种语法格式，分别是INSERT…VALUES语句、INSERT…SET语句和INSERT…SELECT语句。8.1.1使用INSERT…VALUES语句插入数据是INSERT语句的最常用的语法格式。它的语法格式如下。INSERT[LOW_PRIORITYDELAYED|HIGH_PRIORITY][IGNORE]INTO数据表名[(字段名1,…,字
MySQL 5.7 vs MySQL 8.0 高频面试题解析 dblens 数据库管理和开发工具 mysql 数据库
一、基础概念与核心差异1.默认字符集的变化问：MySQL5.7和8.0的默认字符集有何不同？为什么要修改？答：MySQL5.7默认字符集为latin1，可能导致中文乱码。MySQL8.0默认改为utf8mb4（支持4字节编码，如表情符号），且默认排序规则为utf8mb4_0900_ai_ci。意义：彻底解决字符编码问题，兼容国际化需求。2.用户认证方式的演进问：从5.7到8.0，用户密码认证方式有
SQL语言的编译原理慕瑶琴包罗万象 golang 开发语言后端
SQL语言的编译原理引言SQL（StructuredQueryLanguage，结构化查询语言）是用于管理和操作关系数据库的一种标准语言。作为一种高级语言，SQL不仅易于使用，而且功能强大。然而，SQL语言本身并不能直接被计算机理解。为了让计算机能够执行SQL语句，我们需要通过编译原理将SQL语句转换为机器能够理解的指令。本文将探讨SQL语言的编译原理，介绍SQL的组成部分、编译过程以及相关的优化
MySQL算法篇（一）先睡算法
Hash算法，也称为哈希算法或散列算法，是一种将任意长度的输入（如文本、图片等）通过某种规则转换成固定长度的输出的算法。这个输出通常被称为哈希值、哈希码或哈希摘要。以下是一些关于哈希算法的关键点：不可逆性：理论上，从哈希值不能逆向推导出原始输入数据。确定性：对于同一个输入，无论何时何地使用相同的哈希算法，都会得到相同的哈希值。快速计算：哈希算法通常设计得非常高效，可以快速计算出哈希值。抗冲突性：不
【Java】已解决：`java.sql.SQLSyntaxErrorException: SQL` 屿小夏 java sql 开发语言
个人简介：某不知名博主，致力于全栈领域的优质博客分享|用最优质的内容带来最舒适的阅读体验！文末获取免费IT学习资料！文末获取更多信息精彩专栏推荐订阅收藏专栏系列直达链接相关介绍书籍分享点我跳转书籍作为获取知识的重要途径，对于IT从业者来说更是不可或缺的资源。不定期更新IT图书，并在评论区抽取随机粉丝，书籍免费包邮到家AI前沿点我跳转探讨人工智能技术领域的最新发展和创新，涵盖机器学习、深度学习、自然
Mysql数据库分表实现微笑的曙光（StevenLi）数据库 mysql 分表性能优化 merge
本次主要采用MERGE分表法、对表进行水平拆分；第一步：创建数据库DROPTABLEIFEXISTSstudents;CREATETABLEstudents(idbigint(20)NOTNULLAUTO_INCREMENT,namevarchar(20)DEFAULTNULL,numvarchar(20)DEFAULTNULL,PRIMARYKEY(id))ENGINE=MyISAMAUTO_I
智慧社区2.0 陈陈爱java java
项目亮点1.技术架构层面✅多数据源整合（MySQL+Redis+HDFS+OSS）核心亮点：不仅仅是单一数据库，而是根据数据特性使用MySQL（结构化数据）+Redis（缓存）+HDFS（大数据存储）+OSS（对象存储），提高了系统的数据存储效率和查询速度。面试时可以强调：Redis作为缓存，加速社区热点数据访问，减少MySQL压力。HDFS存储海量日志和AI任务数据，支持后续分析。OSS解决图片
面试经验分享 | 某安全厂商HW面试经验渗透测试老鸟-九青面试经验分享安全 web安全网络 xss csrf
目录：所面试的公司：某安全厂商所在城市：安徽省面试职位：蓝初面试过程：面试官的问题：所面试的公司：某安全厂商所在城市：安徽省面试职位：蓝初面试过程：腾讯会议（语音）面试过程：整体流程就是自我介绍加上一些问题问题balabalabala。。。由于面的是蓝队所以渗透部分不会太多，回答部分基本上是我的原答案，不保证正确。面试总体大概分三个大块（下面跳过自我介绍部分）面试官的问题：1、sql注入原理攻击者
centos7 docker 安装mysql8 A 小小飞船 docker mysql centos docker 服务器
centos7docker安装mysql8要在CentOS7上使用Docker安装MySQL8，请按照以下步骤操作：安装Docker（如果尚未安装）：sudoyuminstall-yyum-utilssudoyum-config-manager--add-repohttps://download.docker.com/linux/centos/docker-ce.reposudoyuminstal
架构师之路--达梦数据库操作符含义详解 shine_du 数据库达梦数据库
达梦数据库执行计划操作符含义详解在达梦数据库中，执行计划是数据库引擎用于执行SQL查询的详细步骤蓝图。执行计划中的操作符描述了数据库如何从表和索引中检索、过滤、排序以及组合数据，以生成最终的查询结果。理解这些操作符的含义对于优化查询性能、分析查询行为以及深入理解数据库的工作机制至关重要。一、表扫描操作符全表扫描（TABLEACCESSFULL）含义：这是最基本的表扫描方式，当执行计划中出现此操作符
达梦数据库体系架构客观花絮说达梦数据库数据库架构
提示：本文内容包含达梦数据库体系架构基本知识。文章目录前言一、DM逻辑结构1.1逻辑存储数据结构关系1.2表空间1.3页1.4簇1.5段1.51数据段1.52临时段1.53回滚段二、DM物理结构2.1配置文件2.2控制文件2.3数据文件2.4重做日志文件2.5归档日志文件2.6逻辑日志文件2.7物理逻辑日志文件2.8备份文件2.9SQL日志文件2.10事件日志文件三、DM内存结构3.1内存池3.1
MySQL与达梦数据库空间查询差异详解：根据经纬度坐标查询范围 CarlowZJ 数据库 mysql 达梦数据库
在地理信息系统中，经常需要根据地理位置数据进行查询。MySQL和达梦数据库（DM）都提供了空间函数来支持这类查询，但两者在处理空间函数时存在一些差异。本文将详细解释两个数据库中根据经纬度坐标查询范围的SQL语句，并说明这些差异。一、MySQL数据库查询语句解释sql复制SELECT*FROMbase_channelsWHEREIS_SELECT='1'ANDST_Contains(ST_GeomF
达梦数据库查询与操作详解 wangxiaomeng111 数据库 oracle sql
引言查询与操作数据库中的数据是达梦数据库提供的基本功能。达梦数据库遵循SQL标准，提供了多种方式的数据查询和数据操作的方法，已满足用户的实际应用需求，此次介绍通过SQL语句实现单表查询、连接查询、查询子句、子查询等数据查询方法和表数据操作方法。一、达梦数据库概述达梦数据库是一种关系型数据库管理系统（RDBMS），支持标准SQL语法，包括数据查询（SELECT）、数据插入（INSERT）、更新（UP
二分查找排序算法周凡杨 java 二分查找排序算法折半
一：概念二分查找又称折半查找（折半搜索/ 二分搜索），优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步
java中的BigDecimal bijian1013 java BigDecimal
在项目开发过程中出现精度丢失问题，查资料用BigDecimal解决，并发现如下这篇BigDecimal的解决问题的思路和方法很值得学习，特转载。原文地址：http://blog.csdn.net/ugg/article/de
Shell echo命令详解 daizj echo shell
Shell echo命令 Shell 的 echo 指令与 PHP 的 echo 指令类似，都是用于字符串的输出。命令格式： echo string 您可以使用echo实现更复杂的输出格式控制。 1.显示普通字符串: echo "It is a test" 这里的双引号完全可以省略，以下命令与上面实例效果一致： echo Itis a test 2.显示转义
Oracle DBA 简单操作周凡杨 oracle dba sql
--执行次数多的SQL select sql_text,executions from ( select sql_text,executions from v$sqlarea order by executions desc ) where rownum<81; &nb
画图重绘朱辉辉33 游戏
我第一次接触重绘是编写五子棋小游戏的时候，因为游戏里的棋盘是用线绘制的，而这些东西并不在系统自带的重绘里，所以在移动窗体时，棋盘并不会重绘出来。所以我们要重写系统的重绘方法。在重写系统重绘方法时，我们要注意一定要调用父类的重绘方法，即加上super.paint(g)，因为如果不调用父类的重绘方式，重写后会把父类的重绘覆盖掉，而父类的重绘方法是绘制画布，这样就导致我们
线程之初体验西蜀石兰线程
一直觉得多线程是学Java的一个分水岭，懂多线程才算入门。之前看《编程思想》的多线程章节，看的云里雾里，知道线程类有哪几个方法，却依旧不知道线程到底是什么？书上都写线程是进程的模块，共享线程的资源，可是这跟多线程编程有毛线的关系，呜呜。。。线程其实也是用户自定义的任务，不要过多的强调线程的属性，而忽略了线程最基本的属性。你可以在线程类的run()方法中定义自己的任务，就跟正常的Ja
linux集群互相免登陆配置林鹤霄 linux
配置ssh免登陆 1、生成秘钥和公钥 ssh-keygen -t rsa 2、提示让你输入，什么都不输，三次回车之后会在~下面的.ssh文件夹中多出两个文件id_rsa 和 id_rsa.pub 其中id_rsa为秘钥，id_rsa.pub为公钥，使用公钥加密的数据只有私钥才能对这些数据解密 c
mysql : Lock wait timeout exceeded; try restarting transaction aigo mysql
原文：http://www.cnblogs.com/freeliver54/archive/2010/09/30/1839042.html 原因是你使用的InnoDB 表类型的时候, 默认参数:innodb_lock_wait_timeout设置锁等待的时间是50s, 因为有的锁等待超过了这个时间,所以抱错. 你可以把这个时间加长,或者优化存储
Socket编程基本的聊天实现。 alleni123 socket
public class Server { //用来存储所有连接上来的客户 private List<ServerThread> clients; public static void main(String[] args) { Server s = new Server(); s.startServer(9988); } publi
多线程监听器事件模式(一个简单的例子) 百合不是茶线程监听模式
多线程的事件监听器模式监听器时间模式经常与多线程使用,在多线程中如何知道我的线程正在执行那什么内容,可以通过时间监听器模式得到创建多线程的事件监听器模式思路: 1, 创建线程并启动,在创建线程的位置设置一个标记 2,创建队
spring InitializingBean接口 bijian1013 java spring
spring的事务的TransactionTemplate，其源码如下： public class TransactionTemplate extends DefaultTransactionDefinition implements TransactionOperations, InitializingBean{ ... } TransactionTemplate继承了DefaultT
Oracle中询表的权限被授予给了哪些用户 bijian1013 oracle 数据库权限
Oracle查询表将权限赋给了哪些用户的SQL，以备查用。 select t.table_name as "表名", t.grantee as "被授权的属组", t.owner as "对象所在的属组"
【Struts2五】Struts2 参数传值 bit1129 struts2
Struts2中参数传值的3种情况 1.请求参数绑定到Action的实例字段上 2.Action将值传递到转发的视图上 3.Action将值传递到重定向的视图上一、请求参数绑定到Action的实例字段上以及Action将值传递到转发的视图上 Struts可以自动将请求URL中的请求参数或者表单提交的参数绑定到Action定义的实例字段上，绑定的规则使用ognl表达式语言
【Kafka十四】关于auto.offset.reset[Q/A] bit1129 kafka
I got serveral questions about auto.offset.reset. This configuration parameter governs how consumer read the message from Kafka when there is no initial offset in ZooKeeper or
nginx gzip压缩配置 ronin47 nginx gzip 压缩范例
nginx gzip压缩配置更多 0 nginx gzip 配置随着nginx的发展，越来越多的网站使用nginx，因此nginx的优化变得越来越重要，今天我们来看看nginx的gzip压缩到底是怎么压缩的呢？ gzip(GNU-ZIP)是一种压缩技术。经过gzip压缩后页面大小可以变为原来的30%甚至更小，这样，用
java-13.输入一个单向链表，输出该链表中倒数第 k 个节点 bylijinnan java
two cursors. Make the first cursor go K steps first. /* * 第 13 题：题目：输入一个单向链表，输出该链表中倒数第 k 个节点 */ public void displayKthItemsBackWard(ListNode head,int k){ ListNode p1=head,p2=head;
Spring源码学习-JdbcTemplate queryForObject bylijinnan java spring
JdbcTemplate中有两个可能会混淆的queryForObject方法： 1. Object queryForObject(String sql, Object[] args, Class requiredType) 2. Object queryForObject(String sql, Object[] args, RowMapper rowMapper) 第1个方法是只查
[冰川时代]在冰川时代,我们需要什么样的技术? comsci 技术
看美国那边的气候情况....我有个感觉...是不是要进入小冰期了? 那么在小冰期里面...我们的户外活动肯定会出现很多问题...在室内呆着的情况会非常多...怎么在室内呆着而不发闷...怎么用最低的电力保证室内的温度.....这都需要技术手段... &nb
js 获取浏览器型号 cuityang js 浏览器
根据浏览器获取iphone和apk的下载地址 <!DOCTYPE html> <html> <head> <meta charset="utf-8" content="text/html"/> <meta name=
C# socks5详解转 dalan_123 socket C#
http://www.cnblogs.com/zhujiechang/archive/2008/10/21/1316308.html 这里主要讲的是用.NET实现基于Socket5下面的代理协议进行客户端的通讯，Socket4的实现是类似的，注意的事，这里不是讲用C#实现一个代理服务器，因为实现一个代理服务器需要实现很多协议，头大，而且现在市面上有很多现成的代理服务器用，性能又好，
运维 Centos问题汇总 dcj3sjt126com 云主机
一、sh 脚本不执行的原因 sh脚本不执行的原因只有2个 1.权限不够 2.sh脚本里路径没写完整。二、解决You have new mail in /var/spool/mail/root 修改/usr/share/logwatch/default.conf/logwatch.conf配置文件 MailTo = MailFrom 三、查询连接数
Yii防注入攻击笔记 dcj3sjt126com sql WEB安全 yii
网站表单有注入漏洞须对所有用户输入的内容进行个过滤和检查，可以使用正则表达式或者直接输入字符判断，大部分是只允许输入字母和数字的，其它字符度不允许；对于内容复杂表单的内容，应该对html和script的符号进行转义替换：尤其是<,>,',"",&这几个符号这里有个转义对照表： http://blog.csdn.net/xinzhu1990/articl
MongoDB简介[一] eksliang mongodb MongoDB简介
MongoDB简介转载请出自出处：http://eksliang.iteye.com/blog/2173288 1.1易于使用 MongoDB是一个面向文档的数据库，而不是关系型数据库。与关系型数据库相比，面向文档的数据库不再有行的概念，取而代之的是更为灵活的“文档”模型。另外，不
zookeeper windows 入门安装和测试 greemranqq zookeeper 安装分布式
一、序言以下是我对zookeeper 的一些理解： zookeeper 作为一个服务注册信息存储的管理工具，好吧，这样说得很抽象，我们举个“栗子”。栗子1号：假设我是一家KTV的老板，我同时拥有5家KTV，我肯定得时刻监视
Spring之使用事务缘由(2-注解实现) ihuning spring
Spring事务注解实现 1. 依赖包： 1.1 spring包： spring-beans-4.0.0.RELEASE.jar spring-context-4.0.0.
iOS App Launch Option 啸笑天 option
iOS 程序启动时总会调用application:didFinishLaunchingWithOptions:，其中第二个参数launchOptions为NSDictionary类型的对象，里面存储有此程序启动的原因。 launchOptions中的可能键值见UIApplication Class Reference的Launch Options Keys节。 1、若用户直接
jdk与jre的区别（_） macroli java jvm jdk
简单的说JDK是面向开发人员使用的SDK，它提供了Java的开发环境和运行环境。SDK是Software Development Kit 一般指软件开发包，可以包括函数库、编译程序等。 JDK就是Java Development Kit JRE是Java Runtime Enviroment是指Java的运行环境，是面向Java程序的使用者，而不是开发者。如果安装了JDK，会发同你
Updates were rejected because the tip of your current branch is behind qiaolevip 学习永无止境每天进步一点点众观千象 git
$ git push joe prod-2295-1 To [email protected]:joe.le/dr-frontend.git ! [rejected] prod-2295-1 -> prod-2295-1 (non-fast-forward) error: failed to push some refs to '[email protected]
[一起学Hive]之十四-Hive的元数据表结构详解 superlxw1234 hive hive元数据结构
关键字：Hive元数据、Hive元数据表结构之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。文章最后面，会以一个示例来全面了解一下，
Spring 3.2.14，4.1.7，4.2.RC2发布 wiselyman Spring 3
Spring 3.2.14、4.1.7及4.2.RC2于6月30日发布。其中Spring 3.2.1是一个维护版本(维护周期到2016-12-31截止)，后续会继续根据需求和bug发布维护版本。此时，Spring官方强烈建议升级Spring框架至4.1.7 或者将要发布的4.2 。其中Spring 4.1.7主要包含这些更新内容。