C0oOder

Flink 学习十 FlinkSQL

Flink 学习十 Flink SQL

1. FlinkSQL 基础概念

flink sql 基于flink core ,使用sql 语义方便快捷的进行结构化数据处理的上层库; 类似理解sparksql 和sparkcore , hive和mapreduce

1.1 工作流程

整体架构和工作流程

数据流,绑定元数据 schema ,注册成catalog 中的表 table / view
用户使用table Api / table sql 来表达计算逻辑
table-planner利用 apache calcite 进行 sql 语法解析,绑定元数据得到逻辑执行计划
再由Optimizer 进行优化,得到物理执行计划
物理计划经过代码生成器生成代码.得到transformation tree
transformation tree 转化成jobGraph 提交到flink 集群运行

1.2 catalog

目录提供元数据，例如数据库、表、分区、视图以及访问存储在数据库或其他外部系统中的数据所需的功能和信息。

数据处理最重要的方面之一是管理元数据。它可能是临时元数据，如临时表，或针对表环境注册的 UDF。或永久元数据，如 Hive Metastore 中的元数据。目录提供了一个统一的 API，用于管理元数据并使其可从表 API 和 SQL 查询访问。

Catalog 使用户能够引用其数据系统中现有的元数据，并自动将它们映射到 Flink 对应的元数据。例如，Flink 可以自动将 JDBC 表映射到 Flink 表，用户无需在 Flink 中手动重写 DDL。Catalog大大简化了用户现有系统上手Flink的步骤，大大提升了用户体验;

1.3 逻辑执行计划

apache calcite 进行 sql 语法解析获取到的语法树

然后再根据查询优化对数裁剪

Flinksql 中有两个优化器

RBO（基于规则的优化器）遍历一系列规则（RelOptRule），只要满足条件就对原来的计划节点（表达式）进行转换或调整位置，生成最终的执行计划(分区裁剪（Partition Prune）、列裁剪,谓词下推（Predicate Pushdown）、投影下推（Projection Pushdown）、聚合下推、limit 下推、sort 下推,常量折叠（

Constant Folding）,子查询内联转 join 等)
CBO（基于代价（成本）的优化器）:会保留原有表达式，基于统计信息和代价模型，尝试探索生成等价关系表达式，最终取代价最小的执行计划,比如根据代价 cost 选择批处理 join 有方式(sortmergejoin，hashjoin，boradcasthashjoin)。

1.4 动态表特性

和Spark 和hive等组件中的表最大不同之处,flinkSQL中的表示动态表,动态指的是动态的结果输出,结果是流式,动态,持续的

数据源的输入是持续的
查询过程是持续的
结果输出也是持续的

动态:不仅仅是数据追加,也有对数据输出的结果的撤回(删除),更新;

传统SQL	流处理
关系（或表）是有界的（多）元组集。	流是元组的无限序列。
对批处理数据（例如，关系数据库中的表）执行的查询可以访问完整的输入数据。	流式查询在启动时无法访问所有数据，必须“等待”数据流入。
批量查询在生成固定大小的结果后终止。	流式查询根据收到的记录不断更新其结果，并且永远不会完成。

流被转换为动态表。
对动态表进行连续查询评估，生成一个新的动态表。
生成的动态表被转换回流。

1.5 动态表示例

点击事件流来解释动态表和连续查询的概念

CREATE TABLE clicks (
  user  VARCHAR,     -- the name of the user
  url   VARCHAR,     -- the URL that was accessed by the user
  cTime TIMESTAMP(3) -- the time when the URL was accessed
) WITH (...);

1.5.1 连续查询

连续查询在动态表上进行评估，并生成一个新的动态表作为结果。与批查询相反，连续查询永远不会终止并根据其输入表的更新更新其结果表。在任何时间点，连续查询在语义上等同于在输入表的快照上以批处理模式执行的相同查询的结果。

第一个查询是一个简单的GROUP-BY COUNT聚合查询。它clicks根据字段对user表格进行分组，并计算访问的 URL 的数量

第二个查询与第一个查询类似，但在计算 URL 数量之前clicks，除了属性之外，还在每小时滚动窗口user上对表进行分组（稍后讨论基于时间的计算，例如窗口是基于特殊 :时间窗口)

1.6 表到流转换

动态表可以像常规数据库表一样通过INSERT、UPDATE、DELETE 和不断修改。

Flink 的 Table API 和 SQL 支持三种方式来编码动态表的变化：

Append-only stream : 追加流可以通过发出插入的行将仅由更改修改的动态表INSERT转换为流
Retract stream: 回撤流撤回流是具有两种类型消息的流，添加消息和撤回消息

1.mary + , 2. bob + 3. mary 先delete在 insert 4. liz + 5.bob delete 后在insert

Upsert stream : 两种消息的流，upsert messages和delete messages。转换为更新插入流的动态表需要一个（可能是复合的）唯一键。具有唯一键的动态表通过编码转换为流INSERT，并UPDATE更改为更新插入消息和DELETE更改为删除消息。流消费操作员需要知道唯一的键属性才能正确应用消息。与 retract 流的主要区别在于UPDATE更改是用单个消息编码的，因此效率更高

2. FlinkSQL 编程

2.1 使用模板

2.1.1 添加依赖

<dependency>
	<groupId>org.apache.flinkgroupId>
	<artifactId>flink-table-api-java-bridge_2.12artifactId>
	<version>${flink.version}version>
dependency>

2.1.2 Flinksql编程模板

创建 flinksql 编程入口
将数据源定义（映射）成表（视图）
执行 sql 语义的查询（sql 语法或者 tableapi）
将查询结果输出到目标表

2.1.3 Table Environment

flink sql 的编程入口

TableEnvironment 主要的功能是

注册 catalogs // hive //kafka //mysql 数据的来源种类
向 catalog 注册表 //
加载可插拔模块（目前有 hive module，以用于扩展支持 hive 的语法、函数等）
执行 sql 查询（sql 解析，查询计划生成，job 提交）
注册用户自定义函数
提供 datastream 和 table 之间的互转

创建方式

方式1

EnvironmentSettings settings = EnvironmentSettings
.newInstance()
.inStreamingMode()
//.inBatchMode()
.build();
TableEnvironment tEnv = TableEnvironment.create(settings);

方式2

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tEnv = StreamTableEnvironment.create(env);

2.2 Table SQL

kafka fink table 的创建

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/kafka/

‘format’ = ‘csv’ 格式个参考文档

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/formats/overview/

public class _01_flinksql {

	public static void main(String[] args) throws Exception {
        // 获取环境
        EnvironmentSettings environmentSettings = EnvironmentSettings.inStreamingMode();
        TableEnvironment tableEnv = TableEnvironment. create(environmentSettings);

        String createSQL = "CREATE TABLE t_kafka (\n" +
                "  id BIGINT,\n" +
                "  age BIGINT,\n" +
                "  name STRING,\n" +
                "  gender STRING \n" +
                ") WITH (\n" +          //创建的表的各种参数
                " 'connector' = 'kafka',\n" + 
                " 'topic' = 'flinksql_test1',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +  //添加flink-csv 依赖如果是json 还需要添加flink-json 的依赖   
                " 'scan.startup.mode' = 'earliest-offset', \n" +   //读取策略
                " 'csv.ignore-parse-errors' = 'false',\n" +  //解析错误是否忽略
                " 'csv.allow-comments' = 'true'\n" +  //是否允许注释
                ")";

        tableEnv.executeSql(createSQL);

        TableResult tableResult = tableEnv.executeSql(" select gender ,avg(age) from t_kafka group by gender ");

        tableResult.print();
    }
}

2.3 Table API


public class _02_flinksql_tableapi {

	public static void main(String[] args) throws Exception {
        // 获取环境
        EnvironmentSettings environmentSettings = EnvironmentSettings.inStreamingMode();
        TableEnvironment tableEnv = TableEnvironment. create(environmentSettings);
        TableDescriptor build = TableDescriptor.forConnector("kafka").schema(Schema.newBuilder()
                        .column("id", DataTypes.INT())
                        .column("age", DataTypes.INT())
                        .column("name", DataTypes.STRING())
                        .column("gender", DataTypes.STRING())
                        .build())
                .format("csv")
                .option("topic", "flinksql_test1")
                .option("properties.bootstrap.servers", "CentOSA:9092,CentOSB:9092,CentOSC:9092")
                .option("properties.group.id", "testGroup")
                .option("scan.startup.mode", "earliest-offset")
                .option("csv.ignore-parse-errors", "false")
                .option("csv.allow-comments", "true")
                .build();
        Table table = tableEnv.from(build);


        //table.execute().print();    //输出表数据

        //按照 gender 聚合  age的平均值
        Table select = table
                .groupBy($("gender"))
                .select($("age").avg());
        
        //输出数据
        select.execute().print();
    }
}

2.4 Table SQL && Table API

public class _03_flinksql_sqlapi_muti {

	public static void main(String[] args) throws Exception {
        // 获取环境
        EnvironmentSettings environmentSettings = EnvironmentSettings.inStreamingMode();
        TableEnvironment tableEnv = TableEnvironment. create(environmentSettings);

        //table sql
        String createSQL = "CREATE TABLE t_kafka (\n" +
                "  id BIGINT,\n" +
                "  age BIGINT,\n" +
                "  name STRING,\n" +
                "  gender STRING \n" +
                ") WITH (\n" +          //创建的表的各种参数
                " 'connector' = 'kafka',\n" +
                " 'topic' = 'flinksql_test1',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +  //添加flink-csv 依赖如果是json 还需要添加flink-json 的依赖
                " 'scan.startup.mode' = 'earliest-offset', \n" +   //读取策略
                " 'csv.ignore-parse-errors' = 'false',\n" +  //解析错误是否忽略
                " 'csv.allow-comments' = 'true'\n" +  //是否允许注释
                ")";

        tableEnv.executeSql(createSQL);

        //前面sql 里面创建的表
        Table table = tableEnv.from("t_kafka");

        //table api
        //按照 gender 聚合  age的平均值
        Table select = table
                .groupBy($("gender"))
                .select($("age").avg());
        select.execute().print();
    }
}

2.5 其他方式

Table SQL , Table API , Flink core 都是可以混用的;

//编程环境的创建和转换
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tEnv = StreamTableEnvironment.create(env);

3. Flink 表

3.1 表的结构

catalog name （常用于标识不同的“源”，比如 hive catalog，inner catalog 等）
database name（通常语义中的“库”）
table name（通常语义中的“表”）

TableEnvironment tEnv = ...;
tEnv.useCatalog("a_catalog"); 
tEnv.useDatabase("db1");
Table table = ...;
// 注册在默认 catalog 的默认 database 中
tableEnv.createTemporaryView("a_view", table);
// 注册在默认 catalog 的指定 database 中
tableEnv.createTemporaryView("db2.a_view", table);
// 注册在指定 catalog 的指定 database 中
tableEnv.createTemporaryView("x_catalog.db3.a_view",

3.2 表和视图

Flinksq中的表，可以是virtual的（view视图）和regular的（table常规表）

table 描述了一个物理上的外部数据源，如文件、数据库表、kafka 消息 topic
view 则基于表创建，代表一个或多个表上的一段计算逻辑(一段查询计划的逻辑封装)

注:不管是 table 还是 view，在 tableAPI 中得到的都是 Table 对象

3.3 临时与永久

临时表:创建时带 temporary 关键字（crate temporary view，createtemporary table）
永久表:创建时不带 temporary 关键字（create view ，create table ）

// sql 定义方式
tableEnv.executeSql("create view view_1 as select .. from projectedTable")
tableEnv.executeSql("create temporary view view_2 as select .. from projectedTable")
tableEnv.executeSql("create table (id int,...) with ( 'connector'= ...)")
tableEnv.executeSql("create temporary table (id int,...) with ( 'connector'= ...)")
// tableapi 方式
tenv.createTable("t_1",tableDescriptor);
tenv.createTemporaryTable("t_1",tableDescriptor);
tenv.createTemporaryView("v_1",dataStream,schema);
tenv.createTemporaryView("v_1",table);

区别:

临时表/视图

表 schema 只维护在所属 flink session 运行时内存中；当所属的 flink session 结束后表信息将不复存在；且该表无法在 flink session 间共享;(任务重启后丢失)

常规(永久)表/视图

表 schema 可记录在外部持久化的元数据管理器中（比如 hive 的 metastore）；当所属 flink session 结束后，该表信息不会丢失；且在不同 flink session 中都可访问到该表的信息

3.4 Table API 使用

Table 对象创建方式

从之前已创建的表(已存在的表)
从 TableDescriptor（指定参数连接器/format/schema/options）
从 DataStream
从 Table 对象上的查询 api 生成
从测试数据

3.4.1从之前已创建的表(已存在的表)

//1.获取之前创建的表(已存在的表)
Table table = tableEnv.from("t_kafka");



//4.从 Table 对象上的查询 api 生成
Table select = table
        .groupBy($("gender"))
        .select($("age").avg());

//5. 从测试数据

3.4.2 从 TableDescriptor

（指定参数连接器/format/schema/options）


//2.根据表的定义创建表
TableDescriptor build = TableDescriptor.forConnector("kafka").schema(Schema.newBuilder()
                .column("id", DataTypes.INT())
                .column("age", DataTypes.INT())
                .column("name", DataTypes.STRING())
                .column("gender", DataTypes.STRING())
                .build())
        .format("csv")
        .option("topic", "flinksql_test1")
        .option("properties.bootstrap.servers", "CentOSA:9092,CentOSB:9092,CentOSC:9092")
        .option("properties.group.id", "testGroup")
        .option("scan.startup.mode", "earliest-offset")
        .option("csv.ignore-parse-errors", "false")
        .option("csv.allow-comments", "true")
        .build();
Table table = tableEnv.from(build);

3.4.3 从 DataStream

        //方式3:从 DataStream
        // 设置kafka的参数
        KafkaSource<String> kafkaSource = KafkaSource.<String>builder()
                .setBootstrapServers("CentOSA:9092,CentOSB:9092,CentOSC:9092")
                .setTopics("eos")
                .setGroupId("eosgroup")
                .setValueOnlyDeserializer(new SimpleStringSchema())
                //kafkaSource 的做状态 checkpoint 时，默认会向__consumer_offsets 提交一下状态中记录的偏移量
                // 但是，flink 的容错并不优选依赖__consumer_offsets 中的记录，所以可以关闭该默认机制
                .setProperty("commit.offsets.on.checkpoint","false")
                .setProperty(ConsumerConfig.ENABLE_AUTO_COMMIT_CONFIG,"false")
                // kafkaSource 启动时，获取起始位移的策略设置，如果是 committedOffsets ，则是从之前所记录的偏移量开始
                // 如果没有可用的之前记录的偏移量, 则用策略 OffsetResetStrategy.LATEST 来决定
                .setStartingOffsets(OffsetsInitializer.committedOffsets(OffsetResetStrategy.LATEST))
                .build();
        DataStreamSource<String> dataStreamSource = env.fromSource(kafkaSource, WatermarkStrategy.noWatermarks(),
                "kafka-source");
        //这种不指定schema 格式是默认的会有问题,需要定义schema数据 下面转换成对象就可以
        //Table table1 = tableEnv.fromDataStream(map);
        DataStream<Person> map = dataStreamSource.map(x -> JSONObject.parseObject(x, Person.class));
        //这种不指定schema 格式是默认的会有问题,需要定义schema数据
        Table table1 = tableEnv.fromDataStream(map);

        //指定schema
//        Table table2 = tableEnv.fromDataStream(map, Schema.newBuilder()
//                .column("id", DataTypes.INT())
//                .column("age", DataTypes.INT())
//                .column("name", DataTypes.STRING())
//                .column("gender", DataTypes.STRING())
//                .build());

3.4.5 从 Table 对象上的查询 api 生成

        //4.从 Table 对象上的查询 api 生成
        //按照 gender 聚合  age的平均值
        Table select = table
                .groupBy($("gender"))
                .select($("age").avg());

3.5.5 从测试数据

//5.测试数据
Table table2 = tableEnv.fromValues(Row.of(1,"a","shanghai"),Row.of(21,"b","beijin"));
//三个字段 f0 f1  f2

3.6 Table SQL 使用

Table SQL创建表又如下使用反式

从已存在的 datastream 注册
从已存在的 Table 对象注册
从 TableDescriptor（连接器）注册
执行 Sql 的 DDL 语句来注册

3.6.1 从已存在的 datastream 注册

DataBean bean1 = new DataBean(1, "s1", "e1", "pg1", 1000);
DataBean bean2 = new DataBean(1, "s1", "e1", "pg1", 1000);
DataStreamSource<DataBean> dataStream1 = env.fromElements(bean1,bean2);
// 1.自动推断 schema
tenv.createTemporaryView("t1",dataStream1);
// 2.也可以手动指定 schema Schema schema = Schema.Builder.column...build();
tenv.createTemporaryView("t1",dataStream1,schema);
tenv.executeSql("desc t1");
tenv.executeSql("select * from t1");

3.6.2 从已存在的 Table 对象注册

 tableEnv.createTemporaryView("view_1",tableEnv.from("t_kafka"));

3.6.3 从TableDescriptor 注册

tenv.createTable("t1", TableDescriptor.forConnector("filesystem")
.option("path", "file:///d:/a.txt")
.format("csv")
.schema(Schema.newBuilder()
.column("guid",DataTypes.STRING())
.column("name",DataTypes.STRING())
.column("age",DataTypes.STRING())
.build())
.build());

3.6.4 执行 Sql 的 DDL 语句来注册

        String createSQL = "CREATE TABLE t_kafka (\n" +
                "  id BIGINT,\n" +
                "  age BIGINT,\n" +
                "  name STRING,\n" +
                "  gender STRING \n" +
                ") WITH (\n" +          //创建的表的各种参数
                " 'connector' = 'kafka',\n" +
                " 'topic' = 'flinksql_test1',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +  //添加flink-csv 依赖如果是json 还需要添加flink-json 的依赖
                " 'scan.startup.mode' = 'earliest-offset', \n" +   //读取策略
                " 'csv.ignore-parse-errors' = 'false',\n" +  //解析错误是否忽略
                " 'csv.allow-comments' = 'true'\n" +  //是否允许注释
                ")";

        tableEnv.executeSql(createSQL);
        tableEnv.executeSql(" select * from t_kafka");


//格式
   tableEnv.executeSql(" CREATE TABLE t_kafka (...) with (... )");
   tableEnv.executeSql(" CREATE temporary table t_kafka (...) with (... )");
   tableEnv.executeSql(" CREATE temporary view t_kafka (...) with (... )");
   tableEnv.executeSql(" CREATE temporary view as select ... from ... ");

4. Catalog

4.1 基础概念

catalog就是一个元数据空间，简单说就是记录、获取元数据（表定义信息）的实体

StreamTableEnvironment 的实现类StreamTableEnvironmentImpl 持有对象 CatalogManager

CatalogManager中持有对象 private final Map catalogs; 管理所有Catalog

@Internal
public class TableEnvironmentImpl implements TableEnvironmentInternal {
    .....
    private final CatalogManager catalogManager;
    ....
}

public final class CatalogManager {
    ...
    // A map between names and catalogs.
    private final Map<String, Catalog> catalogs;
     ...
}

Catalog 
AbstractCatalog (org.apache.flink.table.catalog)
    AbstractJdbcCatalog (org.apache.flink.connector.jdbc.catalog)
        JdbcCatalog (org.apache.flink.connector.jdbc.catalog)
        PostgresCatalog (org.apache.flink.connector.jdbc.catalog)
    GenericInMemoryCatalog (org.apache.flink.table.catalog)
    HiveCatalog (org.apache.flink.table.catalog.hive)

4.2 默认catalog

默认的catalog 和database

public class _06_flinksql_catalog {

    public static void main(String[] args) throws Exception {
        // 获取环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        //方式2:从 TableDescriptor
        String createSQL = "CREATE TABLE t_kafka (\n" +
                "  id BIGINT,\n" +
                "  age BIGINT,\n" +
                "  name STRING,\n" +
                "  gender STRING \n" +
                ") WITH (\n" +          //创建的表的各种参数
                " 'connector' = 'kafka',\n" +
                " 'topic' = 'flinksql_test1',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +  //添加flink-csv 依赖如果是json 还需要添加flink-json 的依赖
                " 'scan.startup.mode' = 'earliest-offset', \n" +   //读取策略
                " 'csv.ignore-parse-errors' = 'false',\n" +  //解析错误是否忽略
                " 'csv.allow-comments' = 'true'\n" +  //是否允许注释
                ")";
        tableEnv.executeSql(createSQL);
        tableEnv.executeSql(" show catalogs ").print();
        tableEnv.executeSql(" use catalog default_catalog   ").print();
        tableEnv.executeSql(" show databases  ").print();
    }
}
+-----------------+
|    catalog name |
+-----------------+
| default_catalog |   // default_catalog
+-----------------+
1 row in set
+--------+
| result |
+--------+
|     OK |
+--------+
1 row in set
+------------------+
|    database name |
+------------------+
| default_database |  // default_database
+------------------+

4.3 使用hive catalog

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/hive/overview/

添加依赖

 <dependency>
     <groupId>org.apache.flinkgroupId>
     <artifactId>flink-sql-connector-hive-3.1.2_2.11artifactId>
     <version>${flink.version}version>
 dependency>

添加配置文件

<configuration>
    <property>
        <name>hive.metastore.urisname>
        <value>thrift://node1:9083value>
    property>
configuration>

代码示例

public class _06_flinksql_hive_catalog {

    public static void main(String[] args) throws Exception {
        // 获取环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        // 创建了一个 hive 元数据空间的实现对象
        HiveCatalog hiveCatalog = new HiveCatalog("hive", "default", "D:\\Resource\\FrameMiddleware\\FlinkNew\\hive-conf");

        // 将 hive 元数据空间对象注册到 环境中
        tableEnv.registerCatalog("mycatalog",hiveCatalog);

        tableEnv.executeSql("   select * from `mycatalog`.`default`.`sqooptest_mysql_tohive`  ").print();

        tableEnv.executeSql("   create table `mycatalog`.`default`.`testtable2`  ").print();
        tableEnv.executeSql("   create view  `mycatalog`.`default`.`flinkview` as  select * from  `mycatalog`.`default`.`sqooptest_mysql_tohive` ").print();

    }
}


//
+-------------------------+
|        tab_name         |
+-------------------------+
| bigtable                |
| dept_partition          |
| dept_partition_1        |
| flinkview               |   已添加
| jointable               |
| partition_dynamic_test  |
| smalltable              |
| sqooptest_mysql_tohive  |
| testtable1              |
| testtable2              |
| testtable4              |
| testview3               |
+-------------------------+

//--
+----------------------------------------------------+
|                   createtab_stmt                   |
+----------------------------------------------------+
| CREATE VIEW `flinkview` AS SELECT *                |
| FROM `mycatalog`.`default`.`sqooptest_mysql_tohive` |
+----------------------------------------------------+

4.4 临时表&永久表

如果选择使用hive 元数据空间 (HiveCatalog)来创建表视图

永久表/ 视图的元信息,都会被hive 的元数据服务保存,实现持久化存储
临时表/ 视图,不会被hive 元数据服务保存而是放在 catalogManager 的一个 temporaryTables 的内存 hashmap 中记录
临时表空间中的表名（全名）如果与 hive 空间中的表名相同，则查询时会优先选择临时表空间的表

如果使用 GenericInMemoryCatalog

永久表（视图）的元信息，都会被写入 GenericInMemoryCatalog 的元数据管理器中（内存中）
临时表（视图）的元信息，放在 catalogManager 的一个 temporaryTables 的内存 hashmap 中记录
无论永久还是临时，当 flink 的运行 session 结束后，所创建的表（永久、临时）都将不复存在

4.5 HiveCatalog/ Catalog

flink的Catalog 持久化能力依赖于hive 的元数据服务 metastore;

在hive中虽然可以看到这些表,但是hive是无法使用的,并不能使用spark 或者mr 来查询数据或运算数据

5. 表Schema 详解

5.1 字段定义

5.1.1 物理字段 physical column

物理字段：源自于“外部存储”系统本身 schema 中的字段

示例: kafka 中的 key ,value (数据作为JSON存储),MySQL中的字段,hive 表中的字段

5.1.2 逻辑字段computed column

在物理字段上施加一个 sql 表达式，并将表达式结果定义为一个字段;

基于物理字段的表达式

Schema.newBuilder()
// 声明表达式字段 age_exp, 它来源于物理字段 age+10
.columnByExpression("age_exp", "age+10")
CREATE TABLE MyTable (
`user_id` BIGINT, 
    `price` DOUBLE, 
    `quantity` DOUBLE, 
    `cost` AS price * quantity, -- cost 来源于： price*quantity
) WITH (
'connector' = 'kafka'
... );

5.1.3 metadata column

元数据字段：来源于 connector 从外部存储系统中获取到的“外部系统元信息”

比如，kafka 的消息，通常意义上的数据内容是在 record 的 key 和 value 中的，而实质上（底层角度来看），kafka 中的每一条 record，不光带了 key 和 value 数据内容，还带了这条 record 所属的 topic，所属的 partition，所在的 offset，以及 record 的 timetamp 和 timestamp 类型等“元信息”

Kafka 的元数据字段

Key	Data Type	Description	R/W
`topic`	`STRING NOT NULL`	Topic name of the Kafka record.	`R`
`partition`	`INT NOT NULL`	Partition ID of the Kafka record.	`R`
`headers`	`MAP NOT NULL`	Headers of the Kafka record as a map of raw bytes.	`R/W`
`leader-epoch`	`INT NULL`	Leader epoch of the Kafka record if available.	`R`
`offset`	`BIGINT NOT NULL`	Offset of the Kafka record in the partition.	`R`
`timestamp`	`TIMESTAMP_LTZ(3) NOT NULL`	Timestamp of the Kafka record.	`R/W`
`timestamp-type`	`STRING NOT NULL`	Timestamp type of the Kafka record. Either “NoTimestampType”, “CreateTime” (also set when writing metadata), or “LogAppendTime”.	`R`

5.1.4 主键约束

//很多connector不支持 ,kafka upsert 支持

单字段主键约束语法：

id INT PRIMARY KEY NOT ENFORCED, 
name STRING

多字段主键约束语法：

id int , 
name STRING, 
PRIMARY KEY(id,name) NOT ENFORCED

5.1.5 示例写法

写法一 flink table sql

public class _08_flinksql_column {

    public static void main(String[] args) throws Exception {
        // 获取环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        //方式2:从 TableDescriptor
        String createSQL = "CREATE TABLE t_kafka (\n" +
                "  id BIGINT ,\n" +    //physical column
                //"  id BIGINT PRIMARY KEY NOT ENFORCED,\n" +
                "  age BIGINT,\n" +   //physical column
                "  min_age as  age-1 ,\n" +  //computed column
                "  name STRING,\n" +   //physical column
                "  gender STRING, \n" +  //physical column
                "  kafka_offset bigint metadata from 'offset', \n" +  //metadata column
                "  kafka_timestamp TIMESTAMP_LTZ(3) metadata from 'timestamp' \n" +  //metadata column
                //" , PRIMARY KEY (id ,name ) NOT ENFORCED \n" +
                ") WITH (\n" +          //创建的表的各种参数
                " 'connector' = 'kafka',\n" +
                " 'topic' = 'flinksql_test1',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +  //添加flink-csv 依赖如果是json 还需要添加flink-json 的依赖
                " 'scan.startup.mode' = 'earliest-offset', \n" +   //读取策略
                " 'csv.ignore-parse-errors' = 'false',\n" +  //解析错误是否忽略
                " 'csv.allow-comments' = 'true'\n" +  //是否允许注释
                ")";

        tableEnv.executeSql(createSQL);

        tableEnv.executeSql(" desc t_kafka ").print();
        tableEnv.executeSql(" select * from t_kafka ").print();

    }
}

// desc t_kafka
+-----------------+------------------+------+-----+---------------------------+-----------+
|            name |             type | null | key |                    extras | watermark |
+-----------------+------------------+------+-----+---------------------------+-----------+
|              id |           BIGINT | true |     |                           |           |
|             age |           BIGINT | true |     |                           |           |
|         min_age |           BIGINT | true |     |              AS `age` - 1 |           |
|            name |           STRING | true |     |                           |           |
|          gender |           STRING | true |     |                           |           |
|    kafka_offset |           BIGINT | true |     |    METADATA FROM 'offset' |           |
| kafka_timestamp | TIMESTAMP_LTZ(3) | true |     | METADATA FROM 'timestamp' |           |
+-----------------+------------------+------+-----+---------------------------+-----------+
    
//select * from t_kafka 
+----+----------------------+----------------------+----------------------+--------------------------------+--------------------------------+----------------------+-------------------------+
| op |                   id |                  age |              min_age |                           name |                         gender |         kafka_offset |         kafka_timestamp |
+----+----------------------+----------------------+----------------------+--------------------------------+--------------------------------+----------------------+-------------------------+
| +I |                    1 |                    5 |                    4 |                            sff |                           male |                    0 | 2023-05-22 21:42:06.547 |
| +I |                    1 |                   10 |                    9 |                            sff |                           male |                    1 | 2023-05-22 21:42:17.703 |
| +I |                    1 |                   10 |                    9 |                           sff2 |                           male |                    2 | 2023-05-22 21:42:29.272 |
| +I |                    1 |                   10 |                    9 |                           sff2 |                         female |                    3 | 2023-05-22 21:42:38.014 |
| +I |                    1 |                   20 |                   19 |                           sff2 |                         female |                    4 | 2023-05-22 21:42:43.740 |
| +I |                    1 |                    2 |                    1 |                              3 |                              4 |                    5 | 2023-05-24 22:57:25.991 |
| +I |                    1 |                   20 |                   19 |                            sff |                           male |                    6 | 2023-05-24 22:58:11.530 |
| +I |                    1 |                   20 |                   19 |                            sff |                         malefa |                    7 | 2023-05-24 22:59:39.722 |

写法二 flink table api

public class _09_flinksql_column {

    public static void main(String[] args) throws Exception {
        // 获取环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        //方式2:从 TableDescriptor
        tableEnv.createTable("t_kafka",
                TableDescriptor.forConnector("kafka")
                        .schema(Schema.newBuilder()
                                .column("id", DataTypes.INT())  //physical column
                                .column("age", DataTypes.BIGINT())  //physical column
                                .column("name", DataTypes.STRING())  //physical column
                                .column("gender", DataTypes.STRING())  //physical column
                                .columnByExpression("min_age","age-1") //computed column
                                .columnByExpression("guid","id+100")  //computed column
                                //定义字段,字段类型 元数据字段,sink 时是否出现在schema中  (写数据一般不需要写元数据 如offset)
                                //:注 元数据字段一般定义为  isVirtual=true
                                .columnByMetadata("kafka_offset",DataTypes.BIGINT(),"offset",true) //metadata column
                                //metadata column
                                .columnByMetadata("kafka_timestamp",DataTypes.TIMESTAMP_LTZ(3),"timestamp",true) 
                                //.primaryKey("id") 需要connector 支持
                                .build())
                        .option("topic","flinksql_test1")
                        .format("csv")
                        .option("properties.bootstrap.servers","CentOSA:9092,CentOSB:9092,CentOSC:9092")
                        .option("properties.group.id","testGroup")
                        .option("scan.startup.mode","earliest-offset")
                        .option("csv.ignore-parse-errors","false")
                        .option("csv.allow-comments","true")
                .build());

        tableEnv.executeSql(" desc t_kafka ").print();
        tableEnv.executeSql(" select * from t_kafka ").print();

    }
}

5.2 format

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/formats/overview/

connector连接外部存储时,根据外部数据的格式不同,需要用到不同的format 组件

format 组件的作用就是告诉连接器,如何解析外部存储的数据以及映射到表的schema

注意点:

导入 format 组件的 jar 包依赖

        <dependency>
            <groupId>org.apache.flinkgroupId>
            <artifactId>flink-csvartifactId>
            <version>${flink.version}version>
        dependency>

指定 format 组件的名称

" 'format' = 'csv',\n"
      
//
.format("csv")

设置 format 组件所需的参数（不同 format 组件有不同的参数配置需求）


                ") WITH (\n" +          //创建的表的各种参数
                " 'connector' = 'kafka',\n" +
                " 'topic' = 'flinksql_test1',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +  //添加flink-csv 依赖如果是json 还需要添加flink-json 的依赖
                " 'scan.startup.mode' = 'earliest-offset', \n" +   //读取策略
                " 'csv.ignore-parse-errors' = 'false',\n" +  //解析错误是否忽略
                " 'csv.allow-comments' = 'true'\n" +  //是否允许注释
                ")";

目前支持的

Formats	Supported Connectors
CSV	Apache Kafka, Upsert Kafka, Amazon Kinesis Data Streams, Filesystem
JSON	Apache Kafka, Upsert Kafka, Amazon Kinesis Data Streams, Filesystem, Elasticsearch
Apache Avro	Apache Kafka, Upsert Kafka, Amazon Kinesis Data Streams, Filesystem
Confluent Avro	Apache Kafka, Upsert Kafka
Debezium CDC	Apache Kafka, Filesystem
Canal CDC	Apache Kafka, Filesystem
Maxwell CDC	Apache Kafka, Filesystem
Apache Parquet	Filesystem
Apache ORC	Filesystem
Raw	Apache Kafka, Upsert Kafka, Amazon Kinesis Data Streams, Filesystem

5.2.1 json fromat

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/formats/json/

依赖

<dependency>
<groupId>org.apache.flinkgroupId>
<artifactId>flink-jsonartifactId>
<version>1.15.0version>
dependency>

可选参数

format 组件名： json
json.fail-on-missing-field 缺失字段是否失败
json.ignor-parse-errors 是否忽略 json 解析错误
json.timestamp-format.standard json 中的 timestamp 类型字段的格式
json.map-null-key.mode 可取：FAIL ,DROP, LITERAL
json.map-null-key.literal 替换 null 的字符串
json.encode.decimal-as-plain-number

参数类型映射

看前面链接地址

复杂 json 格式解析1（嵌套对象）

{"id":10,"name":{"nick":"doe","formal":"xxxx"}}

映射成 flinksql 表

Schema schema = Schema.newBuilder()
.column("id", DataTypes.INT())
.column("name", DataTypes.ROW(
				DataTypes.FIELD("nick", DataTypes.STRING()), 
    			DataTypes.FIELD("formal", DataTypes.STRING())
	)
)
.build();

//sql 方式
create table json_table2(
  id int,
  name map<string,string>
)

查询

select id,name.nick,name.formal from t

复杂 json 格式解析2（嵌套对象）

{"id":1,"friends":[{"name":"a","info":{"addr":"bj","gender":"male"}},{"name":"b","info":{"addr":"sh","gender":"female"}}]}

Schema schema3 = Schema.newBuilder()
.column("id", DataTypes.INT())
.column("friends", DataTypes.ARRAY(
	DataTypes.ROW(
	DataTypes.FIELD("name", DataTypes.STRING()), 
    DataTypes.FIELD("info", DataTypes.ROW(
	DataTypes.FIELD("addr", DataTypes.STRING()), 
    DataTypes.FIELD("gender", DataTypes.STRING())
))
)))
.build();


//sql 方式
create table json_table2(
  id int,
  friend array<row <name string,info map<string,string>>>
)

查询

select id,friends[1].name,friends[1].info.addr from t1

5.2.2 csv fromat

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/formats/csv/

依赖

<dependency>
  <groupId>org.apache.flinkgroupId>
  <artifactId>flink-csvartifactId>
  <version>1.14.4version>
dependency>

可选参数

format = csv
csv.field-delimiter = ',' csv.disable-quote-character = false
csv.quote-character = ' " ' csv.allow-comments = false
csv.ignore-parse-erros = false 是否忽略解析错误
csv.array-element-delimiter = ' ; ' 数组元素之间的分隔符
csv.escape-character = none 转义字符
csv.null-literal = none null 的字面量字符串

参数类型映射

看前面链接地址

5.3 watermark 和时间介绍

flink sql 定义watermark

{

    public static void main(String[] args) throws Exception {
        // 获取环境
        Configuration configuration = new Configuration();
        configuration.setInteger("rest.port", 8822);
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(configuration);
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        //方式2:从 TableDescriptor
        String createSQL = "CREATE TABLE t_kafka_wm (\n" +
                "  id BIGINT ,\n" +
                "  age BIGINT,\n" +   //physical column
                "  name STRING,\n" +
                "  gender STRING, \n" +
                "  eventTime timestamp(3), \n" +
                "  watermark for eventTime as  eventTime - interval '1' second, \n" +

                //如果时间类型是long类型
//                " eventTime bigint ," +
//                " et as to_timestamp_ltz(eventTime,3)," +
//                " watermark for et as  et - interval '0.1' second  "+
                //" , PRIMARY KEY (id ,name ) NOT ENFORCED \n" +


                //处理时间语义
                " pt as proctime()  " +
                ") WITH (\n" +          //创建的表的各种参数
                " 'connector' = 'kafka',\n" +
                " 'topic' = 'flinksql_test_wm',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +  //添加flink-csv 依赖如果是json 还需要添加flink-json 的依赖
                " 'scan.startup.mode' = 'earliest-offset', \n" +   //读取策略
                " 'csv.ignore-parse-errors' = 'false',\n" +  //解析错误是否忽略
                " 'csv.allow-comments' = 'true'\n" +  //是否允许注释
                ")";

        tableEnv.executeSql(createSQL);

        tableEnv.executeSql(" desc t_kafka_wm ").print();
        CURRENT_WATERMARK 获取watermark
        tableEnv.executeSql(" select id,pt,eventTime,CURRENT_WATERMARK(eventTime) from t_kafka_wm ").print();

    }
}

+-----------+-----------------------------+-------+-----+---------------+-----------------------------------+
|      name |                        type |  null | key |        extras |                         watermark |
+-----------+-----------------------------+-------+-----+---------------+-----------------------------------+
|        id |                      BIGINT |  true |     |               |                                   |
|       age |                      BIGINT |  true |     |               |                                   |
|      name |                      STRING |  true |     |               |                                   |
|    gender |                      STRING |  true |     |               |                                   |
| eventTime |      TIMESTAMP(3) *ROWTIME* |  true |     |               | `eventTime` - INTERVAL '1' SECOND |
|        pt | TIMESTAMP_LTZ(3) *PROCTIME* | false |     | AS PROCTIME() |                                   |
+-----------+-----------------------------+-------+-----+---------------+-----------------------------------+
    
    
//
+----+----------------------+-------------------------+-------------------------+-------------------------+
| op |                   id |                      pt |               eventTime |                  EXPR$3 |
+----+----------------------+-------------------------+-------------------------+-------------------------+
| +I |                    1 | 2023-06-05 23:09:18.985 | 2023-03-01 10:00:01.000 |                  (NULL) |
| +I |                    1 | 2023-06-05 23:09:37.303 | 2023-03-01 10:00:10.000 | 2023-03-01 10:00:09.000 |
| +I |                    1 | 2023-06-05 23:09:42.600 | 2023-03-01 10:00:50.000 | 2023-03-01 10:00:09.000 |

flink api 方式

// 转成 table Table table2 = tenv.fromDataStream(ds2, Schema.newBuilder()
// 声明表达式字段，并声明为 processing time 属性字段
.columnByExpression("pt", "proctime()")
// 声明表达式字段（来自 ts）
.columnByExpression("rt", "to_timestamp_ltz(ts,3)")
// 将 rt 字段指定为 event time 属性字段，并基于它指定 watermark 策略： = rt
.watermark("rt", "rt")
// 将 rt 字段指定为 event time 属性字段，并基于它指定 watermark 策略： = rt - 8s
.watermark("rt", "rt - interval '8' second")

.build());
table2.printSchema();

5.4 流与表之间waterMark传递

前提:前面的数据流已经声明了watermark

复用上面代码 , SOURCE_WATERMARK 代表使用底层流的 watermark 策略

// 将 rt 字段指定为 event time 属性字段，并沿用“源头流”的 watermark
.watermark("rt", "SOURCE_WATERMARK()") // 得到与源头 watermark 完全一致

5.5 connector 详解

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/overview/

5.5.1 基础概念

connector 通常是用于对接外部存储建表（源表或目标表）时的映射器、桥接器
connector 本质上是对 flink 的 table source /table sink 算子的封装；

5.5.2 使用步骤

导入连接器 jar 包依赖
指定连接器类型名
指定连接器所需的参数（不同连接器有不同的参数配置需求）
获取连接器所提供的元数据

5.5.3 kafka connector 示例

kafka connector

产生的数据以及能接受的数据流是 append-only 流只有 +I 这种 changemode

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/kafka/

依赖

<dependency>
  <groupId>org.apache.flinkgroupId>
  <artifactId>flink-connector-kafka_2.11artifactId>
  <version>1.14.4version>
dependency>

连接类型

CREATE TABLE KafkaTable (
  `user_id` BIGINT,
  `item_id` BIGINT,
  `behavior` STRING,
  `ts` TIMESTAMP(3) METADATA FROM 'timestamp'  //获取连接器所提供的元数据
) WITH (
  'connector' = 'kafka', //连接类型
  'topic' = 'user_behavior',  //指定连接器所需的参数
  'properties.bootstrap.servers' = 'localhost:9092',
  'properties.group.id' = 'testGroup',
  'scan.startup.mode' = 'earliest-offset',
  'format' = 'csv'
)

参数配置
上面链接中有

5.5.4 upsert kafka connector

作为source 算子

根据所定义的主键，将读取到的数据转换为 +I/-U/+U 记录，如果读到 null，则转换为-D 记录；

-- kafka 数据流
1,sfff,2222
1,ffffs,33333

kafka - connector  appendonly 流
+I [1,sfff,2222]
+I [1,ffffs,33333] 

upsert-kafka-connector  upsert 的 changelog 流
+I [1,sfff,2222]
-U [1,sfff,2222] 
+U [11,ffffs,33333]

作为 sink

对于 -U/+U/+I 记录，都以正常的 append 消息写入 kafka；对于-D 记录，则写入一个 null 到 kafka 来表示 delete 操作；

使用示例1

t_kafka_upsert_1 --> t_kafka_upsert_2

public class _11_flinksql_upsert_kafka_1 {

    public static void main(String[] args) throws Exception {
        // 获取环境
        Configuration configuration = new Configuration();
        configuration.setInteger("rest.port", 8822);
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

        //方式2:从 TableDescriptor
        String createSQL = "CREATE TABLE t_kafka_upsert_1 (\n" +
                "  age BIGINT,\n" +   //physical column
                "  gender STRING \n" +
                ") WITH (\n" +          //创建的表的各种参数
                " 'connector' = 'kafka',\n" +
                " 'topic' = 't_kafka_upsert_1',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +
                " 'scan.startup.mode' = 'earliest-offset', \n" +
                " 'csv.ignore-parse-errors' = 'false',\n" +
                " 'csv.allow-comments' = 'true'\n" +
                ")";

        //输出表 有主键约束
        String createSQL2 = "CREATE TABLE t_kafka_upsert_2 (\n" +
                "  age BIGINT,\n" +
                "  gender STRING \n" +
                " , PRIMARY KEY (gender ) NOT ENFORCED \n" +
                ") WITH (\n" +
                " 'connector' = 'upsert-kafka',\n" +
                " 'topic' = 't_kafka_upsert_2',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'key.format' = 'csv',\n" +
                " 'value.format' = 'csv' \n" +
                ")";
        tableEnv.executeSql(createSQL);
        tableEnv.executeSql(createSQL2);
        tableEnv.executeSql("insert into  t_kafka_upsert_2  " +
                "select max(age),gender  from t_kafka_upsert_1 group by gender ");


        tableEnv.executeSql(" select * from t_kafka_upsert_2 ").print();
    }
}

//t_kafka_upsert_1 数据   
1,男  //插入  +I
5,男  //更新  2步骤  -U +U
3,女  //插入  +I 
5,女  //更新  2步骤  -U +U 
1,女  //计算后不需要插入
10,女 //更新  2步骤  -U +U 
10,男 //更新  2步骤  -U +U 
    
    
//写入t_kafka_upsert_2 数据
1,男
5,男
3,女
5,女
10,女
10,男

//表输出结果
+----+----------------------+--------------------------------+
| op |                  age |                         gender |
+----+----------------------+--------------------------------+
| +I |                    1 |                             男 |  
| -U |                    1 |                             男 |
| +U |                    5 |                             男 |
| +I |                    3 |                             女 |
| -U |                    3 |                             女 |
| +U |                    5 |                             女 |
| -U |                    5 |                             女 |
| +U |                   10 |                             女 |
| -U |                    5 |                             男 |
| +U |                   10 |                             男 |

使用示例2

t_kafka_upsert_join1 join t_kafka_upsert_join2 ==> t_kafka_upsert_join3

public class _12_flinksql_upsert_kafka_2 {

    public static void main(String[] args) throws Exception {
        // 获取环境
        Configuration configuration = new Configuration();
        configuration.setInteger("rest.port", 8822);
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);


        String createSQL1 = "CREATE TABLE t_kafka_upsert_join1 (\n" +
                "  id BIGINT,\n" +
                "  age BIGINT,\n" +
                "  gender STRING \n" +
                ") WITH (\n" +
                " 'connector' = 'kafka',\n" +
                " 'topic' = 't_kafka_upsert_join1',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +
                " 'scan.startup.mode' = 'earliest-offset', \n" +
                " 'csv.ignore-parse-errors' = 'false',\n" +
                " 'csv.allow-comments' = 'true'\n" +
                ")";

        String createSQL2 = "CREATE TABLE t_kafka_upsert_join2 (\n" +
                "  id BIGINT,\n" +   //physical column
                "  addr STRING \n" +
                ") WITH (\n" +          //创建的表的各种参数
                " 'connector' = 'kafka',\n" +
                " 'topic' = 't_kafka_upsert_join2',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +
                " 'scan.startup.mode' = 'earliest-offset', \n" +
                " 'csv.ignore-parse-errors' = 'false',\n" +
                " 'csv.allow-comments' = 'true'\n" +
                ")";

        //输出表 有主键约束
        String createSQL3 = "CREATE TABLE t_kafka_upsert_join3 (\n" +
                "  id BIGINT,\n" +   //physical column
                "  age BIGINT,\n" +
                "  gender STRING, \n" +
                "  addr STRING \n" +
                " , PRIMARY KEY (id ) NOT ENFORCED \n" +
                ") WITH (\n" +
                " 'connector' = 'upsert-kafka',\n" +
                " 'topic' = 't_kafka_upsert_join3',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'key.format' = 'csv',\n" +
                " 'value.format' = 'csv' \n" +
                ")";
        tableEnv.executeSql(createSQL1);
        tableEnv.executeSql(createSQL2);
        tableEnv.executeSql(createSQL3);
        tableEnv.executeSql("insert into  t_kafka_upsert_join3  " +
                " select t1.id,t1.age,t1.gender,t2.addr from t_kafka_upsert_join1 t1 left join t_kafka_upsert_join2 t2" +
                " on t1.id=t2.id  ");


        tableEnv.executeSql(" select * from t_kafka_upsert_join3 ").print();
    }
}
//t_kafka_upsert_join1
1,25,男  // 先输入  +I
//t_kafka_upsert_join2
1,杨浦区五角场   //后输出 -D 删除  +I

+----+----------------------+----------------------+--------------------------------+--------------------------------+
| op |                   id |                  age |                         gender |                           addr |
+----+----------------------+----------------------+--------------------------------+--------------------------------+
| +I |                    1 |                   25 |                             男 |                                |
| -D |                    1 |                   25 |                             男 |                                |
| +I |                    1 |                   25 |                             男 |                   杨浦区五角场 |

5.5.5 jdbc connector

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/jdbc/

特性

可作为 scan source ，底层产生 Bounded Stream有界流 (读取一次)
可作为 lookup source，底层是“事件驱动”式查询 CDC连接器
可作为 Batch 模式的 sink
可作为 Stream 模式下的 append sink 和 upsert sink

添加依赖

<dependency>
<groupId>org.apache.flinkgroupId>
<artifactId>flink-connector-jdbcartifactId>
<version>1.14.4version>
dependency>

jdbc 驱动根据使用的数据库决定

Driver	Group Id	Artifact Id	JAR
MySQL	`mysql`	`mysql-connector-java`	Download
PostgreSQL	`org.postgresql`	`postgresql`	Download
Derby	`org.apache.derby`	`derby`	Download

**mysql **

<dependency>
<groupId>mysqlgroupId>
<artifactId>mysql-connector-javaartifactId>
<version>8.0.21version>
dependency>

示例 Source

scan source模式 ,作用不大,是有界流,相当于是把数据库数据一次性读取出来

public class _13_flinksql_mysql {

    public static void main(String[] args) throws Exception {
        // 获取环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);
        String createSQL =  "  CREATE TABLE t_mysql_connector (                      " +
                            "  id INT ,                                           " +
                            "  name STRING,                                          " +
                            "  age INT                                         " +
                            "  ) WITH (                                              " +
                            " 'connector' = 'jdbc',                                  " +
                            " 'url' = 'jdbc:mysql://192.168.141.131:3306/flinkdemo' ," +
                            " 'table-name' = 'person',                               " +
                            " 'password' = 'root',                                   " +
                            " 'username' = 'root'                                    " +  //是否允许注释
                            " )                                                      ";

        tableEnv.executeSql(createSQL);

        tableEnv.executeSql(" select * from t_mysql_connector ").print();
    }
}
+----+-------------+--------------------------------+-------------+
| op |          id |                           name |         age |
+----+-------------+--------------------------------+-------------+
| +I |           1 | 66e01789-7cd3-4a74-be04-117... |          88 |
| +I |           2 | 3deebae6-0ecc-4b06-86e0-09c... |          63 |
| +I |           3 | 962157ed-c7b1-465d-928d-d2d... |          11 |
| +I |           4 | 9ad1bba7-985b-4073-9f72-b2a... |          91 |
| +I |           5 | ffdf712b-ad00-4be1-a3ef-f57... |          87 |
| +I |           6 | cd7286fc-714b-49c4-9f77-11a... |          49 |
| +I |           7 | e5bbd565-04ed-4322-9933-c4e... |          15 |
| +I |           8 | 55a3e11e-e262-436e-859e-137... |          20 |
| +I |           9 | 488f78f7-c8ff-4ec8-b659-dae... |          52 |
| +I |          10 | 0ab23a15-f428-4476-9de9-04f... |          56 |
| +I |          11 | 6c9315d3-5f08-460d-9d05-cc1... |          72 |
| +I |          12 | f324d215-fe27-4d6c-a931-d87... |          19 |
| +I |          13 | bd21c9f3-d02f-4f18-9852-784... |          16 |
| +I |          14 | f31b9b18-976f-4449-a321-4d2... |          33 |
+----+-------------+--------------------------------+-------------+

lookup source模式

CDC 后面讲,就是补货数据库数据的改变,无界流数据;

示例 Sink

public class _14_flinksql_mysql_sink {

    public static void main(String[] args) throws Exception {
        // 获取环境

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);


        String createSQL1 = "CREATE TABLE t_kafka_upsert_join1 (\n" +
                "  id INT,\n" +
                "  age INT,\n" +
                "  gender STRING \n" +
                ") WITH (\n" +
                " 'connector' = 'kafka',\n" +
                " 'topic' = 't_kafka_upsert_join1',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +
                " 'scan.startup.mode' = 'earliest-offset', \n" +
                " 'csv.ignore-parse-errors' = 'false',\n" +
                " 'csv.allow-comments' = 'true'\n" +
                ")";

        String createSQL2 = "CREATE TABLE t_kafka_upsert_join2 (\n" +
                "  id INT,  \n" +   //physical column
                "  addr STRING \n" +
                ") WITH (\n" +          //创建的表的各种参数
                " 'connector' = 'kafka',\n" +
                " 'topic' = 't_kafka_upsert_join2',\n" +
                " 'properties.bootstrap.servers' = 'CentOSA:9092,CentOSB:9092,CentOSC:9092',\n" +
                " 'properties.group.id' = 'testGroup',\n" +
                " 'format' = 'csv',\n" +
                " 'scan.startup.mode' = 'earliest-offset', \n" +
                " 'csv.ignore-parse-errors' = 'false',\n" +
                " 'csv.allow-comments' = 'true'\n" +
                ")";
        tableEnv.executeSql(createSQL1);
        tableEnv.executeSql(createSQL2);

        //输出表 有主键约束
        String createSQL =  "  CREATE TABLE t_mysql_connector2 (         " +
                "  id INT  primary key ,                                 " +  //需要声明主键
                "  age INT ,                                              " +
                "  gender STRING,                                         " +
                "  addr STRING                                           " +
                "  ) WITH (                                              " +
                " 'connector' = 'jdbc',                                  " +
                " 'url' = 'jdbc:mysql://192.168.141.131:3306/flinkdemo' ," +
                " 'table-name' = 'person2',                               " +
                " 'password' = 'root',                                   " +
                " 'username' = 'root'                                    " +  //是否允许注释
                " )                                                      ";

        tableEnv.executeSql(createSQL);



        tableEnv.executeSql("insert into  t_mysql_connector2  " +
                " select t1.id,t1.age,t1.gender,t2.addr from t_kafka_upsert_join1 t1 left join t_kafka_upsert_join2 t2" +
                " on t1.id=t2.id  ");

        tableEnv.executeSql(" select * from t_mysql_connector2 ").print();
    }
}

幂等写出

jdbc connector 可以利用目标数据库的特性，实现幂等写出；幂等写出可以避免在 failover 发生后的可能产生的数据重复；实现幂等写出，本身并不需要对 jdbc connector 做额外的配置，只需要：指定主键字段，jdbc connector 就会利用目标数据库的 upsert 语法

示例mysql:INSERT .. ON DUPLICATE KEY UPDATE ..

5.5.6 filesystem connector

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/connectors/table/filesystem/

特性

可读可写
作为 source 表时，支持持续监视读取目录下新文件，且每个新文件只会被读取一次
作为 sink 表时，支持多种文件格式、分区、文件滚动、压缩设置等功能

env.executeSql( "CREATE TABLE fs_table (\n" +
" user_id STRING,\n" +
" order_amount DOUBLE,\n" +
" dt STRING,\n" +
" `hour` STRING\n" +
") PARTITIONED BY (dt, `hour`) WITH (\n" +   //字段需要在表定义中已经声明 区别于hive 
" 'connector'='filesystem',\n" +
" 'path'='file:///e:/flinkdemo/',\n" +
" 'format'='csv',\n" +
" 'sink.partition-commit.delay'='1 h',\n" +
" 'sink.partition-commit.policy.kind'='success-file',\n" +  
" 'sink.rolling-policy.file-size' = '8M',\n" +    //滚动策略
" 'sink.rolling-policy.rollover-interval'='30 min',\n" +   //时间间隔滚动
" 'sink.rolling-policy.check-interval'='10 second'\n" +   //多久检测滚动
")"
)

5.6 完整建表语法

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/dev/table/sql/create/#create-table

CREATE TABLE [IF NOT EXISTS] [catalog_name.][db_name.]table_name
  (
    { <physical_column_definition> | <metadata_column_definition> | <computed_column_definition> }[ , ...n]
    [ <watermark_definition> ]
    [ <table_constraint> ][ , ...n]
  )
  [COMMENT table_comment]
  [PARTITIONED BY (partition_column_name1, partition_column_name2, ...)]
  WITH (key1=val1, key2=val2, ...)
  [ LIKE source_table [( <like_options> )] ]
   
<physical_column_definition>:
  column_name column_type [ <column_constraint> ] [COMMENT column_comment]
  
<column_constraint>:
  [CONSTRAINT constraint_name] PRIMARY KEY NOT ENFORCED

<table_constraint>:
  [CONSTRAINT constraint_name] PRIMARY KEY (column_name, ...) NOT ENFORCED

<metadata_column_definition>:
  column_name column_type METADATA [ FROM metadata_key ] [ VIRTUAL ]

<computed_column_definition>:
  column_name AS computed_column_expression [COMMENT column_comment]

<watermark_definition>:
  WATERMARK FOR rowtime_column_name AS watermark_strategy_expression

<source_table>:
  [catalog_name.][db_name.]table_name

<like_options>:
{
   { INCLUDING | EXCLUDING } { ALL | CONSTRAINTS | PARTITIONS }
 | { INCLUDING | EXCLUDING | OVERWRITING } { GENERATED | OPTIONS | WATERMARKS } 
}[, ...]

6. CDC连接器

https://github.com/ververica/flink-cdc-connectors

6.1 基础概念

CDC: change Date Capture 变更数据获取

CDC可以从数据库中获取已提交的变更并把更改发送到下游使用,

6.2 编译 mysql-cdc

https://github.com/ververica/flink-cdc-connectors 下载源码

修改源码flink 里面的版本分支release-2.2

修改父pom

  <properties>
        <flink.version>1.14.4flink.version>

移出不必要的项目

    <modules>
        <module>flink-cdc-basemodule>
        <module>flink-connector-debeziummodule>
        <module>flink-connector-test-utilmodule>
        <module>flink-connector-mysql-cdcmodule>
        <module>flink-sql-connector-mysql-cdcmodule>
    modules>

移出带blink 的版本

[ERROR] Failed to execute goal on project flink-cdc-base: Could not resolve dependencies for project com.ververica:flink-cdc-base:jar:2.2-SNAPSHOT: The following artifacts could not be resolved: org.apache.flink:flink-table-p
lanner-blink_2.11:jar:1.14.4, org.apache.flink:flink-table-runtime-blink_2.11:jar:1.14.4, org.apache.flink:flink-table-planner-blink_2.11:jar:tests:1.14.4: Could not find artifact org.apache.flink:flink-table-planner-blink_2.
11:jar:1.14.4 in alimaven (http://maven.aliyun.com/nexus/content/repositories/central/) -> [Help 1]

org.apache.flink:flink-table-runtime-blink_2.11 ==>org.apache.flink:flink-table-runtime_2.11

打包

mvn install  '-Dmaven.test.skip=true'

6.3 mysql 开启binlog

修改配置文件 /etc/my.ini 后面添加配置

server-id=1
log_bin=/var/lib/mysql/mysql-bin.log
expire_logs_days=7
binlog_format=ROW
max_binlog_size=100M
binlog_cache_size=16M max_binlog_cache_size=256M
relay_log_recovery=1
sync_binlog=1
innodb_flush_log_at_trx_commit=1

重启

systemctl restart mysqld

查看 binlog 是否生效

show variables like 'log_%';

或者查看服务状态

show master status

File	Position	Binlog_Do_DB	Binlog_Ignore_DB	Executed_Gtid_Set
mysql-bin.000001	154

6.4 示例

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        env.enableCheckpointing(20000, CheckpointingMode.EXACTLY_ONCE);
        env.getCheckpointConfig().setCheckpointStorage("file:///D:/Resource/FrameMiddleware/FlinkNew/sinkout3/");
        StreamTableEnvironment tenv = StreamTableEnvironment.create(env);
        // 建 cdc 连接器源表
        tenv.executeSql("CREATE TABLE flink_test1 (\n"
                + " id INT,\n"
                + " name string,\n"
                + " gender string,\n"
                + " score INT,\n"
                + " PRIMARY KEY(id) NOT ENFORCED\n"
                + " ) WITH (\n"
                + " 'connector' = 'mysql-cdc',\n"
                + " 'hostname' = '192.168.141.155',\n"
                + " 'port' = '3306',\n"
                + " 'username' = 'root',\n"
                + " 'password' = 'hadoop',\n"
                + " 'database-name' = 'flink',\n"
                + " 'table-name' = 'test1'\n" + ")");
// 简单查询
        tenv.executeSql("select * from flink_test1").print() ;

每次Checkpoint 都会拉去binlog 数据


[2023-06-14 00:17:48] [INFO] Triggering checkpoint 3 (type=CHECKPOINT) @ 1686673068434 for job bb8a1efdd953c1b42a5ce49217b7f445.
[2023-06-14 00:17:48] [INFO] Completed checkpoint 3 for job bb8a1efdd953c1b42a5ce49217b7f445 (5970 bytes, checkpointDuration=11 ms, finalizationTime=3 ms).
[2023-06-14 00:17:48] [INFO] Marking checkpoint 3 as completed for source Source: TableSourceScan(table=[[default_catalog, default_database, flink_test1]], fields=[id, name, gender, score]).
| +I |           6 |                            add |                           male |                        22222.0 |
[2023-06-14 00:18:08] [INFO] Triggering checkpoint 4 (type=CHECKPOINT) @ 1686673088434 for job bb8a1efdd953c1b42a5ce49217b7f445.
[2023-06-14 00:18:08] [INFO] Completed checkpoint 4 for job bb8a1efdd953c1b42a5ce49217b7f445 (5970 bytes, checkpointDuration=9 ms, finalizationTime=2 ms).
[2023-06-14 00:18:08] [INFO] Marking checkpoint 4 as completed for source Source: TableSourceScan(table=[[default_catalog, default_database, flink_test1]], fields=[id, name, gender, score]).
| -U |           3 |                            add |                           male |                        22222.0 |
| +U |           3 |                            add |                         male11 |                        22222.0 |
| -D |           1 |                            sff |                           male |                         1000.0 |


[2023-06-14 00:18:28] [INFO] Triggering checkpoint 5 (type=CHECKPOINT) @ 1686673108434 for job bb8a1efdd953c1b42a5ce49217b7f445.
[2023-06-14 00:18:28] [INFO] Completed checkpoint 5 for job bb8a1efdd953c1b42a5ce49217b7f445 (5970 bytes, checkpointDuration=10 ms, finalizationTime=2 ms).
[2023-06-14 00:18:28] [INFO] Marking checkpoint 5 as completed for source Source: TableSourceScan(table=[[default_catalog, default_database, flink_test1]], fields=[id, name, gender, score]).
[2023-06-14 00:18:48] [INFO] Triggering checkpoint 6 (type=CHECKPOINT) @ 1686673128433 for job bb8a1efdd953c1b42a5ce49217b7f445.
[2023-06-14 00:18:48] [INFO] Completed checkpoint 6 for job bb8a1efdd953c1b42a5ce49217b7f445 (5970 bytes, checkpointDuration=11 ms, finalizationTime=3 ms).
[2023-06-14 00:18:48] [INFO] Marking checkpoint 6 as completed for source Source: TableSourceScan(table=[[default_catalog, default_database, flink_test1]], fields=[id, name, gender, score]).
| -U |           6 |                            add |                           male |                        22222.0 |
| +U |           6 |                              1 |                           male |                        22222.0 |
[2023-06-14 00:19:08] [INFO] Triggering checkpoint 7 (type=CHECKPOINT) @ 1686673148434 for job bb8a1efdd953c1b42a5ce49217b7f445.
[2023-06-14 00:19:08] [INFO] Completed checkpoint 7 for job bb8a1efdd953c1b42a5ce49217b7f445 (5970 bytes, checkpointDuration=10 ms, finalizationTime=2 ms).
[2023-06-14 00:19:08] [INFO] Marking checkpoint 7 as completed for source Source: TableSourceScan(table=[[default_catalog, default_database, flink_test1]], fields=[id, name, gender, score]).
| -U |           5 |                            add |                        aaddasd |                         1212.0 |
| +U |           5 |                            add |                           2233 |                         1212.0 |

7. 表和流的转换

7.1 changelogStream

flink 中的表: 持续输入,持续查询,数据的动态的概念

7.2 表转换成流方法

注: toDataStream 只有Insert 的流,有插入和更新的就使用toChangelogStream

7.3 流转换成表

用法参考3.6

8.表查询语法

8.1 基本查询

select /where /group by /with / distinct /limit /order by finksql 和正常的sql 含义是一样的

8.2 高阶语法

多维度聚合

group by cube(维度 1，维度 2，维度 3)
group by grouping sets( (维度 1，维度 2) ,(维度 1，维度 3), (维度 2)，())
group by rollup(省，市，区)

8.3 时间窗口TVF (表值函数)

https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/dev/table/sql/queries/window-tvf/

https://nightlies.apache.org/flink/flink-docs-release-1.15/docs/dev/table/sql/queries/window-agg/

版本 > flink1.13 提供了时间窗口聚合计算的 TVF 语法

基础使用

在窗口上做分组聚合，必须带上 window_start 和 window_end 作为分组 key
在窗口上做 topN 计算，必须带上 window_start 和 window_end 作为 partition 的 key.
带条件的 join，必须包含 2 个输入表的 window start 和 window end 等值条件

8.4 window 聚合示例

Flink SQL> desc Bid;
+-------------+------------------------+------+-----+--------+---------------------------------+
|        name |                   type | null | key | extras |                       watermark |
+-------------+------------------------+------+-----+--------+---------------------------------+
|     bidtime | TIMESTAMP(3) *ROWTIME* | true |     |        | `bidtime` - INTERVAL '1' SECOND |
|       price |         DECIMAL(10, 2) | true |     |        |                                 |
|        item |                 STRING | true |     |        |                                 |
| supplier_id |                 STRING | true |     |        |                                 |
+-------------+------------------------+------+-----+--------+---------------------------------+

Flink SQL> SELECT * FROM Bid;
+------------------+-------+------+-------------+
|          bidtime | price | item | supplier_id |
+------------------+-------+------+-------------+
| 2020-04-15 08:05 | 4.00  | C    | supplier1   |
| 2020-04-15 08:07 | 2.00  | A    | supplier1   |
| 2020-04-15 08:09 | 5.00  | D    | supplier2   |
| 2020-04-15 08:11 | 3.00  | B    | supplier2   |
| 2020-04-15 08:13 | 1.00  | E    | supplier1   |
| 2020-04-15 08:17 | 6.00  | F    | supplier2   |
+------------------+-------+------+-------------+

8.4.1 滚动窗口 TUMBLE

滚动窗口每10分钟的交易总额

TUMBLE(TABLE data, DESCRIPTOR(timecol), size [, offset ])


-- 1.滚动窗口 每10分钟的交易总额
Flink SQL> SELECT window_start, window_end, SUM(price)
  FROM TABLE(
    TUMBLE(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '10' MINUTES))
  GROUP BY window_start, window_end;
+------------------+------------------+-------+
|     window_start |       window_end | price |
+------------------+------------------+-------+
| 2020-04-15 08:00 | 2020-04-15 08:10 | 11.00 |
| 2020-04-15 08:10 | 2020-04-15 08:20 | 10.00 |
+------------------+------------------+-------+

8.4.2 滑动窗口 HOP

滑动窗口每五分钟计算10分钟内的总额
滑动窗口每五分钟计算10分钟内的总额根据supplier_id 分组

HOP(TABLE data, DESCRIPTOR(timecol), slide, size [, offset ])

--2. hopping window aggregation  滑动窗口 每五分钟计算10分钟内的总额
Flink SQL> SELECT window_start, window_end, SUM(price)
  FROM TABLE(
    HOP(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '5' MINUTES, INTERVAL '10' MINUTES))
  GROUP BY window_start, window_end;
+------------------+------------------+-------+
|     window_start |       window_end | price |
+------------------+------------------+-------+
| 2020-04-15 08:00 | 2020-04-15 08:10 | 11.00 |
| 2020-04-15 08:05 | 2020-04-15 08:15 | 15.00 |
| 2020-04-15 08:10 | 2020-04-15 08:20 | 10.00 |
| 2020-04-15 08:15 | 2020-04-15 08:25 | 6.00  |
+------------------+------------------+-------+

-- 3, 滑动窗口 每五分钟计算10分钟内的总额 根据supplier_id 分组
Flink SQL> SELECT window_start, window_end, SUM(price), supplier_id
  FROM TABLE(
    HOP(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '5' MINUTES, INTERVAL '10' MINUTES))
  GROUP BY window_start, window_end,supplier_id;
+------------------+------------------+-------+
|     window_start |       window_end | price |
+------------------+------------------+-------+
| 2020-04-15 08:00 | 2020-04-15 08:10 | 11.00 |
| 2020-04-15 08:05 | 2020-04-15 08:15 | 15.00 |
| 2020-04-15 08:10 | 2020-04-15 08:20 | 10.00 |
| 2020-04-15 08:15 | 2020-04-15 08:25 | 6.00  |
+------------------+------------------+-------+

8.4.3 累加窗口 CUMULATE

使用场景每2分钟统计10分钟内窗口数据

CUMULATE(TABLE data, DESCRIPTOR(timecol), step, size)


-- cumulative window aggregation  累计窗口  其他:使用场景 每个小时统计当天的数据
Flink SQL> SELECT window_start, window_end, SUM(price)
  FROM TABLE(
    CUMULATE(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '2' MINUTES, INTERVAL '10' MINUTES))
  GROUP BY window_start, window_end;
+------------------+------------------+-------+
|     window_start |       window_end | price |
+------------------+------------------+-------+
| 2020-04-15 08:00 | 2020-04-15 08:06 | 4.00  |
| 2020-04-15 08:00 | 2020-04-15 08:08 | 6.00  |
| 2020-04-15 08:00 | 2020-04-15 08:10 | 11.00 |
| 2020-04-15 08:10 | 2020-04-15 08:12 | 3.00  |
| 2020-04-15 08:10 | 2020-04-15 08:14 | 4.00  |
| 2020-04-15 08:10 | 2020-04-15 08:16 | 4.00  |
| 2020-04-15 08:10 | 2020-04-15 08:18 | 10.00 |
| 2020-04-15 08:10 | 2020-04-15 08:20 | 10.00 |
+------------------+------------------+-------+

8.5 window-topn

10 分钟滚动窗口内交易总额最高的前3家供应商，及其交易总额和交易单数

SELECT *
FROM (
         SELECT *, ROW_NUMBER() OVER (PARTITION BY window_start, window_end ORDER BY price DESC) as rownum
         FROM (
                  SELECT window_start, window_end, supplier_id, SUM(price) as price, COUNT(*) as cnt
                  FROM TABLE(
                          TUMBLE(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL '10' MINUTES))
                  GROUP BY window_start, window_end, supplier_id
              )
     ) WHERE rownum <= 3;

8.6 window join 窗口join

inner/left/right/full : (两边条件都满足,左边数据,右边数据,)
- inner join 关联出来两边数据都有的
- left join 左表关联右表,取左表所有的数据,右表关联上的数据,右表关联不上的为null
- right join 右表关联左表,取右表所有数据,和左表关联上的字段,左表关联不上的为null
- full join 左表关联右表取所有的数据,关联不上的补bnull

//INNER/LEFT/RIGHT/FULL OUTER Window Join 语句的语法。

SELECT ...
FROM L [LEFT|RIGHT|FULL OUTER] JOIN R -- L and R are relations applied windowing TVF
ON L.window_start = R.window_start AND L.window_end = R.window_end AND ...

Flink SQL> desc LeftTable;
+----------+------------------------+------+-----+--------+----------------------------------+
|     name |                   type | null | key | extras |                        watermark |
+----------+------------------------+------+-----+--------+----------------------------------+
| row_time | TIMESTAMP(3) *ROWTIME* | true |     |        | `row_time` - INTERVAL '1' SECOND |
|      num |                    INT | true |     |        |                                  |
|       id |                 STRING | true |     |        |                                  |
+----------+------------------------+------+-----+--------+----------------------------------+

Flink SQL> SELECT * FROM LeftTable;
+------------------+-----+----+
|         row_time | num | id |
+------------------+-----+----+
| 2020-04-15 12:02 |   1 | L1 |
| 2020-04-15 12:06 |   2 | L2 |
| 2020-04-15 12:03 |   3 | L3 |
+------------------+-----+----+

Flink SQL> desc RightTable;
+----------+------------------------+------+-----+--------+----------------------------------+
|     name |                   type | null | key | extras |                        watermark |
+----------+------------------------+------+-----+--------+----------------------------------+
| row_time | TIMESTAMP(3) *ROWTIME* | true |     |        | `row_time` - INTERVAL '1' SECOND |
|      num |                    INT | true |     |        |                                  |
|       id |                 STRING | true |     |        |                                  |
+----------+------------------------+------+-----+--------+----------------------------------+

Flink SQL> SELECT * FROM RightTable;
+------------------+-----+----+
|         row_time | num | id |
+------------------+-----+----+
| 2020-04-15 12:01 |   2 | R2 |
| 2020-04-15 12:04 |   3 | R3 |
| 2020-04-15 12:05 |   4 | R4 |
+------------------+-----+----+

Flink SQL> SELECT L.num as L_Num, L.id as L_Id, R.num as R_Num, R.id as R_Id, L.window_start, L.window_end
           FROM (
               SELECT * FROM TABLE(TUMBLE(TABLE LeftTable, DESCRIPTOR(row_time), INTERVAL '5' MINUTES))
           ) L
           FULL JOIN (
               SELECT * FROM TABLE(TUMBLE(TABLE RightTable, DESCRIPTOR(row_time), INTERVAL '5' MINUTES))
           ) R
           ON L.num = R.num AND L.window_start = R.window_start AND L.window_end = R.window_end;
+-------+------+-------+------+------------------+------------------+
| L_Num | L_Id | R_Num | R_Id |     window_start |       window_end |
+-------+------+-------+------+------------------+------------------+
|     1 |   L1 |  null | null | 2020-04-15 12:00 | 2020-04-15 12:05 |
|  null | null |     2 |   R2 | 2020-04-15 12:00 | 2020-04-15 12:05 |
|     3 |   L3 |     3 |   R3 | 2020-04-15 12:00 | 2020-04-15 12:05 |
|     2 |   L2 |  null | null | 2020-04-15 12:05 | 2020-04-15 12:10 |
|  null | null |     4 |   R4 | 2020-04-15 12:05 | 2020-04-15 12:10 |
+-------+------+-------+------+------------------+------------------+

semi （即： where id in … ）

Flink SQL> SELECT *
           FROM (
               SELECT * FROM TABLE(TUMBLE(TABLE LeftTable, DESCRIPTOR(row_time), INTERVAL '5' MINUTES))
           ) L WHERE L.num IN (
             SELECT num FROM (   
               SELECT * FROM TABLE(TUMBLE(TABLE RightTable, DESCRIPTOR(row_time), INTERVAL '5' MINUTES))
             ) R WHERE L.window_start = R.window_start AND L.window_end = R.window_end);
+------------------+-----+----+------------------+------------------+-------------------------+
|         row_time | num | id |     window_start |       window_end |            window_time  |
+------------------+-----+----+------------------+------------------+-------------------------+
| 2020-04-15 12:03 |   3 | L3 | 2020-04-15 12:00 | 2020-04-15 12:05 | 2020-04-15 12:04:59.999 |
+------------------+-----+----+------------------+------------------+-------------------------+

Flink SQL> SELECT *
           FROM (
               SELECT * FROM TABLE(TUMBLE(TABLE LeftTable, DESCRIPTOR(row_time), INTERVAL '5' MINUTES))
           ) L WHERE EXISTS (
             SELECT * FROM (
               SELECT * FROM TABLE(TUMBLE(TABLE RightTable, DESCRIPTOR(row_time), INTERVAL '5' MINUTES))
             ) R WHERE L.num = R.num AND L.window_start = R.window_start AND L.window_end = R.window_end);
+------------------+-----+----+------------------+------------------+-------------------------+
|         row_time | num | id |     window_start |       window_end |            window_time  |
+------------------+-----+----+------------------+------------------+-------------------------+
| 2020-04-15 12:03 |   3 | L3 | 2020-04-15 12:00 | 2020-04-15 12:05 | 2020-04-15 12:04:59.999 |
+------------------+-----+----+------------------+------------------+-------------------------+

anti （即： where id not in … ）

Flink SQL> SELECT *
           FROM (
               SELECT * FROM TABLE(TUMBLE(TABLE LeftTable, DESCRIPTOR(row_time), INTERVAL '5' MINUTES))
           ) L WHERE L.num NOT IN (
             SELECT num FROM (   
               SELECT * FROM TABLE(TUMBLE(TABLE RightTable, DESCRIPTOR(row_time), INTERVAL '5' MINUTES))
             ) R WHERE L.window_start = R.window_start AND L.window_end = R.window_end);
+------------------+-----+----+------------------+------------------+-------------------------+
|         row_time | num | id |     window_start |       window_end |            window_time  |
+------------------+-----+----+------------------+------------------+-------------------------+
| 2020-04-15 12:02 |   1 | L1 | 2020-04-15 12:00 | 2020-04-15 12:05 | 2020-04-15 12:04:59.999 |
| 2020-04-15 12:06 |   2 | L2 | 2020-04-15 12:05 | 2020-04-15 12:10 | 2020-04-15 12:09:59.999 |
+------------------+-----+----+------------------+------------------+-------------------------+

Flink SQL> SELECT *
           FROM (
               SELECT * FROM TABLE(TUMBLE(TABLE LeftTable, DESCRIPTOR(row_time), INTERVAL '5' MINUTES))
           ) L WHERE NOT EXISTS (
             SELECT * FROM (
               SELECT * FROM TABLE(TUMBLE(TABLE RightTable, DESCRIPTOR(row_time), INTERVAL '5' MINUTES))
             ) R WHERE L.num = R.num AND L.window_start = R.window_start AND L.window_end = R.window_end);
+------------------+-----+----+------------------+------------------+-------------------------+
|         row_time | num | id |     window_start |       window_end |            window_time  |
+------------------+-----+----+------------------+------------------+-------------------------+
| 2020-04-15 12:02 |   1 | L1 | 2020-04-15 12:00 | 2020-04-15 12:05 | 2020-04-15 12:04:59.999 |
| 2020-04-15 12:06 |   2 | L2 | 2020-04-15 12:05 | 2020-04-15 12:10 | 2020-04-15 12:09:59.999 |
+------------------+-----+----+------------------+------------------+-------------------------+

注意点:

在 TVF 上使用 join
参与 join 的两个表都需要定义时间窗口 (join 的表的窗口定义要相同)
join 的条件中必须包含两表的 window_start 和 window_end 的等值条件

8.7 Regular Joins 常规join

8.7.1 基础概念

常规联接是最通用的联接类型，其中任何新记录或对联接任一侧的更改都是可见的，并且会影响整个联接结果。例如左边有一条新记录，当product id 相等时，它会在右边与所有之前和未来的记录合并。

SELECT * FROM Orders
INNER JOIN Product
ON Orders.productId = Product.id

对于流式查询，常规连接的语法是最灵活的，并且允许任何类型的更新（插入、更新、删除）输入表。但是，此操作具有重要的操作含义：它需要将连接输入的两侧永远保持在 Flink 状态。因此，计算查询结果所需的状态可能会无限增长，具体取决于所有输入表和中间连接结果的不同输入行的数量。您可以为查询配置提供适当的状态生存时间 (TTL)[table.exec.state.ttl]，以防止状态过大;

总之:就是关联的表的数据都会保存在状态中,如果不设置数据的TTL,状态数据会无限增长

8.7.2 常规 join

INNER JOIN/ LEFT JOIN / RIGHT JOIN /FULL OUTER JOIN

8.7.3 lookup join

使用场景是维表JOIN , 左边是流数据,在join 的时候,根据关联条件,通过连接器取实时查询原表数据(点查) (并不是所有的连接器都支持)

连接器为了提高性能,会把查询过的数据缓存起来( 默认未开启)

-- Customers is backed by the JDBC connector and can be used for lookup joins
CREATE TEMPORARY TABLE Customers (
  id INT,
  name STRING,
  country STRING,
  zip STRING
) WITH (
  'connector' = 'jdbc',
  'url' = 'jdbc:mysql://mysqlhost:3306/customerdb',
  'table-name' = 'customers'
);

-- enrich each order with customer information
SELECT o.order_id, o.total, c.country, c.zip
FROM Orders AS o
  JOIN Customers  FOR SYSTEM_TIME AS OF o.proc_time AS c //
    ON o.customer_id = c.id;

8.7.4 Interval Joins

区间 Join

返回受连接条件和时间约束限制的简单笛卡尔积。间隔连接至少需要一个等值连接谓词和一个限制两侧时间的连接条件。两个适当的范围谓词可以定义这样的条件（<、<=、>=、>）、BETWEEN 谓词或比较两个输入的相同类型（即处理时间或事件时间）的时间属性的单个相等谓词表。

例如，如果订单是在收到订单后四个小时发货的，则此查询将连接所有订单及其相应的发货。

SELECT *
FROM Orders o, Shipments s
WHERE o.id = s.order_id
AND o.order_time BETWEEN s.ship_time - INTERVAL '4' HOUR AND s.ship_time

关联其他表(表中数据有时间范围)

8.7.5 temporal join 事态join

左表数据关联右表数据对应时间的最新版;

订单表关联当时的汇率表

-- Create a table of orders. This is a standard
-- append-only dynamic table. 动态表
CREATE TABLE orders (
    order_id    STRING,
    price       DECIMAL(32,2),
    currency    STRING,
    order_time  TIMESTAMP(3),
    WATERMARK FOR order_time AS order_time
) WITH (/* ... */);  

-- Define a versioned table of currency rates.   版本表 需要指定主键
-- This could be from a change-data-capture
-- such as Debezium, a compacted Kafka topic, or any other
-- way of defining a versioned table.   
CREATE TABLE currency_rates (
    currency STRING,
    conversion_rate DECIMAL(32, 2),
    update_time TIMESTAMP(3) METADATA FROM `values.source.timestamp` VIRTUAL,
    WATERMARK FOR update_time AS update_time,
    PRIMARY KEY(currency) NOT ENFORCED  //()
) WITH (
   'connector' = 'kafka',
   'value.format' = 'debezium-json',
   /* ... */
);

SELECT 
     order_id,
     price,
     currency,
     conversion_rate,
     order_time
FROM orders
LEFT JOIN currency_rates FOR SYSTEM_TIME AS OF orders.order_time
ON orders.currency = currency_rates.currency;

order_id  price  currency  conversion_rate  order_time
========  =====  ========  ===============  =========
o_001     11.11  EUR       1.14             12:00:00
o_002     12.51  EUR       1.10             12:06:00

8.8 over()

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/dev/table/sql/queries/over-agg/

与GROUP BY聚合相比，OVER聚合不会将每个组的结果行数减少到一行,相反，OVER聚合为每个输入行生成一个聚合值。

以下查询为每个订单计算在当前订单之前一小时内收到的同一产品的所有订单的金额总和。

SELECT order_id, order_time, amount,
  SUM(amount) OVER (
    PARTITION BY product
    ORDER BY order_time
    RANGE BETWEEN INTERVAL '1' HOUR PRECEDING AND CURRENT ROW
  ) AS one_hour_prod_amount_sum
FROM Orders

语法

SELECT
  agg_func(agg_col) OVER (
    [PARTITION BY col1[, col2, ...]]
    ORDER BY time_col
    range_definition),
  ...
FROM ...

ORDER BY

OVER窗口是在有序的行序列上定义的。由于表没有固有顺序，因此该ORDER BY子句是强制性的。对于流式查询，Flink 目前只支持OVER按升序**[时间属性] 顺序**定义的窗口。不支持额外的order

PARTITION BY

OVER可以在分区表上定义窗口。在存在PARTITION BY子句的情况下，仅在其分区的行上为每个输入行计算聚合

range_definition

范围定义指定聚合中包含多少行。该范围是用一个子句定义的BETWEEN，该子句定义了下限和上限。这些边界之间的所有行都包含在聚合中。Flink 只支持CURRENT ROW作为上边界。

有两个选项来定义范围，ROWS intervals 和 range intervals

range intervals

RANGE BETWEEN INTERVAL '30' MINUTE PRECEDING AND CURRENT ROW

ROWS intervals

ROWS BETWEEN 10 PRECEDING AND CURRENT ROW

8.函数

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/dev/table/functions/overview/

8.1 系统函数

自带的一些函数

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/dev/table/functions/systemfunctions/

8.1 自定义函数

https://nightlies.apache.org/flink/flink-docs-release-1.14/docs/dev/table/functions/udfs/

8.1.1 Scalar Function

标量函数:

特点:每次接受一行数据,输出也是一行数据

eg:upper()

示例:

import org.apache.flink.table.annotation.InputGroup;
import org.apache.flink.table.api.*;
import org.apache.flink.table.functions.ScalarFunction;
import static org.apache.flink.table.api.Expressions.*;

public static class HashFunction extends ScalarFunction {

  // take any data type and return INT
  public int eval(@DataTypeHint(inputGroup = InputGroup.ANY) Object o) {
    return o.hashCode();
  }
}

TableEnvironment env = TableEnvironment.create(...);

// call function "inline" without registration in Table API // Table API 可以不注册
env.from("MyTable").select(call(HashFunction.class, $("myField")));

// register function  
env.createTemporarySystemFunction("HashFunction", HashFunction.class);

// call registered function in Table API
env.from("MyTable").select(call("HashFunction", $("myField")));

// call registered function in SQL  //sql 方式使用需要注册 方法
env.sqlQuery("SELECT HashFunction(myField) FROM MyTable");

8.1.2 Table Functions

表生成函数

接受一行数据(一个或者多个字段) ,输出是多行多列数据

egexplode():

示例:略

8.1.3 Aggregate Functions

聚合函数

接受多行数据 ,输出单行数据

eg: sum() ,avg();

示例:略

8.1.4 Table Aggregate Functions

表聚合函数

接受多行数据 ,输出多列数据

eg: topn

示例:略

9. SqlClient使用

sql-client 是flink 安装包中自带的命令行工具,快捷方便的使用sql 操作

首先需要启动一个flink session集群 standalone or on yarn

./sql-client.sh -h

-f :指定初始化sql 脚本文件
-l : (--library) 指定要添加的外部jar作为依赖
-j :指定一个jar 包文件路径来加载这个jar 
-s :指定要连接的flink session 集群

示例:从 kafka 中读取一个 topic 的数据然后统计每 5 分钟的去重用户数并且，把结果写入 mysql

存放jar 到自定义目录 (/lib/flink) flink-connector-jdbc_2.12-1.14.4.jar;flink-csv-1.14.3.jar ;flink-json-1.14.3.jar;flink-sql-connector-kafka_2.12-1.14.4.jar
启动 bin/sql-client.sh -l lib/

连接成功后,命令行中建表

//数据源表
CREATE TABLE events (
account STRING ,
appId STRING ,
appVersion STRING ,
    ......
rt as to_timestamp_ltz(`timeStamp`,3),
watermark for rt as rt - interval '0' second
) WITH (
'connector' = 'kafka',
'topic' = 'doit-events',
'properties.bootstrap.servers' = 'doitedu:9092',
'properties.group.id' = 'testGroup',
'scan.startup.mode' = 'earliest-offset',
'format' = 'json'
)
//目标表
CREATE TABLE uv_report (
window_start timestamp(3),
window_end timestamp(3),
uv bigint
) WITH (
'connector' = 'jdbc',
'url' = 'jdbc:mysql://doitedu:3306/doitedu',
'table-name' = 'uv_report',
'username' = 'root',
'password'= 'root'
);
//sql 开发
INSERT INTO uv_report
SELECT
window_start,
window_end,
count(distinct deviceId) as uv
FROM TABLE(TUMBLE(table events,descriptor(rt),interval '1' minute))
group by window_start,window_end

10. flink监控指标Metric 体系

获取flink 运行中的基本指标;

flink 也提供了如下统计器，来方便用户自定义各类自己的状态度量,在代码中自定义添加

counter 计数器
gauge value,对值的类型没有限制
histogram:度量值的统计结果
meter:通常用来度量平均吞吐量

你可能感兴趣的:(大数据之路,flink,学习,数据库)

学习Video.js 前端熊猫 Video Player 学习
查阅官方文档，学习video.js相关属性、回调与方法：播放器选项设置①标准的video标签属性②data-setup属性传递JSON③创建播放器实例以第二个参数配置videojs('my-player',{controls:true,autoplay:false,preload:'auto'});//修改选项varplayer=videojs('my-player');player.option
第二十一篇：伦理/道德Ethics flying_1314 NLP ethics 伦理/道德隐私偏见双重用途
目录什么是伦理/道德？我们为什么要关心？为什么道德很难？学习成果大纲反对NLP道德检查的论据我们应该审查科学吗？H5N1透明度不是更好吗？AIvs.Cybersecurity核心NLP伦理概念偏见词嵌入中的偏差双重用途OpenAIGPT-2隐私GDPRAOL搜索数据泄露小组讨论提示自动刑期预测自动简历处理语言社区分类打包带走~什么是伦理/道德？我们应该如何生活——苏格拉底•正确的做法是什么？•为什
深夜惊魂：当监控告警“撒谎”时，SRE 如何逆风翻盘？ YAMLMaster kubernetes 运维开发 devops 容器云原生
Yorkshire,England引言我们这一篇也是含金量十足，如果面试官让你说个你处理过的比较有意思的案例，可以跟他讲讲，让他也见见世面。好吧，我们直接开始，最后有相关的群，有兴趣可以加入。开始一、故障场景深度还原时间：2025年1月3日02:00（GMT+8）环境：•数据库集群：MySQL8.0.35，通过KubeBlocks部署（3节点，跨AZ）•监控架构：•Prometheus-Opera
Pytorch深度学习教程_9_nn模块构建神经网络 tRNA做科研深度学习保姆教程深度学习 pytorch 神经网络
欢迎来到《深度学习保姆教程》系列的第九篇！在前面的几篇中，我们已经介绍了Python、numpy及pytorch的基本使用，进行了梯度及神经网络的实践并学习了激活函数和激活函数，在上一个教程中我们学习了优化算法。今天，我们将开始使用pytorch构建我们自己的神经网络。欢迎订阅专栏进行系统学习：深度学习保姆教程_tRNA做科研的博客-CSDN博客目录1.理解nn模块：(1)使用nn.Sequent
【机器学习】算法分类 CH3_CH2_CHO 什么？！是机器学习！！机器学习算法有监督学习无监督学习半监督学习强化学习
1、有监督学习1.1定义使用带标签的数据训练模型。有监督学习是机器学习中最常见的一种类型，它利用已知的输入特征和对应的输出标签来训练模型，使模型能够学习到特征与标签之间的映射关系。在训练过程中，模型会不断地调整自身的参数，以最小化预测值与真实标签之间的误差，从而提高预测的准确性。1.2回归问题1.2.1目标预测连续值。回归问题的目标是预测一个连续的数值结果，模型的输出是一个实数值。1.2.2解释回
Linux------Redis(软件安装，Linux下和Windows下)，NoSQL（简单了解） .墨迹. Linux redis 大数据 java
文章目录NoSql1.历史1.单机MySql2.Memcached(缓存)+MySql+垂直拆分(读写分离)3.分库分表+水平拆分+MySql集群4.如今最近的年代5.为什么要使用NoSQL2.什么是NoSQL1.NOSQL2.特点3.3v+3高3.NoSQL的四大分类1.kv键值对：2.文档型数据库（bson和json一样）：3.列存储数据库：4.图关系型数据库Redis1.初始redis1.简
Python 单例模式的 5 种实现方式：深入解析与最佳实践做测试的小薄测试高阶 python 单例模式自动化测试测试框架
单例模式（SingletonPattern）是一种经典的设计模式，其核心思想是确保一个类在整个程序运行期间只有一个实例，并提供一个全局访问点。这种模式在许多场景中非常有用，例如全局配置管理、日志记录器、数据库连接池等。然而，Python的灵活性使得实现单例模式有多种方式，每种方法都有其特点和适用场景。本文将详细介绍Python中实现单例模式的5种常见方法，并深入分析它们的优缺点以及适用场景，帮助您
基于跳表实现的轻量级KV存储引擎项目总结码云笔记后端 KV存储
项目介绍KV存储引擎众所周知，非关系型数据库redis，以及levedb，rockdb其核心存储引擎的数据结构就是跳表。本项目就是基于跳表实现的轻量级键值型存储引擎，使用C++实现。插入数据、删除数据、查询数据、数据展示、数据落盘、文件加载数据，以及数据库大小显示。在随机写读情况下，该项目每秒可处理啊请求数（QPS）:24.39w，每秒可处理读请求数（QPS）:18.41w项目存储文件main.c
【设计模式】C++ 单例模式总结与最佳实践白码思 c++单例模式开发语言
1.单例模式简介单例模式（SingletonPattern）是软件开发中常见的设计模式之一，主要用于确保某个类只有一个实例，并提供一个全局访问点。常见的使用场景包括：日志管理：全局唯一的日志记录器。数据库连接池：防止创建多个数据库连接，提高性能。资源管理器：如线程池、驱动管理器等。2.单例模式的实现方式C++中实现单例模式的方式有多种，常见方式如下：2.1普通的单例模式（非线程安全）特点：使用静态
从零实现KV存储项目实战程序员老舅 C++Linux后端 c++c++存储 kv存储分布式存储后端项目 c++项目 cpp项目
本项目是从零实现一个完整的、兼容Redis协议的KV数据库项目。通过每一行代码的编写。你会对整个系统了如指拿，这样对自己基本功的锻炼、对编程能力的提升都是很大的项目提供完整的视频教程+代码下面是关于KV存储项目的技术大纲：如果你在学习的过程当中，遇到有任何问题，都可以在项目社群提出了，有专人给大家答疑的。适用人群这个KV存储项目对以下同学应该都非常的合适,包括但不限于:●想入门数据库的同学，存储对
MongoDB慢日志查询及索引创建 laolitou_1024 中间件微服务数据库 mongodb
MongoDB的慢日志（SlowQueryLog）对于运维和程序员来说都非常重要，因为它直接关系到数据库的性能和应用程序的稳定性。以下分享介绍下MongoDB慢日志查询及索引创建相关的一些笔记。一，准备1.使用db.currentOp()实时监控db.currentOp()可以查看当前正在执行的操作，适合捕捉瞬时的高CPU操作。db.currentOp()示例：过滤长时间运行的操作db.curre
图神经网络实战——分层自注意力网络盼小辉丶图神经网络从入门到项目实战神经网络人工智能深度学习
图神经网络实战——分层自注意力网络0.前言1.分层自注意力网络1.1模型架构1.2节点级注意力1.3语义级注意力1.4预测模块2.构建分层自注意力网络相关链接0.前言在异构图数据集上，异构图注意力网络的测试准确率为78.39%，比之同构版本有了较大提高，但我们还能进一步提高准确率。在本节中，我们将学习一种专门用于处理异构图的图神经网络架构，分层自注意力网络(hierarchicalself-att
Radiance Fields from VGGSfM和Mast3r:两种先进3D重建方法的比较与分析 2401_87458718 3d
VGGSfM和Mast3r:3D场景重建的新方向在计算机视觉和3D重建领域,如何从2D图像重建3D场景一直是一个充满挑战的研究课题。近年来,随着深度学习技术的发展,一些新的方法被提出并取得了显著的进展。本文将重点介绍两种最新的基于深度学习的3D重建方法:VGGSfM和Mast3r,并通过GaussianSplatting技术对它们的性能进行全面比较和分析。VGGSfM:基于视觉几何的深度结构运动恢
StarRocks中优雅处理JSON与列表字段的初步示例 t.y.Tang 数据库 mysql json
StarRocks是一种兼容MySQL语法,自带对JSON,ARRAY等格式支持的数据库.文章目录一StarRocks是什么？与MySQL有何关系？二JSON格式的好处三JSON数组字段的应用和缺点四实例:StarRocks处理JSON数组的方法示例表结构场景1:筛选包含特定事件的用户场景2:提取数组中的嵌套字段场景3:展开数组为多行(UNNEST)场景4:复杂条件过滤(结合`$`索引)五,性能优
微服务即时通信系统---（五）框架学习 YangZ123123 微服务即时通信系统学习微服务算法
目录ODB介绍安装build2安装odb-compiler安装ODB运行时库安装mysql和客户端开发包安装boostprofile库安装总体打包安装总体卸载总体升级头文件包含和编译时指明库ODB常见操作介绍类型映射ODB编程类与接口介绍mysql连接池对象类mysql客户端操作句柄类mysql事务操作类针对可能为空的字段封装的类似于智能指针的类型针对查询结果所封装的容器类和条件类mysql操作句
基于 PyTorch 的 MNIST 手写数字分类模型欣然～ pytorch 分类人工智能
一、概述本代码使用PyTorch框架构建了一个简单的神经网络模型，用于解决MNIST手写数字分类任务。代码主要包括数据的加载与预处理、神经网络模型的构建、损失函数和优化器的定义、模型的训练、评估以及最终模型的保存等步骤。二、依赖库torch：PyTorch深度学习框架的核心库，提供了张量操作、自动求导等功能。torch.nn：PyTorch的神经网络模块，包含了各种神经网络层、损失函数等。torc
使用 Airbyte Typeform 加载器进行数据文档化 shuoac python
在数据集成的世界中，Airbyte是一个非常强大的平台，它为我们的ETL管道提供了从API、数据库和文件到数据仓库和湖泊的连接器。但是，随着技术的快速发展，某些工具和方法可能会被弃用，例如AirbyteTypeform加载器。不过这并不意味着不能使用其他更好的解决方案。因此，这篇文章就带大家一起了解如何使用Airbyte原生支持的加载器来处理Typeform的数据文档化。技术背景介绍Airbyte
使用Couchbase实现高效的AI应用缓存与数据存储 scaFHIO 人工智能缓存 python
在当今AI应用的开发中，除了模型本身的性能，数据存储和缓存的效率也至关重要。Couchbase作为一款分布式NoSQL云数据库，其性能、可扩展性以及对AI、边缘计算应用的支持能力，使其成为优秀的选择。在本文中，我们将探讨如何通过Couchbase来实现高效的数据存储与缓存，尤其是在AI应用中。技术背景介绍随着AI应用规模的扩大和复杂度的增加，我们需要可靠的数据存储解决方案来满足实时性要求，同时减少
win32汇编环境,网络编程入门之九一品人家汇编
;在上一教程里，我们学习了在连接成功网站后，应该发送什么数据给网站;在前面的几个教程里，简单地运行了套接字机制连接网站的方式，这是字节级的网络连接，扩展几乎是无限的。;想了想，这个开个头就行了，暂时放下来，再讲下去越搞越复杂，还是把一些基础运用的方式讲一讲。以后回头再来研究它。;从这个教程开始，讲一下部分微软专用网络API的运用。;微软网络API有2个值得一提，1个是WinInet,还1个是Win
使用 Baseten 部署和运行机器学习模型的指南 shuoac 机器学习人工智能 python
随着机器学习模型在各个行业中的广泛应用，如何高效地部署和运行这些模型成为一个关键问题。本文将介绍如何使用Baseten平台来部署和服务机器学习模型。Baseten是LangChain生态系统中的一个重要提供者，它提供了所需的基础设施来高效地运行模型。无论是开源模型如Llama2和Mistral，还是专有或经过微调的模型，Baseten都能在专用GPU上运行。技术背景介绍Baseten提供了一种不同
多级缓存设计实践 MClink 架构缓存
缓存是什么？缓存技术是一种用于加速数据访问的优化策略。它通过将频繁访问的数据存储在高速存储介质（如内存）中，减少对慢速存储设备（如硬盘或远程服务器）的访问次数，从而提升系统的响应速度和性能。缓存的基本原理是：当某个数据被请求时，系统首先检查缓存中是否已存储该数据。如果缓存中存在，则直接返回缓存中的数据，称为“缓存命中”；如果缓存中没有该数据，则从源数据存储（如数据库或远程服务器）中获取数据，并将其
Mulvus向量库数据插入失败排查 Sirius Wu milvus
Mulvus是一个开源的向量数据库，要判断数据是否成功插入以及在插入失败时进行排查，可以参考以下方法：确认数据是否成功插入1.API返回结果在使用Mulvus提供的API插入数据时，API会返回相应的结果信息。以PythonSDK为例，插入数据的代码通常如下：frompymilvusimportconnections,Collection,FieldSchema,CollectionSchema,
Jarslink 是一个 SOFA 方舟插件，用于管理多应用部署后端java
前言大家好，我是老马。sofastack其实出来很久了，第一次应该是在2022年左右开始关注，但是一直没有深入研究。最近想学习一下SOFA对于生态的设计和思考。sofaboot系列SOFABoot-00-sofaboot概览SOFABoot-01-蚂蚁金服开源的sofaboot是什么黑科技？SOFABoot-02-模块化隔离方案SOFABoot-03-sofaboot介绍SOFABoot-04-快
CCNP之IGP学习笔记（2022）码龄4年审核中笔记 OSPF RIP EIGRP IGP CCNP
evecommunityedition2.0.3-92_v1.4.1.ovaOVF（OpenVirtualizationFormat：开放虚拟化格式）和OVA（OpenVirtualizationAppliance：开放虚拟化设备）appliance器具collaborative合作的；协力完成的translation翻译；译文；译本；转化CollaborativeTranslationFrame
debian(ubuntu) 系统 vsftpd 配置虚拟帐号 eli960 LINUX vsftpd ftp
首先说明帐号的认证通过pam认证方式,采用pam的mysql插件.安装libpam-mysql和vsftpdapt-getinstalllibpam-mysqlapt-getinstallvsftpdmysql的库,表,字段,假设如下:库名DBV表名TB字段USER和PASSWORD数据库的帐号密码DBUSERDBPASSWROD/etc/pam.d/vsftpd的内容如下authrequired
Java 常用类Date 浅橙boy java 开发语言
这次介绍Java中常用类中的一种Date，一般常用的Date的包名为util即java.util.Date。还有一种Date类的包名为spl即java.spl.Date，这次不做介绍。包名为spl的Date类作用于和spl数据库打交道，其内容只包括日期，没有时间，包名为util的Date类作用于平常日期使用其内容包括日期和时间，且大部分的构造器和方法已经过时了，下面介绍的是平时还可以使用的方法和构
学习-Java常用类之Calendar类 AIains Educoder—Java java
第1关：学习-Java常用类之Calendar类任务描述相关知识编程要求测试说明任务描述本关任务：获取给定年月的最后一天。相关知识我们通过之前的学习已经能够格式化并创建一个日期对象了，但是我们如何才能设置和获取日期数据的特定部分呢，比如说小时，日，或者分钟?我们又如何在日期的这些部分加上或者减去值呢?calendar类是一个抽象类，是Java日期处理的核心类之一。Calendar类为操作日历字段，
高效快速教你DeepSeek如何进行本地部署并且可视化对话大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
科技文章：高效快速教你DeepSeek如何进行本地部署并且可视化对话摘要：随着自然语言处理（NLP）技术的进步，DeepSeek作为一款基于深度学习的语义搜索技术，广泛应用于文本理解、对话系统及信息检索等多个领域。本文将探讨如何高效快速地在本地部署DeepSeek，并结合可视化工具实现对话过程的监控与分析。通过详尽的步骤、案例分析与代码示例，帮助开发者更好地理解和应用DeepSeek技术。同时，本
【嵌入式学习2】指针 - 数组 XYN5114 嵌入式学习学习笔记嵌入式硬件 c语言
目录##概述##指针###指针特点##指针变量###指针变量特点##区别##指针变量的使用定义指针变量时：使用指针变量时：##通过指针间接修改变量的值##指针大小指针大小与数据类型无关：无论指针指向什么类型的数据（int、char、double等），指针本身的大小只取决于系统的位数（32位或64位）。##指针步长###指针步长的计算方式##空指针和野指针##多级指针##指针与常量##函数参数传递内
机器学习——分类、回归、聚类、LASSO回归、Ridge回归（自用）代码的建筑师模型学习模型训练机器学习机器学习分类回归正则化项 LASSO Ridge 朴素
纠正自己的误区：机器学习是一个大范围，并不是一个小的方向，比如：线性回归预测、卷积神经网络和强化学都是机器学习算法在不同场景的应用。机器学习最为关键的是要有数据，也就是数据集名词解释：数据集中的一行叫一条样本或者实例，列名称为特征或者属性。样本的数量称为数据量，特征的数量称为特征维度机器学习常用库：Numpy和sklearn朴素的意思是特征的各条件都是相互独立的机器学习（模型、策略、算法）损失函数
html 周华华 html
js 1，数组的排列 var arr=[1,4,234,43,52,]; for(var x=0;x<arr.length;x++){ for(var y=x-1;y<arr.length;y++){ if(arr[x]<arr[y]){ &
【Struts2 四】Struts2拦截器 bit1129 struts2拦截器
Struts2框架是基于拦截器实现的，可以对某个Action进行拦截，然后某些逻辑处理，拦截器相当于AOP里面的环绕通知，即在Action方法的执行之前和之后根据需要添加相应的逻辑。事实上，即使struts.xml没有任何关于拦截器的配置，Struts2也会为我们添加一组默认的拦截器，最常见的是，请求参数自动绑定到Action对应的字段上。 Struts2中自定义拦截器的步骤是：
make:cc 命令未找到解决方法 daizj linux 命令未知 make cc
安装rz sz程序时，报下面错误： [root@slave2 src]# make posix cc -O -DPOSIX -DMD=2 rz.c -o rz make: cc：命令未找到 make: *** [posix] 错误 127 系统：centos 6.6 环境：虚拟机错误原因：系统未安装gcc，这个是由于在安
Oracle之Job应用周凡杨 oracle job
最近写服务，服务上线后，需要写一个定时执行的SQL脚本，清理并更新数据库表里的数据，应用到了Oracle 的 Job的相关知识。在此总结一下。一：查看相关job信息 1、相关视图 dba_jobs all_jobs user_jobs dba_jobs_running 包含正在运行
多线程机制朱辉辉33 多线程
转至http://blog.csdn.net/lj70024/archive/2010/04/06/5455790.aspx 程序、进程和线程：程序是一段静态的代码，它是应用程序执行的蓝本。进程是程序的一次动态执行过程，它对应了从代码加载、执行至执行完毕的一个完整过程，这个过程也是进程本身从产生、发展至消亡的过程。线程是比进程更小的单位，一个进程执行过程中可以产生多个线程，每个线程有自身的
web报表工具FineReport使用中遇到的常见报错及解决办法（一）老A不折腾 web报表 finereport java报表报表工具
FineReport使用中遇到的常见报错及解决办法（一）这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、address pool is full：含义：地址池满，连接数超过并发数上
mysql rpm安装后没有my.cnf 林鹤霄没有my.cnf
Linux下用rpm包安装的MySQL是不会安装/etc/my.cnf文件的，至于为什么没有这个文件而MySQL却也能正常启动和作用，在这儿有两个说法，第一种说法，my.cnf只是MySQL启动时的一个参数文件，可以没有它，这时MySQL会用内置的默认参数启动，第二种说法，MySQL在启动时自动使用/usr/share/mysql目录下的my-medium.cnf文件，这种说法仅限于r
Kindle Fire HDX root并安装谷歌服务框架之后仍无法登陆谷歌账号的问题 aigo root
原文：http://kindlefireforkid.com/how-to-setup-a-google-account-on-amazon-fire-tablet/ Step 4: Run ADB command from your PC On the PC, you need install Amazon Fire ADB driver and instal
javascript 中var提升的典型实例 alxw4616 JavaScript
// 刚刚在书上看到的一个小问题,很有意思.大家一起思考下吧 myname = 'global'; var fn = function () { console.log(myname); // undefined var myname = 'local'; console.log(myname); // local }; fn() // 上述代码实际上等同于以下代码 m
定时器和获取时间的使用百合不是茶时间的转换定时器
定时器:定时创建任务在游戏设计的时候用的比较多 Timer();定时器 TImerTask();Timer的子类由 Timer 安排为一次执行或重复执行的任务。定时器类Timer在java.util包中。使用时，先实例化，然后使用实例的schedule(TimerTask task, long delay)方法，设定
JDK1.5 Queue bijian1013 java thread java多线程 Queue
JDK1.5 Queue LinkedList： LinkedList不是同步的。如果多个线程同时访问列表，而其中至少一个线程从结构上修改了该列表，则它必须保持外部同步。（结构修改指添加或删除一个或多个元素的任何操作；仅设置元素的值不是结构修改。）这一般通过对自然封装该列表的对象进行同步操作来完成。如果不存在这样的对象，则应该使用 Collections.synchronizedList 方
http认证原理和https bijian1013 http https
一.基础介绍在URL前加https://前缀表明是用SSL加密的。你的电脑与服务器之间收发的信息传输将更加安全。 Web服务器启用SSL需要获得一个服务器证书并将该证书与要使用SSL的服务器绑定。 http和https使用的是完全不同的连接方式，用的端口也不一样,前者是80，后
【Java范型五】范型继承 bit1129 java
定义如下一个抽象的范型类，其中定义了两个范型参数，T1，T2 package com.tom.lang.generics; public abstract class SuperGenerics<T1, T2> { private T1 t1; private T2 t2; public abstract void doIt(T
【Nginx六】nginx.conf常用指令(Directive) bit1129 Directive
1. worker_processes 8; 表示Nginx将启动8个工作者进程，通过ps -ef|grep nginx,会发现有8个Nginx Worker Process在运行 nobody 53879 118449 0 Apr22 ? 00:26:15 nginx: worker process
lua 遍历Header头部 ronin47 lua header 遍历　
local headers = ngx.req.get_headers() ngx.say("headers begin", "<br/>") ngx.say("Host : ", he
java-32.通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小(两数组的差最小)。 bylijinnan java
import java.util.Arrays; public class MinSumASumB { /** * Q32.有两个序列a,b，大小都为n,序列元素的值任意整数，无序. * * 要求：通过交换a,b中的元素，使[序列a元素的和]与[序列b元素的和]之间的差最小。 * 例如: * int[] a = {100,99,98,1,2,3
redis 开窍的石头 redis
在redis的redis.conf配置文件中找到# requirepass foobared 把它替换成requirepass 12356789 后边的12356789就是你的密码打开redis客户端输入config get requirepass 返回 redis 127.0.0.1:6379> config get requirepass 1) "require
[JAVA图像与图形]现有的GPU架构支持JAVA语言吗？ comsci java语言
无论是opengl还是cuda，都是建立在C语言体系架构基础上的，在未来，图像图形处理业务快速发展，相关领域市场不断扩大的情况下，我们JAVA语言系统怎么从这么庞大，且还在不断扩大的市场上分到一块蛋糕，是值得每个JAVAER认真思考和行动的事情
安装ubuntu14.04登录后花屏了怎么办 cuiyadll ubuntu
这个情况，一般属于显卡驱动问题。可以先尝试安装显卡的官方闭源驱动。按键盘三个键：CTRL + ALT + F1 进入终端，输入用户名和密码登录终端：安装amd的显卡驱动 sudo apt-get install fglrx 安装nvidia显卡驱动 sudo ap
SSL 与数字证书的基本概念和工作原理 darrenzhu 加密 ssl 证书密钥签名
SSL 与数字证书的基本概念和工作原理 http://www.linuxde.net/2012/03/8301.html SSL握手协议的目的是或最终结果是让客户端和服务器拥有一个共同的密钥，握手协议本身是基于非对称加密机制的，之后就使用共同的密钥基于对称加密机制进行信息交换。 http://www.ibm.com/developerworks/cn/webspher
Ubuntu设置ip的步骤 dcj3sjt126com ubuntu
在单位的一台机器完全装了Ubuntu Server，但回家只能在XP上VM一个，装的时候网卡是DHCP的，用ifconfig查了一下ip是192.168.92.128,可以ping通。转载不是错： Ubuntu命令行修改网络配置方法 /etc/network/interfaces打开后里面可设置DHCP或手动设置静态ip。前面auto eth0，让网卡开机自动挂载. 1. 以D
php包管理工具推荐 dcj3sjt126com PHP Composer
http://www.phpcomposer.com/ Composer是 PHP 用来管理依赖（dependency）关系的工具。你可以在自己的项目中声明所依赖的外部工具库（libraries），Composer 会帮你安装这些依赖的库文件。中文文档入门指南下载安装包列表 Composer 中国镜像
Gson使用四（TypeAdapter） eksliang json gson Gson自定义转换器 gsonTypeAdapter
转载请出自出处：http://eksliang.iteye.com/blog/2175595 一.概述 Gson的TypeAapter可以理解成自定义序列化和返序列化二、应用场景举例例如我们通常去注册时（那些外国网站），会让我们输入firstName，lastName,但是转到我们都
JQM控件之Navbar和Tabs gundumw100 html xml css
在JQM中使用导航栏Navbar是简单的。只需要将data-role="navbar"赋给div即可： <div data-role="navbar"> <ul> <li><a href="#" class="ui-btn-active&qu
利用归并排序算法对大文件进行排序 iwindyforest java 归并排序大文件分治法 Merge sort
归并排序算法介绍，请参照Wikipeida zh.wikipedia.org/wiki/%E5%BD%92%E5%B9%B6%E6%8E%92%E5%BA%8F 基本思想：大文件分割成行数相等的两个子文件，递归（归并排序）两个子文件，直到递归到分割成的子文件低于限制行数低于限制行数的子文件直接排序两个排序好的子文件归并到父文件直到最后所有排序好的父文件归并到输入
iOS UIWebView URL拦截啸笑天 UIWebView
本文译者：candeladiao，原文：URL filtering for UIWebView on the iPhone说明：译者在做app开发时，因为页面的javascript文件比较大导致加载速度很慢，所以想把javascript文件打包在app里，当UIWebView需要加载该脚本时就从app本地读取，但UIWebView并不支持加载本地资源。最后从下文中找到了解决方法，第一次翻译，难免有
索引的碎片整理SQL语句 macroli sql
SET NOCOUNT ON DECLARE @tablename VARCHAR (128) DECLARE @execstr VARCHAR (255) DECLARE @objectid INT DECLARE @indexid INT DECLARE @frag DECIMAL DECLARE @maxfrag DECIMAL --设置最大允许的碎片数量,超过则对索引进行碎片
Angularjs同步操作http请求with $promise qiaolevip 每天进步一点点学习永无止境 AngularJS 纵观千象
// Define a factory app.factory('profilePromise', ['$q', 'AccountService', function($q, AccountService) { var deferred = $q.defer(); AccountService.getProfile().then(function(res) {
hibernate联合查询问题 sxj19881213 sql Hibernate HQL 联合查询
最近在用hibernate做项目，遇到了联合查询的问题，以及联合查询中的N+1问题。针对无外键关联的联合查询，我做了HQL和SQL的实验，希望能帮助到大家。（我使用的版本是hibernate3.3.2） 1 几个常识：（1）hql中的几种join查询，只有在外键关联、并且作了相应配置时才能使用。（2）hql的默认查询策略，在进行联合查询时，会产
struts2.xml wuai struts
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache