仰望夜空一万次

Flink Table API 与 SQL概念（一）

重点：

table api、sql api 可以与flink datastream api进行无缝切换
下图是flink 所有api的抽象级别。dataSet API概念会见见淡化，开发中不要使用

DataStream 和 Table 之间的转换（在 StreamTableEnvironment 的情况下）

概览（Overview）

Apache Flink 具有两个关系 API - Table API 和 SQL - 用于统一流和批处理。 Table API 是用于 Java、Scala 和 Python 的语言集成查询 API，它允许以非常直观的方式组合来自关系运算符（如选择、过滤和连接）的查询。 Flink 的 SQL 支持基于实现 SQL 标准的 Apache Calcite。无论输入是连续的（流式传输）还是有界的（批处理），任一接口中指定的查询都具有相同的语义并指定相同的结果。

Table API 和 SQL 接口与 Flink 的 DataStream API 无缝集成。您可以轻松地在所有 API 和基于它们的库之间切换。例如，您可以使用 MATCH_RECOGNIZE 子句从表中检测模式，然后使用 DataStream API 根据匹配的模式构建警报。

Flink Table程序的Maven依赖

Java Maven依赖:


  org.apache.flink
  flink-table-api-java-bridge_2.11
  1.14.4
  provided

此外，如果您想在 IDE 中本地运行 Table API 和 SQL 程序，则必须添加以下依赖：


  org.apache.flink
  flink-table-planner_2.11
  1.14.4
  provided


  org.apache.flink
  flink-streaming-scala_2.11
  1.14.4
  provided

扩展依赖

如果您想为（反）序列化行或一组用户定义的函数实现自定义格式或连接器，则以下依赖项就足够了，并且可用于 SQL 客户端的 JAR 文件：


  org.apache.flink
  flink-table-common
  1.14.4
  provided

概念&通用API

Table API 和 SQL 集成在一个联合 API 中。这个 API 的中心概念是一个用作查询输入和输出的表。本文档展示了使用 Table API 和 SQL 查询的程序的常见结构，如何注册 Table，如何查询 Table，以及如何发出 Table。

Table API 和 SQL 程序的结构

以下代码示例显示了 Table API 和 SQL 程序的常见结构。

package org.galaxy.foundation.common.batch;

import org.apache.flink.connector.datagen.table.DataGenConnectorOptions;
import org.apache.flink.table.api.*;


/**
 * @author test
 */
public class FlinkTableTest {

    public static void main(String[] args) throws Exception {
        EnvironmentSettings settings = EnvironmentSettings.inStreamingMode();

        //创建table的执行环境
        TableEnvironment tableEnv = TableEnvironment.create(settings);


        // Create a source table
        tableEnv.createTemporaryTable("SourceTable", TableDescriptor.forConnector("datagen")
                .schema(Schema.newBuilder()
                        .column("f0", DataTypes.STRING())
                        .build())
                .option(DataGenConnectorOptions.ROWS_PER_SECOND, 2L)
                .build());


        //使用SQL DDL创建一个新的sink表
        tableEnv.executeSql("CREATE TEMPORARY TABLE SinkTable WITH ('connector' = 'blackhole') LIKE SourceTable");

        // 从Table API 中创建一个table对象
        Table table2 = tableEnv.from("SourceTable");

        // 从查询语句中创建一个table对象
        Table table3 = tableEnv.sqlQuery("SELECT * FROM SourceTable");


        //将 Table API 结果表发送到 TableSink，SQL 结果相同
        TableResult tableResult = table2.executeInsert("SinkTable");


    }
}

表 API 和 SQL 查询可以轻松地与 DataStream 程序集成并嵌入到其中。查看 DataStream API 集成页面，了解如何将 DataStreams 转换为表，反之亦然。

创建一个 TableEnvironment

TableEnvironment 是 Table API 和 SQL 集成的入口点，负责：

在内部catalog中注册表
注册catalogs
加载可插拔模块
执行 SQL 查询
注册用户定义的（标量、表或聚合）函数
DataStream 和 Table 之间的转换（在 StreamTableEnvironment 的情况下）
一个 Table 总是绑定到一个特定的 TableEnvironment。不能在同一个查询中组合不同 TableEnvironments 的表，例如加入或联合它们。通过调用静态 TableEnvironment.create() 方法创建 TableEnvironment。

import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.TableEnvironment;

EnvironmentSettings settings = EnvironmentSettings
    .newInstance()
    .inStreamingMode()
    //.inBatchMode()
    .build();

TableEnvironment tEnv = TableEnvironment.create(settings);

或者，用户可以从现有的 StreamExecutionEnvironment 创建 StreamTableEnvironment 以与 DataStream API 进行互操作。

import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.table.api.EnvironmentSettings;
import org.apache.flink.table.api.bridge.java.StreamTableEnvironment;

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tEnv = StreamTableEnvironment.create(env);

在目录中创建表

TableEnvironment 维护使用标识符创建的表catalogs的映射。每个标识符由 3 部分组成：目录名称、数据库名称和对象名称。如果未指定目录或数据库，则将使用当前默认值（请参阅表标识符扩展部分中的示例）。

表可以是虚拟的 (VIEWS) 或常规的 (TABLES)。可以从现有的 Table 对象创建 VIEWS，通常是 Table API 或 SQL 查询的结果。 TABLES 描述外部数据，例如文件、数据库表或消息队列。

临时表与永久表

表可以是临时的，并且与单个 Flink 会话的生命周期相关联，也可以是永久的，并且在多个 Flink 会话和集群中可见。

永久表需要一个目录（例如 Hive Metastore）来维护有关表的元数据。一旦创建了永久表，它对连接到目录的任何 Flink 会话都是可见的，并且将继续存在，直到表被显式删除。

另一方面，临时表始终存储在内存中，并且仅在它们创建的 Flink 会话期间存在。这些表对其他会话不可见。它们不绑定到任何目录或数据库，但可以在其中一个的命名空间中创建。如果删除了相应的数据库(这里应该指的是永久表的数据库)，则不会删除临时表。

阴影(是一个开发阶段的好手段)
可以使用与现有永久表相同的标识符注册临时表。临时表会影响永久表，只要临时表存在，就无法访问永久表。所有具有该标识符的查询都将针对临时表执行。

这可能对实验有用。它允许首先针对临时表运行完全相同的查询，例如只有一个数据子集，或者数据被混淆了。一旦验证查询是正确的，它就可以针对真实的生产表运行。

创建表

虚拟表

Table API 对象对应于 SQL 术语中的 VIEW（虚拟表）。它封装了一个逻辑查询计划。它可以在目录中创建，如下所示：

// get a TableEnvironment
TableEnvironment tableEnv = ...; // see "Create a TableEnvironment" section

// table is the result of a simple projection query 
Table projTable = tableEnv.from("X").select(...);

// register the Table projTable as table "projectedTable"
tableEnv.createTemporaryView("projectedTable", projTable);

注意：表对象类似于关系数据库系统中的 VIEW，即定义表的查询未优化，但当另一个查询引用已注册的表时将被内联。如果多个查询引用同一个注册表，每个引用查询都会被内联并执行多次，即注册表的结果不会被共享。（michael:是不是表示，如果再次创建一个createTemporaryView，上面的select还要执行一次?）

连接器表 #
也可以从连接器声明中创建从关系数据库已知的 TABLE。连接器描述了存储表数据的外部系统。可以在此处声明存储系统，例如 Apache Kafka 或常规文件系统。

此类表可以直接使用 Table API 创建，也可以通过切换到 SQL DDL 创建。

// Using table descriptors
final TableDescriptor sourceDescriptor = TableDescriptor.forConnector("datagen")
    .schema(Schema.newBuilder()
    .column("f0", DataTypes.STRING())
    .build())
    .option(DataGenOptions.ROWS_PER_SECOND, 100)
    .build();

tableEnv.createTable("SourceTableA", sourceDescriptor);
tableEnv.createTemporaryTable("SourceTableB", sourceDescriptor);

// Using SQL DDL
tableEnv.executeSql("CREATE [TEMPORARY] TABLE MyTable (...) WITH (...)")

扩展表标识符

表始终使用由目录、数据库和表名组成的 3 部分标识符进行注册。

用户可以将其中的一个目录和一个数据库设置为“当前目录”和“当前数据库”。有了它们，上面提到的 3 部分标识符中的前两部分可以是可选的 - 如果未提供它们，则将引用当前目录和当前数据库。用户可以通过 Table API 或 SQL 切换当前目录和当前数据库。

标识符遵循 SQL 要求，这意味着它们可以使用反引号字符 (`) 进行转义。

TableEnvironment tEnv = ...;
tEnv.useCatalog("custom_catalog");
tEnv.useDatabase("custom_database");

Table table = ...;

// register the view named 'exampleView' in the catalog named 'custom_catalog'
// in the database named 'custom_database' 
tableEnv.createTemporaryView("exampleView", table);

// register the view named 'exampleView' in the catalog named 'custom_catalog'
// in the database named 'other_database' 
tableEnv.createTemporaryView("other_database.exampleView", table);

// register the view named 'example.View' in the catalog named 'custom_catalog'
// in the database named 'custom_database' 
tableEnv.createTemporaryView("`example.View`", table);

// register the view named 'exampleView' in the catalog named 'other_catalog'
// in the database named 'other_database' 
tableEnv.createTemporaryView("other_catalog.other_database.exampleView", table);

查询表

表 API

Table API 是用于 Scala 和 Java 的语言集成查询 API。与 SQL 相比，查询不指定为字符串，而是使用宿主语言逐步组成。

API 基于代表表（流式或批处理）的 Table 类，并提供应用关系操作的方法。这些方法返回一个新的 Table 对象，它表示对输入 Table 应用关系操作的结果。一些关系操作是由多个方法调用组成的，例如 table.groupBy(...).select()，其中 groupBy(...) 指定 table 的分组，而 select(...) 在分组上的投影。

Table API 文档描述了流和批处理表支持的所有 Table API 操作。

以下示例显示了一个简单的 Table API 聚合查询：

// get a TableEnvironment
TableEnvironment tableEnv = ...; // see "Create a TableEnvironment" section

// register Orders table

// scan registered Orders table
Table orders = tableEnv.from("Orders");
// compute revenue for all customers from France
Table revenue = orders
  .filter($("cCountry").isEqual("FRANCE"))
  .groupBy($("cID"), $("cName"))
  .select($("cID"), $("cName"), $("revenue").sum().as("revSum"));

// emit or convert Table
// execute query

SQL

Flink 的 SQL 集成基于 Apache Calcite，它实现了 SQL 标准。 SQL 查询被指定为常规字符串。

SQL 文档描述了 Flink 对流表和批处理表的 SQL 支持。

以下示例显示如何指定查询并将结果作为表返回。

// get a TableEnvironment
TableEnvironment tableEnv = ...; // see "Create a TableEnvironment" section

// register Orders table

// compute revenue for all customers from France
Table revenue = tableEnv.sqlQuery(
    "SELECT cID, cName, SUM(revenue) AS revSum " +
    "FROM Orders " +
    "WHERE cCountry = 'FRANCE' " +
    "GROUP BY cID, cName"
  );

// emit or convert Table
// execute query

以下示例显示如何指定将其结果插入已注册表的更新查询。

混合表 API 和 SQL

Table API 和 SQL 查询很容易混合使用，因为它们都返回 Table 对象：

可以在 SQL 查询返回的 Table 对象上定义 Table API 查询。
通过在 TableEnvironment 中注册结果表并在 SQL 查询的 FROM 子句中引用它，可以在 Table API 查询的结果上定义 SQL 查询。

发出一个表

通过将 Table 写入 TableSink 来发出 Table。 TableSink 是一个通用接口，支持多种文件格式（例如 CSV、Apache Parquet、Apache Avro）、存储系统（例如 JDBC、Apache HBase、Apache Cassandra、Elasticsearch）或消息系统（例如 Apache Kafka、兔MQ）。

批处理表只能写入 BatchTableSink，而流表需要 AppendStreamTableSink、RetractStreamTableSink 或 UpsertStreamTableSink。

有关可用接收器的详细信息以及如何实现自定义 DynamicTableSink 的说明，请参阅有关表源和接收器的文档。

Table.executeInsert(String tableName) 方法将 Table 发送到已注册的 TableSink。该方法通过名称从目录中查找 TableSink，并验证 Table 的架构与 TableSink 的架构相同。

// get a TableEnvironment
TableEnvironment tableEnv = ...; // see "Create a TableEnvironment" section

// create an output Table
final Schema schema = Schema.newBuilder()
    .column("a", DataTypes.INT())
    .column("b", DataTypes.STRING())
    .column("c", DataTypes.BIGINT())
    .build();

tableEnv.createTemporaryTable("CsvSinkTable", TableDescriptor.forConnector("filesystem")
    .schema(schema)
    .option("path", "/path/to/file")
    .format(FormatDescriptor.forFormat("csv")
        .option("field-delimiter", "|")
        .build())
    .build());

// compute a result Table using Table API operators and/or SQL queries
Table result = ...

// emit the result Table to the registered TableSink
result.executeInsert("CsvSinkTable");

翻译并执行查询

表 API 和 SQL 查询被转换为 DataStream 程序，无论它们的输入是流式还是批处理。查询在内部表示为逻辑查询计划，并分两个阶段进行转换：

优化逻辑计划，
翻译成 DataStream 程序

在以下情况下会翻译 Table API 或 SQL 查询：

调用 TableEnvironment.executeSql()。该方法用于执行给定的语句，一旦调用该方法，就会立即翻译 sql 查询。
调用 Table.executeInsert()。该方法用于将表格内容插入给定的接收器路径，一旦调用该方法，就会立即翻译表格 API。
调用 Table.execute()。该方法用于将表格内容采集到本地客户端，调用该方法后立即翻译表格API。
调用 StatementSet.execute()。表（通过 StatementSet.addInsert() 发送到接收器）或 INSERT 语句（通过 StatementSet.addInsertSql() 指定）将首先在 StatementSet 中缓冲。一旦 StatementSet.execute() 被调用，它们就会被翻译。所有接收器都将优化为一个 DAG。
表在转换为 DataStream 时被转换（请参阅与 DataStream 集成）。翻译后，它是一个常规的 DataStream 程序，并在调用 StreamExecutionEnvironment.execute() 时执行。

查询优化

Apache Flink 利用和扩展 Apache Calcite 来执行复杂的查询优化。这包括一系列基于规则和成本的优化，例如：

基于 Apache Calcite 的子查询去相关

项目修剪
分区修剪
过滤器下推
子计划去重，避免重复计算
特殊子查询重写，包括两部分：

将 IN 和 EXISTS 转换为左半联接
将 NOT IN 和 NOT EXISTS 转换为左反连接

可选的连接重新排序

通过 table.optimizer.join-reorder-enabled 启用

注意：IN/EXISTS/NOT IN/NOT EXISTS 目前仅在子查询重写的连接条件中支持。

优化器不仅基于计划，还基于数据源提供的丰富统计数据和每个算子（如 io、cpu、网络和内存）的细粒度成本做出智能决策。

高级用户可以通过调用 TableEnvironment#getConfig#setPlannerConfig 提供给表环境的 CalciteConfig 对象提供自定义优化。

解释表

Table API 提供了一种机制来解释计算表的逻辑和优化查询计划。这是通过 Table.explain() 方法或 StatementSet.explain() 方法完成的。 Table.explain() 返回一个表的计划。 StatementSet.explain() 返回多个接收器的计划。它返回一个描述三个计划的字符串：

关系查询的抽象语法树，即未优化的逻辑查询计划
优化的逻辑查询计划，以及
物理执行计划

TableEnvironment.explainSql() 和 TableEnvironment.executeSql() 支持执行 EXPLAIN 语句来获取计划，请参考 EXPLAIN 页面。

以下代码使用 Table.explain() 方法显示了给定 Table 的示例和相应输出：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
StreamTableEnvironment tEnv = StreamTableEnvironment.create(env);

DataStream> stream1 = env.fromElements(new Tuple2<>(1, "hello"));
DataStream> stream2 = env.fromElements(new Tuple2<>(1, "hello"));

// explain Table API
Table table1 = tEnv.fromDataStream(stream1, $("count"), $("word"));
Table table2 = tEnv.fromDataStream(stream2, $("count"), $("word"));
Table table = table1
  .where($("word").like("F%"))
  .unionAll(table2);

System.out.println(table.explain());

上面例子的结果是：


== Abstract Syntax Tree ==
LogicalUnion(all=[true])
:- LogicalFilter(condition=[LIKE($1, _UTF-16LE'F%')])
:  +- LogicalTableScan(table=[[Unregistered_DataStream_1]])
+- LogicalTableScan(table=[[Unregistered_DataStream_2]])

== Optimized Physical Plan ==
Union(all=[true], union=[count, word])
:- Calc(select=[count, word], where=[LIKE(word, _UTF-16LE'F%')])
:  +- DataStreamScan(table=[[Unregistered_DataStream_1]], fields=[count, word])
+- DataStreamScan(table=[[Unregistered_DataStream_2]], fields=[count, word])

== Optimized Execution Plan ==
Union(all=[true], union=[count, word])
:- Calc(select=[count, word], where=[LIKE(word, _UTF-16LE'F%')])
:  +- DataStreamScan(table=[[Unregistered_DataStream_1]], fields=[count, word])
+- DataStreamScan(table=[[Unregistered_DataStream_2]], fields=[count, word])

以下代码显示了使用 StatementSet.explain() 方法的多接收器计划的示例和相应输出：

EnvironmentSettings settings = EnvironmentSettings.inStreamingMode();
TableEnvironment tEnv = TableEnvironment.create(settings);

final Schema schema = Schema.newBuilder()
    .column("count", DataTypes.INT())
    .column("word", DataTypes.STRING())
    .build();

tEnv.createTemporaryTable("MySource1", TableDescriptor.forConnector("filesystem")
    .schema(schema)
    .option("path", "/source/path1")
    .format("csv")
    .build());
tEnv.createTemporaryTable("MySource2", TableDescriptor.forConnector("filesystem")
    .schema(schema)
    .option("path", "/source/path2")
    .format("csv")
    .build());
tEnv.createTemporaryTable("MySink1", TableDescriptor.forConnector("filesystem")
    .schema(schema)
    .option("path", "/sink/path1")
    .format("csv")
    .build());
tEnv.createTemporaryTable("MySink2", TableDescriptor.forConnector("filesystem")
    .schema(schema)
    .option("path", "/sink/path2")
    .format("csv")
    .build());

StatementSet stmtSet = tEnv.createStatementSet();

Table table1 = tEnv.from("MySource1").where($("word").like("F%"));
stmtSet.addInsert("MySink1", table1);

Table table2 = table1.unionAll(tEnv.from("MySource2"));
stmtSet.addInsert("MySink2", table2);

String explanation = stmtSet.explain();
System.out.println(explanation);

多sink计划的结果是：

== Abstract Syntax Tree ==
LogicalLegacySink(name=[`default_catalog`.`default_database`.`MySink1`], fields=[count, word])
+- LogicalFilter(condition=[LIKE($1, _UTF-16LE'F%')])
   +- LogicalTableScan(table=[[default_catalog, default_database, MySource1, source: [CsvTableSource(read fields: count, word)]]])

LogicalLegacySink(name=[`default_catalog`.`default_database`.`MySink2`], fields=[count, word])
+- LogicalUnion(all=[true])
   :- LogicalFilter(condition=[LIKE($1, _UTF-16LE'F%')])
   :  +- LogicalTableScan(table=[[default_catalog, default_database, MySource1, source: [CsvTableSource(read fields: count, word)]]])
   +- LogicalTableScan(table=[[default_catalog, default_database, MySource2, source: [CsvTableSource(read fields: count, word)]]])

== Optimized Physical Plan ==
LegacySink(name=[`default_catalog`.`default_database`.`MySink1`], fields=[count, word])
+- Calc(select=[count, word], where=[LIKE(word, _UTF-16LE'F%')])
   +- LegacyTableSourceScan(table=[[default_catalog, default_database, MySource1, source: [CsvTableSource(read fields: count, word)]]], fields=[count, word])

LegacySink(name=[`default_catalog`.`default_database`.`MySink2`], fields=[count, word])
+- Union(all=[true], union=[count, word])
   :- Calc(select=[count, word], where=[LIKE(word, _UTF-16LE'F%')])
   :  +- LegacyTableSourceScan(table=[[default_catalog, default_database, MySource1, source: [CsvTableSource(read fields: count, word)]]], fields=[count, word])
   +- LegacyTableSourceScan(table=[[default_catalog, default_database, MySource2, source: [CsvTableSource(read fields: count, word)]]], fields=[count, word])

== Optimized Execution Plan ==
Calc(select=[count, word], where=[LIKE(word, _UTF-16LE'F%')])(reuse_id=[1])
+- LegacyTableSourceScan(table=[[default_catalog, default_database, MySource1, source: [CsvTableSource(read fields: count, word)]]], fields=[count, word])

LegacySink(name=[`default_catalog`.`default_database`.`MySink1`], fields=[count, word])
+- Reused(reference_id=[1])

LegacySink(name=[`default_catalog`.`default_database`.`MySink2`], fields=[count, word])
+- Union(all=[true], union=[count, word])
   :- Reused(reference_id=[1])
   +- LegacyTableSourceScan(table=[[default_catalog, default_database, MySource2, source: [CsvTableSource(read fields: count, word)]]], fields=[count, word])

参考：

Overview | Apache Flink（Application Development -- Table API & SQL -- Overview）

Concepts & Common API | Apache Flink（Application Development -- Table API & SQL -- Concepts & Common API）

你可能感兴趣的:(Flink,flink)

大数据技术之Flink
第1章Flink概述1.1Flink是什么1.2Flink特点1.3FlinkvsSparkStreaming表Flink和Streaming对比FlinkStreaming计算模型流计算微批处理时间语义事件时间、处理时间处理时间窗口多、灵活少、不灵活（窗口必须是批次的整数倍）状态有没有流式SQL有没有1.4Flink的应用场景1.5Flink分层API第2章Flink快速上手2.1创建项目在准备
Hadoop核心组件最全介绍 Cachel wood 大数据开发 hadoop 大数据分布式 spark 数据库计算机网络
文章目录一、Hadoop核心组件1.HDFS(HadoopDistributedFileSystem)2.YARN(YetAnotherResourceNegotiator)3.MapReduce二、数据存储与管理1.HBase2.Hive3.HCatalog4.Phoenix三、数据处理与计算1.Spark2.Flink3.Tez4.Storm5.Presto6.Impala四、资源调度与集群管
flink数据同步mysql到hive_基于Canal与Flink实现数据实时增量同步(二)
背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(OperationalDataStore)数据。在互联网企业中，常见的ODS数据有业务日志数据(Log)和业务DB数据(DB)两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方案是批量
Flink OceanBase CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink oceanbase 大数据
一、OceanBase数据库核心配置1.环境准备与版本要求版本要求：OceanBaseCE4.0+或OceanBaseEE2.2+组件依赖：需部署LogProxy服务（社区版/企业版部署方式不同）兼容模式：支持MySQL模式（默认）和Oracle模式2.创建用户与权限配置在sys租户创建管理用户（社区版示例）：--连接sys租户（默认端口2881）mysql-h127.0.0.1-P2881-ur
Flink MongoDB CDC 环境配置与验证 Edingbrugh.南空运维大数据 flink flink mongodb 大数据
一、MongoDB数据库核心配置1.环境准备与集群要求MongoDBCDC依赖ChangeStreams特性，需满足以下条件：版本要求：MongoDB≥3.6集群模式：副本集（ReplicaSet）或分片集群（ShardedCluster）存储引擎：WiredTiger（默认自3.2版本起）副本集协议：pv1（MongoDB4.0+默认）验证集群配置：#连接MongoDBshellmongo--h
Flink将数据流写入Kafka,Redis,ES,Mysql 浅唱战无双 flink mysql es redis kafka
Flink写入不同的数据源写入到Mysql写入到ES向Redis写入向kafka写入导入公共依赖org.slf4jslf4j-simple1.7.25compileorg.apache.flinkflink-java1.10.1org.apache.flinkflink-streaming-java_2.121.10.1写入到Mysql导入依赖mysqlmysql-connector-java5.
Flink TiDB CDC 环境配置与验证
一、TiDB数据库核心配置1.启用TiCDC服务确保TiDB集群已部署TiCDC组件（版本需兼容FlinkCDC3.0.1），并启动同步服务：#示例：启动TiCDC捕获changefeedcdcclichangefeedcreate\--pd="localhost:2379"\--sink-uri="blackhole://"\--changefeed-id="flink-cdc-demo"2.验
Flink CDC支持Oracle RAC架构CDB+PDB模式的实时数据同步吗，可以上生产环境吗智海观潮 Flink flink cdc oracle flink 数据同步大数据
众所周知，FlinkCDC是一个流数据集成工具，支持多种数据源的实时数据同步，包括大家所熟知的MySQL，MongoDB等。原本是作为Flink的子项目运行，后来捐献给Apache基金会，底层实现比较依赖于Flink生态。具体到数据同步底层实现则相对比较依赖于Debezium。对于Oracle实时数据同步有需求的用户来说，经常会有疑问，比如FlinkCDC支持Oracle实时数据同步吗，可以应用到
Flink Oracle CDC 环境配置与验证
一、Oracle数据库核心配置详解1.启用归档日志（ArchivingLog）OracleCDC依赖归档日志获取增量变更数据，需按以下步骤启用：非CDB数据库配置：--以DBA身份连接数据库CONNECTsys/passwordASSYSDBA;--配置归档目标路径和大小ALTERSYSTEMSETdb_recovery_file_dest_size=10G;ALTERSYSTEMSETdb_re
flink读取kafka的数据处理完毕写入redis JinVijay flink kafka redis flink
/**从Kafka读取数据处理完毕写入Redis*/publicclassKafkaToRedis{publicstaticvoidmain(String[]args)throwsException{StreamExecutionEnvironmentenv=StreamExecutionEnvironment.getExecutionEnvironment();//开启checkpointing
阿里云Flink：开启大数据实时处理新时代云资源服务商阿里云大数据云计算
走进阿里云Flink在大数据处理的广袤领域中，阿里云Flink犹如一颗璀璨的明星，占据着举足轻重的地位。随着数据量呈指数级增长，企业对数据处理的实时性、高效性和准确性提出了前所未有的挑战。传统的数据处理方式逐渐难以满足这些严苛的需求，而阿里云Flink凭借其卓越的特性和强大的功能，成为众多企业实现数据价值挖掘与业务创新的关键技术。它不仅继承了开源Flink的优秀基因，还融入了阿里云自主研发的创新技
大数据集群架构hadoop集群、Hbase集群、zookeeper、kafka、spark、flink、doris、dataeas(二) 争取不加班！ hadoop hbase zookeeper 大数据运维
zookeeper单节点部署wget-chttps://dlcdn.apache.org/zookeeper/zookeeper-3.8.4/apache-zookeeper-3.8.4-bin.tar.gz下载地址tarxfapache-zookeeper-3.8.4-bin.tar.gz-C/data/&&mv/data/apache-zookeeper-3.8.4-bin//data/zoo
Hadoop、Spark、Flink 三大大数据处理框架的能力与应用场景
一、技术能力与应用场景对比产品能力特点应用场景Hadoop-基于MapReduce的批处理框架-HDFS分布式存储-容错性强、适合离线分析-作业调度使用YARN-日志离线分析-数据仓库存储-T+1报表分析-海量数据处理Spark-基于内存计算，速度快-支持批处理、流处理（StructuredStreaming）-支持SQL、ML、图计算等-支持多语言（Scala、Java、Python）-近实时处
数据同步工具对比：Canal、DataX与Flink CDC 智慧源点大数据 flink 大数据
在现代数据架构中，数据同步是构建数据仓库、实现实时分析、支持业务决策的关键环节。Canal、DataX和FlinkCDC作为三种主流的数据同步工具，各自有着不同的设计理念和适用场景。本文将深入探讨这三者的技术特点、使用场景以及实践中的差异，帮助开发者根据实际需求选择合适的工具。1.工具概述1.1CanalCanal是阿里巴巴开源的一款基于MySQL数据库增量日志(binlog)解析的组件，主要用于
4_Flink CEP frimiku flink 大数据云计算
FlinkCEP1、何为CEP？CEP，全称为复杂事件处理（ComplexEventProcessing），是一种用于实时监测和分析数据流的技术。CEP详细讲解：CEP是基于动态环境的事件流的分析技术，事件是状态变化（持续生成数据）的。通过分析事件间的关系，利用过滤、关联、聚合等技术，根据事件间的【时序关系和聚合关系】制定检测规则，持续地从事件流中查询出【符合规则要求】的事件序列，最终分析得到更复
Flink项目基础配置指南 Edingbrugh.南空 flink 大数据 flink 大数据
在大数据处理领域，ApacheFlink凭借强大的实时流处理和批处理能力，成为众多开发者的首选工具。在日常工作中，开发FlinkJar任务是常见需求，但每次都需重复配置日志、梳理pom依赖、设置打包插件等，流程繁琐且易出错。为提升开发效率，减少重复劳动，将这些基础配置进行整理归纳十分必要。本文将围绕Flink项目的本地日志配置、pom依赖及插件配置展开详细介绍，为开发者提供一套可直接复用的基础配置
Apache SeaTunnel Flink引擎执行流程源码分析 Code Monkey’s Lab 源码分析 Flink flink 大数据架构 seatunnel
目录1.任务启动入口2.任务执行命令类：FlinkTaskExecuteCommand3.FlinkExecution的创建与初始化3.1核心组件初始化3.2关键对象说明4.任务执行：FlinkExecution.execute()5.Source处理流程5.1插件初始化5.2数据流生成6.Transform处理流程6.1插件初始化6.2转换执行7.Sink处理流程7.1插件初始化7.2数据输出执
Beam2.61.0版本消费kafka重复问题排查隔壁寝室老吴 kafka linq 分布式
1.问题出现过程在测试环境测试flink的job的任务消费kafka的情况，通过往job任务发送一条消息，然后flinkwebui上消费出现了两条。然后通过重启JobManager和TaskManager后，任务从checkpoint恢复后就会出现重复消费。当任务不从checkpoint恢复的时候，任务不会出现重复消费的情况。由此可见是beam从checkpoint恢复的时候出现了重复消费的问题。
Flink CDC同步Oracle无主键表 Zzz...209 java flink oracle
FlinkCDC同步Oracle无主键表问题背景问题解决问题背景FlinkCDC是一种很强大且实用的实时数据同步工具，官网如下。链接:link但是在实际使用过程中还是会有些不足之处，比如说同步Oracle数据库中无主键以及唯一键的表时，关于目标端的幂等性时无法保证的。问题解决在Oracle数据库中，表中有一个伪列ROWID，而在CDC同步过来的数据中是不包含此列的。修改源码如下，使之携带ROWID
Flink Oracle CDC Connector详解 24k小善 flink java 大数据
1.FlinkOracleCDCConnector核心功能功能模块描述实时数据捕获实时捕捉Oracle数据库中的DML操作（INSERT,UPDATE,DELETE）。Schema变更支持支持部分DDL操作的检测（如表结构变更）。端到端一致性确保数据从Oracle到Flink的传输过程中的完整性和一致性。可扩展性支持高吞吐量和大规模数据处理需求。容错机制具备断点续传能力，确保在中断后能够从上次的位
Apache Flink深度解析：现代流处理引擎暴躁哥大数据技术 apache flink 大数据
好的，我来帮您写一篇关于Flink技术的详细介绍博客：ApacheFlink深度解析：现代流处理引擎一、Flink简介ApacheFlink是一个开源的分布式流处理和批处理统一计算引擎。它提供了数据流上的状态计算、精确一次性语义保证、高吞吐、低延迟等特性，能够运行在所有常见的集群环境中。1.1核心特性统一的流批处理精确一次性语义事件时间处理有状态计算高吞吐和低延迟高可用性配置内存管理二、Flink
Flink SQL Connector Kafka 核心参数全解析与实战指南 Edingbrugh.南空 kafka flink 大数据 flink sql kafka
FlinkSQLConnectorKafka是连接FlinkSQL与Kafka的核心组件，通过将Kafka主题抽象为表结构，允许用户使用标准SQL语句完成数据读写操作。本文基于ApacheFlink官方文档（2.0版本），系统梳理从表定义、参数配置到实战调优的全流程指南，帮助开发者高效构建实时数据管道。一、依赖配置与环境准备1.1Maven依赖引入在FlinkSQL项目中使用Kafka连接器需添加
Flink部署与应用——Flink集群模式黄雪超从0开始学Flink flink 大数据
Flink集群模式在大数据处理领域，ApacheFlink凭借其卓越的流批一体化处理能力，成为众多企业的首选框架。而Flink集群模式的选择与运用，对于充分发挥Flink的性能优势、满足不同业务场景的需求至关重要。接下来，我们将深入探讨Flink的多种集群模式，剖析其特点、适用场景及相互间的差异。集群部署模式对比Flink的集群部署模式可依据两个关键维度进行分类：一是集群的生命周期和资源隔离方式；
Spark Streaming 与 Flink 实时数据处理方案对比与选型指南浅沫云归后端技术栈小结 spark-streaming flink real-time
SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎。本文基于生产环境需求，从整体架构、编程模型、容错机制、性能表现、实践案例等维度进行深入对比，并给出选型建议。一、问题背景介绍业务场景日志实时统计与告警用户行为实时画像实时订单或交易监控流式ET
现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态讲文明的喜羊羊拒绝pua 大数据架构数据湖 Spark Iceberg Amoro 对象存储
本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro）的协作关系，并提供企业级选型指南。一、数据湖架构演进与核心价值数据湖架构演进历程现代数据湖核心价值矩阵维度传统数仓现代数据湖存储成本高（专有硬件）低（对象存储）数据时效性小时/天级分钟/秒级
69、Flink 的 DataStream Connector 之 Kafka 连接器详解猫猫爱吃小鱼粮 Flink-1.19 从0到精通 flink kafka 大数据
1.概述Flink提供了Kafka连接器使用精确一次（Exactly-once）的语义在Kafkatopic中读取和写入数据。目前还没有Flink1.19可用的连接器。2.KafkaSourcea）使用方法KafkaSource提供了构建类来创建KafkaSource的实例。以下代码片段展示了如何构建KafkaSource来消费“input-topic”最早位点的数据，使用消费组“my-group
Flink SourceFunction深度解析：数据输入的起点与奥秘 Edingbrugh.南空 flink 大数据 flink 大数据
在Flink的数据处理流程中，StreamGraph构建起了作业执行的逻辑框架，而数据的源头则始于SourceFunction。作为Flink数据输入的关键组件，SourceFunction负责从外部数据源读取数据，并将其转换为Flink作业能够处理的格式。深入理解SourceFunction的原理与实现，对于构建高效、稳定的数据处理链路至关重要。接下来，我们将结合有道云笔记内容，对FlinkSo
【Flink实战】 Flink SQL 中处理字符串 `‘NULL‘` 并转换为 `BIGINT` roman_日积跬步-终至千里 #flink 实战 sql flink 数据库
文章目录一、问题描述解决方案解释一、问题描述当我们尝试将字符串'NULL'直接转换为BIGINT时，会遇到NumberFormatException，因为'NULL'不是一个有效的数字字符串。为了避免这种错误，我们需要在转换之前进行检查。解决方案我们可以使用CASE语句来实现条件转换。具体步骤如下：使用CASE语句进行条件判断：检查字符串是否为'NULL'，如果是'NULL'，则返回0；否则，将字
Flink状态和容错-基础篇有数的编程笔记 Flink flink 大数据
1.概念flink的状态和容错绕不开3个概念，statebackends和checkpoint、savepoint。本文重心即搞清楚这3部分内容。容错机制是基于在状态快照的一种恢复方式。但是状态和容错要分开来看。什么是状态，为什么需要状态？流计算和批计算在数据源上最大的区别是，流计算中的数据是无边界的，数据持续不断，而批计算中数据是有边界的，在计算时可以一次性将数据全部拿到。在流计算中无法拿到全部
flink:风控/反欺诈检测系统案例研究1,2,3 菠萝科技 java·未分类 flink flink 风控欺诈
https://flink.apache.org/news/2020/01/15/demo-fraud-detection.htmlhttps://flink.apache.org/news/2020/03/24/demo-fraud-detection-2.htmlhttps://flink.apache.org/news/2020/07/30/demo-fraud-detection-3.ht
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比