SuperQiu~

Table API 和 Flink SQL

Table API 和 Flink SQL 是什么

• Flink 对批处理和流处理，提供了统一的上层 API
• Table API 是一套内嵌在 Java 和 Scala 语言中的查询 API，它允许我们以非常直观的方式，组合来自一些关系运算符的查询（比如 select、filter 和 join）。而对于 Flink SQL，就是直接可以在代码中写 SQL，来实现一些查询（Query）操作。Flink 的 SQL 支持，基于实现了 SQL 标准的 Apache Calcite（Apache 开源 SQL 解析工具）
• Flink 的 SQL 支持基于实现了 SQL 标准的 Apache Calcite
• 无论输入是批输入还是流式输入，在这两套 API 中，指定的查询都具有相同的语义，得到相同的结果。

Table API 和 SQL 需要引入的依赖有两个：planner 和 bridge。

<dependency>
<groupId>org.apache.flinkgroupId>
<artifactId>flink-table-planner_2.12artifactId>
<version>1.10.1version>
dependency>
<dependency>
<groupId>org.apache.flinkgroupId>
<artifactId>flink-table-api-scala-bridge_2.12artifactId>
<version>1.10.1version>
dependency>

flink-table-planner：planner 计划器，是 table API 最主要的部分，提供了运行时环境和生成程序执行计划的 planner；
flink-table-api-java-bridge：bridge 桥接器，主要负责 table API 和 DataStream/DataSet API的连接支持，按照语言分 java 和 scala。
这里的两个依赖，是 IDE 环境下运行需要添加的；如果是生产环境，lib 目录下默认已经有了 planner，就只需要有 bridge 就可以了。
当然，如果想使用用户自定义函数，或是跟 kafka 做连接，需要有一个 SQL client，这个包含在 flink-table-common 里。

两种 planner（old & blink）的区别

批流统一：Blink 将批处理作业，视为流式处理的特殊情况。所以，blink 不支持表和DataSet 之间的转换，批处理作业将不转换为 DataSet 应用程序，而是跟流处理一样，转换为 DataStream 程序来处理。
因为批流统一， Blink planner 也不支持 BatchTableSource ，而使用有界的StreamTableSource 代替。
Blink planner 只支持全新的目录，不支持已弃用的 ExternalCatalog。
旧 planner 和 Blink planner 的 FilterableTableSource 实现不兼容。旧的 planner 会把PlannerExpressions 下推到 filterableTableSource 中，而 blink planner 则会把 Expressions 下推。
基于字符串的键值配置选项仅适用于 Blink planner。
PlannerConfig 在两个 planner 中的实现不同。
Blink planner 会将多个 sink 优化在一个 DAG 中（仅在 TableEnvironment 上受支持，而在 StreamTableEnvironment 上不受支持）。而旧 planner 的优化总是将每一个 sink 放在一个新的 DAG 中，其中所有 DAG 彼此独立。
旧的 planner 不支持目录统计，而 Blink planner 支持。

基本程序结构

• Table API 和 SQL 的程序结构，与流式处理的程序结构类似；也可以近似地认为有这么几步：首先创建执行环境，然后定义 source、transform 和 sink。
具体操作流程如下：

StreamTableEnvironment tableEnv = ... // 创建表的执行环境
// 创建一张表，用于读取数据
tableEnv.connect(...).createTemporaryTable("inputTable");
// 注册一张表，用于把计算结果输出
tableEnv.connect(...).createTemporaryTable("outputTable");
// 通过 Table API 查询算子，得到一张结果表
Table result = tableEnv.from("inputTable").select(...);
// 通过 SQL查询语句，得到一张结果表
Table sqlResult = tableEnv.sqlQuery("SELECT ... FROM inputTable ...");
// 将结果表写入输出表中
result.insertInto("outputTable");

创建表环境最简单的方式，就是基于流处理执行环境，调 create 方法直接创建：
• 创建表的执行环境，需要将 flink 流处理的执行环境传入

StreamTableEnvironment tableEnv = StreamTableEnvironment.create(env);

• 表环境（TableEnvironment）是 flink 中集成 Table API & SQL 的核心概念。它负责:

注册 catalog
在内部 catalog 中注册表
执行 SQL 查询
注册用户自定义函数
将 DataStream 或 DataSet 转换为表
保存对 ExecutionEnvironment 或 StreamExecutionEnvironment 的引用

在创建 TableEnv 的时候，可以多传入一个 EnvironmentSettings 或者 TableConfig 参数，可以用来配置 TableEnvironment 的一些特性。
配置 TableEnvironment
• 配置老版本的流式查询（Flink-Streaming-Query）：

EnvironmentSettings settings = EnvironmentSettings.newInstance()
.useOldPlanner()
.inStreamingMode()
.build();
StreamTableEnvironment tableEnv = StreamTableEnvironment
.create(env, settings);

• 配置老版本 planner 的批式查询（Flink-Batch-Query）

ExecutionEnvironment batchEnv = ExecutionEnvironment.getExecutionEnvironment;
BatchTableEnvironment batchTableEnv = BatchTableEnvironment.create(batchEnv);

• 配置 blink planner 的流式查询（Blink-Streaming-Query）：

EnvironmentSettings bsSettings = EnvironmentSettings.newInstance()
.useBlinkPlanner()
.inStreamingMode()
.build();
StreamTableEnvironment bsTableEnv = StreamTableEnvironment
.create(env, bsSettings);

• 配置 blink planner 的批式查询（Blink-Batch-Query）：

EnvironmentSettings bbSettings = EnvironmentSettings.newInstance()
.useBlinkPlanner()
.inBatchMode()
.build();
TableEnvironment bbTableEnv = TableEnvironment.create(bbSettings);

表（Table）

• TableEnvironment 可以注册目录 Catalog，并可以基于 Catalog 注册表
• 表（Table）是由一个“标识符”（identifier）来指定的，由3部分组成：Catalog名、数据库（database）名和对象名
• 表可以是常规的，也可以是虚拟的（视图，View）
• 常规表（Table）一般可以用来描述外部数据，比如文件、数据库表或消息队列的数据，也可以直接从 DataStream转换而来
• 视图（View）可以从现有的表中创建，通常是 table API 或者 SQL 查询的一个结果集

创建表
• TableEnvironment 可以调用 .connect() 方法，连接外部系统，并调用 .createTemporaryTable() 方法，在 Catalog 中注册表

tableEnv
.connect(...) // 定义表的数据来源，和外部系统建立连接
.withFormat(...) // 定义数据格式化方法
.withSchema(...) // 定义表结构
.createTemporaryTable("MyTable"); // 创建临时表

• 连接外部系统在 Catalog 中注册表，直接调用 tableEnv.connect()就可以，里面参数要传入一个 ConnectorDescriptor，也就是 connector 描述器。对于文件系统的 connector 而言，flink内部已经提供了，就叫做 FileSystem()。

tableEnv
.connect(
new FileSystem().path(“YOUR_Path/sensor.txt”)
) // 定义到文件系统的连接
.withFormat(new Csv()) // 定义以csv格式进行数据格式化
.withSchema( new  OldCsv()
.field("id", DataTypes.STRING())
.field("timestamp", DataTypes.BIGINT())
.field("temperature", DataTypes.DOUBLE())
) // 定义表结构
.createTemporaryTable("sensorTable"); // 创建临时表

这是旧版本的 csv 格式描述器。由于它是非标的，跟外部系统对接并不通用，所以将被弃用，以后会被一个符合 RFC-4180 标准的新 format 描述器取代。新的描述器就叫 Csv()，但flink 没有直接提供，需要引入依赖 flink-csv：

<dependency>
 <groupId>org.apache.flinkgroupId>
 <artifactId>flink-csvartifactId>
 <version>1.10.1version>
dependency>

代码非常类似，只需要把 withFormat 里的 OldCsv 改成 Csv 就可以了。

kafka 的连接器 flink-kafka-connector 中，1.10 版本的已经提供了 Table API 的支持。我们可以在 connect 方法中直接传入一个叫做 Kafka 的类，这就是 kafka 连接器的描述器ConnectorDescriptor。

tableEnv.connect(
 new Kafka()
 .version("0.11") // 定义 kafka 的版本
 .topic("sensor") // 定义主题
 .property("zookeeper.connect", "localhost:2181")
 .property("bootstrap.servers", "localhost:9092")
)
 .withFormat(new Csv())
 .withSchema(new Schema()
 .field("id", DataTypes.STRING())
 .field("timestamp", DataTypes.BIGINT())
 .field("temperature", DataTypes.DOUBLE())
)
 .createTemporaryTable("kafkaInputTable");

当然也可以连接到 ElasticSearch、MySql、HBase、Hive 等外部系统，实现方式基本上是类似的。

表的查询 – Table API

利用外部系统的连接器 connector，我们可以读写数据，并在环境的 Catalog 中注册表。接下来就可以对表做查询转换了。
Flink 给我们提供了两种查询方式：Table API 和 SQL。

• Table API 是集成在 Scala 和 Java 语言内的查询 API。与 SQL 不同，Table API 的查询不会用字符串表示，而是在宿主语言中一步一步调用完成的。
• Table API 基于代表“表”的 Table 类，并提供一整套操作处理的方法 API；
这些方法会返回一个新的 Table 对象，表示对输入表应用转换操作的结果
• 有些关系型转换操作，可以由多个方法调用组成，构成链式调用结构
例如 table.select(…).filter(…)，其中 select（…）表示选择表中指定的字段，filter(…)表示筛选条件。

Table sensorTable = tableEnv.from("inputTable");
Table resultTable = sensorTable
.select("id, temperature")
.filter("id = 'sensor_1'");

表的查询 – SQL

• Flink 的 SQL 集成，基于实现了SQL 标准的 Apache Calcite
• 在 Flink 中，用常规字符串来定义 SQL 查询语句
• SQL 查询的结果，也是一个新的 Table

Table resultSqlTable = tableEnv.sqlQuery("select id, temperature from sensorTable where id ='sensor_1'");

当然，也可以加上聚合操作，比如我们统计每个 sensor 温度数据出现的个数，做个 count统计：

Table aggResultTable = sensorTable
.groupBy("id")
.select("id, id.count as count");

SQL 的实现：

Table aggResultSqlTable = tableEnv.sqlQuery("select id, count(id) as cnt from inputTable group by id");

这里 Table API 里指定的字段，前面加了一个单引号’，这是 Table API 中定义的 Expression类型的写法，可以很方便地表示一个表中的字段。
字段可以直接全部用双引号引起来，也可以用半边单引号+字段名的方式。以后的代码中，一般都用后一种形式。

输出表

• 表的输出，是通过将数据写入 TableSink 来实现的
• TableSink 是一个通用接口，可以支持不同的文件格式、存储数据库和消息队列
• 输出表最直接的方法，就是通过 Table.insertInto() 方法将一个 Table 写入注册过的

tableEnv.connect(...)
.createTemporaryTable("outputTable");
Table resultSqlTable = ...
resultTable.insertInto("outputTable");

输出到文件

tableEnv.connect(
new FileSystem().path("output.txt")
) // 定义到文件系统的连接
.withFormat(new Csv()) 
.withSchema(new Schema()
.field("id", DataTypes.STRING())
.field("temp", DataTypes.Double())
) 
.createTemporaryTable("outputTable") ; // 创建临时表
resultTable.insertInto("outputTable"); // 输出表

更新模式

• 对于流式查询，需要声明如何在表和外部连接器之间执行转换
• 与外部系统交换的消息类型，由更新模式（Update Mode）指定
➢ 追加（Append）模式
– 表只做插入操作，和外部连接器只交换插入（Insert）消息
➢ 撤回（Retract）模式
– 表和外部连接器交换添加（Add）和撤回（Retract）消息
– 插入操作（Insert）编码为 Add 消息；删除（Delete）编码为 Retract 消息；更新（Update）
编码为上一条的 Retract 和下一条的 Add 消息
➢ 更新插入（Upsert）模式
– 更新和插入都被编码为 Upsert 消息；删除编码为 Delete 消息

输出到 Kafka

• 可以创建 Table 来描述 kafka 中的数据，作为输入或输出的 TableSink

tableEnv.connect(
new Kafka()
.version("0.11")
.topic("sinkTest")
.property("zookeeper.connect", "localhost:2181")
.property("bootstrap.servers", "localhost:9092")
)
.withFormat( new Csv() )
.withSchema( new Schema()
.field("id", DataTypes.STRING())
.field("temp", DataTypes.DOUBLE())
)
.createTemporaryTable("kafkaOutputTable");
resultTable.insertInto("kafkaOutputTable");

输出到 ES

ElasticSearch 的 connector 可以在 upsert（update+insert，更新插入）模式下操作，这样就可以使用 Query 定义的键（key）与外部系统交换 UPSERT/DELETE 消息。
另外，对于“仅追加”（append-only）的查询，connector 还可以在 append 模式下操作，这样就可以与外部系统只交换 insert 消息。
es 目前支持的数据格式，只有 Json，而 flink 本身并没有对应的支持，所以还需要引入依赖：

<dependency>
 <groupId>org.apache.flinkgroupId>
 <artifactId>flink-jsonartifactId>
 <version>1.10.1version>
dependency>

• 可以创建 Table 来描述 ES 中的数据，作为输出的 TableSink

tableEnv.connect(
new Elasticsearch()
.version("6")
.host("localhost", 9200, "http")
.index("sensor")
.documentType("temp")
)
.inUpsertMode()
.withFormat(new Json())
.withSchema( new Schema()
.field("id", DataTypes.STRING())
.field("count", DataTypes.BIGINT())
)
.createTemporaryTable("esOutputTable");
aggResultTable.insertInto("esOutputTable");

输出到 MySql

Flink 专门为 Table API 的 jdbc 连接提供了 flink-jdbc 连接器，我们需要先引入依赖：

<dependency>
 <groupId>org.apache.flinkgroupId>
 <artifactId>flink-jdbc_2.12artifactId>
 <version>1.10.1version>
dependency>

jdbc 连接的代码实现比较特殊，因为没有对应的 java/scala 类实现 ConnectorDescriptor，所以不能直接tableEnv.connect()。不过Flink SQL留下了执行DDL的接口：tableEnv.sqlUpdate()。对于 jdbc 的创建表操作，天生就适合直接写 DDL 来实现，所以我们的代码可以这样写：
• 可以创建 Table 来描述 MySql 中的数据，作为输入和输出

String sinkDDL=
"create table jdbcOutputTable (" +
" id varchar(20) not null, " +
" cnt bigint not null " +
") with (" +
" 'connector.type' = 'jdbc', " +
" 'connector.url' = 'jdbc:mysql://localhost:3306/test', " +
" 'connector.table' = 'sensor_count', " +
" 'connector.driver' = 'com.mysql.jdbc.Driver', " +
" 'connector.username' = 'root', " +
" 'connector.password' = '123456' )";
tableEnv.sqlUpdate(sinkDDL) // 执行 DDL创建表
aggResultSqlTable.insertInto("jdbcOutputTable");

将 Table 转换成 DataStream

Flink 允许我们把 Table 和 DataStream 做转换：我们可以基于一个 DataStream，先流式地读取数据源，然后 map 成 POJO，再把它转成 Table。Table 的列字段（column fields），就是 POJO 里的字段，这样就不用再麻烦地定义 schema 了。

• 表可以转换为 DataStream 或 DataSet ，这样自定义流处理或批处理程序就可以继续在 Table API 或 SQL 查询的结果上运行了
• 将表转换为 DataStream 或 DataSet 时，需要指定生成的数据类型，即要将表的每一行转换成的数据类型
• 表作为流式查询的结果，是动态更新的
• 转换有两种转换模式：追加（Append）模式和撤回（Retract）模式
➢ 追加模式（Append Mode）
– 用于表只会被插入（Insert）操作更改的场景
➢ 撤回模式（Retract Mode）
– 用于任何场景。有些类似于更新模式中 Retract 模式，它只有 Insert 和 Delete 两类操作。
– 得到的数据会增加一个 Boolean 类型的标识位（返回的第一个字段），用它来表示到底是新增的数据（Insert），还是被删除的数据（Delete）

DataStream<Tuple2<Boolean, Row>> aggResultStream = tableEnv.toRetractStream(aggResultTable , Row.class);

• 对于一个 DataStream，可以直接转换成 Table，进而方便地调用 Table API 做转换操作

DataStream<SensorReading> dataStream = ...
Table sensorTable = tableEnv.fromDataStream(dataStream);

• 默认转换后的 Table schema 和 DataStream 中的字段定义一一对应，也可以单独指定出来

DataStream<SensorReading> dataStream = ...
Table sensorTable = tableEnv.fromDataStream(dataStream,"id, timestamp as ts, temperature");

所以，没有经过 groupby 之类聚合操作，可以直接用 toAppendStream 来转换；而如果经过了聚合，有更新操作，一般就必须用 toRetractDstream。

DataStream<Tuple2<Boolean, Row>> aggResultStream = tableEnv.toRetractStream(aggResultTable, Row.class);

创建临时视图（Temporary View）

• 基于 DataStream 创建临时视图

tableEnv.createTemporaryView("sensorView", dataStream);
tableEnv.createTemporaryView("sensorView", dataStream, "id, temperature, timestamp as ts");

• 基于 Table 创建临时视图

tableEnv.createTemporaryView("sensorView", sensorTable);

查看执行计划

Table API 提供了一种机制来解释（Explain）计算表的逻辑和优化查询计划。这是通过TableEnvironment.explain（table）方法或 TableEnvironment.explain（）方法完成的。

• Table API 提供了一种机制来解释计算表的逻辑和优化查询计划
• 查看执行计划，可以通过 TableEnvironment.explain(table) 方法或
TableEnvironment.explain() 方法完成，返回一个字符串，描述三个计划
➢ 优化的逻辑查询计划
➢ 优化后的逻辑查询计划
➢ 实际执行计划。

String explaination = tableEnv.explain(resultTable);
System.out.println(explaination);

Query 的解释和执行过程，老 planner 和 blink planner 大体是一致的，又有所不同。整体来讲，Query 都会表示成一个逻辑查询计划，然后分两步解释：

优化查询计划
解释成 DataStream 或者 DataSet 程序
而 Blink 版本是批流统一的，所以所有的 Query，只会被解释成 DataStream 程序；另外在批处理环境 TableEnvironment 下，Blink 版本要到 tableEnv.execute()执行调用才开始解释。

流处理和关系代数的区别

Table API 和 SQL，本质上还是基于关系型表的操作方式；而关系型表、关系代数，以及SQL 本身，一般是有界的，更适合批处理的场景。这就导致在进行流处理的过程中，理解会稍微复杂一些，需要引入一些特殊概念。

可以看到，其实关系代数（主要就是指关系型数据库中的表）和 SQL，主要就是针对批处理的，这和流处理有天生的隔阂。

动态表（Dynamic Tables）

因为流处理面对的数据，是连续不断的，这和我们熟悉的关系型数据库中保存的“表”完全不同。所以，如果我们把流数据转换成 Table，然后执行类似于 table 的 select 操作，结果就不是一成不变的，而是随着新数据的到来，会不停更新。我们可以随着新数据的到来，不停地在之前的基础上更新结果。这样得到的表，在 Flink Table API 概念里，就叫做“动态表”（Dynamic Tables）。

• 动态表是 Flink 对流数据的 Table API 和 SQL 支持的核心概念
• 与表示批处理数据的静态表不同，动态表是随时间变化的
➢ 持续查询（Continuous Query）
• 动态表可以像静态的批处理表一样进行查询，查询一个动态表会产生持续查询（Continuous Query）
• 连续查询永远不会终止，并会生成另一个动态表
• 查询会不断更新其动态结果表，以反映其动态输入表上的更改

动态表和持续查询

➢ 流式表查询的处理过程：
1.流被转换为动态表
2.对动态表计算连续查询，生成新的动态表
3.生成的动态表被转换回流

将流转换成动态表

• 为了处理带有关系查询的流，必须先将其转换为表
• 从概念上讲，流的每个数据记录，都被解释为对结果表的插入（Insert）修改操作改。因为流式持续不断的，而且之前的输出结果无法改变。本质上，我们其实是从一个、只有插入操作的 changelog（更新日志）流，来构建一个表。

为了更好地说明动态表和持续查询的概念，我们来举一个具体的例子。
比如，我们现在的输入数据，就是用户在网站上的访问行为，数据类型（Schema）如下：
[
user: VARCHAR, // 用户名
cTime: TIMESTAMP, // 访问某个 URL 的时间戳
url: VARCHAR // 用户访问的 URL
]
下图显示了如何将访问 URL 事件流，或者叫点击事件流（左侧）转换为表（右侧）。

随着插入更多的访问事件流记录，生成的表将不断增长。

持续查询

持续查询，会在动态表上做计算处理，并作为结果生成新的动态表。与批处理查询不同，连续查询从不终止，并根据输入表上的更新更新其结果表。
在任何时间点，连续查询的结果在语义上，等同于在输入表的快照上，以批处理模式执行的同一查询的结果。
在下面的示例中，我们展示了对点击事件流中的一个持续查询。
这个 Query 很简单，是一个分组聚合做 count 统计的查询。它将用户字段上的 clicks 表分组，并统计访问的 url 数。图中显示了随着时间的推移，当 clicks 表被其他行更新时如何计算查询。

• 持续查询会在动态表上做计算处理，并作为结果生成新的动态表

将动态表转换成 DataStream

• 与常规的数据库表一样，动态表可以通过插入（Insert）、更新（Update）和删除（Delete）更改，进行持续的修改。
• 将动态表转换为流或将其写入外部系统时，需要对这些更改进行编码。
• Flink 的 Table API 和 SQL 支持三种方式对动态表的更改进行编码：
➢ 仅追加（Append-only）流
– 仅通过插入（Insert）更改，来修改的动态表，可以直接转换为“仅追加”流。这个流中发出的数据，就是动态表中新增的每一行。
➢ 撤回（Retract）流
– Retract 流是包含两类消息的流，添加（Add）消息和撤回（Retract）消息。
动态表通过将 INSERT 编码为 add 消息、DELETE 编码为 retract 消息、UPDATE 编码为被更改行（前一行）的 retract 消息和更新后行（新行）的 add 消息，转换为 retract 流。
下图显示了将动态表转换为 Retract 流的过程。

➢ Upsert（更新插入）流
– Upsert 流包含两种类型的消息：Upsert 消息和 delete 消息。转换为 upsert 流的动态表，需要有唯一的键（key）。
通过将 INSERT 和 UPDATE 更改编码为 upsert 消息，将 DELETE 更改编码为 DELETE 消息，就可以将具有唯一键（Unique Key）的动态表转换为流。
下图显示了将动态表转换为 upsert 流的过程。

这些概念我们之前都已提到过。需要注意的是，在代码里将动态表转换为 DataStream时，仅支持 Append 和 Retract 流。而向外部系统输出动态表的 TableSink 接口，则可以有不同的实现，比如之前我们讲到的 ES，就可以有 Upsert 模式。

时间特性（Time Attributes）

• 基于时间的操作（比如 Table API 和 SQL 中窗口操作），需要定义相关的时间语义和时间数据来源的信息
• Table 可以提供一个逻辑上的时间字段，用于在表处理程序中，指示时间和访问相应的时间戳
• 时间属性，可以是每个表schema的一部分。一旦定义了时间属性，它就可以作为一个字段引用，并且可以在基于时间的操作中使用
• 时间属性的行为类似于常规时间戳，可以访问，并且进行计算

定义处理时间（Processing Time）

• 处理时间语义下，允许表处理程序根据机器的本地时间生成结果。它是时间的最简单概念。它既不需要提取时间戳，也不需要生成 watermark
定义处理时间属性有三种方法：
在 DataStream 转化时直接指定；
在定义 Table Schema时指定；
在创建表的 DDL 中指定。

➢ 由 DataStream 转换成表时指定
• 在定义Schema期间，可以使用.proctime，指定字段名定义处理时间字段
• 这个proctime属性只能通过附加逻辑字段，来扩展物理schema。因此，只能在schema定义的末尾定义它

// 定义好 DataStream
DataStream<String> inputStream = env.readTextFile("\\sensor.txt")
DataStream<SensorReading> dataStream = inputStream
 .map( line -> {
 String[] fields = line.split(",");
 return new SensorReading(fields[0], new Long(fields[1]), new Double(fields[2]));
 } );
// 将 DataStream 转换为 Table，并指定时间字段
Table sensorTable = tableEnv.fromDataStream(dataStream, "id, temperature, timestamp, pt.proctime");

➢ 定义 Table Schema 时指定
这种方法其实也很简单，只要在定义 Schema 的时候，加上一个新的字段，并指定成proctime 就可以了。

tableEnv.connect(
 new FileSystem().path("..\\sensor.txt"))
 .withFormat(new Csv())
 .withSchema(new Schema()
 .field("id", DataTypes.STRING())
 .field("timestamp", DataTypes.BIGINT())
 .field("temperature", DataTypes.DOUBLE())
 .field("pt", DataTypes.TIMESTAMP(3))
 .proctime() // 指定 pt 字段为处理时间
 ) // 定义表结构
 .createTemporaryTable("inputTable"); // 创建临时表

➢ 在创建表的 DDL 中定义
在创建表的 DDL 中，增加一个字段并指定成 proctime，也可以指定当前的时间字段。
代码如下：

String sinkDDL =
"create table dataTable (" +
" id varchar(20) not null, " +
" ts bigint, " +
" temperature double, " +
" pt AS PROCTIME() " +
") with (" +
" 'connector.type' = 'filesystem', " +
" 'connector.path' = '/sensor.txt', " +
" 'format.type' = 'csv')";
tableEnv.sqlUpdate(sinkDDL);

定义事件时间（Event Time）

• 事件时间语义，允许表处理程序根据每个记录中包含的时间生成结果。这样即使在有乱序事件或者延迟事件时，也可以获得正确的结果。
• 为了处理无序事件，并区分流中的准时和迟到事件；Flink 需要从事件数据中，提取时间戳，并用来推进事件时间的进展
• 定义事件时间，同样有三种方法：
➢ 由 DataStream 转换成表时指定
➢ 定义 Table Schema 时指定
➢ 在创建表的 DDL 中定义
➢ 由 DataStream 转换成表时指定

• 在 DataStream 转换成 Table，使用 .rowtime 可以定义事件时间属性
在DataStream转换成Table，schema的定义期间，使用.rowtime可以定义事件时间属性。
注意，必须在转换的数据流中分配时间戳和 watermark。
在将数据流转换为表时，有两种定义时间属性的方法。根据指定的.rowtime 字段名是否存在于数据流的架构中，timestamp 字段可以：

作为新字段追加到 schema
替换现有字段
在这两种情况下，定义的事件时间戳字段，都将保存 DataStream 中事件时间戳的值。

// 将 DataStream转换为 Table，并指定时间字段
Table sensorTable = tableEnv.fromDataStream(dataStream, "id, timestamp.rowtime, temperature");
// 或者，直接追加时间字段
Table sensorTable = tableEnv.fromDataStream(dataStream, " id, temperature, timestamp, rt.rowtime");

• 定义 Table Schema 时指定
这种方法只要在定义 Schema 的时候，将事件时间字段，并指定成 rowtime 就可以了。

.withSchema(new Schema()
.field("id", DataTypes.STRING())
.field("timestamp", DataTypes.BIGINT())
.rowtime(
new Rowtime()
.timestampsFromField("timestamp") // 从字段中提取时间戳
.watermarksPeriodicBounded(1000) // watermark延迟1秒
)
.field("temperature", DataTypes.DOUBLE())
)

• 在创建表的 DDL 中定义
事件时间属性，是使用 CREATE TABLE DDL 中的 WARDMARK 语句定义的。watermark 语句，定义现有事件时间字段上的 watermark 生成表达式，该表达式将事件时间字段标记为事件时间属性。

String sinkDDL=
"create table dataTable (" +
" id varchar(20) not null, " +
" ts bigint, " +
" temperature double, " +
" rt AS TO_TIMESTAMP( FROM_UNIXTIME(ts) ), " +
" watermark for rt as rt - interval '1' second" +
") with (" +
" 'connector.type' = 'filesystem', " +
" 'connector.path' = '/sensor.txt', " +
" 'format.type' = 'csv')";
tableEnv.sqlUpdate(sinkDDL);

这里 FROM_UNIXTIME 是系统内置的时间函数，用来将一个整数（秒数）转换成“YYYY-MM-DD hh:mm:ss”格式（默认，也可以作为第二个 String 参数传入）的日期时间字符串（date time string）；然后再用 TO_TIMESTAMP 将其转换成 Timestamp。

窗口

• 时间语义，要配合窗口操作才能发挥作用
• 在 Table API 和 SQL 中，主要有两种窗口
➢ Group Windows（分组窗口）
– 根据时间或行计数间隔，将行聚合到有限的组（Group）中，并对每个组的数据执行一次聚合函数
➢ Over Windows
– 针对每个输入行，计算相邻行范围内的聚合

Group Windows

• Group Windows 是使用 window（w:GroupWindow）子句定义的，并且必须由as子句指定一个别名。
• 为了按窗口对表进行分组，窗口的别名必须在 group by 子句中，像常规的分组字段一样引用

Table table = input
.window([w: GroupWindow] as "w") // 定义窗口，别名为 w
.groupBy("w, a") // 按照字段 a和窗口 w分组
.select("a, b.sum"); // 聚合

或者，还可以把窗口的相关信息，作为字段添加到结果表中：

Table table = input
 .window([w: GroupWindow] as "w") 
 .groupBy("w, a") 
 .select("a, w.start, w.end, w.rowtime, b.count")

• Table API 提供了一组具有特定语义的预定义 Window 类，这些类会被转换为底层 DataStream 或 DataSet 的窗口操作

滚动窗口（Tumbling windows）

滚动窗口（Tumbling windows）要用 Tumble 类来定义，另外还有三个方法：

over：定义窗口长度
on：用来分组（按时间间隔）或者排序（按行数）的时间字段
as：别名，必须出现在后面的 groupBy 中
• 滚动窗口要用 Tumble 类来定义

// Tumbling Event-time Window
.window(Tumble.over("10.minutes").on("rowtime").as("w"))
// Tumbling Processing-time Window
.window(Tumble.over("10.minutes").on("proctime").as("w"))
// Tumbling Row-count Window
.window(Tumble.over("10.rows").on("proctime").as("w"))

滑动窗口（Sliding windows）

滑动窗口（Sliding windows）要用 Slide 类来定义，另外还有四个方法：

over：定义窗口长度
every：定义滑动步长
on：用来分组（按时间间隔）或者排序（按行数）的时间字段
as：别名，必须出现在后面的 groupBy 中
• 滑动窗口要用 Slide 类来定义

// Sliding Event-time Window
.window(Slide.over("10.minutes").every("5.minutes").on("rowtime").as("w"))
// Sliding Processing-time window 
.window(Slide.over("10.minutes").every("5.minutes").on("proctime").as("w"))
// Sliding Row-count window
.window(Slide.over("10.rows").every("5.rows").on("proctime").as("w"))

会话窗口（Session windows）

会话窗口（Session windows）要用 Session 类来定义，另外还有三个方法：

withGap：会话时间间隔
on：用来分组（按时间间隔）或者排序（按行数）的时间字段
as：别名，必须出现在后面的 groupBy 中
• 会话窗口要用 Session 类来定义

// Session Event-time Window
.window(Session.withGap("10.minutes").on("rowtime").as("w"))
// Session Processing-time Window
.window(Session.withGap("10.minutes").on("proctime").as("w"))

SQL 中的 Group Windows

• Group Windows 定义在 SQL 查询的 Group By 子句中与使用常规 GROUP BY 子句的查询一样，使用 GROUP BY 子句的查询会计算每个组的单个结果行。
SQL 支持以下 Group 窗口函数:
➢ TUMBLE(time_attr, interval)
• 定义一个滚动窗口，第一个参数是时间字段，第二个参数是窗口长度
➢ HOP(time_attr, interval, interval)
• 定义一个滑动窗口，第一个参数是时间字段，第二个参数是窗口滑动步长，第三个是窗口长度
➢ SESSION(time_attr, interval)
• 定义一个会话窗口，第一个参数是时间字段，第二个参数是窗口间隔
另外还有一些辅助函数，可以用来选择 Group Window 的开始和结束时间戳，以及时间属性。
这里只写 TUMBLE_*，滑动和会话窗口是类似的（HOP_*，SESSION_*）。

TUMBLE_START(time_attr, interval)
TUMBLE_END(time_attr, interval)
TUMBLE_ROWTIME(time_attr, interval)
TUMBLE_PROCTIME(time_attr, interval)

Over Windows

• Over window 聚合是标准 SQL 中已有的（over 子句），可以在查询的SELECT 子句中定义
• Over window 聚合，会针对每个输入行，计算相邻行范围内的聚合
• Over windows 使用 window（w:overwindows*）子句定义，并在 select（）方法中通过别名来引用

Table table = input
.window([w: OverWindow] as "w")
.select("a, b.sum over w, c.min over w");

• Table API 提供了 Over 类，来配置 Over 窗口的属性性。

无界 Over Windows

• 可以在事件时间或处理时间，以及指定为时间间隔、或行计数的范围内，定义 Over windows
• 无界的 over window 是使用常量指定的

// 无界的事件时间 over window
.window(Over.partitionBy("a").orderBy("rowtime").preceding(UNBOUNDED_RANGE).as("w"))
//无界的处理时间 over window
.window(Over.partitionBy("a").orderBy("proctime").preceding(UNBOUNDED_RANGE).as("w"))
// 无界的事件时间 Row-count over window
.window(Over.partitionBy("a").orderBy("rowtime").preceding(UNBOUNDED_ROW).as("w"))
//无界的处理时间 Row-count over window
.window(Over.partitionBy("a").orderBy("proctime").preceding(UNBOUNDED_ROW).as("w"))

有界 Over Windows

• 有界的 over window 是用间隔的大小指定的

// 有界的事件时间 over window
.window(Over.partitionBy("a").orderBy("rowtime").preceding("1.minutes").as("w"))
// 有界的处理时间 over window
.window(Over.partitionBy("a").orderBy("proctime").preceding("1.minutes").as("w"))
// 有界的事件时间 Row-count over window
.window(Over.partitionBy("a").orderBy("rowtime").preceding("10.rows").as("w"))
// 有界的处理时间 Row-count over window
.window(Over.partitionBy("a").orderBy("procime").preceding("10.rows").as("w"))

SQL 中的 Over Windows

• 用 Over 做窗口聚合时，所有聚合必须在同一窗口上定义，也就是说必须是相同的分区、排序和范围
• 目前仅支持在当前行范围之前的窗口
• ORDER BY 必须在单一的时间属性上指定

SELECT COUNT(amount) OVER (
PARTITION BY user
ORDER BY proctime
ROWS BETWEEN 2 PRECEDING AND CURRENT ROW)
FROM Orders
// 也可以做多个聚合
SELECT COUNT(amount) OVER w, SUM(amount) OVER w
FROM Orders
WINDOW w AS (
 PARTITION BY user
 ORDER BY proctime
 ROWS BETWEEN 2 PRECEDING AND CURRENT ROW)

函数（Functions）

• Flink Table API 和 SQL 为用户提供了一组用于数据转换的内置函数数；如果有无法满足的需要，则可以实现用户自定义的函数（UDF）来解决。
• SQL 中支持的很多函数，Table API 和 SQL 都已经做了实现，其它还在快速开发扩展中。
以下是一些典型函数的举例，全部的内置函数，可以参考官网介绍。
➢ 比较函数
• SQL：
-value1 = value2
-value1 > value2
• Table API：
-ANY1 === ANY2
-ANY1 > ANY2
➢ 逻辑函数
• SQL：
-boolean1 OR boolean2
-boolean IS FALSE
-NOT boolean
• Table API：
-BOOLEAN1 || BOOLEAN2
-BOOLEAN.isFalse
-!BOOLEAN
➢ 算数函数
• SQL：
-numeric1 + numeric2
-POWER(numeric1, numeric2)
• Table API：
-NUMERIC1 + NUMERIC2
-NUMERIC1.power(NUMERIC2)
➢ 字符串函数
• SQL：
-string1 || string2
-UPPER(string)
-CHAR_LENGTH(string)
• Table API：
-STRING1 + STRING2
-STRING.upperCase()
-STRING.charLength()
➢ 时间函数
• SQL：
-DATE string
-TIMESTAMP string
-CURRENT_TIME
-INTERVAL string range
• Table API：
-STRING.toDate
-STRING.toTimestamp
-currentTime()
-NUMERIC.days
-NUMERIC.minutes
➢ 聚合函数
• SQL：
-COUNT(*)
-SUM(expression)
-RANK()
-ROW_NUMBER()
• Table API：
-FIELD.count
-FIELD.sum0

用户自定义函数（UDF）

• 用户定义函数（User-defined Functions，UDF）是一个重要的特性，它们显著地扩展了查询的表达能力
• 在大多数情况下，用户定义的函数必须先注册，然后才能在查询中使用
• 函数通过调用 registerFunction（）方法在 TableEnvironment 中注册。当用户定义的函数被注册时，它被插入到 TableEnvironment 的函数目录中，这样Table API 或 SQL 解析器就可以识别并正确地解释它

标量函数（Scalar Functions）

• 用户定义的标量函数，可以将0、1或多个标量值，映射到新的标量值
• 为了定义标量函数，必须在 org.apache.flink.table.functions 中扩展基类Scalar Function，并实现（一个或多个）求值（eval）方法
• 标量函数的行为由求值方法决定，求值方法必须公开声明并命名为 eval（直接 def 声明，没有 override）。求值方法的参数类型和返回类型，确定了标量函数的参数和返回类型。

public static class HashCode extends ScalarFunction {
private int factor = 13;
public HashCode(int factor) {
this.factor = factor;
}
public int eval(String s) {
return s.hashCode() * factor;
}
}

表函数（Table Functions）

• 用户定义的表函数，也可以将0、1或多个标量值作为输入参数；与标量函数不同的是，它可以返回任意数量的行作为输出，而不是单个值
• 为了定义一个表函数，必须扩展 org.apache.flink.table.functions 中的基类TableFunction 并实现（一个或多个）求值方法
• 表函数的行为由其求值方法决定，求值方法必须是 public 的，并命名为 eval。求值方法的参数类型，决定表函数的所有有效参数。
• 返回表的类型由 TableFunction 的泛型类型确定。求值方法使用 protected collect（T）方法发出输出行。
• 在 Table API 中，Table 函数需要与.joinLateral 或.leftOuterJoinLateral 一起使用。
• joinLateral 算子，会将外部表中的每一行，与表函数（TableFunction，算子的参数是它的表达式）计算得到的所有行连接起来。
• 而 leftOuterJoinLateral 算子，则是左外连接，它同样会将外部表中的每一行与表函数计算生成的所有行连接起来；并且，对于表函数返回的是空表的外部行，也要保留下来。
• 在 SQL 中，则需要使用 Lateral Table（），或者带有 ON TRUE 条件的左连接。

public static class Split extends TableFunction<Tuple2<String, Integer>> {
	private String separator = ",";
	public Split(String separator) {
		this.separator = separator;
	}
	public void eval(String str) {
		for (String s : str.split(separator)) {
			collect(new Tuple2<String, Integer>(s, s.length()));
		}
	}
}

聚合函数（Aggregate Functions）

• 用户自定义聚合函数（User-Defined Aggregate Functions，UDAGGs）可以把一个表中的数据，聚合成一个标量值
• 用户定义的聚合函数，是通过继承 AggregateFunction 抽象类实现的

上图中显示了一个聚合的例子。
假设现在有一张表，包含了各种饮料的数据。该表由三列（id、name 和 price）、五行组成数据。现在我们需要找到表中所有饮料的最高价格，即执行 max（）聚合，结果将是一个数值。
• AggregationFunction要求必须实现的方法：
– createAccumulator()
– accumulate()
– getValue()
• AggregateFunction 的工作原理如下：
– 首先，它需要一个累加器（Accumulator），用来保存聚合中间结果的数据结构；
可以通过调用 createAccumulator() 方法创建空累加器
– 随后，对每个输入行调用函数的 accumulate() 方法来更新累加器
– 处理完所有行后，将调用函数的 getValue() 方法来计算并返回最终结果

除了上述方法之外，还有一些可选择实现的方法。其中一些方法，可以让系统执行查询更有效率，而另一些方法，对于某些场景是必需的。例如，如果聚合函数应用在会话窗口（session group window）的上下文中，则 merge（）方法是必需的。

retract()
merge()
resetAccumulator()
接下来我们写一个自定义 AggregateFunction，计算一下每个 sensor 的平均温度值。

// 定义 AggregateFunction 的 Accumulator
public static class AvgTempAcc {
 double sum = 0.0;
 int count = 0;
}
// 自定义一个聚合函数，求每个传感器的平均温度值，保存状态(tempSum, tempCount)
public static class AvgTemp extends AggregateFunction<Double, AvgTempAcc>{
 @Override
 public Double getValue(AvgTempAcc accumulator) {
 return accumulator.sum / accumulator.count;
 }
 @Override
 public AvgTempAcc createAccumulator() {
 return new AvgTempAcc();
 }
 // 实现一个具体的处理计算函数，accumulate
 public void accumulate( AvgTempAcc accumulator, Double temp) {
 accumulator.sum += temp;
 accumulator.count += 1;
 }
}

表聚合函数（Table Aggregate Functions）

• 用户定义的表聚合函数（User-Defined Table Aggregate Functions，UDTAGGs），可以把一个表中数据，聚合为具有多行和多列的结果表
• 用户定义表聚合函数，是通过继承 TableAggregateFunction 抽象类来实现的

比如现在我们需要找到表中所有饮料的前 2 个最高价格，即执行 top2（）表聚合。我们需要检查 5 行中的每一行，得到的结果将是一个具有排序后前 2 个值的表。用户定义的表聚合函数，是通过继承 TableAggregateFunction 抽象类来实现的。

• AggregationFunction 要求必须实现的方法：
– createAccumulator()
– accumulate()
– emitValue()
• TableAggregateFunction 的工作原理如下:
– 首先，它同样需要一个累加器（Accumulator），它是保存聚合中间结果的数据结构。通过调用 createAccumulator() 方法可以创建空累加器。
– 随后，对每个输入行调用函数的 accumulate() 方法来更新累加器。
– 处理完所有行后，将调用函数的 emitValue() 方法来计算并返回最终结果。

除了上述方法之外，还有一些可选择实现的方法。

retract()
merge()
resetAccumulator()
emitValue()
emitUpdateWithRetract()
接下来我们写一个自定义 TableAggregateFunction，用来提取每个 sensor 最高的两个温度值。

// 先定义一个 Accumulator
public static class Top2TempAcc {
 double highestTemp = Double.MIN_VALUE;
 double secondHighestTemp = Double.MIN_VALUE;
}
// 自定义表聚合函数
public static class Top2Temp extends TableAggregateFunction<Tuple2<Double, 
Integer>, Top2TempAcc> {
 @Override
 public Top2TempAcc createAccumulator() {
 return new Top2TempAcc();
 }
 // 实现计算聚合结果的函数 accumulate
 public void accumulate(Top2TempAcc acc, Double temp) {
 if (temp > acc.highestTemp) {
 acc.secondHighestTemp = acc.highestTemp;
 acc.highestTemp = temp;
 } else if (temp > acc.secondHighestTemp) {
 acc.secondHighestTemp = temp;
 }
 }
 // 实现一个输出结果的方法，最终处理完表中所有数据时调用
 public void emitValue(Top2TempAcc acc, Collector<Tuple2<Double, Integer>> 
out) {
 out.collect(new Tuple2<>(acc.highestTemp, 1));
 out.collect(new Tuple2<>(acc.secondHighestTemp, 2));
 }
}

你可能感兴趣的:(Flink,spark,intellij-idea,big,data,flink)

mysql迁移docker_docker迁入迁出mysql 困困斐 mysql迁移docker
docker迁出mysql数据库测试环境：docker服务器mysql服务器IP192.168.163.19192.168.163.16操作系统CentOS7.8CentOS7.8docker版本Docker18.09.9/数据库版本MySQL8.0.22MySQL8.0.221.查看docker相关情况[root@docker-test/data/mysql/data]$dockerps启动my
前端存储后端响应数据方式详解 z2637305611 前端
在前端存储后端响应数据是常见需求，可以优化性能（减少重复请求）、支持离线访问或提升用户体验。以下是超详细的实现方式和注意事项：一、前端存储后端数据的核心步骤1.获取后端数据使用fetch或axios发送请求：//使用fetchfetch('https://api.example.com/data').then(response=>response.json()).then(data=>saveDa
开源Nextcloud+Onlyoffice实现多人协同在线编辑功能(基本配置) 运维归一多人共享编辑私人网盘 nextcloud onlyoffice
系统软件版本CentOS7NextCloud21本文只介绍基本安装，不适用于企业级一、安装Nextcloud1、容器方式安装dockerrun-d--namenextcloud-p8000:80-v/data/nextcloud:/var/www
vue3:request.js中请求方法，api封装请求，方法请求 25号底片~ javascript 前端 vue.js
方法一request.js//封装GET请求exportconstget=(url,params={})=>{returnrequest.get(url,{params});};//封装POST请求exportconstpost=(url,data={})=>{returnrequest.post(url,data);};api封装import{post}from'@/utils/request'
postgresql 数据库使用 what_2018 数据库数据库 postgresql oracle
目录索引查看索引创建删除索引修改数据库时区索引查看索引 select*frompg_indexeswheretablename='t_table_data'; 或者select*frompg_statio_all_indexeswhererelname='t_table_data';创建CREATEINDEXix_table_data_timeONt_table_data(id,create_ti
C# WinForm【DataTable分页查询与数据导出到Excel】 Easonflowers VS实战 c#excel
准备：主要控件saveFileDialog保存文件bindingNavigator分页控件bindingSource绑定数据源引用命名空间usingSystem;usingSystem.Data;usingSystem.Windows.Forms;usingExcel=Microsoft.Office.Interop.Excel;usingSystem.Data.SqlClient;namespa
COMP9321 25T1 后端
COMP932125T1Assignment1(15marks)IntroductionTheNSWFuelCheckdatasetismaintainedbytheNSWGovernment.ItallowsmotoriststoaccesshistoricalandliveinformationaboutfuelpricesacrossNSW.Wehavedownloadedthe“FuelC
C# DataTable 导出CSV 文件并在客户端下载茶暖人凉 c#excel
publicstaticboolExportToCSV(System.Data.DataTabledt){stringstrLine="";stringpathFile=String.Format("{0}{1}.csv",HttpContext.Current.Server.MapPath("Excel/"),"客户列表");//文件保存路径及名称FileInfofi=newFileInfo(p
python记录运行时间_计算python程序运行时间 weixin_39668408 python记录运行时间
本文介绍三种方法用来计算python程序的运行时间，考虑多现在计算机都是多进程执行环境，本文介绍的方法，前两种统计了其它进程的时间，实际上是python程序执行开始和结束的时间，只有最后一个方法，是计算的python程序的独自占用的CPU时间，但是python官方已经不再推荐。各位同学可以根据自己的应用情况选择考虑。1，用datatime模块，秒级精度>>>importdatetime>>>dat
免费实时汇率查询Api接口金米kk 第三方
接口地址https://api.it120.cc/gooking/forex/rate?fromCode=CNY&toCode=USD接口说明本接口使用GET方式请求即可，你可以直接将地址复制到浏览器中打开查看效果如上面的例子，查询的是人民币（CNY）和美元（USD）之间的汇率关系，也就是1美元（USD）等于多少人民币（CNY）接口返回{"code":0,"data":{"rate":6.5749
HarmonyOS NEXT应用开发之适配挖孔屏案例 2401_89191552 harmonyos 华为
加载完成后顶部状态栏时间和电量显示位置规避了不可用区域。实现思路通过setWindowLayoutFullScreen、setWindowSystemBarEnable将窗口设置为全屏，并且隐藏顶部状态栏。源码参考DiggingHoleScreen.ets//获取窗口实例window.getLastWindow(this.context,(err,data)=>{if(err){logger.er
DataEase：一款国产开源数据可视化分析工具不剪发的Tony老师编程技能 BI 数据分析 DataEase
DataEase是由飞致云开发的一款基于Web的数据可视化BI工具，支持丰富的数据源连接，能够通过拖拉拽方式快速制作图表，帮助用户快速分析业务数据并洞察其趋势，为企业的业务改进与优化提供支持。DataEase的优势在于：开源开放：零门槛，线上快速获取和安装，按月迭代；简单易用：极易上手，通过鼠标点击和拖拽即可完成分析；全场景支持：跨平台安装和多样化嵌入支持；安全分享：支持多种数据分享方式，确保数据
python调用MySql存储过程 weixin_30667649 数据库 python
环境：1.mysql5.0或者以上支持存储过程的版本2.安装MySQL-python，目前支持到2.x步骤：一.数据库准备1.建立表CREATETABLE`Account`(`id`BIGINT(20)NOTNULLAUTO_INCREMENT,`sm_accountName`VARCHAR(100)COLLATEgbk_chinese_ciNOTNULLDEFAULT'',`sm_passwor
Python调用mysql存储过程 Up_梅子酒 mysql python
Python调用mysql存储过程importpymysqlconn=pymysql.connect(host='127.0.0.1',port=3306,user='root',password='root',database='test',charset='utf8')cur=conn.cursor()cur.callproc('T1')#调用存储过程conn.commit()result=c
vue3 vite打包后页面控制台报错Access to script at ‘file:///E:/vueProject/vue3-project/Vue3-big-event-admin/dist Dinosaur啊呜 vue.js javascript 前端
vue3vite打包后页面白屏控制台报错Accesstoscriptat'file:///E:/vueProject/vue3-project/Vue3-big-event-admin/dist1安装兼容插件@vitejs/plugin-legacynpmi@vitejs/plugin-legacy-D2在vite.config.ts中进行配置//引入@vitejs/plugin-legacyim
Python存储数据库教程--超详细！！小鞠.. 数据库 Python爬虫 python 数据库 mysql
目录1、首先导入需要用到的包2、连接数据库3、创建游标对象4、创建名为`dataname`的数据库，如果数据库不存在则创建，字符集设置为`utf8`。5、执行sql1语句6、创建数据表语句1.如果名为`user_id`的数据表不存在，则创建一个名为`user_tb`的数据表2.列定义7、执行sql2语句8、设置需要存入数据库的字段9、将数据插入`user_tb`数据表10、执行sql3语句11、提
在anaconda中创建python环境咕噜oo Python python anaconda
查看所有python虚拟环境condaenvlist星号表示默认环境。创建环境condacreate-npython37python=3.7.0其中python37是环境名称，自定义；python=3.7.0是python版本号。创建成功后可以发现在[anaconda3本地路径]\envs（D:\big_data\Anaconda3\envs）文件夹下会出现python37文件夹：也可以手动指定路
Python Camera Get Data 2 Robot 资深设备全生命周期管理 python 网络数据库
importtkinterastkfromtkinter.scrolledtextimportScrolledTextimportsocketimportjsonimportdatetime#全局变量用于模拟模式和连接状态SIMULATION_MODE=TruePROGRAM_STARTED=Falseepson_socket=Noneconfig={}commands=[]#模拟读取文件数据的函
创建数据/采集数据+从PI数据到PC+实时UI+To PLC 资深设备全生命周期管理 ui
Get_Data----------importcsvimportosimportrandomfromdatetimeimportdatetimeimportloggingimporttime#配置日志记录logging.basicConfig(filename='D:/_Study/Case/Great_Data/log.txt',level=logging.INFO,format='%(asc
使用pycharm生成csv用例，并引用用例内容。青萍之末惹风起 python
下面是一个论坛社区的单接口测试，CNode：Node.js专业中文社区#调用csvimportcsv#tab是主题分类tab_v=['ask','share','job','good']#limit是每一页发帖总条数最大为50条limit_v=[1,50,51]#定义空列表，写入循环内容test_tab_limit_data=[]fortabintab_v:forlimitinlimit_v:""
WHUCS-计算机系统基础（CSAPP）-Lab 1-DataLab实现 THEKOIFISH linux CSAPP C语言课程实验
武汉大学计算机系统基础（CSAPP）课程中datalab的实现。目录前言一、实验前的准备二、实验限制1.dlc2.btest三、代码撰写1.bitOr2.anyEvenBit3.rotateLeft4.greatestBitPos5.leastBitPos6.subOK7.satMul38.divpwr29.float_abs10.float_i2f四、编译执行总结前言DataLab是《深入了解计
Redis 持久化方案对比贝克街的小码农 Java实战方案 redis 数据库缓存
Redis提供了两种主要的持久化方案：RDB（RedisDatabaseBackup）和AOF（Append-OnlyFile）。每种方案都有其优缺点，适用于不同的场景。以下是它们的对比及实际操作方案。1.RDB持久化1.1概述RDB是Redis默认的持久化方式。它通过生成数据集的快照（snapshot）来保存数据。快照是二进制文件，保存了某个时间点的完整数据。1.2优点性能高：RDB是快照方式，
深入理解 Android 中的 ViewModel 和 LiveData：实现数据与 UI 的分离与响应式更新 tangweiguo03051987 android android ui ViewModel LiveData
ViewModel和LiveData是Android架构组件中的两个核心类，用于帮助开发者构建健壮、可维护且响应迅速的应用程序。它们通常一起使用，以实现数据与UI的分离，并确保数据在配置更改（如屏幕旋转）时不会丢失。ViewModelViewModel的主要目的是管理与UI相关的数据，并在配置更改时保持数据的持久性。它允许数据在Activity或Fragment销毁和重新创建时保持不变。1.1Vi
mac根目录新建文件夹淡淡的id 其他 mac
1、前言 springboot项目输出文件到根目录的/data文件夹中，故想建一个777权限的data文件夹，以便将数据写进入，过程不难，刚创建完也可以读写的，finder不能操作，但是项目可以读写，但一重启电脑，那就gg了，又没有权限了，最后解决方法是建立软连接到根目录。2、过程2.1、开启sip重新启动，在启动的时候按command+R，进入Recovery模式在topbar的实用工具选项，
FIT5147 Data Exploration and Visualisation 后端
MonashUniversityFIT5147DataExplorationandVisualisationSemester1,2025DataExplorationProjectPart1:DataExplorationProjectProposalPart2:DataExplorationProjectReportYouareaskedtoexploreandanalysedataabouta
GGR 376 Spatial Autocorrelation 后端
Assignment2:SpatialAutocorrelationandRegressionDueDate:February28th,2025GGR376DatasetSummaries:DatasetFormatDescriptionTransitShapefiles.shpDifferentkindsoftransitdata–raillines,railstops,busstops.You
基于oracle linux的 DBI/DBD 标准化安装文档(五) oracle
一、安装DBIDBI(DatabaseInterface)是perl连接数据库的接口。其是perl连接数据库的最优方法，他支持包括Orcale,Sybase,mysql,db2等绝大多数的数据库，下面将简要介绍其安装方法。1.1解压tar-zxvfDBI-1.616_901.tar.gz1.2安装依赖yuminstallperl-ExtUtils-CBuilderperl-ExtUtils-Mak
json 数据格式的转换 amd2015 json
json与对象的互相转换以下为整理内容1前台//将JSON转为字符串varaToStr=JSON.stringify(a);//将字符串转为JSON格式varbToObj=JSON.parse(b);//将字符串转为JSON格式vardataObj=eval("("+data+")");//得到json$.get(url,[data],[callback],"json")2后台第一种:json-l
Run-time type information--RTTI diaoju3333 c/c++runtime
Incomputerprogramming,run-timetypeinformationorrun-timetypeidentification(RTTI)[1]referstoaC++mechanismthatexposesinformationaboutanobject'sdatatypeatruntime.Run-timetypeinformationcanapplytosimpledat
RxSqlUtils（base R2dbc） xdpcxq1029 技术分享 oracle 数据库
一、前言随着Solon3.0和Solon-Rx3.0发布，用于“响应式”操作数据库。RxSqlUtils是基于R2dbc和Reactor接口构建。极简风格，就像个工具类，故名：RxSqlUtils。尤其在solon-web-rx和场景开发时，RxSqlUtils会是最好的良配。二、RxSqlUtils使用1、引入依赖org.noearsolon-data-rx-sqlutils2、新建数据库表（f
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_