卖女孩的小火柴Jaffe

Flink：实时数据处理（END-10.Table API 和 Flink SQL）

文章目录

1.介绍

1.1 什么是 Table API 和 Flink SQL？
1.2 需要引入的依赖
1.3 两种 planner（old & blink）的区别

2.API调用

2.1 基本程序结构
2.2 创建表环境
2.3 在 Catalog 中注册表

2.3.1 表（Table）的概念
2.3.2 连接到文件系统（Csv 格式）
2.3.3 连接到 Kafka

2.4 表的查询

2.4.1 Table API 的调用
2.4.2 SQL 查询
2.4.3 加上聚合操作，

2.5 将 DataStream 转换成表
2.6 创建临时视图（Temporary View）
2.7 输出表

2.7.1 输出到文件
2.7.2 更新模式（Update Mode）
2.7.3 输出到 Kafka
2.7.4 输出到 ElasticSearch
2.7.5 输出到 MySql

2.8 将表转换成 DataStream
2.9 Query 的解释和执行

3.流处理中的特殊概念

3.1 流处理和关系代数（表，及 SQL）的区别
3.2 动态表（Dynamic Tables）
3.3 流式持续查询的过程

3.3.1 将流转换成动态表（Table）
3.3.2 持续查询（Continuous Query）
3.3.3 将动态表转换成流

3.4 时间特性

3.4.1 处理时间（Processing Time）
3.4.2 事件时间（Event Time）

4.窗口（Windows）

4.1 分组窗口（Group Windows）

4.1.1 滚动窗口
4.1.2 滑动窗口
4.1.3 会话窗口

4.2 Over Windows
4.3 SQL 中窗口的定义

4.3.1 Group Windows
4.3.2 Over Windows

4.4 案例1：使用Table API计数
4.5 案例2：使用Flink Sql计数

5.函数（Functions）

5.1 系统内置函数
5.2 UDF

5.2.1 注册用户自定义函数 UDF
5.2.2 标量函数（Scalar Functions）
5.2.3 表函数（Table Functions）
5.2.4 聚合函数（Aggregate Functions）
5.2.5 表聚合函数（Table Aggregate Functions）

5.3 案例：使用 Table API 结合 SQL 实现 TopN 需求
5.4 只使用 Flink SQL 实现 TopN 需求

1.介绍

1.1 什么是 Table API 和 Flink SQL？

Flink 本身是批流统一的处理框架，所以 Table API 和 SQL，就是批流统一的上层处理 API。
Table API 是一套内嵌在 Java 和 Scala 语言中的查询 API，它允许我们以非常直观的方式，组合来自一些关系运算符的查询（比如 select、filter 和 join）。
Flink SQL，就是直接可以在代码中写 SQL，来实现一些查询（Query）操作。Flink 的 SQL 支持，基于实现了 SQL标准的 Apache Calcite（Apache 开源 SQL 解析工具）。
无论输入是批输入还是流式输入，在这两套 API 中，指定的查询都具有相同的语义，得到相同的结果。

1.2 需要引入的依赖

Table API 和 SQL 需要引入的依赖有两个：planner 和 bridge。

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-planner_2.11</artifactId>
<version>1.10.0</version>
</dependency>

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-table-api-scala-bridge_2.11</artifactId>
<version>1.10.0</version>
</dependency>

flink-table-planner：planner 计划器，是 table API 最主要的部分，提供了运行时环境和
生成程序执行计划的 planner；
flink-table-api-scala-bridge：bridge 桥接器，主要负责 table API 和 DataStream/DataSet API的连接支持，按照语言分 java 和 scala。
这里的两个依赖，是 IDE 环境下运行需要添加的；如果是生产环境，lib 目录下默认已经有了 planner，就只需要有 bridge 就可以了。如果想使用用户自定义函数，或是跟 kafka 做连接，需要有一个 SQL client，这个包含在 flink-table-common 里：

<dependency>
			<groupId>org.apache.flink</groupId>
			<artifactId>flink-table-common</artifactId>
			<version>1.10.0</version>
			<!--   <scope>provided</scope>-->
</dependency>

1.3 两种 planner（old & blink）的区别

批流统一：Blink 将批处理作业，视为流式处理的特殊情况。所以，blink 不支持表和
DataSet 之间的转换，批处理作业将不转换为 DataSet 应用程序，而是跟流处理一样，转换为 DataStream 程序来处理。
因为批流统一，Blink planner 也不支持 BatchTableSource，而使用有界的 StreamTableSource 代替。
Blink planner 只支持全新的目录，不支持已弃用的 ExternalCatalog。
旧 planner 和 Blink planner 的 FilterableTableSource 实现不兼容。旧的 planner 会把 PlannerExpressions 下推到 filterableTableSource 中，而 blink planner 则会把Expressions 下推。
基于字符串的键值配置选项仅适用于 Blink planner。
PlannerConfig 在两个 planner 中的实现不同。
Blink planner 会将多个 sink 优化在一个 DAG 中（仅在 TableEnvironment 上受支持，而在 StreamTableEnvironment 上不受支持）。而旧 planner 的优化总是将每一个 sink 放在一个新的 DAG 中，其中所有 DAG 彼此独立。
旧的 planner 不支持目录统计，而 Blink planner 支持。

2.API调用

2.1 基本程序结构

Table API 和 SQL 的程序结构，与流式处理的程序结构类似；也可以近似地认为有这么几步：
首先创建执行环境，然后定义 source、transform 和 sink。

具体操作流程如下：

val tableEnv = ... // 创建表的执行环境

// 创建一张表，用于读取数据
tableEnv.connect(...).createTemporaryTable("inputTable") 

// 注册一张表，用于把计算结果输出
tableEnv.connect(...).createTemporaryTable("outputTable") 

// 通过 Table API 查询算子，得到一张结果表
val result = tableEnv.from("inputTable").select(...)

// 通过 SQL 查询语句，得到一张结果表
val sqlResult = tableEnv.sqlQuery("SELECT ... FROM inputTable ...")

// 将结果表写入输出表中
result.insertInto("outputTable")

2.2 创建表环境

1.配置老版本的流式查询（Flink-Streaming-Query）：

val settings = EnvironmentSettings
.newInstance()
.useOldPlanner() // 使用老版本 planner
.inStreamingMode() // 流处理模式
.build()
val tableEnv = StreamTableEnvironment.create(env, settings)

2.基于老版本的批处理环境（Flink-Batch-Query）：

val batchEnv = ExecutionEnvironment.getExecutionEnvironment
val batchTableEnv = BatchTableEnvironment.create(batchEnv)

3.基于 blink 版本的流处理环境（Blink-Streaming-Query）：

val bsSettings = EnvironmentSettings
.newInstance()
.useBlinkPlanner()
.inStreamingMode()
.build()
val bsTableEnv = StreamTableEnvironment.create(env, bsSettings)

4.基于 blink 版本的批处理环境（Blink-Batch-Query）：

val bbSettings = EnvironmentSettings
.newInstance()
.useBlinkPlanner()
.inBatchMode().build()
val bbTableEnv = TableEnvironment.create(bbSettings)

2.3 在 Catalog 中注册表

2.3.1 表（Table）的概念

TableEnvironment 可以注册目录 Catalog，并可以基于 Catalog 注册表。它会维护一个 Catalog-Table 表之间的 map。

表（Table）是由一个 “标识符” 来指定的，由 3 部分组成：
Catalog 名、数据库（database）名和对象名（表名）。如果没有指定目录或数据库，就使用当前的默认值。

表可以是常规的（Table，表），或者虚拟的（View，视图）。
常规表（Table）一般可以用来描述外部数据，比如文件、数据库表或消息队列的数据，也可以直接从 DataStream 转换而来。
视图可以从现有的表中创建，通常是 table API 或者 SQL 查询的一个结果。

2.3.2 连接到文件系统（Csv 格式）

引入依赖:

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-csv</artifactId>
<version>1.10.0</version>
</dependency>

代码：

tableEnv
.connect(new FileSystem().path("sensor.txt")) // 定义表数据来源，外部连接
.withFormat(new Csv()) // 定义从外部系统读取数据之后的格式化方法
.withSchema(
new Schema()
.field("id", DataTypes.STRING())
.field("timestamp", DataTypes.BIGINT())
.field("temperature", DataTypes.DOUBLE())
) // 定义表结构
.createTemporaryTable("inputTable") // 创建临时表

2.3.3 连接到 Kafka

kafka 的连接器 flink-kafka-connector 中，1.10 版本的已经提供了 Table API 的
支持。我们可以在 connect 方法中直接传入一个叫做 Kafka 的类，这就是 kafka 连接器的描述器 ConnectorDescriptor。

tableEnv
.connect(
new Kafka()
.version("0.11") // 定义 kafka 的版本
.topic("sensor") // 定义主题
.property("zookeeper.connect", "localhost:2181") .property("bootstrap.servers", "localhost:9092") ).withFormat(new Csv())
.withSchema(
new Schema()
.field("id", DataTypes.STRING())
.field("timestamp", DataTypes.BIGINT())
.field("temperature", DataTypes.DOUBLE())
).createTemporaryTable("kafkaInputTable")

当然也可以连接到 ElasticSearch、MySql、HBase、Hive 等外部系统，实现方式基本上是类似的。

2.4 表的查询

Flink提供了两种查询方式：Table API 和 Flink SQL

2.4.1 Table API 的调用

Table API 基于代表一张 “表” 的 Table 类，并提供一整套操作处理的方法 API。这些方法会返回一个新的 Table 对象，这个对象就表示对输入表应用转换操作的结果。
代码中的实现如下：

val sensorTable: Table = tableEnv.from("inputTable")
val resultTable: Table = senorTable
.select("id, temperature") .filter("id ='sensor_1'")

2.4.2 SQL 查询

Flink 的 SQL 集成，基于的是 Apache Calcite，它实现了 SQL 标准。在 Flink 中，
用常规字符串来定义 SQL 查询语句。SQL 查询的结果，是一个新的 Table。
代码实现如下：

val resultSqlTable: Table = tableEnv
.sqlQuery("select id, temperature from inputTable where id ='sensor_1'")
或者：
val resultSqlTable: Table = tableEnv.sqlQuery(
"""
|select id, temperature
|from inputTable
|where id = 'sensor_1'
""".stripMargin)

2.4.3 加上聚合操作，

统计每个 sensor 温度数据出现的个数，做个 count 统计：
Table API实现：

val aggResultTable = sensorTable
.groupBy('id)
.select('id, 'id.count as 'count)

这里 Table API 里指定的字段，前面加了一个单引号’，这是 Table API 中定义的 Expression
类型的写法，可以很方便地表示一个表中的字段。
字段可以直接全部用双引号引起来，也可以用半边单引号 + 字段名的方式

SQL 的实现：

val aggResultSqlTable = tableEnv
.sqlQuery("select id, count(id) as cnt from inputTable group by id")

2.5 将 DataStream 转换成表

基于一个 DataStream，先流式地读取数据源，然后 map 成样例类，再把它转成 Table。Table 的列字段（column fields），就是样例类里的字段

代码具体如下：
val inputStream: DataStream[String] = env.readTextFile(“sensor.txt”)

val dataStream: DataStream[SensorReading] = inputStream
.map(data => {
val dataArray = data.split(",")
SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
})
val sensorTable: Table = tableEnv.fromDataStream(dataStream)
val sensorTable2 = tableEnv.fromDataStream(dataStream, 'id, 'timestamp as 'ts)

数据类型与 Table schema 的对应:

基于名称的对应：
val sensorTable = tableEnv
.fromDataStream(dataStream, 'timestamp as 'ts, 'id as 'myId, 'temperature)

基于位置的对应：
val sensorTable = tableEnv
.fromDataStream(dataStream, 'myId, 'ts)

元组类型和原子类型，一般用位置对应会好一些；如果非要用名称对应，也是可以的：
元组类型，默认的名称是 “_1”, “_2”；而原子类型，默认名称是”f0”。

2.6 创建临时视图（Temporary View）

1.从 DataStream 转换而来。同样，可以直接对应字段转换；也可以在转换的时候，指定相应的字段。
代码如下：

tableEnv.createTemporaryView("sensorView", dataStream)
tableEnv.createTemporaryView("sensorView",
dataStream, 'id, 'temperature, 'timestamp as 'ts)

2.基于 Table 创建视图：

tableEnv.createTemporaryView("sensorView", sensorTable)

2.7 输出表

表的输出，是通过将数据写入 TableSink 来实现的。TableSink 是一个通用接口，可以支持不同的文件格式、存储数据库和消息队列。
具体实现，输出表最直接的方法，就是通过 Table.insertInto() 方法将一个 Table 写入注册过的 TableSink 中。

2.7.1 输出到文件

代码如下：

// 注册输出表
tableEnv.connect(
new FileSystem().path("…\\resources\\out.txt") ) // 定义到文件系统的连接
.withFormat(new Csv()) // 定义格式化方法，Csv 格式
.withSchema(
new Schema()
.field("id", DataTypes.STRING())
.field("temp", DataTypes.DOUBLE())
) // 定义表结构
.createTemporaryTable("outputTable") // 创建临时表
resultSqlTable.insertInto("outputTable")

2.7.2 更新模式（Update Mode）

对于流式查询（Streaming Queries），需要声明如何在（动态）表和外部连接器之间执行转换。
与外部系统交换的消息类型，由更新模式（update mode）指定。

Flink Table API 中的更新模式有以下三种：

追加模式（Append Mode）
在追加模式下，表（动态表）和外部连接器只交换插入（Insert）消息。
撤回模式（Retract Mode）
在撤回模式下，表和外部连接器交换的是：添加（Add）和撤回（Retract）消息。
• 插入（Insert）会被编码为添加消息；
• 删除（Delete）则编码为撤回消息；
• 更新（Update）则会编码为，已更新行（上一行）的撤回消息，和更新行（新行）的添
加消息。
在此模式下，不能定义 key，这一点跟 upsert 模式完全不同。
Upsert（更新插入）模式
在 Upsert 模式下，动态表和外部连接器交换 Upsert 和 Delete 消息。
这个模式需要一个唯一的 key，通过这个 key 可以传递更新消息。为了正确应用消息，外部连接器需要知道这个唯一 key 的属性。
• 插入（Insert）和更新（Update）都被编码为 Upsert 消息；
• 删除（Delete）编码为 Delete 信息。
这种模式和 Retract 模式的主要区别在于，Update 操作是用单个消息编码的，所以效率会更高。

2.7.3 输出到 Kafka

除了输出到文件，也可以输出到 Kafka。我们可以结合前面 Kafka 作为输入
数据，构建数据管道，kafka 进，kafka 出。

代码如下：

// 输出到 kafka
tableEnv.connect(
new Kafka()
.version("0.11") .topic("sinkTest") .property("zookeeper.connect", "localhost:2181") .property("bootstrap.servers", "localhost:9092") ).withFormat(new Csv())
.withSchema(
new Schema()
.field("id", DataTypes.STRING())
.field("temp", DataTypes.DOUBLE())
).createTemporaryTable("kafkaOutputTable")
resultTable.insertInto("kafkaOutputTable")

2.7.4 输出到 ElasticSearch

ElasticSearch 的 connector 可以在 upsert（update+insert，更新插入）模式下操作，这样就可以使用 Query 定义的键（key）与外部系统交换 UPSERT/DELETE 消息。
另外，对于 “仅追加”（append-only）的查询，connector 还可以在 append 模式下操作，这样就可以与外部系统只交换 insert 消息。
es 目前支持的数据格式，只有 Json，而 flink 本身并没有对应的支持，所以还需要引入依赖：

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-json</artifactId>
<version>1.10.0</version>
</dependency>

代码实现如下：

// 输出到 es
tableEnv.connect(
new Elasticsearch()
.version("6") .host("localhost", 9200, "http") .index("sensor") .documentType("temp")
).inUpsertMode() // 指定是 Upsert 模式
.withFormat(new Json())
.withSchema(
new Schema()
.field("id", DataTypes.STRING())
.field("count", DataTypes.BIGINT())
).createTemporaryTable("esOutputTable")
aggResultTable.insertInto("esOutputTable")

2.7.5 输出到 MySql

Flink 专门为 Table API 的 jdbc 连接提供了 flink-jdbc 连接器，我们需要先引
入依赖：

<dependency>
<groupId>org.apache.flink</groupId>
<artifactId>flink-jdbc_2.11</artifactId>
<version>1.10.0</version>
</dependency>

jdbc 连接的代码实现比较特殊，因为没有对应的 java/scala 类实现 ConnectorDescriptor，所以不能直接 tableEnv.connect()。不过 Flink SQL 留下了执行 DDL 的接口：tableEnv.sqlUpdate()。
对于 jdbc 的创建表操作，天生就适合直接写 DDL 来实现，所以我们的代码可以这样写：

// 输出到 Mysql
val sinkDDL: String =
"""
|create table jdbcOutputTable (
| id varchar(20) not null,
| cnt bigint not null
|) with (
| 'connector.type' = 'jdbc',
| 'connector.url' = 'jdbc:mysql://localhost:3306/test',
| 'connector.table' = 'sensor_count',
| 'connector.driver' = 'com.mysql.jdbc.Driver',
| 'connector.username' = 'root',
| 'connector.password' = '123456'
|)
""".stripMargin
tableEnv.sqlUpdate(sinkDDL)
aggResultSqlTable.insertInto("jdbcOutputTable")

2.8 将表转换成 DataStream

表可以转换为 DataStream 或 DataSet。这样，自定义流处理或批处理程序就可以继续在 TableAPI 或 SQL 查询的结果上运行了。
将表转换为 DataStream 或 DataSet 时，需要指定生成的数据类型，即要将表的每一行转换成的数据类型。通常，最方便的转换类型就是 Row。当然，因为结果的所有字段类型都是明确的，我们也经常会用元组类型来表示。
表作为流式查询的结果，是动态更新的。所以，将这种动态查询转换成的数据流，同样需要对表的更新操作进行编码，进而有不同的转换模式。

Table API 中表到 DataStream 有两种模式：
• 追加模式（Append Mode）
用于表只会被插入（Insert）操作更改的场景。

• 撤回模式（Retract Mode）
用于任何场景。有些类似于更新模式中 Retract 模式，它只有 Insert 和 Delete 两类操作。得到的数据会增加一个 Boolean 类型的标识位（返回的第一个字段），用它来表示到底是新增的数据（Insert），还是被删除的数据（老数据，Delete）。

代码实现如下：

val resultStream: DataStream[Row] = tableEnv
.toAppendStream[Row](resultTable)

val aggResultStream: DataStream[(Boolean, (String, Long))] = tableEnv
.toRetractStream[(String, Long)](aggResultTable)
resultStream.print("result")
aggResultStream.print("aggResult")

所以，没有经过 groupby 之类聚合操作，可以直接用 toAppendStream 来转换；而如果经过了聚合，有更新操作，一般就必须用 toRetractDstream。

2.9 Query 的解释和执行

Table API 提供了一种机制来解释（Explain）计算表的逻辑和优化查询计划。这是通过 TableEnvironment.explain（table）方法或 TableEnvironment.explain（）方法完成的。
explain 方法会返回一个字符串，描述三个计划：
• 未优化的逻辑查询计划
• 优化后的逻辑查询计划
• 实际执行计划

我们可以在代码中查看执行计划：

val explaination: String = tableEnv.explain(resultTable)
println(explaination)

Query 的解释和执行过程，老 planner 和 blink planner 大体是一致的，又有所不同。整体来讲，
Query 都会表示成一个逻辑查询计划，然后分两步解释：

优化查询计划
解释成 DataStream 或者 DataSet 程序
而 Blink 版本是批流统一的，所以所有的 Query，只会被解释成 DataStream 程序；另外在批处理环境 TableEnvironment 下，Blink 版本要到 tableEnv.execute() 执行调用才开始解释。

3.流处理中的特殊概念

Table API 和 SQL，本质上还是基于关系型表的操作方式；而关系型表、关系代数，以及 SQL本身，一般是有界的，更适合批处理的场景。这就导致在进行流处理的过程中，理解会稍微复杂一些，需要引入一些特殊概念。

3.1 流处理和关系代数（表，及 SQL）的区别

关系代数（主要就是指关系型数据库中的表）和 SQL，主要就是针对批处理
的，这和流处理有天生的隔阂。

3.2 动态表（Dynamic Tables）

因为流处理面对的数据，是连续不断的，这和关系型数据库中保存的 “表” 完全不同。所以，如果把流数据转换成 Table，然后执行类似于 table 的 select 操作，结果就不是一成不变的，而是随着新数据的到来，会不停更新。

我们可以随着新数据的到来，不停地在之前的基础上更新结果。这样得到的表，在 Flink TableAPI 概念里，就叫做 “动态表”（Dynamic Tables）。

动态表是 Flink 对流数据的 Table API 和 SQL 支持的核心概念。与表示批处理数据的静态表不同，动态表是随时间变化的。动态表可以像静态的批处理表一样进行查询，查询一个动态表会产生持续查询（Continuous Query）。连续查询永远不会终止，并会生成另一个动态表。

查询（Query）会不断更新其动态结果表，以反映其动态输入表上的更改。

3.3 流式持续查询的过程

下图显示了流、动态表和连续查询的关系：

流式持续查询的过程为：

流被转换为动态表
对动态表计算连续查询，生成新的动态表
生成的动态表被转换回流

3.3.1 将流转换成动态表（Table）

为了处理带有关系查询的流，必须先将其转换为表

案例：
输入数据：用户在网站上的访问行为，数据类型（Schema）如下：

{
user: VARCHAR, // 用户名
cTime: TIMESTAMP, // 访问某个 URL 的时间戳
url: VARCHAR // 用户访问的 URL
}

下图显示了如何将访问 URL 事件流，或者叫点击事件流（左侧）转换为表（右侧）

随着插入更多的访问事件流记录，生成的表将不断增长。

3.3.2 持续查询（Continuous Query）

持续查询，会在动态表上做计算处理，并作为结果生成新的动态表。与批处理查询不同，连续查询从不终止，并根据输入表上的更新更新其结果表。

案例：对点击事件流中的一个持续查询。
分组聚合做 count 统计的查询，将用户字段上的 clicks 表分组，并统计访问的 url 数。

图中显示了随着时间的推移，当 clicks 表被其他行更新时如何计算查询。

3.3.3 将动态表转换成流

与常规的数据库表一样，动态表可以通过插入（Insert）、更新（Update）和删除（Delete）更改，进行持续的修改。将动态表转换为流或将其写入外部系统时，需要
对这些更改进行编码。Flink 的 Table API 和 SQL 支持三种方式对动态表的更改进行编码：

仅追加（Append-only）流
仅通过插入（Insert）更改，来修改的动态表，可以直接转换为 “仅追加” 流。这个流中发出的数据，就是动态表中新增的每一行。
撤回（Retract）流
Retract 流是包含两类消息的流，添加（Add）消息和撤回（Retract）消息。
动态表通过将 INSERT 编码为 add 消息、DELETE 编码为 retract 消息、UPDATE 编码为被更改行（前一行）的 retract 消息和更新后行（新行）的 add 消息，转换为 retract 流。
下图显示了将动态表转换为 Retract 流的过程。

Upsert（更新插入）流
Upsert 流包含两种类型的消息：Upsert 消息和 delete 消息。转换为 upsert 流的动态表，需要有唯一的键（key）。
通过将 INSERT 和 UPDATE 更改编码为 upsert 消息，将 DELETE 更改编码为 DELETE 消息，就可以将具有唯一键（Unique Key）的动态表转换为流。
下图显示了将动态表转换为 upsert 流的过程。

3.4 时间特性

基于时间的操作（比如 Table API 和 SQL 中窗口操作），需要定义相关的时间语义和时间数据来源的信息。所以，Table 可以提供一个逻辑上的时间字段，用于在表处理程序中，指示时间和访问相应的时间戳。

时间属性，可以是每个表 schema 的一部分。一旦定义了时间属性，它就可以作为一个字段引用，并且可以在基于时间的操作中使用。
时间属性的行为类似于常规时间戳，可以访问，并且进行计算。

3.4.1 处理时间（Processing Time）

定义处理时间属性有三种方法：
1.在 DataStream 转化时直接指定
2.在定义 Table Schema 时指定
3.在创建表的 DDL 中指定

DataStream 转化成 Table 时指定
由 DataStream 转换成表时，可以在后面指定字段名来定义 Schema。在定义 Schema 期间，可以使用.proctime，定义处理时间字段。
注意，这个 proctime 属性只能通过附加逻辑字段，来扩展物理 schema。因此，只能在 schema定义的末尾定义它

代码如下：

// 定义好 DataStream
val inputStream: DataStream[String] = env.readTextFile("\\sensor.txt")
val dataStream: DataStream[SensorReading] = inputStream
.map(data => {
val dataArray = data.split(",")
SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
})
// 将 DataStream 转换为 Table，并指定时间字段
val sensorTable = tableEnv
.fromDataStream(dataStream, 'id, 'temperature, 'timestamp, 'pt.proctime)

定义 Table Schema 时指定
在定义 Schema 的时候，加上一个新的字段，并指定成 proctime

代码如下：

tableEnv
.connect(
new FileSystem().path("..\\sensor.txt"))
.withFormat(new Csv())
.withSchema(
new Schema()
.field("id", DataTypes.STRING())
.field("timestamp", DataTypes.BIGINT())
.field("temperature", DataTypes.DOUBLE())
.field("pt", DataTypes.TIMESTAMP(3))
.proctime() // 指定 pt 字段为处理时间
) // 定义表结构
.createTemporaryTable("inputTable") // 创建临时表

创建表的 DDL 中指定
在创建表的 DDL 中，增加一个字段并指定成 proctime，也可以指定当前的时间字段。

代码如下：

val sinkDDL: String =
"""
|create table dataTable (
| id varchar(20) not null,
| ts bigint,
| temperature double,
| pt AS PROCTIME()
|) with (
| 'connector.type' = 'filesystem',
| 'connector.path' = 'file:///D:\\..\\sensor.txt',
| 'format.type' = 'csv'
|)
""".stripMargin
tableEnv.sqlUpdate(sinkDDL) // 执行 DDL
注意：运行这段 DDL，必须使用 Blink Planner。

3.4.2 事件时间（Event Time）

事件时间语义，允许表处理程序根据每个记录中包含的时间生成结果。这样即使在有乱序事件或者延迟事件时，也可以获得正确的结果。

为了处理无序事件，并区分流中的准时和迟到事件；Flink 需要从事件数据中，提取时间戳，并用来推进事件时间的进展（watermark）

DataStream 转化成 Table 时指定
在 DataStream 转换成 Table，schema 的定义期间，使用.rowtime 可以定义事件时间属性。
在将数据流转换为表时，有两种定义时间属性的方法。根据指定的.rowtime 字段名是否存在于数据流的架构中，timestamp 字段可以：
• 作为新字段追加到 schema
• 替换现有字段
在这两种情况下，定义的事件时间戳字段，都将保存 DataStream 中事件时间戳的值。

代码如下：

val inputStream: DataStream[String] = env.readTextFile("\\sensor.txt")
val dataStream: DataStream[SensorReading] = inputStream
.map(data => {
val dataArray = data.split(",")
SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
})
.assignAscendingTimestamps(_.timestamp * 1000L)
// 将 DataStream 转换为 Table，并指定时间字段
val sensorTable = tableEnv
.fromDataStream(dataStream, 'id, 'timestamp.rowtime, 'temperature)
// 或者，直接追加字段
val sensorTable2 = tableEnv
.fromDataStream(dataStream, 'id, 'temperature, 'timestamp, 'rt.rowtime)

定义 Table Schema 时指定
这种方法只要在定义 Schema 的时候，将事件时间字段指定成 rowtime 就可以了。

代码如下：

tableEnv
.connect(new FileSystem().path("sensor.txt"))
.withFormat(new Csv())
.withSchema(
new Schema()
.field("id", DataTypes.STRING())
.field("timestamp", DataTypes.BIGINT())
.rowtime(
new Rowtime()
.timestampsFromField("timestamp") // 从字段中提取时间戳
.watermarksPeriodicBounded(1000) // watermark 延迟 1 秒 ).field("temperature", DataTypes.DOUBLE())
) // 定义表结构
.createTemporaryTable("inputTable") // 创建临时表

创建表的 DDL 中指定
事件时间属性，是使用 CREATE TABLE DDL 中的 WARDMARK 语句定义的。watermark 语句，定义现有事件时间字段上的 watermark 生成表达式，该表达式将事件时间字段标记为事件时间属性。

代码如下：

val sinkDDL: String =
"""
|create table dataTable (
目录 184
| id varchar(20) not null,
| ts bigint,
| temperature double,
| rt AS TO_TIMESTAMP( FROM_UNIXTIME(ts) ),
| watermark for rt as rt - interval '1' second
|) with (
| 'connector.type' = 'filesystem',
| 'connector.path' = 'file:///D:\\..\\sensor.txt',
| 'format.type' = 'csv'
|)
""".stripMargin
tableEnv.sqlUpdate(sinkDDL) // 执行 DDL

这里 FROM_UNIXTIME 是系统内置的时间函数，用来将一个整数（秒数）转换成 “YYYY-MM-DD hh:mm:ss” 格式（默认，也可以作为第二个 String 参数传入）的日期时间字符串（datetime string）；然后再用 TO_TIMESTAMP 将其转换成 Timestamp。

4.窗口（Windows）

时间语义，要配合窗口操作才能发挥作用。最主要的用途就是开窗口、根据时间段做计算了。
在 Table API 和 SQL 中，主要有两种窗口：Group Windows 和 Over Windows

4.1 分组窗口（Group Windows）

分组窗口（Group Windows）会根据时间或行计数间隔，将行聚合到有限的组（Group）中，并对每个组的数据执行一次聚合函数。
Table API 中的 Group Windows 都是使用.window（w:GroupWindow）子句定义的，并且必须由 as 子句指定一个别名。为了按窗口对表进行分组，窗口的别名必须在 group by 子句中，像常规的分组字段一样引用。

val table = input
.window([w: GroupWindow] as 'w) // 定义窗口，别名 w .groupBy('w, 'a) // 以属性 a 和窗口 w 作为分组的 key
.select('a, 'b.sum) // 聚合字段 b 的值，求和

或者，还可以把窗口的相关信息，作为字段添加到结果表中：

val table = input
.window([w: GroupWindow] as 'w)
.groupBy('w, 'a)
.select('a, 'w.start, 'w.end, 'w.rowtime, 'b.count)

Table API 支持的窗口定义，主要也是三种：滚动（Tumbling）、滑动（Sliding）和会话（Session）

4.1.1 滚动窗口

滚动窗口（Tumbling windows）要用 Tumble 类来定义，另外还有三个方法：
• over：定义窗口长度
• on：用来分组（按时间间隔）或者排序（按行数）的时间字段
• as：别名，必须出现在后面的 groupBy 中

代码如下：

// Tumbling Event-time Window（事件时间字段 rowtime）
.window(Tumble over 10.minutes on 'rowtime as 'w)

// Tumbling Processing-time Window（处理时间字段 proctime） 
.window(Tumble over 10.minutes on 'proctime as 'w)

// Tumbling Row-count Window (类似于计数窗口，按处理时间排序，10 行一组) 
.window(Tumble over 10.rows on 'proctime as 'w)

4.1.2 滑动窗口

滑动窗口（Sliding windows）要用 Slide 类来定义，另外还有四个方法：
• over：定义窗口长度
• every：定义滑动步长
• on：用来分组（按时间间隔）或者排序（按行数）的时间字段
• as：别名，必须出现在后面的 groupBy 中

代码如下：

// Sliding Event-time Window
.window(Slide over 10.minutes every 5.minutes on 'rowtime as 'w)

// Sliding Processing-time window
.window(Slide over 10.minutes every 5.minutes on 'proctime as 'w)

// Sliding Row-count window
.window(Slide over 10.rows every 5.rows on 'proctime as 'w)

4.1.3 会话窗口

会话窗口（Session windows）要用 Session 类来定义，另外还有三个方法：
• withGap：会话时间间隔
• on：用来分组（按时间间隔）或者排序（按行数）的时间字段
• as：别名，必须出现在后面的 groupBy 中

代码如下：

// Session Event-time Window
.window(Session withGap 10.minutes on 'rowtime as 'w)

// Session Processing-time Window
.window(Session withGap 10.minutes on 'proctime as 'w)

4.2 Over Windows

Over window 聚合是标准 SQL 中已有的（Over 子句），可以在查询的 SELECT 子句中定义。Over window 聚合，会针对每个输入行，计算相邻行范围内的聚合。Over windows 使用.window（w:overwindows*）子句定义，并在 select() 方法中通过别名来引用。

val table = input
.window([w: OverWindow] as 'w)
.select('a, 'b.sum over 'w, 'c.min over 'w)

Table API 提供了 Over 类，来配置 Over 窗口的属性。可以在事件时间或处理时间，以及指定为时间间隔、或行计数的范围内，定义 Over windows。

无界的 over window 是使用常量指定的。也就是说，时间间隔要指定 UNBOUNDED_RANGE，
或者行计数间隔要指定 UNBOUNDED_ROW。

而有界的 over window 是用间隔的大小指定
的。

实际代码应用如下：

1. 无界的 over window
// 无界的事件时间 over window (时间字段 "rowtime")
.window(Over partitionBy 'a orderBy 'rowtime preceding UNBOUNDED_RANGE as 'w)
//无界的处理时间 over window (时间字段"proctime")
.window(Over partitionBy 'a orderBy 'proctime preceding UNBOUNDED_RANGE as 'w)
// 无界的事件时间 Row-count over window (时间字段 "rowtime")
.window(Over partitionBy 'a orderBy 'rowtime preceding UNBOUNDED_ROW as 'w)
//无界的处理时间 Row-count over window (时间字段 "rowtime")
.window(Over partitionBy 'a orderBy 'proctime preceding UNBOUNDED_ROW as 'w)

2. 有界的 over window
// 有界的事件时间 over window (时间字段 "rowtime"，之前 1 分钟) 
.window(Over partitionBy 'a orderBy 'rowtime preceding 1.minutes as 'w)
// 有界的处理时间 over window (时间字段 "rowtime"，之前 1 分钟) 
.window(Over partitionBy 'a orderBy 'proctime preceding 1.minutes as 'w)
// 有界的事件时间 Row-count over window (时间字段 "rowtime"，之前 10 行) 
.window(Over partitionBy 'a orderBy 'rowtime preceding 10.rows as 'w)
// 有界的处理时间 Row-count over window (时间字段 "rowtime"，之前 10 行) 
.window(Over partitionBy 'a orderBy 'proctime preceding 10.rows as 'w)

4.3 SQL 中窗口的定义

4.3.1 Group Windows

Group Windows 在 SQL 查询的 Group BY 子句中定义。与使用常规 GROUP BY 子句的查询一样，使用 GROUP BY 子句的查询会计算每个组的单个结果行。

SQL 支持以下 Group 窗口函数:

TUMBLE(time_attr, interval)
定义一个滚动窗口，第一个参数是时间字段，第二个参数是窗口长度。
HOP(time_attr, interval, interval)
定义一个滑动窗口，第一个参数是时间字段，第二个参数是窗口滑动步长，第三个是窗口长度。
SESSION(time_attr, interval)
定义一个会话窗口，第一个参数是时间字段，第二个参数是窗口间隔（Gap）。

另外还有一些辅助函数，可以用来选择 Group Window 的开始和结束时间戳，以及时间属性。
这里只写 TUMBLE_，滑动和会话窗口是类似的（HOP_，SESSION_*）。

• TUMBLE_START(time_attr, interval)
• TUMBLE_END(time_attr, interval)
• TUMBLE_ROWTIME(time_attr, interval)
• TUMBLE_PROCTIME(time_attr, interval)

4.3.2 Over Windows

由于 Over 本来就是 SQL 内置支持的语法，所以这在 SQL 中属于基本的聚合操作。所有聚合必须在同一窗口上定义，也就是说，必须是相同的分区、排序和范围。目前仅支持在当前行范围之前的窗口（无边界和有边界）。

注意，ORDER BY 必须在单一的时间属性上指定。
代码如下：

SELECT COUNT(amount) OVER (
PARTITION BY user
ORDER BY proctime
ROWS BETWEEN 2 PRECEDING AND CURRENT ROW)
FROM Orders
// 也可以做多个聚合
SELECT COUNT(amount) OVER w, SUM(amount) OVER w
FROM Orders
WINDOW w AS (
PARTITION BY user
ORDER BY proctime
ROWS BETWEEN 2 PRECEDING AND CURRENT ROW)

4.4 案例1：使用Table API计数

import com.jaffe.day02.SensorSource
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.table.api.scala._
import org.apache.flink.api.scala._
import org.apache.flink.table.api.{EnvironmentSettings, Tumble}

/**
 * @Author jaffe
 * @Date 2020/06/19  10:33
 */
object CountTempByTableApi {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val stream = env
      .addSource(new SensorSource)
      .assignAscendingTimestamps(_.timestamp)


    // 表相关代码
    val settings = EnvironmentSettings
      .newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()

    val tableEnv = StreamTableEnvironment.create(env, settings)

    // 将流转换成动态表
    val dataTable = tableEnv
      .fromDataStream(stream, 'id, 'timestamp.rowtime as 'ts, 'temperature as 'temp)
      .window(Tumble over 10.seconds on 'ts as 'w)
      .groupBy('id, 'w) // keyby.timeWindow
      .select('id, 'id.count) // 每个窗口有多少条数据

    // 将动态表转换成流
    dataTable
      .toRetractStream[(String, Long)] // `id, id.count`; 撤回流
      .print()

    env.execute()

  }
}

4.5 案例2：使用Flink Sql计数

import com.jaffe.day02.SensorSource
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.table.api.scala._
import org.apache.flink.api.scala._
import org.apache.flink.table.api.EnvironmentSettings

/**
 * @Author jaffe
 * @Date 2020/06/19  10:34
 */
object CountTempBySQL {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val stream = env
      .addSource(new SensorSource)
      .assignAscendingTimestamps(_.timestamp)

    val settings = EnvironmentSettings
      .newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()

    // 表相关代码
    val tableEnv = StreamTableEnvironment.create(env, settings)

    // 将流转换成动态表
    val dataTable = tableEnv
      .fromDataStream(stream, 'id, 'timestamp.rowtime as 'ts, 'temperature as 'temp)

    // 将动态表转换成流
    tableEnv
      .sqlQuery("SELECT id, COUNT(id) FROM " + dataTable + " GROUP BY id, TUMBLE(ts, INTERVAL '10' SECOND)")
      .toRetractStream[(String, Long)] // `id, id.count`; 撤回流
      .print()

    env.execute()


  }

}

5.函数（Functions）

Flink Table 和 SQL 内置了很多 SQL 中支持的函数；如果有无法满足的需要，则可以实现用户自定义的函数（UDF）来解决。

5.1 系统内置函数

比较函数
SQL：
value1 = value2
value1 > value2
Table API：
ANY1 === ANY2
ANY1 > ANY2
逻辑函数
SQL：
boolean1 OR boolean2
boolean IS FALSE
NOT boolean
Table API：
BOOLEAN1 || BOOLEAN2
BOOLEAN.isFalse
!BOOLEAN
算术函数
SQL：
numeric1 + numeric2
POWER(numeric1, numeric2)
Table API：
NUMERIC1 + NUMERIC2
NUMERIC1.power(NUMERIC2)
字符串函数
SQL：
string1 || string2
UPPER(string)
CHAR_LENGTH(string)
Table API：
STRING1 + STRING2
STRING.upperCase()
STRING.charLength()
时间函数
SQL：
DATE string
TIMESTAMP string
CURRENT_TIME
INTERVAL string range
Table API：
STRING.toDate
STRING.toTimestamp
currentTime()
NUMERIC.days
NUMERIC.minutes
聚合函数
SQL：
COUNT(*)
SUM([ ALL | DISTINCT ] expression)
RANK()
ROW_NUMBER()
Table API：
FIELD.count
FIELD.sum0

5.2 UDF

用户定义函数（User-defined Functions，UDF）是一个重要的特性，因为它们显著地扩展了查询（Query）的表达能力。一些系统内置函数无法解决的需求，我们可以用 UDF 来自定义实现。

5.2.1 注册用户自定义函数 UDF

函数通过调用 registerFunction（）方法在 TableEnvironment 中注册。当用户定义的函数被注册时，它被插入到 TableEnvironment 的函数目录中，这样 Table API 或 SQL 解析器就可以识别并正确地解释它。

5.2.2 标量函数（Scalar Functions）

用户定义的标量函数，可以将 0、1 或多个标量值，映射到新的标量值。
为了定义标量函数，必须在 org.apache.flink.table.functions 中扩展基类 Scalar Function，并实现（一个或多个）求值（evaluation，eval）方法。标量函数的行为由求值方法决定，求值方法必须公开声明并命名为 eval（直接 def 声明，没有 override）。求值方法的参数类型和返回类型，确定了标量函数的参数和返回类型。

在下面的代码中，我们定义自己的 HashCode 函数，在 TableEnvironment 中注册它，并在查询中调用它

import com.jaffe.day02.SensorSource
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.table.api.EnvironmentSettings
import org.apache.flink.table.api.scala._
import org.apache.flink.api.scala._
import org.apache.flink.table.functions.ScalarFunction

/**
 * @Author jaffe
 * @Date 2020/06/19  11:49
 */
object ScalarFunctionExample {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val stream = env
      .addSource(new SensorSource)
      .assignAscendingTimestamps(_.timestamp)

    // 表相关代码
    val settings = EnvironmentSettings
      .newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()

    val tableEnv = StreamTableEnvironment.create(env, settings)

    val hashCode = new HashCode(10)

    // 将流转换成动态表
    val dataTable = tableEnv
      .fromDataStream(stream,'id,'timestamp.rowtime as 'ts,'temperature as 'temp)

    dataTable
      .select('id,hashCode('id))
      .toAppendStream[(String,Int)]
    //  .print()

    // 注册udf函数
    tableEnv.registerFunction("hashCode",new HashCode(10))

    tableEnv
      .sqlQuery("SELECT id, hashCode(id) FROM " + dataTable)
        .toAppendStream[(String, Int)]
        .print()

        env.execute()
  }

  class HashCode(val factor:Int) extends ScalarFunction{
    def eval(s:String):Int = {
      s.hashCode * factor
    }
  }

}

5.2.3 表函数（Table Functions）

与用户定义的标量函数类似，用户定义的表函数，可以将 0、1或多个标量值作为输入参数；与标量函数不同的是，它可以返回任意数量的行作为输出，而不是单个值。

为了定义一个表函数，必须扩展 org.apache.flink.table.functions 中的基类 TableFunction 并实现（一个或多个）求值方法。表函数的行为由其求值方法决定，求值方法必须是 public 的，并命名为 eval。求值方法的参数类型，决定表函数的所有有效参数。

返回表的类型由 TableFunction 的泛型类型确定。求值方法使用 protected collect（T）方法发出输出行。

在 Table API 中，Table 函数需要与.joinLateral 或.leftOuterJoinLateral 一起使用。
joinLateral 算子，会将外部表中的每一行，与表函数（TableFunction，算子的参数是它的表达式）计算得到的所有行连接起来。

而 leftOuterJoinLateral 算子，则是左外连接，它同样会将外部表中的每一行与表函数计算生成的所有行连接起来；并且，对于表函数返回的是空表的外部行，也要保留下来。

在 SQL 中，则需要使用 Lateral Table（），或者带有 ON TRUE 条件的左连接。

下面的代码中，我们将定义一个表函数，在表环境中注册它，并在查询中调用它。
自定义 TableFunction：

import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.table.api.scala._
import org.apache.flink.api.scala._
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.table.api.EnvironmentSettings
import org.apache.flink.table.functions.TableFunction
import org.apache.flink.types.Row
/**
 * @Author jaffe
 * @Date 2020/06/19  13:50
 */
object TableFunctionExample {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)

    val stream = env
      .fromElements("hello#world", "jaffe#zuoyuan")

    // 表相关代码
    val settings = EnvironmentSettings
      .newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()

    val tableEnv = StreamTableEnvironment.create(env,settings)

    val split = new Split("#")

    val dataTable = tableEnv.fromDataStream(stream, 's)

    dataTable
      .leftOuterJoinLateral(split('s) as ('word, 'length))
      .select('s,'word,'length)
      .toAppendStream[(String,String,Int)]

    // 注册udf函数
    tableEnv.registerFunction("split", new Split("#"))
    tableEnv.createTemporaryView("t",dataTable)

    tableEnv
      .sqlQuery(
        """
          |SELECT s, word, length from
          | t
          | LEFT JOIN LATERAL TABLE(split(s)) AS T(word, length) ON TRUE""".stripMargin
      ).toAppendStream[Row]
      .print()

    env.execute()

  }

  class Split(separator: String) extends TableFunction[(String,Int)]{
    def eval (str:String):Unit = {
      str.split(separator).foreach(word =>
      collect((word,word.length)))
    }
  }

}

5.2.4 聚合函数（Aggregate Functions）

用户自定义聚合函数（User-Defined Aggregate Functions，UDAGGs）可以把一个表中的数据，聚合成一个标量值。用户定义的聚合函数，是通过继承AggregateFunction 抽象类实现的。

AggregateFunction 的工作原理如下
• 首先，它需要一个累加器，用来保存聚合中间结果的数据结构（状态）。可以通过调用
AggregateFunction 的 createAccumulator（）方法创建空累加器。
• 随后，对每个输入行调用函数的 accumulate（）方法来更新累加器。
• 处理完所有行后，将调用函数的 getValue（）方法来计算并返回最终结果。

AggregationFunction 要求必须实现的方法：
• createAccumulator()
• accumulate()
• getValue()
除了上述方法之外，还有一些可选择实现的方法。其中一些方法，可以让系统执行查询更有效率，而另一些方法，对于某些场景是必需的。例如，如果聚合函数应用在会话窗口（session group window）的上下文中，则 merge（）方法是必需的。
• retract()
• merge()
• resetAccumulator()

案例：自定义 AggregateFunction，计算一下每个 sensor 的平均温度值

import com.jaffe.day02.SensorSource
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.table.api.EnvironmentSettings
import org.apache.flink.table.api.scala.StreamTableEnvironment
import org.apache.flink.table.api.scala._
import org.apache.flink.api.scala._
import org.apache.flink.table.functions.AggregateFunction
import org.apache.flink.types.Row

/**
 * @Author jaffe
 * @Date 2020/06/19  14:41
 */
object AggregateFunctionExample {
  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)

    val stream = env.addSource(new SensorSource).filter(_.id.equals("sensor_1"))

    val setttings = EnvironmentSettings
      .newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()

    val tableEnv = StreamTableEnvironment.create(env, setttings)

    val table = tableEnv.fromDataStream(stream,'id,'timestamp as 'ts,'temperature as 'temp)

    // 实例化udf函数
    val avgTemp = new AvgTemp

    table
      .groupBy('id)
      .aggregate(avgTemp('temp) as 'avgTemp)
      .select('id,'avgTemp)
      .toRetractStream[Row]
     // .print()

    // 使用sql的方式
    // 创建临时表
    tableEnv.createTemporaryView("t",table)

    // 注册udf函数
    tableEnv.registerFunction("avgTemp",avgTemp)

    tableEnv
      .sqlQuery(
        """
          |SELECT id, avgTemp(temp) FROM t GROUP BY id""".stripMargin
      ).toRetractStream[Row]
      .print()

env.execute()




  }

  class AvgTemp extends AggregateFunction[Double,AvgTempAcc]{

    // 创建累加器
    override def createAccumulator(): AvgTempAcc = new AvgTempAcc

    // 累加规则
    def accumulate(acc:AvgTempAcc,temp: Double) = {
      acc.sum += temp
      acc.count += 1
    }

    // 获取结果
    override def getValue(acc: AvgTempAcc): Double = acc.sum / acc.count

  }

  class AvgTempAcc{
    var sum = 0.0
    var count = 0
  }

}

5.2.5 表聚合函数（Table Aggregate Functions）

用户定义的表聚合函数（User-Defined Table Aggregate Functions，UDTAGGs），可以把一个表中数据，聚合为具有多行和多列的结果表。这跟 AggregateFunction 非常类似，只是之前聚合结果是一个标量值，现在变成了一张表。

比如现在需要找到表中所有饮料的前 2 个最高价格，即执行 top2() 表聚合。需要检查 5 行中的每一行，得到的结果将是一个具有排序后前 2 个值的表。

用户定义的表聚合函数，是通过继承 TableAggregateFunction 抽象类来实现的。
TableAggregateFunction 的工作原理如下。
• 首先，它同样需要一个累加器（Accumulator），它是保存聚合中间结果的数据结构。通过调用 TableAggregateFunction 的 createAccumulator() 方法可以创建空累加器。
• 随后，对每个输入行调用函数的 accumulate() 方法来更新累加器。
• 处理完所有行后，将调用函数的 emitValue() 方法来计算并返回最终结果。

AggregationFunction 要求必须实现的方法：
• createAccumulator()
• accumulate()
除了上述方法之外，还有一些可选择实现的方法。
• retract()
• merge()
• resetAccumulator()
• emitValue()
• emitUpdateWithRetract()

案例：自定义 TableAggregateFunction，用来提取每个 sensor 最高的两个温度值

import com.jaffe.day02.SensorSource
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.table.api.EnvironmentSettings
import org.apache.flink.table.api.scala.StreamTableEnvironment
import org.apache.flink.table.api.scala._
import org.apache.flink.api.scala._
import org.apache.flink.table.functions.TableAggregateFunction
import org.apache.flink.types.Row
import org.apache.flink.util.Collector

/**
 * @Author jaffe
 * @Date 2020/06/19  15:02
 */
object TableAggregateFunctionExample {
  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setParallelism(1)

    val stream = env.addSource(new SensorSource).filter(_.id.equals("sensor_1"))

    val setttings = EnvironmentSettings
      .newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()

    val tableEnv = StreamTableEnvironment.create(env, setttings)

    val table = tableEnv.fromDataStream(stream, 'id, 'timestamp as 'ts, 'temperature as 'temp)

    val top2Temp = new Top2Temp

    table
      .groupBy('id)
      .flatAggregate(top2Temp('temp) as ('temp,'rank))
      .select('id,'temp,'rank)
      .toRetractStream[Row]
      .print()

    env.execute()
  }

  class Top2TempAcc {
    var highestTemp: Double = Double.MinValue
    var secondHighestTemp: Double = Double.MinValue
  }

  class Top2Temp extends TableAggregateFunction[(Double, Int), Top2TempAcc] {
    override def createAccumulator(): Top2TempAcc = new Top2TempAcc

    def accumulate(acc: Top2TempAcc, temp: Double) = {
      if (temp > acc.highestTemp) {
        acc.secondHighestTemp = acc.highestTemp
        acc.highestTemp = temp
      } else if (temp > acc.secondHighestTemp) {
        acc.secondHighestTemp = temp
      }
    }

    // (Double, Int) => (温度，排名)
    def emitValue(acc: Top2TempAcc, out: Collector[(Double, Int)]): Unit = {
      out.collect(acc.highestTemp, 1)
      out.collect(acc.secondHighestTemp, 2)
    }

  }

}

5.3 案例：使用 Table API 结合 SQL 实现 TopN 需求

import java.sql.Timestamp
import com.jaffe.project.util.UserBehavior
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.api.scala._
import org.apache.flink.table.api.{EnvironmentSettings, Tumble}
import org.apache.flink.table.api.scala._

object HotItemsTable {

def main(args: Array[String]): Unit = {

val env = StreamExecutionEnvironment.getExecutionEnvironment
// 有关 Blink 的配置，样板代码
val settings = EnvironmentSettings.newInstance()
.useBlinkPlanner()
.inStreamingMode()
.build()
// 创建流式表的环境
val tEnv = StreamTableEnvironment.create(env, settings)
env.setParallelism(1)
// 使用事件时间
env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
// 过滤出 pv 事件，并抽取时间戳
val stream = env
.readTextFile("`UserBehavior.csv`的绝对路径")
.map(line => {
val arr = line.split(",")
UserBehavior(arr(0).toLong,
arr(1).toLong, arr(2).toInt, arr(3), arr(4).toLong * 1000)
})
.filter(_.behavior == "pv")
.assignAscendingTimestamps(_.timestamp)

// 从流中提取两个字段，时间戳；itemId，组成一张表
val table = tEnv.fromDataStream(stream, 'timestamp.rowtime, 'itemId)
val t = table
.window(Tumble over 60.minutes on 'timestamp as 'w) // 一小时滚动窗口
.groupBy('itemId, 'w) // 根据 itemId 和窗口进行分组
.aggregate('itemId.count as 'icount) // 对 itemId 进行计数
.select('itemId, 'icount, 'w.end as 'windowEnd) // 查询三个字段
.toAppendStream[(Long, Long, Timestamp)] // 转换成 DataStream

// 创建临时表
tEnv.createTemporaryView("topn", t, 'itemId, 'icount, 'windowEnd)

// topN 查询，Blink 支持的特性
val result = tEnv.sqlQuery(
"""
|SELECT *
|FROM (
| SELECT *,
| ROW_NUMBER() OVER
| (PARTITION BY windowEnd ORDER BY icount DESC) as row_num
| FROM topn)
|WHERE row_num <= 5
|""".stripMargin
)
// 使用 toRetractStream 转换成 DataStream，用来实时更新排行榜
// true 代表 insert, false 代表 delete
result.toRetractStream[(Long, Long, Timestamp, Long)].print()

env.execute()
}
}

5.4 只使用 Flink SQL 实现 TopN 需求

import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.table.api.{EnvironmentSettings, Tumble}
import org.apache.flink.table.api.scala.StreamTableEnvironment
import org.apache.flink.table.api.scala._
import org.apache.flink.api.scala._
import org.apache.flink.types.Row

/**
 * @Author jaffe
 * @Date 2020/06/20  09:29
 */
object HotItemsSQL {

  case class UserBehavior(userId: Long,
                          itemId: Long,
                          categoryId: Long,
                          behavior: String,
                          timestamp: Long)

  def main(args: Array[String]): Unit = {
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    env.setParallelism(1)

    // 新建表环境
    val settings = EnvironmentSettings
      .newInstance()
      .useBlinkPlanner()
      .inStreamingMode()
      .build()

    val tableEnv = StreamTableEnvironment.create(env, settings)

    val stream = env
      .readTextFile("F:\\ide\\moven\\flink0608\\src\\main\\resources\\UserBehavior.csv")
      .map(line => {
        val arr = line.split(",")
        UserBehavior(arr(0).toLong, arr(1).toLong, arr(2).toLong, arr(3), arr(4).toLong * 1000L)
      })
      .filter(_.behavior.equals("pv"))
      .assignAscendingTimestamps(_.timestamp) // 分配升序时间戳 DataStream

    // 创建临时表
    tableEnv.createTemporaryView("t", stream, 'itemId, 'timestamp.rowtime as 'ts)

    // top n只有blink planner支持
    // 最内部的子查询实现了：stream.keyBy(_.itemId).timeWindow(Time.hours(1), Time.minutes(5)).aggregate(new CountAgg, new WindowResult)
    // 倒数第二层子查询：.keyBy(_.windowEnd).process(Sort)
    // 最外层：取出前三名
    var Top_num = 3
    val result = tableEnv.sqlQuery(
      s"""
         |SELECT *
         |FROM (
         |       SELECT * ,
         |            ROW_NUMBER() OVER (PARTITION BY windowEnd ORDER BY icount desc) as row_num
         |       FROM(
         |            SELECT itemId, COUNT(itemId) as icount,
         |            HOP_END( ts, INTERVAL '5' MINUTE, INTERVAL '1' HOUR ) as windowEnd
         |            FROM t GROUP BY itemId, HOP( ts, INTERVAL '5' MINUTE, INTERVAL '1' HOUR )
         |      )
         |)
         |WHERE row_num <= ${Top_num}
         |""".stripMargin)

    result
      .toRetractStream[Row]
      .filter(_._1 == true)
      .print()

    env.execute()


  }

}

你可能感兴趣的:(bigdata)

DK遇见未来：机器人祖爸
人工智能、AI、机械设计、BigData……这些听起来就很高端的专业究竟是什么？这些前沿学科相遇又会碰撞出什么？机器人，将这些前沿领域结合在一起越来越多的融入到我们的工作与生活中可问题来了机器人究竟是什么呢？又该如何给孩子讲机器人呢？这本《DK遇见未来：机器人》完美解决您的烦恼最新数据、系统知识、精美插图可以说这是一本儿童机器人大百科让孩子在这里遇见未来在讲读版视频中与您共同思考未来社会中机器人与
【量化系统实战】深入解析：大规模数据管理与分布式计算，打造你的量化“超级工厂” Natsume1710 python github 开发语言算法大数据数据仓库
前言随着量化策略的不断演进，以及对高频数据、另类数据（新闻、社交媒体、卫星图像等）需求的日益增长，许多朋友可能都会遇到一个棘手的问题：当数据量达到TB甚至PB级别，复杂的因子计算和超大规模回测在单机上变得举步维艰，系统效率严重受限。本文将作为量化系统构建系列的进阶篇，聚焦于大规模数据管理（BigDataManagement）和分布式计算（DistributedComputing）。我们将详细阐述如
QueryBook常见问题解答：从查询失败到数据文档管理的完整指南汤力赛Frederica
QueryBook常见问题解答：从查询失败到数据文档管理的完整指南querybookQuerybookisaBigDataQueryingUI,combiningcollocatedtablemetadataandasimplenotebookinterface.项目地址:https://gitcode.com/gh_mirrors/qu/querybook查询执行问题排查当您在QueryBook
QueryBook项目中的查询引擎支持与集成指南倪俊炼
QueryBook项目中的查询引擎支持与集成指南querybookQuerybookisaBigDataQueryingUI,combiningcollocatedtablemetadataandasimplenotebookinterface.项目地址:https://gitcode.com/gh_mirrors/qu/querybook概述QueryBook作为一个数据查询与分析平台，其核心功
安装Hadoop集群&入门&源码编译只年大数据 Hadoop hadoop 大数据分布式
安装Hadoop集群完全分布式先决条件准备三台机器NameStaticIPDESCbigdata102192.168.1.102DataNode、NodeManager、NameNodebigdata103192.168.1.103DataNode、NodeManager、ResourceManagerbigdata104192.168.1.104DataNode、NodeManager、Seco
Sharding-Sphere，Sharding-JDBC_介绍_Sharding-Sphere，Sharding-JDBC分布式_分库分表工作笔记001 添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152因为公司最近在做多租户的智慧城市相关的产品,这里,偶然看到这个框架,应该是可以用到,所以就看了一些,记录下来.先看一下我们要看的内容.去网站看看shardingsphere,是一套开源的分布式数据库中间件,解决方案包括3个产品点击了解更多去看一下
OGG从oracle到KAFKA的增量数据表同步操作 Romona_J oracle kafka 数据库
OGG从oracle到KAFKA的增量数据表同步操作需求oracle的库：cas库kfaka服务器：给与topic信息、以及服务器IP：端口同步表：cas.students环境在独立的服务器上面装oggfororacle11g以及oggforbigdata通过在oggfororacle服务器连接源端数据库做抽取到本地通过oggforbigdata服务器做复制1.OGGforOracle安装及配置开
MapReduce 程序详解
Hadoop的第一课总是MapReduce，但是往往我们每次都是使用自带的例子跑一遍MapReduce程序，今天总与自己写了一个完整的程序。技术有限，多多指教。1.导Jar包，将Hadoop的Jar导入到你的工程2.开始写自己的主类，分为3个类。第一个类WordcountMapperpackagecn.itcast.bigdata.mr.wcdemo;importjava.io.IOExcepti
【赛题样题】【大数据应用开发】2023年全国职业院校技能大赛高职组“大数据应用开发”第三套样题波比网络大数据大数据应用开发职业院校技能大赛高职组赛题样题
2023年全国职业院校技能大赛赛题第03套赛项名称：大数据应用开发英文名称：BigDataApplicationDevelopment赛项组别：高等职业教育组赛项编号：GZ033背景描述大数据时代背景下，电商经营模式发生很大改变。在传统运营模式中，缺乏数据积累，人们在做出一些决策行为过程中，更多是凭借个人经验和直觉，发展路径比较自我封闭。而大数据时代，为人们提供一种全新的思路，通过大量的数据分析得
云平台领域新秀：百度云的崛起之路 AI云原生与云计算技术学院百度云云计算 ai
云平台领域新秀：百度云的崛起之路关键词：百度云、云计算、云服务、技术架构、生态建设、市场竞争、行业智能化转型摘要：作为中国云计算市场的重要参与者，百度云通过独特的"ABC（AI+BigData+Cloud）"战略实现了从行业追赶者到创新引领者的蜕变。本文深度解析百度云的技术架构演进路径，揭示其在AI原生云、混合云架构、边缘计算协同等核心领域的技术优势；系统梳理生态建设策略与行业解决方案体系，分析其
DataX的json配置文件，{}，[]讲解 WZMeiei 大数据 json 数据库大数据
通过DataX将文件系统迁移到MySQLpython/bigdata/datax/bin/datax.py-rtxtfilereader-wmysqlwriter配置文件如下，（json文件中是不允许有//注释的，这里为了理解配置项的含义所以给加上了）{"job":{//数据同步任务的具体内容配置，包含数据源读取和写入目标的配置"content":[{//数据源读取器配置"reader":{//读
手把手教你搭建 Hadoop Namenode 高可用集群（HA）线条1 hadoop 大数据分布式
一、注意事项免密登录：确保所有节点间SSH免密登录正常，否则故障转移会失败。路径一致性：所有节点的Hadoop安装路径、数据目录需完全一致。端口冲突：检查9820、9870、8485等端口是否被占用。ZooKeeper集群：确保ZK集群稳定运行，至少3个节点避免脑裂。二、环境准备1.服务器规划节点角色软件依赖bigdata01Namenode1、JournalNode、ZooKeeperHadoo
智能商品推荐系统技术路线图-2 Nick_zcy 算法推荐算法 springboot spark
智能商品推荐系统技术路线图系统架构图系统分层架构用户交互层(PresentationLayer)↓HTTP/HTTPSAPI层(APILayer)↓Service调用业务服务层(ServiceLayer)↓数据访问数据访问层(DataAccessLayer)↓数据存储/处理数据存储层(DataStorageLayer)↓大数据处理大数据处理层(BigDataLayer)用户交互层Web前端(Vue
zookeeper 单机安装未来创世纪大数据 zookeeper
zookeeper安装1.下载zookeeper官方下载页面：http://zookeeper.apache.org/releases.html#download国内的下载地址：https://mirrors.tuna.tsinghua.edu.cn/apache/zookeeper/2.解压zookeeperterry@terry-VirtualBox:/opt/bigdata_platform
Shell中的sed命令(简单详细,一看就会,没一句废话) 线条1 linux bash 运维
sed可以用来实现过滤和替换1.可以进行查询操作sed可选项目标文件可选性：p打印$代表最后一行-n仅显示处理后的结果-e根据表达式进行处理2.列出txt文档中的数据catbigdata.txt|sed-n-e'3,5p'3.显示第一行到最后一行的数据：cat6.txt|sed-n-e'1,$p'显示第二行到最后一行cat6.txt|sed-n-e'2,$p'4.显示行号一种写法，没有使用sed,
springboot 基于IDEA排查脏jar 励志重写JDK java代码
查看springbootmaven相关依赖IDEA右上角m,执行命令：dependency:tree，控制台打印结果：com.xzff:bigdata-system:jar:2.6[INFO]+-com.xzff:bigdata-qt:jar:2.4:compile[INFO]|+-com.xzff:bigdata-generator:jar:2.6:compile[INFO]||+-org.sp
2024华为HCIP大数据考试总结&题库&提纲 KwCoding 华为大数据 HCIP big data
目录关于华为HCIP大数据HCIP大数据题库题库介绍关于题库更新购买方式HCIP大数据考试介绍考试形式考试题型考试内容祝：逢考必过关于华为HCIP大数据HCIP大数据，HCIP-BigDataDeveloper华为认证大数据开发高级工程师，考试代码H13-723因公司需要，最近这两年我从工程项目开发转为数据开发，负责数据仓库、数据中台的建设。在这期间参与了华为大数据培训，获赠了HCIP大数据考试券
bigdatareport chennalC#c.h.JA Ptho 数据结构 sqlite oracle json sql database spark
大数据技术体系深度解析（2025年版）一、大数据定义与核心特征（5V+扩展）传统5V模型升级Volume（体量）：从TB级到EB/ZB级，2025年全球数据总量预计达180ZB，其中非结构化数据（日志、视频、文本）占比超80%，推动存储架构向分层弹性扩展（冷热温数据分级，蓝光存储应用率提升至45%）。Velocity（速度）：实时数据流处理延迟要求从秒级（Kafka）进化到亚毫秒级（FlinkSQ
Spark-小练试刀 o不ok! 前端 javascript 开发语言
任务1：HDFS上有三份文件，分别为student.txt（学生信息表）result_bigdata.txt（大数据基础成绩表），result_math.txt（数学成绩表）。加载student.txt为名称为student的RDDx数据，result_bigdata.txt为名称为bigdata的RDD数据，result_math.txt为名称为math的RDD数据。hdfsdfs-mkdir/
Hive4.0.1集群安装部署（Hadoop版本为3.3.6）(详细教程) 大数据探索者 Hive Hadoop Centos hadoop 大数据 hive 分布式运维 centos mysql
前置环境Linux环境Zookeeper集群安装（详细教程）-CSDN博客HadoopHA高可用集群3.3.6搭建（详细教程）-CSDN博客MySQL8.0.40离线安装（详细教程）_mysql8.0.40ftp-CSDN博客Hadoop3.3.6官网下载链接地址部署规划服务器节点MetaStoreHiveServer2bigdata01√bigdata02√√bigdata03√1.先在bigd
【ATU Book-MemryX 系列】MemryX 推出浮点运算 AI 芯片，引领精准运算新时代 WPG大大通 ATU 伊布小編 (一部)人工智能大大通 ai npu 加速卡半导体
一、概述近年来，随着半导体制程的进步，硬件计算能力和数据量都有了飞跃性的提升，使得计算机视觉(ComputerVision)领域迎来了全新的发展阶段。过去，图像处理大多依赖像素级别的逐一运算，而现在，通过大数据(BigData)的支撑以及深度学习(DeepLearning)随着AI模型的成熟，它能够通过固定的学习模式从海量数据中快速创造出各种各样的应用。人工智能技术的普及与边缘计算在工业与车辆应用
spark-submit命令总览 zmd-zk 大数据组件的使用大数据 spark python 分布式学习
pyspark可以使用pyspark命令在服务器黑窗口中进行spark代码的编写pyspark--masterlocal[2]本地模式pyspark--masterspark://bigdata01:7077standalone模式pyspark--masteryarnyarn模式//启动一个黑窗口进行任务的编写spark-submit#提交任务的命令：spark-submit[options][
Prometheus+Kafka exporter+Grafana监控Kafka ErbaoLiu Prometheus grafana prometheus kafka kafka exporter
部署规划主机名bigdata111bigdata112bigdata113服务部署Kafka、Prometheus、Grafana、KafkaexporterKafkaKafkaKafka部署目录/opt/kafka_2.11-2.1.1Prometheus部署目录/opt/prometheus/
SAAS多租户实现方案_springboot 实现多租户_基于共享数据库_共享schema_共享数据表_基于baomidou_mybatis_plus---springcloud工作笔记158 添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152前面的博文说了,多租户其实就是把一套系统,提供给多个用户用,让每个用户都像拥有自己的一套系统一样,这样我们就可以把一套系统部署在我们自己这里,然后我们给某个来购买我们系统服务的商户,分个账号,他们就可以,拥有系统的整个功能了.这里的用户,也就是前来购买我们系统服务的,可以是一个公司,一个商户,我们称
Big Data 流处理框架 Flink wumingxiaoyao Big Data 大数据 flink Big Data 流处理框架实时数据处理
BigData流处理框架Flink什么是FlinkFlink的主要特性典型应用场景AmazonElasticMapReduce(EMR)VSFlink架构和运行时环境实时处理能力开发和编程模型操作和管理应用场景总结Flink支持的数据源Flink如何消费AWSSQS数据源自定义SourceFunctionFlinkConnectorforAWSSQS(社区贡献或第三方库)借助AWSLambda和K
Clickhouse集群集群安装大浪淘沙2023 clickhouse hadoop linux hdfs
1.环境信息：[root@bigdata003clickhouse-server]#cat/etc/redhat-releaseCentOSLinuxrelease7.9.2009(Core)2.在/etc/hosts中添加主机信息10.29.35.240bigdataxxx310.29.35.241bigdataxxx410.29.35.243bigdataxxx53.关闭防火墙和selinux
Utilizing DDR Memory Banks for Big Data Processing Performance 东北豆子哥 linux linux
UtilizingDDRMemoryBanksforBigDataProcessingPerformanceTomaximizeperformancewhenprocessingbigdatausingDDRmemorybanks,considerthesestrategies:MemoryArchitectureOptimizationBankInterleavingDistributedata
Java BigDecimal类 BigInter类简介及代码演示 JayceHarris java
BigDecimal类大数据中的大小数BigInter大数据中的大整数备注:如果除不尽程序会报错packagecom.BigData;importjava.math.BigDecimal;importjava.math.BigInteger;//定义大数据中的大整数和大小数publicclassBigDataDemo{publicstaticvoidmain(String[]args){//Big
【区块链+乡村振兴】数字农业区块链系统 | FISCO BCOS应用案例 FISCO_BCOS FISCO BCOS产业应用发展报告区块链乡村振兴
农业1.0时代为体力劳动为主的小农经济时代，农业2.0时代是以机械化生产为主、适度经营的“种植大户”时代，农业3.0时代则以现代科学技术为主要特征，而我们正在迈向的农业4.0时代，可以说是融合A(AI)、B(BlockChain)、C(Cloud)、D(BigData)技术，高度精准化、智能化、生态化的数字化农业时代。在助力数字化农业上，域乎科技利用FISCOBCOS区块链技术和物联网技术打造数字
Linux多线程工作笔记0004---C语言中g++ -o -c -g 功能添柴程序猿
技术交流QQ群【JAVA,C++,Python,.NET,BigData,AI】：170933152-o：指定生成可执行文件的名称。使用方法为：g++-oafilefile.cppfile.h...（可执行文件不可与待编译或链接文件同名，否则会生成相应可执行文件且覆盖原编译或链接文件），如果不使用-o选项，则会生成默认可执行文件a.out。-c：只编译不链接，只生成目标文件。-g：添加gdb调试选
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe