MiaoSO

Flink - 尚硅谷- 大数据高级 Flink 技术精讲 - 2

七、Flink 时间语义与 Watermark
- 7.1 Flink 中的时间语义
- 7.2 设置 Event Time
- 7.3 水位线 - Watermark
  - 7.3.1 基本概念
  - 7.3.2 WaterMark 传递
  - 7.3.3 WaterMark 注意点
  - 7.3.4 Watermark Demo
八、ProcessFunction API（底层 API）
- 8.1 KeyedProcessFunction 和定时器（Timers）
- 8.2 侧输出流（SlideOutput）
- 8.3 CoProcessFunction
九、状态编程和容错机制
- 9.1 Flink 中的状态
  - 9.1.1 算子状态（Operator State）
  - 9.1.2 键控状态（Keyed State）
  - 9.1.3 状态后端（State Backends）
  - 9.1.4 Demo
  - 9.1.5 总结
- 9.2 状态一致性
  - 9.2.1 概念
  - 9.2.2 一致性检查点（checkpoint）
  - 9.2.3 从检查点恢复状态
  - 9.2.4 Flink 检查点算法
  - 9.2.5 保存点（save points）
  - 9.2.6 配置
  - 9.2.7 总结
- 9.3 状态一致性分类
  - 9.3.1 端到端（end to end）一致性
  - 9.3.2 端到端的 exactly-once 保证
  - 9.3.3 Flink + Kafka 如何实现端到端的 exactly-once
十、Table API & SQL
- 10.1 定义
- 10.2 pom
- 10.3 两种 planner（old & blink）的区别
十一、Table API & SQL 调用
- 11.1 基本程序结构
- 11.2 创建表环境
- 11.3 在 Catalog 中注册表
  - 11.3.1 表的概念
  - 11.3.2 临时表 - TemporaryTable 和永久表 - PermanentTable
  - 11.3.3 创建表
  - 11.3.4 连接到外部系统
- 11.4 表的查询
  - 11.4.1 Table API
  - 11.4.2 SQL
  - 11.4.3 Demo
- 11.5 Table、View、流的转换
  - 11.5.1 Scala 隐式转换
  - 11.5.2 DataSet/DataStream to View
  - 11.5.3 DataStream/DataSet to Table
  - 11.5.4 Table to DataStream
  - 11.5.5 Table to DataSet
  - 11.5.6 数据类型与 Schema 的映射
- 11.6 表的输出
  - 11.6.1 更新模式
  - 11.6.2 输出到文件
  - 11.6.3 输出到 Kafka
  - 11.6.4 输出到 ES
  - 11.6.5 输出到 Mysql
- 11.7 Explaining
十二、Table API & SQL 流式概念
- 12.1 动态表
  - 12.1.1 DataStream 上的关系查询
  - 12.1.2 动态表 & 连续查询(Continuous Query)
  - 12.1.3 更新和追加查询
  - 12.1.4 查询限制
  - 12.1.5 表到流的转换
- 12.2 时间属性
  - 12.2.1 处理时间
  - 12.2.2 事件时间
十三、Table API
十四、Table API 自定义函数

注：次文档参考【尚硅谷】大数据高级 flink技术精讲（2020年6月）编写。

1.由于视频中并未涉及到具体搭建流程，Flink 环境搭建部分并未编写。
2.视频教程 Flink 版本为 1.10.0，此文档根据 Flink v1.11.1 进行部分修改。
3.文档中大部分程序在 Windows 端运行会有超时异常，需要打包后在 Linux 端运行。
4.程序运行需要的部分 Jar 包，请很具情况去掉 pom 中的 “scope” 标签的再进行打包，才能在集群上运行。
5.原始文档在 Markdown 中编写，此处目录无法直接跳转。且因字数限制，分多篇发布
此文档仅用作个人学习，请勿用于商业获利。

七、Flink 时间语义与 Watermark

7.1 Flink 中的时间语义

Event Time : 事件产生的时间
Ingestion Time : 数据到达 Flink 的时间
Processing Time : 执行操作算子的本地系统事件，与机器相关

根据哪种时间进行计算要根据不同的计算需求，
比如星球大战系列电影，前传的上映时间要晚于前三部，对于观影来说更希望按照故事发生先后顺序看。但对于统计票房来说是按照上映时间统计。

7.2 设置 Event Time

    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    // 从调用时刻开始给 env 创建的每一个 stream 追加时间特征
    environment.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    // alternatively:
    // environment.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    // environment.setStreamTimeCharacteristic(TimeCharacteristic.IngestionTime)
    // environment.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime)

    val sourceStream: DataStream[String] = environment.socketTextStream("localhost", 7777)

    // Transform
    val sourceDataStream: DataStream[SensorReading] = sourceStream
      .map((data: String) => {
        val dataArray: Array[String] = data.split(",")
        SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
      }).assignAscendingTimestamps(_.timestamp * 1000L)

7.3 水位线 - Watermark

7.3.1 基本概念

当 Flink 以 EventTime 模式处理数据流时，他会根据数据里的时间戳来处理基于时间的算子。但由于网络，分布式等原因，会导致乱序数据的产生。

对于乱序数据来说，遇到一个时间戳达到了窗口关闭时间，不应该立刻触发窗口计算，而是等待一段时间，等迟到的数据来了再关闭窗口。

WaterMark 定义

WaterMark 是一种衡量 EventTime 进展的机制，可以设定延迟触发窗口
WaterMark 是用于处理乱序事件的，而正确的处理乱序事件，通常用 WaterMark 机制结合 window 来实现
数据流中的 WaterMark 用于表示 timestamp 小于 WaterMark 的数据都已经到达了，因此，window 的执行也是由 WaterMark 触发的
WaterMark 用来让程序自己平衡延迟和结果正确性

WaterMark 的大小，需要在延迟性和计算结果的准确性间衡量。

WaterMark 特点

WaterMark 是一条特殊的数据记录
WaterMark 必须单调递增，以确保任务的事件时间时钟在向前推进
WaterMark 与数据的时间戳相关

7.3.2 WaterMark 传递

多分区之间的 WaterMark 传递中，在每个分区中，会根据当前分区的上游分区个数，创建对应的 PartitionWaterMark。
每个 PartitionWaterMark 中记录了这个上游分区的 WaterMark，并根据上游发送的数据进行更新。
向下游广播的 WaterMark 是这个分区中所有 PartitionWaterMark 最小的那个。

7.3.3 WaterMark 注意点

WaterMark 就是事件时间，表示事件的处理程度
WaterMark 主要用来处理乱序数据，一般就是直接定义一个延迟时间，延迟触发窗口操作
WaterMark 延迟时间的设置，一般要根据数据的乱序情况来定，通常设置成最大乱序程度
关窗操作，必须是时间进展到窗口关闭时间，事件时间语义下就是 WaterMark 达到窗口关闭的时间
WaterMark 代表的含义是，之后就不会再来时间戳比 WaterMark 更新的数值小的数据
如果有不同的上游分区，当前任务会对他们创建各自分区的 WaterMark，当前任务的 WaterMark 就是最小的那个

WaterMark 的设定

如果 WaterMark 设置的延迟太久，收到结果的速度可能会很慢，解决办法是在 WaterMark 到达之前输出一个近似结果
如果 WaterMark 到达的太早，则可能收到错误结果，不过 Flink 处理迟到数据的机制可以解决这个问题
- .allowedLateness(Time.minutes(1)) // 允许窗口在输出结果后保留一段时间，后续到达的这个时间窗内的每条数据都会根据这个时间窗内上次的结果数据重新计算，并再次输出
- .sideOutputLateData(new OutputTag[SensorReading](“late data”)) // 将迟到数据放到侧输出流

处理乱序数据的三重保证

WaterMark 设置延迟时间
window 的 allowedLateness 设置窗口允许处理迟到数据的时间
window 的 sideOutputLateData 可以将迟到的数据写入侧输出流

窗口有两个重要操作：触发计算，清空状态（关闭窗口）

7.3.4 Watermark Demo

自定义一个周期性生成 WaterMark 的 Assigner

      // .assignTimestampsAndWatermarks(new MyPeriodicWaterMarkAssigner(5000L))
      .assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[SensorReading](Time.seconds(5)) {
        override def extractTimestamp(element: SensorReading): Long = element.timestamp * 1000L
      })

      
class MyPeriodicWaterMarkAssigner(lateness: Long) extends AssignerWithPeriodicWatermarks[SensorReading] {
  // 需要两个关键参数，延迟时间 和 当前所有数据中的最大时间戳
  //  val lateness: Long = 5000L
  var currentMaxTimestampMillis: Long = Long.MinValue + lateness
  var sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS")

  // 默认每隔 200ms 调用 getCurrentWatermark 生成 Watermark
  // 修改生成 Watermark 的时间间隔 environment.getConfig.setAutoWatermarkInterval(100)
  override def getCurrentWatermark: Watermark = new Watermark(currentMaxTimestampMillis - lateness)

  // 每条数据调用 extractTimestamp 生成 EventTime
  override def extractTimestamp(element: SensorReading, recordTimestamp: Long): Long = {
    currentMaxTimestampMillis = currentMaxTimestampMillis.max(element.timestamp * 1000L)
    printInfo(element: SensorReading)
    // 获取 event time
    element.timestamp * 1000L
  }

  def printInfo(element: SensorReading): Unit = {
    println("Key : [" + element.id +
      "], EventTime : [" + element.timestamp * 1000L + "|" + sdf.format(element.timestamp * 1000L) +
      "], CurrentMaxTimeMillis : [" + currentMaxTimestampMillis + "|" + sdf.format(currentMaxTimestampMillis) +
      "], Watermark : [" + this.getCurrentWatermark.getTimestamp + "|" + sdf.format(this.getCurrentWatermark.getTimestamp) +
      "]")
  }
}

自定义一个断点式生成 WaterMark 的 Assigner

      .assignTimestampsAndWatermarks(new MyPunctuatedWaterMarkAssigner)


// 每条数据都会触发下面两个操作，更新 WaterMark
class MyPunctuatedWaterMarkAssigner extends AssignerWithPunctuatedWatermarks[SensorReading] {
  val lateness: Long = 5000L

  override def checkAndGetNextWatermark(lastElement: SensorReading, extractedTimestamp: Long): Watermark = {
    if (lastElement.id == "sensor_1") new Watermark(extractedTimestamp - lateness) else null
  }

  override def extractTimestamp(element: SensorReading, recordTimestamp: Long): Long = element.timestamp * 1000L
}

WatermarkStrategy

      .assignTimestampsAndWatermarks(
        WatermarkStrategy.forBoundedOutOfOrderness[SensorReading](Duration.ofSeconds(5))
          .withTimestampAssigner(new SerializableTimestampAssigner[SensorReading] {
            override def extractTimestamp(element: SensorReading, recordTimestamp: Long): Long = element.timestamp
          })
      )

Full Code

package com.mso.flink.stream.time

import java.text.SimpleDateFormat
import java.time.Duration

import org.apache.flink.api.common.eventtime._
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.{AssignerWithPeriodicWatermarks, AssignerWithPunctuatedWatermarks}
import org.apache.flink.streaming.api.scala._
import org.apache.flink.streaming.api.scala.function.WindowFunction
import org.apache.flink.streaming.api.watermark.Watermark
import org.apache.flink.streaming.api.windowing.time.Time
import org.apache.flink.streaming.api.windowing.windows.TimeWindow
import org.apache.flink.util.Collector

import scala.collection.mutable.ArrayBuffer
import scala.util.Sorting

// 输入数据的样例类
case class SensorReading(id: String, timestamp: Long, temperature: Double)

object WaterMarkDemo {
  def main(args: Array[String]): Unit = {
    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    // 从调用时刻开始给 env 创建的每一个 stream 追加时间特征
    environment.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    environment.getConfig.setAutoWatermarkInterval(100)

    val sourceStream: DataStream[String] = environment.socketTextStream("localhost", 7777)

    // Transform
    val waterMarkStream: DataStream[SensorReading] = sourceStream
      .map((data: String) => {
        val dataArray: Array[String] = data.split(",")
        SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
      })
      .assignTimestampsAndWatermarks(
        WatermarkStrategy.forBoundedOutOfOrderness[SensorReading](Duration.ofSeconds(5))
          .withTimestampAssigner(new SerializableTimestampAssigner[SensorReading] {
            override def extractTimestamp(element: SensorReading, recordTimestamp: Long): Long = element.timestamp
          })
      )

    //      .assignTimestampsAndWatermarks(new MyPeriodicWaterMarkAssigner(5000L))
    //      .assignTimestampsAndWatermarks(new BoundedOutOfOrdernessTimestampExtractor[SensorReading](Time.seconds(5)) {
    //        override def extractTimestamp(element: SensorReading): Long = element.timestamp * 1000L
    //      })
    //
    //      .assignTimestampsAndWatermarks(new MyPunctuatedWaterMarkAssigner)

    waterMarkStream.keyBy(data => data.id)
      // 使用滚动窗口，窗口大小为 10s
      .timeWindow(Time.seconds(10))
      .apply(new MyWindowFunction)
      .print("WaterMark demo")

    environment.execute()
  }
}

// 自定义一个周期性生成 WaterMark 的 Assigner
class MyPeriodicWaterMarkAssigner(lateness: Long) extends AssignerWithPeriodicWatermarks[SensorReading] {
  // 需要两个关键参数，延迟时间 和 当前所有数据中的最大时间戳
  //  val lateness: Long = 5000L
  var currentMaxTimestampMillis: Long = Long.MinValue + lateness
  var sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS")

  // 默认每隔 200ms 调用 getCurrentWatermark 生成 Watermark
  // 修改生成 Watermark 的时间间隔 environment.getConfig.setAutoWatermarkInterval(100)
  override def getCurrentWatermark: Watermark = new Watermark(currentMaxTimestampMillis - lateness)

  // 每条数据调用 extractTimestamp 生成 EventTime
  override def extractTimestamp(element: SensorReading, recordTimestamp: Long): Long = {
    currentMaxTimestampMillis = currentMaxTimestampMillis.max(element.timestamp * 1000L)
    printInfo(element: SensorReading)
    // 获取 event time
    element.timestamp * 1000L
  }

  def printInfo(element: SensorReading): Unit = {
    println("Key : [" + element.id +
      "], EventTime : [" + element.timestamp * 1000L + "|" + sdf.format(element.timestamp * 1000L) +
      "], CurrentMaxTimeMillis : [" + currentMaxTimestampMillis + "|" + sdf.format(currentMaxTimestampMillis) +
      "], Watermark : [" + this.getCurrentWatermark.getTimestamp + "|" + sdf.format(this.getCurrentWatermark.getTimestamp) +
      "]")
  }
}

// 自定义一个断点式生成 WaterMark 的 Assigner
// 每条数据都会触发下面两个操作，更新 WaterMark
class MyPunctuatedWaterMarkAssigner extends AssignerWithPunctuatedWatermarks[SensorReading] {
  val lateness: Long = 5000L

  override def checkAndGetNextWatermark(lastElement: SensorReading, extractedTimestamp: Long): Watermark = {
    if (lastElement.id == "sensor_1") new Watermark(extractedTimestamp - lateness) else null
  }

  override def extractTimestamp(element: SensorReading, recordTimestamp: Long): Long = element.timestamp * 1000L
}

// IN, OUT, KEY, W <: Window
class MyWindowFunction extends WindowFunction[SensorReading, String, String, TimeWindow] {
  /**
   *
   * @param key    : 输入的数据类型
   * @param window : 窗口
   * @param input  : 窗口里面所有的数据，都封装在 input 中
   * @param out    : 输出的数据
   */
  override def apply(key: String, window: TimeWindow, input: Iterable[SensorReading], out: Collector[String]): Unit = {
    val arrBuf: ArrayBuffer[Long] = ArrayBuffer[Long]()
    val ite: Iterator[SensorReading] = input.iterator
    while (ite.hasNext) {
      val tup2: SensorReading = ite.next()
      arrBuf.append(tup2.timestamp)
    }
    val arr: Array[Long] = arrBuf.toArray
    Sorting.quickSort(arr)
    val sdf = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss.SSS")
    val result: String = "聚合数据的 key 为 : [" + key.toString +
      "], " + "窗口当中数据的条数为 : [" + arr.length +
      "], " + "窗口当中第一条数据为 : [" + sdf.format(arr.head * 1000L) +
      "], " + "窗口当中最后一条数据为 : [" + sdf.format(arr.last * 1000L) +
      "], " + "窗口起始时间为 : [" + sdf.format(window.getStart) +
      "], " + "窗口结束时间为 : [" + sdf.format(window.getEnd) +
      "], " + "如果看到这个结果证明窗口已经运行了"
    out.collect(result)
  }
}

八、ProcessFunction API（底层 API）

普通的 transform 算子，只能获取当前的数据，或者加上聚合状态。
如果是 RichFunction，可以有生命周期方法，还可以获取运行时上下文，进行状态编程，
但是他们都不能获取时间戳和 WaterMark 相关的信息。

ProcessFunction 是唯一可以获取到时间相关信息的 API。
ProcessFunction 可以实现 RichFunction 能实现的方法，另外还可以获取 timestamp 和 Watermark。
可以注册定时器，指定某个时间点发生的操作。
还可以输出侧输出流。

Flink 提供了以下 ProcessFunction：

ProcessFunction - DataStrem
KeyedProcessFunction - KeyedStream
CoProcessFunction - ConnectedStream
ProcessJoinFunction
BroadcastProcessFunction
KeyedBroadcastProcessFunction
ProcessWindowFunction
ProcessAllWindowFunction

8.1 KeyedProcessFunction 和定时器（Timers）

Code

package com.mso.flink.stream.process

import org.apache.flink.api.common.state.{ValueState, ValueStateDescriptor}
import org.apache.flink.api.common.typeinfo.{TypeInformation, Types}
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.KeyedProcessFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.util.Collector

// 输入数据的样例类
case class SensorReading(id: String, timestamp: Long, temperature: Double)

object KeyedProcessFunctionDemo {
  def main(args: Array[String]): Unit = {
    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    // 从调用时刻开始给 env 创建的每一个 stream 追加时间特征
    environment.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    environment.getConfig.setAutoWatermarkInterval(100)

    val sourceStream: DataStream[String] = environment.socketTextStream("localhost", 7777)

    // Transform
    val dataStream: DataStream[SensorReading] = sourceStream
      .map((data: String) => {
        val dataArray: Array[String] = data.split(",")
        SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
      })

    // 检测每一个温度传感器，温度是否在 10s 内连续上升
    val waringStream: DataStream[String] = dataStream.keyBy(data => data.id)
      .process(new MyKeyedProcessFunction(10000L))

    waringStream.print("KeyedProcessFunctionDemo demo")
    environment.execute()
  }
}

// 自定义 KeyedProcessFunction
class MyKeyedProcessFunction(myInterval: Long) extends KeyedProcessFunction[String, SensorReading, String] {
  // 由于需要跟之前的温度值做对比，所以将上一个温度保存成状态
  //    lazy val lastTempState: ValueState[Double] = getRuntimeContext.getState(new ValueStateDescriptor[Double]("last temp state", classOf[Double]))
  lazy val lastTempState: ValueState[Double] = getRuntimeContext.getState(new ValueStateDescriptor[Double]("last temp state", TypeInformation.of(classOf[Double])))

  // 为了方便删除定时器，还需要保存定时器的时间戳
  lazy val curTimerTsState: ValueState[Long] = getRuntimeContext.getState(new ValueStateDescriptor("cur timestamp state", classOf[Long]))

  // 传入的每条数据都会调用这个方法
  override def processElement(value: SensorReading,
                              ctx: KeyedProcessFunction[String, SensorReading, String]#Context,
                              out: Collector[String]): Unit = {
    // 首先取出上一条数据的 温度状态 和 定时器状态
    val lastTemp = lastTempState.value()
    val curTimerTs = curTimerTsState.value()
    // 更新温度值状态为当前数据的温度值
    lastTempState.update(value.temperature)

    // 判断当前温度值，如果比之前温度高 并且 没有定时器，注册 10s 定时器
    if (value.temperature > lastTemp && curTimerTs == 0) {
      // 使用 Flink 程序的处理时间创建定时器
      val ts: Long = ctx.timerService().currentProcessingTime() + myInterval
      ctx.timerService().registerProcessingTimeTimer(ts)
      curTimerTsState.update(ts)
    } else if (value.temperature < lastTemp) {
      // 如果温度下降，删除定时器
      // 注意此处时间为 deleteProcessingTimeTimer 而非  deleteEventTimeTimer
      ctx.timerService().deleteProcessingTimeTimer(curTimerTs)
      // 清空状态
      curTimerTsState.clear()
    }
  }

  /**
   * 定时器触发，说明 10s 内温度没有下降，报警
   *
   * @param timestamp 若有不同的定时器，可以根据 timestamp 进行区分
   * @param ctx
   * @param out
   */
  override def onTimer(timestamp: Long,
                       ctx: KeyedProcessFunction[String, SensorReading, String]#OnTimerContext,
                       out: Collector[String]): Unit = {
    out.collect(ctx.getCurrentKey + " -> 温度连续" + myInterval / 1000 + "s 内上升")
    curTimerTsState.clear()
  }
}

8.2 侧输出流（SlideOutput）

Code

package com.mso.flink.stream.process

import org.apache.flink.streaming.api.functions.ProcessFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.util.Collector

object SlideOutputDemo {
  def main(args: Array[String]): Unit = {
    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    val sourceStream: DataStream[String] = environment.socketTextStream("localhost", 7777)

    // Transform
    val dataStream: DataStream[SensorReading] = sourceStream
      .map((data: String) => {
        val dataArray: Array[String] = data.split(",")
        SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
      })

    val highTempStream: DataStream[SensorReading] = dataStream.process(new SplitTempProcess(30))
    val lowTempStream: DataStream[(String, Double, Long)] = highTempStream.getSideOutput(new OutputTag[(String, Double, Long)]("lowTempStream"))

    highTempStream.print("high")
    lowTempStream.print("low")
    environment.execute()
  }
}

class SplitTempProcess(threshold: Int) extends ProcessFunction[SensorReading, SensorReading] {
  override def processElement(value: SensorReading,
                              ctx: ProcessFunction[SensorReading, SensorReading]#Context,
                              out: Collector[SensorReading]): Unit = {
    if (value.temperature > threshold) {
      // 将数据发送到常规输出中
      out.collect(value)
    } else {
      // 将数据发送到侧输出中
      ctx.output(new OutputTag[(String, Double, Long)]("lowTempStream"), (value.id, value.temperature, value.timestamp))
    }
  }
}

8.3 CoProcessFunction

九、状态编程和容错机制

9.1 Flink 中的状态

在 Flink 中，状态始终和特定的算子相关联。
为了使运行时的 Flink 了解算子的状态，算子需要预先注册其状态。

总的来说有以下几种类型的状态：

算子状态（Operator State）：算子状态的作用范围限定为算子任务
键控状态（Keyed State）：根据输入数据流中定义的键（Key）来维护和访问

9.1.1 算子状态（Operator State）

算子状态的作用范围限定为当前的算子任务。由同一个并行任务所处理的所有数据都可以访问到相同的状态。
状态对于同一子任务而言是共享的。
算子状态不能由相同或不同算子的另一个子任务访问。

算子状态的数据结构

列表状态（List state）- 将状态表示为一组数据的列表
联合列表状态（Union list state） - 将状态表示为数据的列表。发生故障时，或者从保存点启动应用程序时如何恢复
广播状态（Broadcast state） - 如果一个算子有多项任务，而它的每项任务状态又都相同，那么这种特殊情况最适合应用广播状态

public interface CheckpointedFunction {

	/**
	 * This method is called when a snapshot for a checkpoint is requested. This acts as a hook to the function to
	 * ensure that all state is exposed by means previously offered through {@link FunctionInitializationContext} when
	 * the Function was initialized, or offered now by {@link FunctionSnapshotContext} itself.
	 *
	 * @param context the context for drawing a snapshot of the operator
	 * @throws Exception Thrown, if state could not be created ot restored.
	 */
	void snapshotState(FunctionSnapshotContext context) throws Exception;

	/**
	 * This method is called when the parallel function instance is created during distributed
	 * execution. Functions typically set up their state storing data structures in this method.
	 *
	 * @param context the context for initializing the operator
	 * @throws Exception Thrown, if state could not be created ot restored.
	 */
	void initializeState(FunctionInitializationContext context) throws Exception;
}

9.1.2 键控状态（Keyed State）

键控状态是根据输入数据流中定义的键（key）来维护和访问的。
Flink 为每个 Key 维护一个状态实例，并将具有相同键的所有数据，都分区到同一个算子任务中，这个任务会维护和处理这个 Key 对应的状态。
当任务处理一条数据时，它会自动将状态的访问范围限定为当前数据的 Key。

算子状态的数据结构

值状态（Value state） - 将状态表示为单个的值
- ValueState.value()
- ValueState.update(value: T)
列表状态（List state） - 将状态表示为一组数据的列表
- ListState.add(value: T)
- ListState.addAll(values: java.util.List[T])
- ListState.get()
- ListState.update(values: java.util.List[T])
映射状态（Map state） - 将状态表示为一组 Key-Value 对
- MapState.get(key: K)
- MapState.put(key: K, value: V)
- MapState.contains(key: K)
- MapState.remove(key: K)
聚合状态（Reducing state & Aggregating state） - 将状态表示为一个用于聚合操作的列表
- ReducingState[T] // 同 ListState
- AggregatingState[I, O]

键控状态的使用

//  keyed state demo
class MyProcessFunction extends KeyedProcessFunction[String, SensorReading, Int] {
  // Fun 1 - use lazy
  lazy val myState: ValueState[Int] = getRuntimeContext
    .getState(new ValueStateDescriptor[Int]("my-state", classOf[Int]))
  //  // Fun 2 - use open
  //  var myState2: ValueState[Int] = _
  //  override def open(parameters: Configuration): Unit = {
  //    myState2 = getRuntimeContext.getState(new ValueStateDescriptor[Int]("my-state2", classOf[Int]))
  //  }

  lazy val myListState: ListState[String] = getRuntimeContext
    .getListState(new ListStateDescriptor[String]("my-list-state", classOf[String]))
  lazy val myMapState: MapState[String, Double] = getRuntimeContext
    .getMapState(new MapStateDescriptor[String, Double]("my-map-state", classOf[String], classOf[Double]))

  private val myReducingState: ReducingState[SensorReading] = getRuntimeContext
    .getReducingState(new ReducingStateDescriptor[SensorReading]("my-reducing-state",
      new ReduceFunction[SensorReading] {
        override def reduce(value1: SensorReading, value2: SensorReading): SensorReading = {
          SensorReading(value1.id, value1.timestamp.max(value2.timestamp), value1.temperature.min(value2.temperature))
        }
      },
      classOf[SensorReading]
    ))

  override def processElement(value: SensorReading,
                              ctx: KeyedProcessFunction[String, SensorReading, Int]#Context,
                              out: Collector[Int]): Unit = {
    myState.value()
    myState.update(1)
    myListState.add("hello")
    myListState.addAll(new util.ArrayList[String]())
    myMapState.put("sensor_1", 10.0)
    myMapState.get("sensor_1")
    myReducingState.add(value)
    myReducingState.clear()
  }
}

9.1.3 状态后端（State Backends）

每传入一条数据，有状态的算子任务会读取和更新状态
由于有效的状态访问对于处理数据的低延迟至关重要，因此每个并行任务都会在本地维护其状态，以确保快速的状态访问
状态的存储、访问和维护，由一个可插入的组件决定，这个组件叫做 状态后端
状态后端主要负责两件事，本地的状态管理，以及将检查点状态（checkpoint）写入远程存储

选择一个状态后端

MemoryStateBackend
- 内存级的状态后端，会将键控状态作为内存中的对象进行管理，将它们存储在 TaskManager 的 JVM 堆上，而将 checkpoint 存储在 JobManager 的内存中
- 特点：快速、低延迟，但不稳定
FsStateBackend
- 将 checkpoint 存到远程的持久化文件系统（FileSystem)上，而对于本地状态，跟 MemoryStateBackend 一样，也会存在 TaskManager 的 JVM 堆上
- 同时拥有内存级的本地访问速度，和更好的容错保证
RocksDBStateBackend
- 将所有状态序列化后，存入本地的 RocksDB 中存储。

定义

# pom for  RocksDBStateBackend
        
        
            org.apache.flink
            flink-statebackend-rocksdb_2.11
            1.11.1
            provided
        

# Code
    // 配置状态后端。也可在配置文件中配置
    //      # Supported backends are 'jobmanager', 'filesystem', 'rocksdb', or the
    //      # state.backend: filesystem
    //      # state.checkpoints.dir: hdfs://namenode-host:port/flink-checkpoints
    //      # state.savepoints.dir: hdfs://namenode-host:port/flink-checkpoints
    environment.setStateBackend(new MemoryStateBackend)
    environment.setStateBackend(new FsStateBackend("file://"))
    environment.setStateBackend(new RocksDBStateBackend(""))

9.1.4 Demo

package com.mso.flink.stream.state

import java.util

import org.apache.flink.api.common.functions.{ReduceFunction, RichFlatMapFunction, RichMapFunction}
import org.apache.flink.api.common.state._
import org.apache.flink.configuration.Configuration
import org.apache.flink.streaming.api.TimeCharacteristic
import org.apache.flink.streaming.api.functions.KeyedProcessFunction
import org.apache.flink.streaming.api.scala._
import org.apache.flink.util.Collector

// 输入数据的样例类
case class SensorReading(id: String, timestamp: Long, temperature: Double)

object StateDemo {
  def main(args: Array[String]): Unit = {
    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    // 从调用时刻开始给 env 创建的每一个 stream 追加时间特征
    environment.setStreamTimeCharacteristic(TimeCharacteristic.EventTime)
    // 配置状态后端。也可在配置文件中配置
    //      # Supported backends are 'jobmanager', 'filesystem', 'rocksdb', or the
    //      # state.backend: filesystem
    //      # state.checkpoints.dir: hdfs://namenode-host:port/flink-checkpoints
    //      # state.savepoints.dir: hdfs://namenode-host:port/flink-checkpoints
    //    environment.setStateBackend(new MemoryStateBackend)
    //    environment.setStateBackend(new FsStateBackend("file://"))
    //    environment.setStateBackend(new RocksDBStateBackend(""))

    val sourceStream: DataStream[String] = environment.socketTextStream("localhost", 7777)

    // Transform
    val dataStream: DataStream[SensorReading] = sourceStream
      .map((data: String) => {
        val dataArray: Array[String] = data.split(",")
        SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
      })

    // 判断相邻两次温度差值是否大于 10
    val resultStream: DataStream[(SensorReading, Double, Double)] = dataStream
      .keyBy(data => data.id)
      .map(new MyMapFunction(10))

    val resultStream2: DataStream[(SensorReading, Double, Double)] = dataStream
      .keyBy(data => data.id)
      .flatMap(new MyFlatMapFunction(10))
    val resultStream3: DataStream[(SensorReading, Double, Double)] = dataStream
      .keyBy(data => data.id)
      // .flatMapWithState[(输出类型), 状态类型]()
      .flatMapWithState[(SensorReading, Double, Double), Double]({
        case (inputData: SensorReading, None) => (List.empty, Some(inputData.temperature))
        case (inputData: SensorReading, lastTemp: Some[Double]) => {
          val tempDiff: Double = (inputData.temperature - lastTemp.get).abs
          if (tempDiff > 10) {
            (List((inputData, lastTemp.get, tempDiff)), Some(inputData.temperature))
          } else {
            (List.empty, Some(inputData.temperature))
          }
        }
      })
    resultStream.print("State demo")
    resultStream2.print("State demo2")
    resultStream3.print("State demo3")
    environment.execute()
  }
}

// 自定义 RichMapFunction，对每条数据都要求有输出结果
class MyMapFunction(threshold: Double) extends RichMapFunction[SensorReading, (SensorReading, Double, Double)] {
  // 定义状态变量
  private var lastTempState: ValueState[Double] = _

  override def open(parameters: Configuration): Unit = {
    lastTempState = getRuntimeContext.getState(new ValueStateDescriptor[Double]("last temperature", classOf[Double]))
  }

  override def map(value: SensorReading): (SensorReading, Double, Double) = {
    val lasttemp = lastTempState.value()
    lastTempState.update(value.temperature)

    val tempDiff = (value.temperature - lasttemp).abs
    if (tempDiff > threshold) {
      (value, lasttemp, tempDiff)
    } else {
      (value, -256, -256)
    }
  }
}

// 自定义 FlatMapFunction，对每条数据都可以输出多条也可以不输出
class MyFlatMapFunction(threshold: Double) extends RichFlatMapFunction[SensorReading, (SensorReading, Double, Double)] {
  // 定义状态变量
  lazy val lastTempState: ValueState[Double] = getRuntimeContext
    .getState(new ValueStateDescriptor[Double]("last temperature2", classOf[Double]))

  override def flatMap(value: SensorReading, out: Collector[(SensorReading, Double, Double)]): Unit = {
    val lasttemp = lastTempState.value()
    lastTempState.update(value.temperature)

    val tempDiff = (value.temperature - lasttemp).abs
    if (tempDiff > threshold) {
      out.collect((value, lasttemp, tempDiff))
    }
  }
}

//  keyed state demo
class MyProcessFunction extends KeyedProcessFunction[String, SensorReading, Int] {
  // Fun 1 - use lazy
  lazy val myState: ValueState[Int] = getRuntimeContext
    .getState(new ValueStateDescriptor[Int]("my-state", classOf[Int]))
  //  // Fun 2 - use open
  //  var myState2: ValueState[Int] = _
  //  override def open(parameters: Configuration): Unit = {
  //    myState2 = getRuntimeContext.getState(new ValueStateDescriptor[Int]("my-state2", classOf[Int]))
  //  }

  lazy val myListState: ListState[String] = getRuntimeContext
    .getListState(new ListStateDescriptor[String]("my-list-state", classOf[String]))
  lazy val myMapState: MapState[String, Double] = getRuntimeContext
    .getMapState(new MapStateDescriptor[String, Double]("my-map-state", classOf[String], classOf[Double]))

  private val myReducingState: ReducingState[SensorReading] = getRuntimeContext
    .getReducingState(new ReducingStateDescriptor[SensorReading]("my-reducing-state",
      new ReduceFunction[SensorReading] {
        override def reduce(value1: SensorReading, value2: SensorReading): SensorReading = {
          SensorReading(value1.id, value1.timestamp.max(value2.timestamp), value1.temperature.min(value2.temperature))
        }
      },
      classOf[SensorReading]
    ))

  override def processElement(value: SensorReading,
                              ctx: KeyedProcessFunction[String, SensorReading, Int]#Context,
                              out: Collector[Int]): Unit = {
    myState.value()
    myState.update(1)
    myListState.add("hello")
    myListState.addAll(new util.ArrayList[String]())
    myMapState.put("sensor_1", 10.0)
    myMapState.get("sensor_1")
    myReducingState.add(value)
    myReducingState.clear()
  }
}

9.1.5 总结

什么是状态

状态是针对每个算子而言，在每个并行任务中用于计算结果的数据。
可以看作是一个本地变量，一般放在本地内存。
Flink 会统一进行数据类型的管理，方便进行读写传输以及容错保证。

状态分类

operator state：对于当前任务所有输入的数据可见，当前任务输入的所有数据都可以访问同一份状态。
keyed state：状态只针对当前 key 的数据可见。对每个 Key 维护和管理一份状态实例。

有几种状态后端

内存级
文件级
RocksDB

状态编程需要获取运行时上下文，所以在富函数、ProcessFunction 等中都可以实现。

使用 keyed state，必须在 keyBy 之后的操作中（基于一个 KeyedStream）。
所有算子都可以有状态。
map/filter/flatmap 可以通过实现 RichFunction 定义状态；
reduce/aggregate/window 本来就是有状态，是 flink 底层直接管理的，也可以实现 RichFunction 定义状态。
ProcessFunction 是一类特殊的函数类，是 .process() 方法的参数，它也实现了 RichFunction 接口，是一个特殊的富函数。
DataStream/KeyedStream/WindowedStream 等都可以调用 .process() 方法，传入的是不同的 stream

9.2 状态一致性

9.2.1 概念

什么是状态一致性

有状态的流处理，内部每个算子任务都可以有自己的状态对于流处理器内部来说，
所谓的状态一致性，其实就是我们所说的计算结果要保证准确。
一条数据不应该丢失，也不应该重复计算
在遇到故障时可以恢复状态，恢复以后的重新计算，结果应该也是完全正确的。

状态一致性分类

at-most-once : 最多一次。当任务故障时，最简单的做法是什么都不敢，既不恢复丢失的状态，也不重播丢失的数据。
at-least-once : 在大多数的真实应用场景，我们需要不丢失事件。所有的事件都得到了处理，而一些事件还可能被处理多次。
exactly-once : 处理且仅处理一次。

9.2.2 一致性检查点（checkpoint）

Flink 故障恢复机制的核心，就是应用状态的一致性检查点。
有状态流应用的一致检查点，其实就是 所有任务的状态，在某个时间点的一份快照。存储的是这个时间点，已经处理完的这条数据的偏移量，和这个数据处理完后当前所有状态的值。

Flink 使用了一种轻量级快照机制——检查点（checkpoint）来保证 exactly-once 语义
有状态流应用的一致检查点，其实就是：所有任务的状态，在某个时间点的一份拷贝（一份快照）。而这个时间点，应该是所有任务都恰好处理完一个相同的输入数据的时候。
应用状态的一致检查点，是 Flink 故障恢复机制的核心

9.2.3 从检查点恢复状态

在执行流应用程序期间，Flink 会定期保存状态的一致性检查点。
如果发生故障，Flink 将会使用最近的检查点一致性恢复应用程序的状态，并重新启动处理程序。

遇到故障后的处理流程:

Step 1 : 重启应用
Step 2 : 从 Checkpoint 中读取状态，将状态重置。从检查点重新启动应用程序后，其内部状态与检查点完成时的状态完全相同
Step 3 : 开始消费并处理检查点到发生故障之间的所有数据。这种检查点的保存和恢复机制可以为应用程序状态提供 精确一次（exactly-once） 的一致性，因为所有算子都会保存检查点并恢复其所有状态，这样依赖所有的输入流都会被重置到检查点完成时的位置。

9.2.4 Flink 检查点算法

基于 Chandy-Lamport 算法的分布式快照。
将检查点的保存和数据处理分离开，不暂停整个应用。

Flink 的检查点算法用到了一种称为分界线（barrier）的特殊数据形式，用来把一条流上数据按照不同的检查点分开。
JobManager 发出快照通知，并在 source 数据流中某个 offset 处插入一个 Barrier，并向所有分区广播出去，通知所有分区记录快照。

流程示例

前提：有两个输入流的应用程序。

Step 1 : JobManager 会向每个 Source 任务发送一条带有新检查点 ID 的消息，通过这种方式来启动检查点。
Step 2 : 数据源将它们的状态写入检查点，并发出一个检查点 barrier。
Step 3 : 状态后端在状态存入检查点之后，会返回通知给 source 任务，source 任务就会向 JobManager 确认检查点完成。
Step 4 : 分界线对齐。barrier 向下游传递，子任务会等待所有输入分区的 barrier 到达。对于 barrier 已经到达的分区，继续到达的数据会被缓存；而 barrier 尚未到达的分区，数据会被正常处理。
Step 5 : 当收到所有输入分区的 barrier 时，任务就将其状态保存到状态后端的检查点中，然后将 barrier 继续向下游转发。向下游转发检查点 barrier 后，任务继续正常的数据处理。
Step 6 : Sink 任务向 JobManager 确认状态保存到 checkpoin。当所有任务都确认已成功将状态保存到检查点时，检查点就真正完成了。

9.2.5 保存点（save points）

Flink 还提供了可以自定义的镜像保存功能，就是保存点（savepoints)。

原则上，创建保存点使用的算法与检查点完全相同，因此保存点可以认为就是具有一些额外元数据的检查点。

Flink 不会自动创建保存点，因此用户（或者外部调度程序）必须明确地触发创建操作。

保存点是一个强大的功能。除了故障恢复外，保存点可以用于：有计划的手动备份，更新应用程序，版本迁移，暂停和重启应用，等等

9.2.6 配置

    // checkpoint 配置
    environment.enableCheckpointing(10000L) // 触发检查点的间隔时间
    environment.getCheckpointConfig.setCheckpointingMode(CheckpointingMode.EXACTLY_ONCE)
    environment.getCheckpointConfig.setCheckpointTimeout(30000L)
    environment.getCheckpointConfig.setMaxConcurrentCheckpoints(3)
    environment.getCheckpointConfig.setMinPauseBetweenCheckpoints(5000L)
    environment.getCheckpointConfig.setPreferCheckpointForRecovery(false)
    environment.getCheckpointConfig.setTolerableCheckpointFailureNumber(3)

    // 重启策略
    environment.setRestartStrategy(RestartStrategies.fixedDelayRestart(3, 10000L))
    // environment.setRestartStrategy(RestartStrategies.failureRateRestart(5, Time.of(5, TimeUnit.MINUTES), Time.of(10, TimeUnit.SECONDS)))
    environment.setRestartStrategy(RestartStrategies.failureRateRestart(5, Time.minutes(5), Time.seconds(10)))
    environment.setRestartStrategy(RestartStrategies.noRestart())

9.2.7 总结

Flink 中的 checkpoint，保存的是所有任务状态的快照。
这个状态要求是所有任务都处理完同一个数据之后的状态。

FLink checkpoint 算法基于 Chandy-Lamport 算法的分布式快照。

barrier 用于分隔不同的 checkpoint，对于每个人物而言，收到 barrier 就意味着要开始做状态的保存。算法中需要对不同上游分区发来的 barrier 进行对齐。

checkpoint 的存储位置，由状态后端（state backend）决定，一般是放在远程持久化存储空间（fs 或 rocksdb）

JobManager 触发一个 checkpoint 操作，会把 checkpoint 中所有任务状态的拓扑结构保存下来。

9.3 状态一致性分类

9.3.1 端到端（end to end）一致性

目前我们看到的一致性保证都是由流处理器实现的，也就是说都是在Flink流处理器内部保证的；而在真实应用中，流处理应用除了流处理器以外还包含了数据源（例如 Kafka）和输出到持久化系统

端到端的一致性保证，意味着结果的正确性贯穿了整个流处理应用的始终；每一个组件都保证了它自己的一致性

整个端到端的一致性级别取决于所有组件中一致性最弱的组件

9.3.2 端到端的 exactly-once 保证

内部保证 - checkpoint
source 端 - 可重设数据的读取位置
sink 端 - 从故障恢复时，数据不会重复写入外部系统
- 幂等写入：一个操作，可以重复执行很多次，但只导致一次结果更改，也就是后面重复执行就不起作用了。比如 Mysql 根据唯一性索引，Hbase 根据 rowkey 等写入。
- 事务写入：构建的事务对应 checkpoint，等到 checkpoint 真正完成的时候，才把所有对应的结果写入 sink 系统中。
  - 预写日志（WAL）
  - 两阶段提交（2PC）

预写日志（WAL）

把结果数据先当成状态保存，然后在收到 checkpoint 完成的通知时，一次性写入 sink 系统
简单易于实现，由于数据提前在状态后端中做了缓存，所以无论什么 sink 系统，都能用这种方式一批搞定
DataStream API 提供了一个模板类： GenericWriteAheadSink 来实现这种事务性 sink

两阶段提交（2PC）

对于每个 checkpoint，sink 任务会启动一个事务，并将接下来所有接收的数据添加到事务里。
然后将这些数据写入外部 sink 系统，但不提交它们——这时只是“预提交”。
当它收到 checkpoint 完成的通知时，它才正式提交事务，实现结果的真正写入。
这种方式真正实现了 exactly-once，它需要一个提供事务支持的外部 sink 系统。Flink 提供了TwoPhaseCommitSinkFunction 接口。

2PC 对外部 sink 系统的要求

外部 sink 系统必须提供事务支持，或者 sink 任务必须能够模拟外部系统上的事务
在 checkpoint 的间隔期间里，必须能够开启一个事务并接受数据写入
在收到 checkpoint 完成的通知之前，事务必须是“等待提交”的状态。在故障恢复的情况下，这可能需要一些时间。如果这个时候 sink 系统关闭事务（例如超时了）,那么未提交的数据就会丢失
sink 任务必须能够在进程失败后恢复事务
提交事务必须是幕等操作

不同source和sink的一致性保证

9.3.3 Flink + Kafka 如何实现端到端的 exactly-once

内部：利用 checkpoint 机制，把状态存盘，发生故障的时候可以恢复，保证内部的状态一致性
source ： kafka consumer 作为 source，可以将偏移量保存下来，如果后续任务出现了故障，恢复的时候可以由连接器重置偏移量，重新消费数据，保证一致性
sink ： kafka producer 作为 sink，采用两阶段提交 sink，需要实现一个 TwoPhaseCommitSinkFunction

Exactly-once 两阶段提交步骤

第一条数据来了之后，开启一个 kafka 的事务（transaction），正常写入 kafka 分区日志但标记为未提交，这就是“预提交”
jobmanager 触发 checkpoint 操作，barrier 从 source 开始向下传递，遇到 barrier 的算子将状态存入状态后端，并通知 jobmanager
sink 连接器收到 barrier，保存当前状态，存入 checkpoint，通知 jobmanager，并开启下一阶段的事务，用于提交下个检查点的数据
jobmanager 收到所有任务的通知，发出确认信息，表示 checkpoint 完成
sink 任务收到 jobmanager 的确认信息，正式提交这段时间的数据
外部 kafka 关闭事务，提交的数据可以正常消费了。

十、Table API & SQL

10.1 定义

Flink 对批处理和流处理，提供了统一的上层 API。
Table APl 是一套内嵌在 Java 和 Scala 语言中的查询 API，它允许以非常直观的方式组合来自一些关系运算符的查询。
Flink 的 SQL 支持基于实现了 SQL 标准的 Apache Calcite。

10.2 pom

        
        
        
            org.apache.flink
            flink-table-planner-blink_2.11
            1.11.1
            provided
        
        
        
            org.apache.flink
            flink-csv
            1.11.1
            provided

10.3 两种 planner（old & blink）的区别

批流统一： Blink 将批处理作业，视为流式处理的特殊情况。所以，blink 不支持表和 Dataset 之间的转换，批处理作业将不转换为 DataSet 应用程序，而是跟流处理一样，转换为 DataStream 程序来处理。
因为批流统一，Blink planner 也不支持 BatchTableSource，而使用有界的 StreamTableSource 代替。
Blink planner 只支持全新的目录，不支持已弃用的 ExternalCatalog。
旧 planner 和 Blink planner 的 FilterableTableSource实现不兼容。旧的 planner 会把 PlannerExpressions 下推到 filterableTableSource 中，而 blink planner 则会把 Expressions 下推。
基于字符串的键值配置选项仅适用于 Blink planner。
PlannerConfig 在两个 planner 中的实现不同。
Blink planner 会将多个 sink 优化在一个 DAG 中（仅在 TableEnvironment 上受支持，而在 StreamTableEnvironment 上不受支持）。而旧 planner 的优化总是将每一个 sink 放在一个新的 DAG 中，其中所有 DAG 彼此独立。
旧的 planner 不支持目录统计，而 Blink planner 支持。

十一、Table API & SQL 调用

11.1 基本程序结构

// 创建表的执行环境
val tableEnv = ... 

// 注册一张表，用于读取数据
tableEnv.connect(...).createTemporaryTable("inputTable")
// 注册一张表，用于把计算结果输出
tableEnv.connect(...).createTemporaryTable("outputTable")

// Tranfsform 通过Table API 查询算子，得到一张结果表
val result = tableEnv.from("inputTable").select(...)
// Tranfsform 通过SQL查询语句，得到一张结果表
val sqlResult = tableEnv.sq1Query("SELECT...FROM inputTable...")

// Sink 将结果表写入输出表中
result.insertInto("outputTable")

Demo

package com.mso.flink.table

import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.api.scala._
import org.apache.flink.table.api._
//import org.apache.flink.table.api.bridge.java._
import org.apache.flink.table.api.bridge.scala._

// 输入数据的样例类
case class SensorReading(id: String, timestamp: Long, temperature: Double)

object DataSetTableDemo {
  def main(args: Array[String]): Unit = {
    // 创建一个批处理的执行环境
    val environment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment

    // 从文件中红读取数据
    val params: ParameterTool = ParameterTool.fromArgs(args)
    val inputDataSet: DataSet[String] = environment.readTextFile(params.get("path"))

    // Transform
    val dataSet: DataSet[SensorReading] = inputDataSet
      .map((data: String) => {
        val dataArray: Array[String] = data.split(",")
        SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
      })

    // 根据执行环境，创建一个批处理 Table 环境
    val tableEnv: BatchTableEnvironment = BatchTableEnvironment.create(environment)

    // 基于数据流转换成一张表，然后进行操作
    val dataTable: Table = tableEnv.fromDataSet(dataSet)

    // 使用 Table API 查询
    val resultTable: Table = dataTable
      .select($"id", $"temperature").filter($"id".isEqual("sensor_1"))
    val resultTable2: Table = dataTable.select("id, temperature").filter("id=='sensor_1'")

    // 使用 SQL 查询
    val resultSqlTable: Table = tableEnv.sqlQuery("select id, temperature from " + dataTable + " where id = 'sensor_1'")
    // Or use view
    tableEnv.createTemporaryView("dataView", dataTable)
    val resultSqlTable2: Table = tableEnv.sqlQuery("select id, temperature from dataView where id = 'sensor_1'")

    // 转换为数据流并打印输出
    resultTable.printSchema() // 打印表结构
    val resultStream: DataSet[(String, Double)] = resultTable.toDataSet[(String, Double)]
    val resultSqlStream: DataSet[(String, Double)] = resultSqlTable.toDataSet[(String, Double)]
    resultStream.printOnTaskManager("resultStream")
    resultSqlStream.printOnTaskManager("resultSqlStream")
    tableEnv.toDataSet[(String, Double)](resultSqlTable2).print("resultSqlTable2")

    environment.execute("DataSetTableDemo")
  }
}

11.2 创建表环境

创建表的执行环境，需要将 flink 流处理的执行环境传入

package com.mso.flink.table

object TableEnvironmentDemo {
  def main(args: Array[String]): Unit = {
    // **********************
    // 1. 创建表环境
    // **********************
    // 1.1 创建 流查询 环境
    // 1.1.1 Flink 老版本
    import org.apache.flink.table.api.EnvironmentSettings
    val fStreamSettings: EnvironmentSettings = EnvironmentSettings.newInstance().useOldPlanner().inStreamingMode().build()

    import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
    import org.apache.flink.table.api.bridge.scala.StreamTableEnvironment
    val fStreamEnvironment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    val fStreamTableEnv: StreamTableEnvironment = StreamTableEnvironment.create(fStreamEnvironment, fStreamSettings)

    // 1.1.2 blink 版本
    import org.apache.flink.table.api.EnvironmentSettings
    val bStreamSettings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()

    import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
    import org.apache.flink.table.api.bridge.scala.StreamTableEnvironment
    val bStreamEnvironment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    val bStreamTableEnv: StreamTableEnvironment = StreamTableEnvironment.create(bStreamEnvironment, bStreamSettings)

    // 1.2 创建 批查询 环境
    // 1.2.1 Flink 老版本
    import org.apache.flink.api.scala.ExecutionEnvironment
    import org.apache.flink.table.api.bridge.scala.BatchTableEnvironment
    val fBatchEnvironment: ExecutionEnvironment = ExecutionEnvironment.getExecutionEnvironment
    val fBatchTableEnv: BatchTableEnvironment = BatchTableEnvironment.create(fBatchEnvironment)

    // 1.2.2 blink 版本
    import org.apache.flink.table.api.{EnvironmentSettings, TableEnvironment}
    val bBatchSettings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inBatchMode().build()
    val bBatchTableEnv: TableEnvironment = TableEnvironment.create(bBatchSettings)
  }
}

TableEnvironment 是 flink中集成 TableAPI 和 SQL 的核心概念，所有对表的操作都基于 TableEnvironment

注册 Catalog
在 Catalog 中注册表
执行 SQL 查询
注册用户自定义函数（UDF)

11.3 在 Catalog 中注册表

11.3.1 表的概念

TableEnvironment 维护着一个由标识符（identifier）创建的表 catalog 的映射。
标识符由三个部分组成： catalog 名称、数据库名称以及对象名称。

Table 可以是虚拟的（视图 VIEWS）也可以是常规的（表 TABLES）。

视图可以从已经存在的 Table 中创建，一般是 Table API 或者 SQL 的查询结果。
常规表描述的是外部数据，例如文件、数据库表或者消息队列的数据，也可以直接从 DataStream 转换而来.

11.3.2 临时表 - TemporaryTable 和永久表 - PermanentTable

表可以是临时的，并与单个 Flink 会话的生命周期相关。也可以是永久的，并且在多个 Flink 会话和群集中可见。

永久表需要 catalog（例如 Hive Metastore）以维护表的元数据。一旦永久表被创建，它将对任何连接到 catalog 的 Flink 会话可见且持续存在，直至被明确删除。

另一方面，临时表通常保存于内存中并且仅在创建它们的 Flink 会话持续期间存在。这些表对于其它会话是不可见的。它们不与任何 catalog 或者数据库绑定但可以在一个命名空间（namespace）中创建。即使它们对应的数据库被删除，临时表也不会被删除。

屏蔽 - Shadowing

可以使用与已存在的永久表相同的标识符去注册临时表。临时表会屏蔽永久表，并且只要临时表存在，永久表就无法访问。所有使用该标识符的查询都将作用于临时表。

11.3.3 创建表

TableEnvironemnt 可以调用 .connect() 方法，连接外部系统，并调用 .createTemporaryTable() 方法，在 Catalog 中注册表。

虚拟表

在 SQL 的术语中，Table API 的对象对应于视图（虚拟表）。它封装了一个逻辑查询计划。它可以通过以下方法在 catalog 中创建：

// get a TableEnvironment
val tableEnv = ... // see "Create a TableEnvironment" section

// table is the result of a simple projection query 
val projTable: Table = tableEnv.from("X").select(...)

// register the Table projTable as table "projectedTable"
tableEnv.createTemporaryView("projectedTable", projTable)

Connector Tables

另外一个方式去创建 TABLE 是通过 connector 声明。Connector 描述了存储表数据的外部系统。存储系统例如 Apache Kafka 或者常规的文件系统都可以通过这种方式来声明。

tableEnv
  .connect(...)   // 定义表的数据来源 和 外部系统建立连接
  .withFormat(...)    // 定义数据格式化方法
  .withSchema(...)    // 定义表结构
  .inAppendMode()
  .createTemporaryTable("MyTable")  // 创建临时表

11.3.4 连接到外部系统

连接到文件系统 & Kafka

package com.mso.flink.table

import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api._
import org.apache.flink.table.api.bridge.scala._
import org.apache.flink.table.descriptors.{Csv, FileSystem, Kafka, Schema}

object TableConnectDemo {
  def main(args: Array[String]): Unit = {
    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    val environmentSettings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().inStreamingMode().build()
    val tableEnvironment: StreamTableEnvironment = StreamTableEnvironment.create(environment, environmentSettings)

    // **********************
    // 2. 连接外部系统
    // **********************
    // 2.1 连接到文件系统
    val parameterTool: ParameterTool = ParameterTool.fromArgs(args)
    val filePath: String = parameterTool.get("path")
    tableEnvironment.connect(new FileSystem().path(filePath))
      .withFormat(new Csv().fieldDelimiter(',')) // 读取数据之后的格式化方法
      .withSchema(
        new Schema()
          .field("id", DataTypes.STRING())
          .field("timestamp", DataTypes.BIGINT())
          .field("temperature", DataTypes.DOUBLE())
      ) // 定义表结构
      .createTemporaryTable("CSV_input_table") // 注册一张表

    // 转换成流打印输出
    val sensorTable: Table = tableEnvironment.from("CSV_input_table")
    sensorTable.toAppendStream[(String, Long, Double)].print("CSV_input_table")

    // 2.2 连接到 Kafka
    tableEnvironment.connect(
      new Kafka()
        //        .version("0.11")
        .version("universal")
        .topic("sensor")
        .property("bootstrap.servers", "test01:9092")
        .property("zookeeper.connect", "test01:2181")
        .property("group.id", "test-group")
        .property("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
        .property("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
        .property("auto.offset.reset", "latest")
    )
      .withFormat(new Csv().fieldDelimiter(',')) // 读取数据之后的格式化方法
      .withSchema(
        new Schema()
          .field("id", DataTypes.STRING())
          .field("timestamp", DataTypes.BIGINT())
          .field("temperature", DataTypes.DOUBLE())
      ) // 定义表结构
      .createTemporaryTable("Kafka_input_table") // 注册一张表
    val sensorKafkaTable: Table = tableEnvironment.from("Kafka_input_table")
    sensorKafkaTable.toAppendStream[(String, Long, Double)].print("Kafka_input_table")

    environment.execute("TableConnectDemo")
  }
}

11.4 表的查询

11.4.1 Table API

Table API 是集成在 scala 和 Java 语言内的查询 API。

Table API 是基于 Table 类的，该类表示一个表（流或批处理），并提供使用关系操作的方法。这些方法返回一个新的 Table 对象，该对象表示对输入 Table 进行关系操作的结果。
一些关系操作由多个方法调用组成，例如 table.groupBy(…).select()，其中 groupBy(…) 指定 table 的分组，而 select(…) 在 table 分组上的投影。

Demo

// get a TableEnvironment
val tableEnv = ... // see "Create a TableEnvironment" section

// register Orders table

// scan registered Orders table
val orders = tableEnv.from("Orders")
// compute revenue for all customers from France
val revenue = orders
  .filter($"cCountry" === "FRANCE")
  .groupBy($"cID", $"cName")
  .select($"cID", $"cName", $"revenue".sum AS "revSum")

// emit or convert Table
// execute query

11.4.2 SQL

Flink SQL 是基于实现了SQL标准的 Apache Calcite 的。SQL 查询由常规字符串指定。

sqlQuery

// get a TableEnvironment
val tableEnv = ... // see "Create a TableEnvironment" section

// register Orders table

// compute revenue for all customers from France
val revenue = tableEnv.sqlQuery("""
  |SELECT cID, cName, SUM(revenue) AS revSum
  |FROM Orders
  |WHERE cCountry = 'FRANCE'
  |GROUP BY cID, cName
  """.stripMargin)

// emit or convert Table
// execute query

executeSql

// get a TableEnvironment
val tableEnv = ... // see "Create a TableEnvironment" section

// register "Orders" table
// register "RevenueFrance" output table

// compute revenue for all customers from France and emit to "RevenueFrance"
tableEnv.executeSql("""
  |INSERT INTO RevenueFrance
  |SELECT cID, cName, SUM(revenue) AS revSum
  |FROM Orders
  |WHERE cCountry = 'FRANCE'
  |GROUP BY cID, cName
  """.stripMargin)

11.4.3 Demo

package com.mso.flink.table

import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api._
import org.apache.flink.table.api.bridge.scala._
import org.apache.flink.table.descriptors.{Csv, FileSystem, Schema}

object TableQueryDemo {
  def main(args: Array[String]): Unit = {
    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().build()
    val tableEnvironment: StreamTableEnvironment = StreamTableEnvironment.create(environment, settings)

    // 注册一张表
    val parameterTool: ParameterTool = ParameterTool.fromArgs(args)
    val filePath: String = parameterTool.get("path")
    tableEnvironment.connect(new FileSystem().path(filePath))
      .withFormat(new Csv)
      .withSchema(
        new Schema()
          .field("id", DataTypes.STRING())
          .field("timestamp", DataTypes.BIGINT())
          .field("temperature", DataTypes.DOUBLE())
      )
      .createTemporaryTable("CSV_input_table")

    // **********************
    // 3. 表的查询
    // **********************

    // 3.1 简单查询
    val sourceTable: Table = tableEnvironment.from("CSV_input_table")
    val resultTable: Table = sourceTable
      .select('id, 'temperature)
      .filter('id === "sensor_1")

    // 3.2 SQL 查询
    val resultSqlTable: Table = tableEnvironment
      .sqlQuery(
        """
          |select id, temperature
          |from CSV_input_table
          |where id = 'sensor_1'
          |""".stripMargin)

    // 3.3 简单聚合
    val aggResultTable: Table = sourceTable
      .groupBy($"id")
      .select('id, 'id.count() as 'idCount)

    // 3.4 SQL 简单聚合
    val aggSqlResultTable: Table = tableEnvironment
      .sqlQuery("select id, count(id) as cnt from CSV_input_table group by id")

    // print
    resultTable.toAppendStream[(String, Double)].print("resultTable")
    tableEnvironment.toAppendStream[(String, Double)](resultSqlTable).print("resultSqlTable")

    aggResultTable.toRetractStream[(String, Long)].print("aggResultTable")
    tableEnvironment.toRetractStream[(String, Long)](aggSqlResultTable).print("aggSqlResultTable")

    environment.execute("TableQueryDemo")
  }
}

11.5 Table、View、流的转换

11.5.1 Scala 隐式转换

Scala Table API 含有对 DataSet、DataStream 和 Table 类的隐式转换。
通过为 Scala DataStream API 导入以下包，可以启用这些转换。

import org.apache.flink.api.scala._
OR 
import org.apache.flink.streaming.api.scala._

import org.apache.flink.table.api._
import org.apache.flink.table.api.bridge.scala._

11.5.2 DataSet/DataStream to View

临时视图（Temporary View）

// get TableEnvironment 
// registration of a DataSet is equivalent
val tableEnv: StreamTableEnvironment = ... // see "Create a TableEnvironment" section

val stream: DataStream[(Long, String)] = ...

// register the DataStream as View "myTable" with fields "f0", "f1"
tableEnv.createTemporaryView("myTable", stream)

// register the DataStream as View "myTable2" with fields "myLong", "myString"
tableEnv.createTemporaryView("myTable2", stream, 'myLong, 'myString)

---------------------------------------------------------------------------------------------------------
// 基于 DataStream 创建临时视图
tableEnv.createTemporaryView('sensorView', dataStream)
tableEnv.createTemporaryView('sensorView', dataStream, 'id, 'timestamp as 'ts, 'temperature)

// 基于 Table 创建临时视图
tableEnv.createTemporaryView('sensorView', sensorTable)

Demo

    // 基于数据流转换成一张表，然后进行操作
    val dataTable: Table = tableEnv.fromDataSet(xxx)

    // 使用 SQL 查询
    val resultSqlTable: Table = tableEnv.sqlQuery("select id, temperature from " + dataTable + " where id = 'sensor_1'")

    // Or use view
    tableEnv.createTemporaryView("dataView", dataTable)
    val resultSqlTable2: Table = tableEnv.sqlQuery("select id, temperature from dataView where id = 'sensor_1'")

11.5.3 DataStream/DataSet to Table

// get TableEnvironment
// registration of a DataSet is equivalent
val tableEnv = ... // see "Create a TableEnvironment" section

val stream: DataStream[(Long, String)] = ...

// convert the DataStream into a Table with default fields "_1", "_2"
val table1: Table = tableEnv.fromDataStream(stream)

// convert the DataStream into a Table with fields "myLong", "myString"
val table2: Table = tableEnv.fromDataStream(stream, $"myLong", $"myString")

Demo

val dataStream: DataStream[SensorReading] = ...
// 将 DataStream 转换为 表
val sensorTable: Table = tableEnv.fromDataStream(dataStream)
// Or 将 DataStream 转换为 表，并指定字段
val sensorTable = tableEnv.fromDataStream(dataStream, 'id, 'timestamp as 'ts, 'temperature)

11.5.4 Table to DataStream

Table 可以被转换成 DataStream 或 DataSet。通过这种方式，定制的 DataSet 或 DataStream 程序就可以在 Table API 或者 SQL 的查询结果上运行了。

将 Table 转换为 DataStream 或者 DataSet 时，你需要指定生成的 DataStream 或者 DataSet 的数据类型，即，Table 的每行数据要转换成的数据类型。通常最方便的选择是转换成 Row 。以下列表概述了不同选项的功能：

Row: 字段按位置映射，字段数量任意，支持 null 值，无类型安全（type-safe）检查。
POJO: 字段按名称映射（POJO 必须按 Table 中字段名称命名），字段数量任意，支持 null 值，无类型安全检查。
Case Class: 字段按位置映射，不支持 null 值，有类型安全检查。
Tuple: 字段按位置映射，字段数量少于 22（Scala）或者 25（Java），不支持 null 值，无类型安全检查。
Atomic Type: Table 必须有一个字段，不支持 null 值，有类型安全检查。

流式查询（streaming query）的结果表会动态更新，即，当新纪录到达查询的输入流时，查询结果会改变。因此，像这样将动态查询结果转换成 DataStream 需要对表的更新方式进行编码。

将 Table 转换为 DataStream 有两种模式：

Append Mode: 仅当动态 Table 仅通过 INSERT 更改进行修改时，才可以使用此模式，即，它仅是追加操作，并且之前输出的结果永远不会更新。
Retract Mode: 任何情形都可以使用此模式。它使用 boolean 值对 INSERT 和 DELETE 操作的数据进行标记。

// get TableEnvironment. 
// registration of a DataSet is equivalent
val tableEnv: StreamTableEnvironment = ... // see "Create a TableEnvironment" section

// Table with two fields (String name, Integer age)
val table: Table = ...

// convert the Table into an append DataStream of Row
val dsRow: DataStream[Row] = tableEnv.toAppendStream[Row](table)

// convert the Table into an append DataStream of Tuple2[String, Int]
val dsTuple: DataStream[(String, Int)] dsTuple = 
  tableEnv.toAppendStream[(String, Int)](table)

// convert the Table into a retract DataStream of Row.
//   A retract stream of type X is a DataStream[(Boolean, X)]. 
//   The boolean field indicates the type of the change. 
//   True is INSERT, false is DELETE.
val retractStream: DataStream[(Boolean, Row)] = tableEnv.toRetractStream[Row](table)

11.5.5 Table to DataSet

// get TableEnvironment 
// registration of a DataSet is equivalent
val tableEnv = BatchTableEnvironment.create(env)

// Table with two fields (String name, Integer age)
val table: Table = ...

// convert the Table into a DataSet of Row
val dsRow: DataSet[Row] = tableEnv.toDataSet[Row](table)

// convert the Table into a DataSet of Tuple2[String, Int]
val dsTuple: DataSet[(String, Int)] = tableEnv.toDataSet[(String, Int)](table)

11.5.6 数据类型与 Schema 的映射

DataStream 中的数据类型，与表的 Scheme 之间的对应关系，可以有两种：基于字段名称，基于字段位置。

基于名称（name-based）

// 基于名称重命名，可以自定义字段顺序
val sensorTable = tableEnv.fromDataStream(dataStream, 'timestamp as 'ts, 'id as 'myId, 'temperature)

基于位置（position-based）

// 根据 DataStream 中的位置进行一一对应，可以直接重命名，但不能调整字段顺序
val sensorTable = tableEnv.fromDataStream(dataStream, 'myId, 'ts)

11.6 表的输出

Table 通过写入 TableSink 输出。TableSink 是一个通用接口，用于支持多种文件格式（如 CSV、Apache Parquet、Apache Avro）、存储系统（如 JDBC、Apache HBase、Apache Cassandra、Elasticsearch）或消息队列系统（如 Apache Kafka、RabbitMQ）。

批处理 Table 只能写入 BatchTableSink，而流处理 Table 需要指定写入 AppendStreamTableSink，RetractStreamTableSink 或者 UpsertStreamTableSink。

方法 Table.executeInsert(String tableName) 将 Table 发送至已注册的 TableSink。该方法通过名称在 catalog 中查找 TableSink 并确认Table schema 和 TableSink schema 一致。

Demo

// get a TableEnvironment
val tableEnv = ... // see "Create a TableEnvironment" section

// create an output Table
val schema = new Schema()
    .field("a", DataTypes.INT())
    .field("b", DataTypes.STRING())
    .field("c", DataTypes.LONG())

tableEnv.connect(new FileSystem("/path/to/file"))
    .withFormat(new Csv().fieldDelimiter('|').deriveSchema())
    .withSchema(schema)
    .createTemporaryTable("CsvSinkTable")

// compute a result Table using Table API operators and/or SQL queries
val result: Table = ...

// emit the result Table to the registered TableSink
result.executeInsert("CsvSinkTable")

11.6.1 更新模式

对于流式查询，需要声明如何在表和外部连结器之间执行转换。与外部系统交换的消息类型，由更新模式（Update Mode）指定。

追加（Append）模式
撤回（Retract）模式
更新插入（Upsert）模式

11.6.2 输出到文件

package com.mso.flink.table

import org.apache.flink.api.java.utils.ParameterTool
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api._
import org.apache.flink.table.api.bridge.scala.StreamTableEnvironment
import org.apache.flink.table.descriptors.{Csv, FileSystem, Schema}

object TableOutputToFileDemo {
  def main(args: Array[String]): Unit = {
    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().build()
    val tableEnvironment: StreamTableEnvironment = StreamTableEnvironment.create(environment, settings)

    // 从文件中红读取数据
    val params: ParameterTool = ParameterTool.fromArgs(args)
    val inputDataSet: DataStream[String] = environment.readTextFile(params.get("path"))

    // Transform
    val dataStream: DataStream[SensorReading] = inputDataSet
      .map((data: String) => {
        val dataArray: Array[String] = data.split(",")
        SensorReading(dataArray(0), dataArray(1).toLong, dataArray(2).toDouble)
      })

    // **********************
    // 4. 表的输出 - File
    // **********************

    // Option 1. Use TableEnvironment - tableEnvironment.executeSql()
    // Source Table. Register the DataStream as View "sourceTable" with fields "id", "ts", "temp"
    tableEnvironment.createTemporaryView("sourceTable", dataStream, 'id, 'timestamp as 'ts, 'temperature as "temp")

    // Sink Table. Register the output table "CsvSinkTable" with fields "id", "ts", "temp"
    // 注：输出到文件仅支持追加模式
    tableEnvironment.connect(new FileSystem().path(params.get("outputPath")))
      .withFormat(new Csv().fieldDelimiter('|').deriveSchema())
      .withSchema(new Schema()
        .field("id", DataTypes.STRING())
        .field("ts", DataTypes.BIGINT())
        .field("temp", DataTypes.DOUBLE()))
      .createTemporaryTable("CsvSinkTable")

    // Do Sink. Emit the result Table to the registered TableSink
    tableEnvironment.executeSql(
      """
        |INSERT INTO CsvSinkTable
        |select id, ts, temp
        |from sourceTable
        |where id = 'sensor_1'
        |""".stripMargin)

    // Option 2。 Use Table API - Table.executeInsert()
    // Source Table
    val sourceTable: Table = tableEnvironment.fromDataStream(dataStream, 'id, 'timestamp as 'ts, 'temperature as "temp")

    // Sink Table. Register the output table "CsvSinkTable" with fields "id", "ts", "temp"
    tableEnvironment.connect(new FileSystem().path(params.get("outputPath2")))
      .withFormat(new Csv().fieldDelimiter('|').deriveSchema())
      .withSchema(new Schema()
        .field("id", DataTypes.STRING())
        .field("ts", DataTypes.BIGINT())
        .field("temp", DataTypes.DOUBLE()))
      .createTemporaryTable("CsvSinkTable2")
    // Table API
    val resultTable: Table = sourceTable
      .select('id, 'ts, 'temp)
      .filter('id === "sensor_1")
    // Do Sink. Emit the result Table to the registered TableSink
    resultTable.executeInsert("CsvSinkTable2")

    //  ~/flink-1.11.1/bin/flink run -c com.mso.flink.table.TableOutputToFileDemo FlinkPractice-1.0-SNAPSHOT-jar-with-dependencies.jar --path /home/flink/sensor.txt --outputPath /home/flink/output.txt --outputPath2 /home/flink/output2.txt

  }
}

11.6.3 输出到 Kafka

package com.mso.flink.table

import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.bridge.scala._
import org.apache.flink.table.api.{DataTypes, EnvironmentSettings}
import org.apache.flink.table.descriptors.{Csv, Kafka, Schema}

object TableOutputKafkaDemo {
  def main(args: Array[String]): Unit = {
    val environment: StreamExecutionEnvironment = StreamExecutionEnvironment.getExecutionEnvironment
    val settings: EnvironmentSettings = EnvironmentSettings.newInstance().useBlinkPlanner().build()
    val tableEnvironment: StreamTableEnvironment = StreamTableEnvironment.create(environment, settings)

    // 连接到 Kafka，注册一张 source 表
    tableEnvironment.connect(
      new Kafka()
        .version("universal")
        .topic("sensor")
        .property("bootstrap.servers", "test01:9092")
        .property("zookeeper.connect", "test01:2181")
        .property("group.id", "test-group")
        .property("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
        .property("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer")
        .property("auto.offset.reset", "latest")
    )
      .withFormat(new Csv().fieldDelimiter(',')) // 读取数据之后的格式化方法
      .withSchema(
        new Schema()
          .field("id", DataTypes.STRING())
          .field("timestamp", DataTypes.BIGINT())
          .field("temperature", DataTypes.DOUBLE())
      ) // 定义表结构
      .createTemporaryTable("Kafka_input_table")

    // 连接到 Kafka，注册一张 sink 表
    tableEnvironment.executeSql(
      """
        |CREATE TABLE Kafka_output_table (
        | id STRING,
        | temp DOUBLE
        |) WITH (
        | 'connector' = 'kafka',
        | 'topic' = 'flink-sink',
        | 'properties.bootstrap.servers' = 'test01:9092',
        | 'properties.group.id' = 'testGroup',
        | 'format' = 'csv',
        | 'scan.startup.mode' = 'earliest-offset'
        |)
        |""".stripMargin)

    // Do Sink
    // 注：输出到 Kafka 仅支持追加模式
    tableEnvironment.executeSql(
      """
        |INSERT INTO Kafka_output_table
        |select id, temperature
        |from Kafka_input_table
        |where id = 'sensor_1'
        |""".stripMargin)
  }
}

11.6.4 输出到 ES

    tableEnv.connect(
      new Elasticsearch()
        .version("6")
        .host("localhost", 9200, "http")
        .index("sensor")
        .documentType("temp")
    )
      .inUpsertMode()
      .withFormat(new Json())
      .withSchema(new Schema()
        .field("id", DataTypes.STRING())
        .field("count", DataTypes.BIGINT())
      )
      .createTemporaryTable("esoutputTable")
    aggResultTable.insertInto("esOutputTable")

11.6.5 输出到 Mysql

可以创建 Table 来描述 MySql 中的数据，作为输入和输出

    val sinkDDL: String =
      """
        |create table jdbcoutputTable(
        |id varchar(20) not null,
        |cnt bigint not null
        |) with (
        | 'connector' = 'jdbc',
        | 'url' = 'jdbc:mysql://localhost:3306/mdb',
        | 'table-name' = 'sensor_count'
        | 'connector.driver' = 'com.mysql.jdbc.Driver',
        | 'connector.username' = 'root',
        | 'connector.password' = '123456'
        |)
        |""".stripMargin

    tableEnvironment.sqlUpdate(sinkDDL) //执行 DDL 创健装

    aggResultsqlTable.insertInto("jdbcOutputTable")

11.7 Explaining

Table API 提供了一种机制来解释计算 Table 的逻辑和优化查询计划。这是通过 Table.explain() 方法或者 StatementSet.explain() 方法来完成的。Table.explain() 返回一个 Table 的计划。StatementSet.explain() 返回多 sink 计划的结果。它返回一个描述三种计划的字符串：

关系查询的抽象语法树（the Abstract Syntax Tree），即未优化的逻辑查询计划，
优化的逻辑查询计划
物理执行计划。

    println(table.explain())
    println(tableEnvironment.explain())

十二、Table API & SQL 流式概念

12.1 动态表

12.1.1 DataStream 上的关系查询

关系代数 / SQL	流处理
关系(或表)是有界(多)元组集合。	流是一个无限元组序列。
对批数据(例如关系数据库中的表)执行的查询可以访问完整的输入数据。	流式查询在启动时不能访问所有数据，必须“等待”数据流入。
批处理查询在产生固定大小的结果后终止。	流查询不断地根据接收到的记录更新其结果，并且始终不会结束。

尽管存在这些差异，但是使用关系查询和 SQL 处理流并不是不可能的。高级关系数据库系统提供了一个称为物化视图(Materialized Views) 的特性。物化视图被定义为一条 SQL 查询，就像常规的虚拟视图一样。与虚拟视图相反，物化视图缓存查询的结果，因此在访问视图时不需要对查询进行计算。缓存的一个常见难题是防止缓存为过期的结果提供服务。当其定义查询的基表被修改时，物化视图将过期。即时视图维护(Eager View Maintenance) 是一种一旦更新了物化视图的基表就立即更新视图的技术。

如果我们考虑以下问题，那么即时视图维护和流上的SQL查询之间的联系就会变得显而易见:

数据库表是 INSERT、UPDATE 和 DELETE DML 语句的 stream 的结果，通常称为 changelog stream 。
物化视图被定义为一条 SQL 查询。为了更新视图，查询不断地处理视图的基本关系的changelog 流。
物化视图是流式 SQL 查询的结果。

12.1.2 动态表 & 连续查询(Continuous Query)

动态表是 Flink 的支持流数据的 Table API 和 SQL 的核心概念。与表示批处理数据的静态表不同，动态表是随时间变化的。可以像查询静态批处理表一样查询它们。查询动态表将生成一个连续查询。一个连续查询永远不会终止，结果会生成一个动态表。查询不断更新其(动态)结果表，以反映其(动态)输入表上的更改。本质上，动态表上的连续查询非常类似于定义物化视图的查询。

需要注意的是，连续查询的结果在语义上总是等价于以批处理模式在输入表快照上执行的相同查询的结果

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HIRvD705-1598264647076)(https://ci.apache.org/projects/flink/flink-docs-release-1.11/fig/table-streaming/stream-query-stream.png)]

流式表查询的处理过程：

Step 1 : 将流转换为动态表。
Step 2 : 在动态表上计算一个连续查询，生成一个新的动态表。
Step 3 : 生成的动态表被转换回流。

注意：动态表首先是一个逻辑概念。在查询执行期间不一定(完全)物化动态表。

12.1.3 更新和追加查询

查询分为两种：

更新：查询更新先前输出的结果，即定义结果表的 changelog 流包含 INSERT 和 UPDATE 操作。
追加：查询只附加到结果表，即结果表的 changelog 流只包含 INSERT 操作。

一个查询是产生一个只追加的表还是一个更新的表有一些含义:

产生更新更改的查询通常必须维护更多的状态(请参阅以下部分)。
将 append-only 的表转换为流与将已更新的表转换为流是不同的(参阅表到流的转换章节)。

12.1.4 查询限制

许多(但不是全部)语义上有效的查询可以作为流上的连续查询进行评估。有些查询代价太高而无法计算，这可能是由于它们需要维护的状态大小，也可能是由于计算更新代价太高。

状态大小：连续查询在无界流上计算，通常应该运行数周或数月。因此，连续查询处理的数据总量可能非常大。必须更新先前输出的结果的查询需要维护所有输出的行，以便能够更新它们。例如，第一个查询示例需要存储每个用户的 URL 计数，以便能够增加该计数并在输入表接收新行时发送新结果。如果只跟踪注册用户，则要维护的计数数量可能不会太高。但是，如果未注册的用户分配了一个惟一的用户名，那么要维护的计数数量将随着时间增长，并可能最终导致查询失败。

SELECT user, COUNT(url)
FROM clicks
GROUP BY user;

计算更新：有些查询需要重新计算和更新大量已输出的结果行，即使只添加或更新一条输入记录。显然，这样的查询不适合作为连续查询执行。下面的查询就是一个例子，它根据最后一次单击的时间为每个用户计算一个 RANK。一旦 click 表接收到一个新行，用户的 lastAction 就会更新，并必须计算一个新的排名。然而，由于两行不能具有相同的排名，所以所有较低排名的行也需要更新。

SELECT user, RANK() OVER (ORDER BY lastLogin)
FROM (
  SELECT user, MAX(cTime) AS lastAction FROM clicks GROUP BY user
);

12.1.5 表到流的转换

动态表可以像普通数据库表一样通过 INSERT、UPDATE 和 DELETE 来不断修改。

它可能是一个只有一行、不断更新的表；
也可能是一个 insert-only 的表，没有 UPDATE 和 DELETE 修改；
或者介于两者之间的其他表。

在将动态表转换为流或将其写入外部系统时，需要对这些更改进行编码。Flink的 Table API 和 SQL 支持三种方式来编码一个动态表的变化:

Append-only 流：仅通过 INSERT 操作修改的动态表可以通过输出插入的行转换为流。
Retract 流： retract 流包含两种类型的 message： add messages 和 retract messages 。通过将INSERT 操作编码为 add message、将 DELETE 操作编码为 retract message、将 UPDATE 操作编码为更新(先前)行的 retract message 和更新(新)行的 add message，将动态表转换为 retract 流。下图显示了将动态表转换为 retract 流的过程。
Upsert 流: upsert 流包含两种类型的 message： upsert messages 和delete messages。转换为 upsert 流的动态表需要(可能是组合的)唯一键。通过将 INSERT 和 UPDATE 操作编码为 upsert message，将 DELETE 操作编码为 delete message ，将具有唯一键的动态表转换为流。消费流的算子需要知道唯一键的属性，以便正确地应用 message。与 retract 流的主要区别在于 UPDATE 操作是用单个 message 编码的，因此效率更高。下图显示了将动态表转换为 upsert 流的过程。

12.2 时间属性

12.2.1 处理时间

在创建表的 DDL 中定义

处理时间属性可以在创建表的 DDL 中用计算列的方式定义，用 PROCTIME() 就可以定义处理时间。

CREATE TABLE user_actions (
  user_name STRING,
  data STRING,
  user_action_time AS PROCTIME() -- 声明一个额外的列作为处理时间属性
) WITH (
  ...
);

SELECT TUMBLE_START(user_action_time, INTERVAL '10' MINUTE), COUNT(DISTINCT user_name)
FROM user_actions
GROUP BY TUMBLE(user_action_time, INTERVAL '10' MINUTE);

在 DataStream 到 Table 转换时定义

处理时间属性可以在 schema 定义的时候用 .proctime 后缀来定义。时间属性一定不能定义在一个已有字段上，所以它只能定义在 schem 定义的最后。

val stream: DataStream[(String, String)] = ...

// 声明一个额外的字段作为时间属性字段
val table = tEnv.fromDataStream(stream, $"UserActionTimestamp", $"user_name", $"data", $"user_action_time".proctime)

val windowedTable = table.window(Tumble over 10.minutes on $"user_action_time" as "userActionWindow")

使用 TableSource 定义

处理时间属性可以在实现了 DefinedProctimeAttribute 的 TableSource 中定义。逻辑的时间属性会放在 TableSource 已有物理字段的最后

// 定义一个由处理时间属性的 table source
class UserActionSource extends StreamTableSource[Row] with DefinedProctimeAttribute {

	override def getReturnType = {
		val names = Array[String]("user_name" , "data")
		val types = Array[TypeInformation[_]](Types.STRING, Types.STRING)
		Types.ROW(names, types)
	}

	override def getDataStream(execEnv: StreamExecutionEnvironment): DataStream[Row] = {
		// create stream
		val stream = ...
		stream
	}

	override def getProctimeAttribute = {
		// 这个名字的列会被追加到最后，作为第三列
		"user_action_time"
	}
}

// register table source
tEnv.registerTableSource("user_actions", new UserActionSource)

val windowedTable = tEnv
	.from("user_actions")
	.window(Tumble over 10.minutes on $"user_action_time" as "userActionWindow")

12.2.2 事件时间

在 DDL 中定义

事件时间属性可以用 WATERMARK 语句在 CREATE TABLE DDL 中进行定义。WATERMARK 语句在一个已有字段上定义一个 watermark 生成表达式，同时标记这个已有字段为时间属性字段。

CREATE TABLE user_actions (
  user_name STRING,
  data STRING,
  user_action_time TIMESTAMP(3),
  -- 声明 user_action_time 是事件时间属性，并且用 延迟 5 秒的策略来生成 watermark
  WATERMARK FOR user_action_time AS user_action_time - INTERVAL '5' SECOND
) WITH (
  ...
);

SELECT TUMBLE_START(user_action_time, INTERVAL '10' MINUTE), COUNT(DISTINCT user_name)
FROM user_actions
GROUP BY TUMBLE(user_action_time, INTERVAL '10' MINUTE);

在 DataStream 到 Table 转换时定义

事件时间属性可以用 .rowtime 后缀在定义 DataStream schema 的时候来定义。时间戳和 watermark 在这之前一定是在 DataStream 上已经定义好了。

在从 DataStream 到 Table 转换时定义事件时间属性有两种方式。取决于用 .rowtime 后缀修饰的字段名字是否是已有字段，事件时间字段可以是：

在 schema 的结尾追加一个新的字段
替换一个已经存在的字段。

不管在哪种情况下，事件时间字段都表示 DataStream 中定义的事件的时间戳。

// Option 1:

// 基于 stream 中的事件产生时间戳和 watermark
val stream: DataStream[(String, String)] = inputStream.assignTimestampsAndWatermarks(...)

// 声明一个额外的逻辑字段作为事件时间属性
val table = tEnv.fromDataStream(stream, $"user_name", $"data", $"user_action_time".rowtime)


// Option 2:

// 从第一个字段获取事件时间，并且产生 watermark
val stream: DataStream[(Long, String, String)] = inputStream.assignTimestampsAndWatermarks(...)

// 第一个字段已经用作事件时间抽取了，不用再用一个新字段来表示事件时间了
val table = tEnv.fromDataStream(stream, $"user_action_time".rowtime, $"user_name", $"data")

// Usage:

val windowedTable = table.window(Tumble over 10.minutes on $"user_action_time" as "userActionWindow")

使用 TableSource 定义

事件时间属性可以在实现了 DefinedRowTimeAttributes 的 TableSource 中定义。getRowtimeAttributeDescriptors() 方法返回 RowtimeAttributeDescriptor 的列表，包含了描述事件时间属性的字段名字、如何计算事件时间、以及 watermark 生成策略等信息。

同时需要确保 getDataStream 返回的 DataStream 已经定义好了时间属性。只有在定义了 StreamRecordTimestamp 时间戳分配器的时候，才认为 DataStream 是有时间戳信息的。只有定义了 PreserveWatermarks watermark 生成策略的 DataStream 的 watermark 才会被保留。反之，则只有时间字段的值是生效的。

// 定义一个有事件时间属性的 table source
class UserActionSource extends StreamTableSource[Row] with DefinedRowtimeAttributes {

	override def getReturnType = {
		val names = Array[String]("user_name" , "data", "user_action_time")
		val types = Array[TypeInformation[_]](Types.STRING, Types.STRING, Types.LONG)
		Types.ROW(names, types)
	}

	override def getDataStream(execEnv: StreamExecutionEnvironment): DataStream[Row] = {
		// 构造 DataStream
		// ...
		// 基于 "user_action_time" 定义 watermark
		val stream = inputStream.assignTimestampsAndWatermarks(...)
		stream
	}

	override def getRowtimeAttributeDescriptors: util.List[RowtimeAttributeDescriptor] = {
		// 标记 "user_action_time" 字段是事件时间字段
		// 给 "user_action_time" 构造一个时间属性描述符
		val rowtimeAttrDescr = new RowtimeAttributeDescriptor(
			"user_action_time",
			new ExistingField("user_action_time"),
			new AscendingTimestamps)
		val listRowtimeAttrDescr = Collections.singletonList(rowtimeAttrDescr)
		listRowtimeAttrDescr
	}
}

// register the table source
tEnv.registerTableSource("user_actions", new UserActionSource)

val windowedTable = tEnv
	.from("user_actions")
	.window(Tumble over 10.minutes on $"user_action_time" as "userActionWindow")

十三、Table API

详见官网：Table API

十四、Table API 自定义函数

略

你可能感兴趣的:(Flink,flink)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
全面指南：用户行为从前端数据采集到实时处理的最佳实践数字沉思营销流量运营系统架构前端内容运营大数据
引言在当今的数据驱动世界，实时数据采集和处理已经成为企业做出及时决策的重要手段。本文将详细介绍如何通过前端JavaScript代码采集用户行为数据、利用API和Kafka进行数据传输、通过Flink实时处理数据的完整流程。无论你是想提升产品体验还是做用户行为分析，这篇文章都将为你提供全面的解决方案。设计一个通用的ClickHouse表来存储用户事件时，需要考虑多种因素，包括事件类型、时间戳、用户信
详解 Flink 的常见部署方式文刀小桂 Flink flink 大数据
一、常见部署模式分类1.按是否依赖外部资源调度1.1Standalone模式独立模式(Standalone)是独立运行的，不依赖任何外部的资源管理平台，只需要运行所有Flink组件服务1.2Yarn模式Yarn模式是指客户端把Flink应用提交给Yarn的ResourceManager,Yarn的ResourceManager会在Yarn的NodeManager上创建容器。在这些容器上，Flink
大数据之flink与hive 星辰_mya 大数据 flink hive
其实吧我不太想写flink，因为线上经验确实不多，这也是我需要补的地方，没有条件创造条件，先来一篇吧flink：高性能低延迟流批一体的分布式计算框架基于事件时间对实时数据精准处理快速响应支持批处理，高效离线分析和数据挖掘数据仓库的引擎丰富数据源/接收器，集成多种数据存储格式和源，比较常见就是咱们今天的主题hive了checkpoint恢复机制，故障恢复快速恢复计算任务分布式弹性扩展，据业务灵活增加
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
一文搞懂 Flink Task 数据交互之数据写源码 mn_kw flink 交互 java
一文搞懂FlinkTask数据交互之数据写源码1.RecordWriterOutput2.RecordWriter3.数据分区器ChannelSelector4.数据输出模型ResultPartition5.子模型ResultSubpartition6.本地buffer池LocalBufferPool7.获取buffer8.将buffer添加到ResultSubpartitionFlink重要源码
概率图模型（PGM）综述医学影像处理概率图模型概率图模型综述
RefLink:http://www.sigvc.org/bbs/thread-728-1-1.htmlGraphicalModel的基本类型基本的GraphicalModel可以大致分为两个类别：贝叶斯网络(BayesianNetwork)和马尔可夫随机场(MarkovRandomField)。它们的主要区别在于采用不同类型的图来表达变量之间的关系：贝叶斯网络采用有向无环图(DirectedAc
Python基础知识进阶之正则表达式_头歌python正则表达式进阶前端陈萨龙程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
大数据新视界 --大数据大厂之Flink强势崛起：大数据新视界的璀璨明珠青云交大数据新视界 Flink 大数据数据类型实时处理流处理框架对比应用场景数据处理大数据新视界数据库
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：Ja
flink增量检查点降低状态依赖实现的详细步骤 goTsHgo Flink 大数据分布式 flink 大数据
增量检查点启动恢复的时间是很久的，业务上不能接受，所以可以通过降低状态依赖来减少恢复的时间。降低状态依赖尽可能减少状态的复杂性和依赖关系，通过拆分状态或将状态外部化到其他服务中，从而降低恢复的开销。实施措施：将状态分割为更小的单元，减少每次恢复的状态量。使用外部状态存储服务，减少Flink状态后端的负担。拆分状态和将状态外部化到其他服务可以帮助减少作业的状态依赖，从而降低恢复时间和复杂度。以下是详
flink table factory基础知识 loukey_j
一、概述在flink中很多组件都是TableFactory的子类。比如序列化，反序列化，tableSinkFactory,tableSourceFactory.TableFactory是用来创建序列化，反序列器，tableSource和tableSink的工厂。二、TableFactory源码在flink框架中，TableFactory的子类并不是程序员自己随心new出来的。flink的提供给程序
2024年最全使用Python求解方程_python解方程(1)，字节面试官迟到 2401_84569545 程序员 python 学习面试
最后硬核资料：关注即可领取PPT模板、简历模板、行业经典书籍PDF。技术互助：技术群大佬指点迷津，你的问题可能不是问题，求资源在群里喊一声。面试题库：由技术群里的小伙伴们共同投稿，热乎的大厂面试真题，持续更新中。知识体系：含编程语言、算法、大数据生态圈组件（Mysql、Hive、Spark、Flink）、数据仓库、Python、前端等等。网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是
01-Flink安装部署及入门案例（仅供学习），音视频时代你还不会NDK开发小猪佩琪962 2024年程序员学习 flink 学习大数据
先自我介绍一下，小编浙江大学毕业，去过华为、字节跳动等大厂，目前阿里P7深知大多数程序员，想要提升技能，往往是自己摸索成长，但自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！因此收集整理了一份《2024年最新大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵
比较Spark与Flink 傲雪凌霜，松柏长青大数据后端 spark flink 大数据
ApacheSpark和ApacheFlink都是目前非常流行的大数据处理引擎，但它们在架构、处理模式、应用场景等方面有一些显著的区别。下面是二者的对比：1.处理模式Spark:主要支持批处理（BatchProcessing），也能通过SparkStreaming处理流式数据，但SparkStreaming本质上是通过微批（micro-batching）的方式处理流数据，延迟相对较高。SparkS
Apache Flink：实时流处理与批处理的统一框架小码快撩 flink 大数据
导语在大数据处理领域，流处理和批处理是两种主要的处理方式。然而，传统的系统通常将这两者视为独立的任务，需要不同的工具和框架来处理。ApacheFlink是一个开源的流处理框架，它打破了这种界限，提供了一个统一的平台来处理实时流数据和批处理数据。一、基本概念与架构ApacheFlink的基本概念与架构主要包括以下几个核心组成部分：基本概念1.流处理模型：无界流(UnboundedStreams):数
flink独立集群部署嘎子吱吱吱吱 flink hadoop linux
#flink独立集群部署说明安装环境三台服务器47.106.23.1（master）47.112.173.2（worker1）47.115.162.3（worker1）提前装好jdk和ssh,以下操作最好不要用root账号提前下载好flink的包并解压设置三台服务器之间ssh免密登录生成本机秘钥以47.106.23.1为例（其他两台参考本服务器）#生成本机秘钥cd;ssh-keygen-trsa-
Flink的时间与watermarks详解大数据技术与数仓
当我们在使用Flink的时候，避免不了要和时间(time)、水位线(watermarks)打交道，理解这些概念是开发分布式流处理应用的基础。那么Flink支持哪些时间语义？Flink是如何处理乱序事件的？什么是水位线？水位线是如何生成的？水位线的传播方式是什么？让我们带着这些问题来开始本文的内容。时间语义基本概念时间是Flink等流处理中最重要的概念之一，在Flink中Time可以分为三种：Eve
实时数仓之实时数仓架构(Hudi)(1) 2401_84164527 程序员架构
目前比较流行的实时数仓架构有两类，其中一类是以Flink+Doris为核心的实时数仓架构方案；另一类是以湖仓一体架构为核心的实时数仓架构方案。本文针对Flink+Hudi湖仓一体架构进行介绍，这套架构的特点是可以基于一套数据完全实现Lambda架构。实时数仓架构图如下：技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据
2024年大数据最新实时数仓之实时数仓架构(Hudi) 2401_84185556 程序员大数据架构
技术框架Kafka：用于接入数据源；FlinkCDC：如果直接接入业务数据源可以考虑CDC方式，如果通过Kafka缓冲接入业务数据可以忽略;Flink：用于数据ETL，包括接入数据、处理数据及输出数据全链路数据计算任务；Spark：用于数据ETL，包括处理数据及输出数据全链路数据计算任务；Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；Doris：O
实时数仓之实时数仓架构(Hudi)(1)，2024年最新熬夜整理华为最新大数据开发笔试题 2401_84181221 程序员架构大数据
+Hudi：湖仓一体数据管理框架，用来管理模型数据，包括ODS/DWD/DWS/DIM/ADS等；+Doris：OLAP引擎，同步数仓结果模型，对外提供数据服务支持；+Hbase：用来存储维表信息，维表数据来源一部分有Flink加工实时写入，另一部分是从Spark任务生产，其主要作用用来支持FlinkETL处理过程中的LookupJoin功能。这里选用Hbase原因主要因为Table的HbaseC
Flink - CEP kikiki1
Hadoop3.2集群新版本的搭建详细讲解过程，从下面第一张官方的图来看，最新版是3.2，所以大猪将使用3.2的版本来演示，过程中遇到的坑留给自己，把路留给你们，IT之路还有大猪。大猪为了把文章压缩极简方便小伙伴阅读，将使用root帐号进行所有操作。准备两台主机10.211.55.11、10.211.55.12对应的hostname为m1.example.com、m2.example.com具体命
chapter01 Java语言概述知识点Note 月下绯烟 Java java 开发语言
JavaSEJavaEEJavaME大数据Java基础常用技术栈mysqlJDBCSSMspring+springmvc+mybatisLinuxnacosHadoopFlinkJAVAEE消息队列rabbitMQdocker数据库redisspringbootspringcloudsshstruts+spring+hibernate过时技术栈很少用JAVA虚拟机jvm分布式微服务高并发常见dos
【无标题】大数据之批处理，流处理，批流一体概念数字天下大数据
批处理批处理是将一定量的数据集合在一起，形成一个数据批次，然后对这个批次中的数据进行处理。Spark和Flink都支持批处理，其中Spark使用的是批处理模型，即将一批数据一次性读入内存，然后对其进行处理，处理完成后再将结果写入磁盘。Flink也支持批处理，但使用的是基于流处理的批处理模式，即将一批数据分成多个数据流进行处理，可以实现更高效的内存管理和更低的延迟。流处理流式处理是一种将数据流式地处
python flink_《Flink官方文档》Python 编程指南测试版 weixin_39846361 python flink
原文链接译者：hjjxd校对：清英Flink中的分析程序实现了对数据集的某些操作(例如，数据过滤，映射，合并，分组)。这些数据最初来源于特定的数据源(例如来自于读文件或数据集合)。操作执行的结果通过数据池以写入数据到(分布式)文件系统或标准输出(例如命令行终端)的形式返回。Flink程序可以运行在不同的环境中，既能够独立运行，也可以嵌入到其他程序中运行。程序可以运行在本地的JVM上，也可以运行在服
flink---window 搞数据的小杰 flink 大数据
Window介绍DataStream:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/datastream/operators/windows/SQL:https://nightlies.apache.org/flink/flink-docs-release-1.17/zh/docs/dev/table/
Flink(1.13) 的window机制(一) 万事万物
窗口概述在流处理应用中，数据是连续不断的，因此我们不可能等到所有数据都到了才开始处理。当然我们可以每来一个消息就处理一次，但是有时我们需要做一些聚合类的处理，例如：在过去的1分钟内有多少用户点击了我们的网页。在这种情况下，我们必须定义一个窗口，用来收集最近一分钟内的数据，并对这个窗口内的数据进行计算。流式计算是一种被设计用于处理无限数据集的数据处理引擎，而无限数据集是指一种不断增长的本质上无限的数
pyflink 自定义函数 scan724 Flink实时计算 python 开发语言
frompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.common.typeinfoimportTypesfrompyflink.datastreamimportStreamExecutionEnvironmentfrompyflink.tableimportStreamTableEnvironmentfrompyfli
flink 问题记录 Jhon_yh flink flink hadoop 大数据
文章目录1.Causedby:java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSums(IILjava/nio/ByteBuffer;ILjava/nio/ByteBuffer;IILjava/lang/String;JZ)V原因java.util.concurrent.Ex
Pyflink教程(三)：自定义函数 yuxj记录学习学习笔记学习 pyflink
该文章例子pyflink环境是apache-flink==1.13.6Python自定义函数是PyFlinkTableAPI中最重要的功能之一，其允许用户在PyFlinkTableAPI中使用Python语言开发的自定义函数，极大地拓宽了PythonTableAPI的使用范围。简单来说就是有的业务逻辑和需求是sql语句满足不了或太麻烦的，需要用过函数来实现。PythonUDFPythonUDF，即
pyflink 滚动窗口实例菜鸟社长菜鸟的大数据进阶之路大数据进阶之路 kafka big data python flink
写在前头：更多大数据相关精彩内容请进我的知识星球，每周定期更新正篇技术路线：模拟kafka生产者发送数据——>flink对kafka数据实时计算处理——>处理后的数据发送到kafka1、模拟客流数据的生产者，参考https://blog.csdn.net/qq_22611181/article/details/1199002502、flink聚合操作原理介绍，参考https://blog.csdn
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio

Flink - 尚硅谷- 大数据高级 Flink 技术精讲 - 2

七、Flink 时间语义与 Watermark

7.1 Flink 中的时间语义

7.2 设置 Event Time

7.3 水位线 - Watermark

7.3.1 基本概念

7.3.2 WaterMark 传递

7.3.3 WaterMark 注意点

7.3.4 Watermark Demo

八、ProcessFunction API（底层 API）

8.1 KeyedProcessFunction 和 定时器（Timers）

8.2 侧输出流（SlideOutput）

8.3 CoProcessFunction

九、状态编程和容错机制

9.1 Flink 中的状态

9.1.1 算子状态（Operator State）

9.1.2 键控状态（Keyed State）

9.1.3 状态后端（State Backends）

9.1.4 Demo

9.1.5 总结

9.2 状态一致性

9.2.1 概念

9.2.2 一致性检查点（checkpoint）

9.2.3 从检查点恢复状态

9.2.4 Flink 检查点算法

9.2.5 保存点（save points）

9.2.6 配置

9.2.7 总结

9.3 状态一致性分类

9.3.1 端到端（end to end）一致性

9.3.2 端到端的 exactly-once 保证

9.3.3 Flink + Kafka 如何实现端到端的 exactly-once

十、Table API & SQL

10.1 定义

10.2 pom

10.3 两种 planner（old & blink） 的区别

十一、Table API & SQL 调用

11.1 基本程序结构

11.2 创建表环境

11.3 在 Catalog 中注册表

11.3.1 表的概念

11.3.2 临时表 - TemporaryTable 和 永久表 - PermanentTable

11.3.3 创建表

11.3.4 连接到外部系统

11.4 表的查询

11.4.1 Table API

11.4.2 SQL

11.4.3 Demo

11.5 Table、View、流 的转换

11.5.1 Scala 隐式转换

11.5.2 DataSet/DataStream to View

11.5.3 DataStream/DataSet to Table

11.5.4 Table to DataStream

11.5.5 Table to DataSet

11.5.6 数据类型与 Schema 的映射

11.6 表的输出

11.6.1 更新模式

11.6.2 输出到文件

11.6.3 输出到 Kafka

11.6.4 输出到 ES

11.6.5 输出到 Mysql

11.7 Explaining

十二、Table API & SQL 流式概念

12.1 动态表

12.1.1 DataStream 上的关系查询

12.1.2 动态表 & 连续查询(Continuous Query)

12.1.3 更新和追加查询

12.1.4 查询限制

12.1.5 表到流的转换

12.2 时间属性

12.2.1 处理时间

12.2.2 事件时间

十三、Table API

十四、Table API 自定义函数

你可能感兴趣的:(Flink,flink)

8.1 KeyedProcessFunction 和定时器（Timers）

10.3 两种 planner（old & blink）的区别

11.3.2 临时表 - TemporaryTable 和永久表 - PermanentTable

11.5 Table、View、流的转换