wangzhongyudie

FLink学习笔记：13-Flink 的Table API的Window和UDF

文章目录

Table API的Window操作
- Group Windows
- - 时间语义的设定和watermark的生成
  - 分组滚动窗口
  - - 方式一：Table API的实现
    - 方式二：SQL实现
    - 完整示例
  - 分组滑动窗口
  - - 方式一：Table Api实现
    - 方式二：SQL实现
  - 分组会话窗口
  - - 方式一:Table API 实现
    - 方式二：SQL实现
- OverWindow
- - 方式一：Table Api实现
  - 方式二：SQL实现
Flink Table的函数和UDF
- 常用的系统内置函数
- - 数学计算函数
  - 字符串处理函数
  - 时间处理函数
  - 类型转换函数
- 自定义函数UDF
- - 标量函数 ScalarFunction
  - - 概述
    - 示例实现自定义函数实现截取字符串
  - 表值函数 TableFunction
  - - 概述
    - 示例：实现自定义表函数实现拆分字段
  - 聚合函数 UDAGG
  - - 示例：自定义聚合函数，求平均值
  - 表值聚合函数 TableAggregateFunction
  - - 示例：实现top-2 表值聚合函数

Table API的Window操作

时间语义，要配合窗口操作才能发挥作用。最主要的用途，当然就是开窗口、根据时间段做计算了。下面我们就来看看 Table API 和 SQL 中，怎么利用时间字段做窗口操作。在 Table API 和 SQL 中，主要有两种窗口：Group Windows 和 Over Windows

Group Windows

分组窗口（Group Windows）会根据时间或行计数间隔，将行聚合到有限的组（Group）中，并对每个组的数据执行一次聚合函数。

Table API 中的 Group Windows 都是使用.window（w:GroupWindow）子句定义的，并且必须由 as 子句指定一个别名。为了按窗口对表进行分组，窗口的别名必须在 group by 子句中，像常规的分组字段一样引用。

时间语义的设定和watermark的生成

在使用时间窗口时，也需要通DataStream API一样设定时间语义，以及对乱序数据流的watermark设定。在上一篇笔记中已经有了详细的说明。

分组滚动窗口

语法： .window(Tumble over [窗口Size].[时间单位] on [时间字段] as [窗口的别名])

over: 定义窗口大小
时间单位：seconds,minutes,hours,days,months,years
时间字段：在表schema中定义的时间字段
as：别名，必须出现在构面的groupBy中
on:用来分组(可以按照时间间隔或者按照行数)的时间间断，按照行数时只能用于processTime的字段。

方式一：Table API的实现

val inputTable = tableEnv.fromDataStream(
  datastream,
  Schema
    .newBuilder()
    .column("id", DataTypes.STRING().notNull())
    .column("timestamp", DataTypes.BIGINT().notNull())
    .column("temperature", DataTypes.DOUBLE())
    .columnByExpression(
      "rowtime",
      "CAST(TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`)) AS TIMESTAMP(3))")
    .watermark("rowtime", "rowtime - interval '5' SECONDS ")
    .build()
)
//滚动时间窗口
val result = inputTable
  .window(Tumble over 5.seconds on 'rowtime as 'w)
  .groupBy('w, 'id)
  .select($"id",
          $"temperature".max() as "max_temperature",
          $"w".start() as "start",
          $"w".end() as "end",
          $"w".rowtime())

方式二：SQL实现

sql中语法：tumble(时间字段，interval ‘[窗口大小]’ [时间单位])
另外还提供一些辅助方法，如：

TUMBLE_START(rowtime,interval ‘10’ second)
TUMBLE_END(rowtime,interval ‘10’ second)
TUMBLE_ROWTIME(rowtime,interval ‘10’ second)
TUMBLE_PROCTIME(rowtime,interval ‘10’ second)
定义一个滚动窗口，第一个参数是时间字段，第二个参数是窗口长度。


val inputTable = tableEnv.fromDataStream(
  datastream,
  Schema
    .newBuilder()
    .column("id", DataTypes.STRING().notNull())
    .column("timestamp", DataTypes.BIGINT().notNull())
    .column("temperature", DataTypes.DOUBLE())
    .columnByExpression(
      "rowtime",
      "CAST(TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`)) AS TIMESTAMP(3))")
    .watermark("rowtime", "rowtime - interval '5' SECONDS ")
    .build()
)

//方式二：SQL查询
tableEnv.createTemporaryView("sensor_view", inputTable)
val strSql =
  """
    |SELECT
    |id,
    |tumble_start(rowtime, interval '5' second) as w_start,
    |tumble_end(rowtime,interval '5' second) as w_end,
    |max(temperature) as max_temperature
    |from sensor_view
    |group by
    |id,
    |tumble(rowtime, interval '5' second)
  """.stripMargin
val sqlResult = tableEnv.sqlQuery(strSql)

完整示例

package com.hjt.yxh.hw.tableapitest
import java.time.Duration
import com.hjt.yxh.hw.apitest.SensorReading
import org.apache.flink.api.common.eventtime.{
  SerializableTimestampAssigner,
  WatermarkStrategy
}
import org.apache.flink.streaming.api.scala.StreamExecutionEnvironment
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api._
import org.apache.flink.table.api.EnvironmentSettings
import org.apache.flink.table.api.bridge.scala.StreamTableEnvironment

object TimeWindowTest {
  def main(args: Array[String]): Unit = {

    //构建环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    val datastream = env
      .readTextFile(
        "D:\\LearnWorkSpace\\FlinkDemo\\src\\main\\resources\\Data\\sensor.txt")
      .filter(_.nonEmpty)
      .map(data => {
        val array = data.split(",")
        SensorReading(array(0), array(1).toLong, array(2).toDouble)
      })
      .assignTimestampsAndWatermarks(
        WatermarkStrategy
          .forBoundedOutOfOrderness[SensorReading](Duration.ofSeconds(3))
          .withTimestampAssigner(
            new SerializableTimestampAssigner[SensorReading] {
              override def extractTimestamp(element: SensorReading,
                                            recordTimestamp: Long): Long = {
                element.timestamp * 1000L
              }
            })
      )

    //构建table环境
    val tableEnvironmentSettings = EnvironmentSettings
      .newInstance()
      .inStreamingMode()
      .build()

    val tableEnv = StreamTableEnvironment.create(env, tableEnvironmentSettings)

    val inputTable = tableEnv.fromDataStream(
      datastream,
      Schema
        .newBuilder()
        .column("id", DataTypes.STRING().notNull())
        .column("timestamp", DataTypes.BIGINT().notNull())
        .column("temperature", DataTypes.DOUBLE())
        .columnByExpression(
          "rowtime",
          "CAST(TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`)) AS TIMESTAMP(3))")
        .watermark("rowtime", "rowtime - interval '5' SECONDS ")
        .build()
    )
//    val inputTable = tableEnv
//      .fromDataStream(datastream,
//                      $"id",
//                      $"timestamp",
//                      $"temperature",
//                      $"timestamp".rowtime as "rowtime")
//    inputTable.printSchema()

    //滚动窗口
    val result = inputTable
      .window(Tumble over 5 on 'rowtime as 'w)
      .groupBy('w, 'id)
      .select($"id",
              $"temperature".max() as "max_temperature",
              $"w".start() as "start",
              $"w".end() as "end",
              $"w".rowtime())

    //方式二：SQL查询
    tableEnv.createTemporaryView("sensor_view", inputTable)
    val strSql =
      """
        |SELECT
        |id,
        |tumble_start(rowtime, interval '5' second) as w_start,
        |tumble_end(rowtime,interval '5' second) as w_end,
        |max(temperature) as max_temperature
        |from sensor_view
        |group by
        |id,
        |tumble(rowtime, interval '5' second)
      """.stripMargin
    println(strSql)

    //滑动窗口
    val sqlResult = tableEnv.sqlQuery(strSql)
    tableEnv.toDataStream(result).print("table_api")
    tableEnv.toDataStream(sqlResult).print("sql")
    env.execute()

  }
}

分组滑动窗口

滑动窗口（Sliding windows）要用 Slide 类来定义，另外还有四个方法：

over：定义窗口长度
every：定义滑动步长
on：用来分组（按时间间隔）或者排序（按行数）的时间字段
as：别名，必须出现在后面的 groupBy 中
eg: Slide over 15.seconds() every 5.seconds() on

方式一：Table Api实现

val result = inputTable
  .window(Slide over 15.seconds() every 5.seconds() on 'rowtime as 'w)
  .groupBy('w, 'id)
  .select($"id",
    $"temperature".max() as "max_temperature",
    $"w".start() as "start",
    $"w".end() as "end",
    $"w".rowtime())

方式二：SQL实现

SQL中使用Hop(时间字段，interval1，interval2)定义一个滑动窗口

第一个参数是时间字段
第二个参数是窗口滑动步长
第三个是窗口长度
另外还提供一些辅助方法，如：
HOP_START(rowtime,interval ‘10’ second,INTERVAL ‘5’ second)
HOP_END(rowtime,interval ‘10’ second,INTERVAL ‘5’ second)
HOP_ROWTIME(rowtime,interval ‘10’ second,INTERVAL ‘5’ second)
HOP_PROCTIME(rowtime,interval ‘10’ second,INTERVAL ‘5’ second)

tableEnv.createTemporaryView("sensor_view", inputTable)
val strSql =
  """
    |SELECT
    |id,
    |max(temperature) as max_temperature,
    |hop_start(rowtime, interval '5' second, interval '15' second) as w_start,
    |hop_end(rowtime, interval '5' second, interval '15' second) as w_end,
    |hop_rowtime(rowtime, interval '5' second, interval '15' second)
    |from sensor_view
    |group by
    |id,
    |hop(rowtime, interval '5' second, interval '15' second)
  """.stripMargin
val sqlResult = tableEnv.sqlQuery(strSql)

分组会话窗口

方式一:Table API 实现

//会话窗口
val result = inputTable
.window(Session withGap 10.seconds() on 'rowtime as 'w)
.groupBy('w, 'id)
.select($"id",
  $"temperature".max() as "max_temperature",
  $"w".start() as "start",
  $"w".end() as "end",
  $"w".rowtime())

方式二：SQL实现

SQL中使用Session(rowtime, interval ‘10’ second)来定义一个会话窗口,
另外还提供一些辅助方法，如：

SESSION_START(rowtime,interval ‘10’ second)
SESSION_END(rowtime,interval ‘10’ second)
SESSION_ROWTIME(rowtime,interval ‘10’ second)
SESSION_PROCTIME(rowtime,interval ‘10’ second)

//方式二：SQL查询
tableEnv.createTemporaryView("sensor_view", inputTable)
val strSql =
"""
  |SELECT
  |id,
  |max(temperature) as max_temperature,
  |Session_start(rowtime, interval '10' second) as w_start,
  |Session_end(rowtime, interval '10' second) as w_end
  |from sensor_view
  |group by
  |id,
  |Session(rowtime, interval '10' second)
""".stripMargin
val sqlResult = tableEnv.sqlQuery(strSql)

OverWindow

Over window 聚合是标准 SQL 中已有的（Over 子句），可以在查询的 SELECT 子句中定义。

Over window 聚合，会针对每个输入行，计算相邻行范围内的聚合。

Over windows 使用.window（w:overwindows*）子句定义，并在 select（）方法中通过别名来引用。

方式一：Table Api实现

//Over窗口
val result = inputTable
.window(Over partitionBy 'id orderBy 'rowtime preceding 5.seconds() as 'w)
.select($"id",
  $"temperature".max() over $"w" as "max_temperature"
)

方式二：SQL实现

语法：Over(partition by [分区字段] order by [排序字段] range [Range Definitions])

partition by 按照某个字段分组
order by 排序字段，如果间隔是时间区间，必须按照时间字段排序

Range Definitions 区间定义

Range intevals 按照时间切分区间

RANGE BETWEEN INTERVAL '30' MINUTE PRECEDING AND CURRENT ROW

ROW intervals 按照行数定义区间

ROWS BETWEEN 10 PRECEDING AND CURRENT ROW WINDOW

//方式二：SQL查询
tableEnv.createTemporaryView("sensor_view", inputTable)
val strSql =
"""
  |SELECT
  |id,
  |max(temperature) over(
  |partition by id
  |order by rowtime
  |range between INTERVAL '5' SECOND PRECEDING AND CURRENT ROW
  |)as max_temperature
  |from sensor_view
""".stripMargin
val sqlResult = tableEnv.sqlQuery(strSql)

Flink Table的函数和UDF

常用的系统内置函数

数学计算函数

SQL函数	Table API	说明
POWER(num1,num2)	num1.power(num2)	返回num1的num2次方
ABS(num1)	num1.abs()	返回num1的绝对值
SQRT(num1)	num1.sqrt()	返回num1的平方根
RAND()	rand()	返回[0.0,1.0)之间的伪随机双精度值。
RAND(INT)	rand(Int)	返回[0.0,1.0)之间的伪随机双精度值,初始种子是INT。
RAND_INTEGER(INT)	randInteger(Int)	返回[0,INT)范围内的伪随机整数。
RAND_INTEGER(INT1,INT2)	randInteger(Int1,INT2)	返回[0,INT2)范围内的伪随机整数，初始种子是INT1。

字符串处理函数

SQL函数	Table API	说明
str1 \|\| str2	str1+str2	返回str1和str2的连接
REPLACE(str1,str2,str3)	str1.replace(str2,str3)	使用str3替换str1中所有出现的str2
UPPER(string)	STRING.upperCase()	以大写形式返回字符串。
LOWER(string)	STRING.lowerCase()	以小写形式返回字符串。
CHAR_LENGTH(string)	STRING.charLength()	返回字符串中的字符数。
CHARACTER_LENGTH(string)	STRING.charLength()	返回字符串中的字符数。
LTRIM(string)	STRING.ltrim()	返回从STRING中删除左边空格的字符串。
RTRIM(string)	STRING.rtrim()	返回从 STRING 中删除右边空格的字符串.

时间处理函数

SQL函数	Table API	说明
DATE string	STRING.toDate()	以“yyyy-MM-dd”的形式返回从字符串解析的 SQL 日期。
TIME string	STRING.toTime()	以“HH:mm:ss”的形式返回从字符串解析的 SQL 时间。
TIMESTAMP string	STRING.toTimestamp()	以“yyyy-MM-dd HH:mm:ss[.SSS]”的形式返回从字符串解析的 SQL 时间戳。
LOCALTIME	localTime()	返回本地时区的当前 SQL 时间，返回类型为 TIME(0)。在流模式下为每条记录进行取值。但在批处理模式下，它在查询开始时计算一次，并对每一行使用相同的结果。
LOCALTIMESTAMP	localTimestamp()	返回本地时区的当前 SQL 时间，返回类型为 TIMESTAMP(3)。在流模式下为每条记录进行取值。但在批处理模式下，它在查询开始时计算一次，并对每一行使用相同的结果。
CURRENT_TIME	currentTime()	返回本地时区的当前 SQL 时间，这是 LOCAL_TIME 的同义词。
CURRENT_DATE	currentDate()	返回本地时区中的当前 SQL 日期。在流模式下为每条记录进行取值。但在批处理模式下，它在查询开始时计算一次，并对每一行使用相同的结果。
CURRENT_TIMESTAMP	currentTimestamp()	返回本地时区的当前 SQL 时间戳，返回类型为 TIMESTAMP_LTZ(3)。在流模式下为每条记录进行取值。但在批处理模式下，它在查询开始时计算一次，并对每一行使用相同的结果。

类型转换函数

SQL函数	Table API	说明
CAST(value AS type)	ANY.cast(TYPE)	返回被强制转换为类型 type 的新值。例如 CAST(‘42’ AS INT) 返回 42； CAST(NULL AS VARCHAR) 返回 VARCHAR 类型的 NULL。
TYPEOF(input)	call(“TYPEOF”, input)	返回输入表达式的数据类型的字符串表示形式。默认情况下返回的字符串是一个摘要字符串，可能会为了可读性而省略某些细节
TYPEOF(input, force_serializable)	call(“TYPEOF”, input,force_serializable)	。如果 force_serializable 设置为 TRUE，则字符串表示可以保留在目录中的完整数据类型。请注意，特别是匿名的内联数据类型没有可序列化的字符串表示。在这种情况下返回 NULL。

自定义函数UDF

自定义函数（UDF）是一种扩展开发机制，可以用来在查询语句里调用难以用其他方式表达的频繁使用或自定义的逻辑。
当前 Flink 有如下几种函数：

标量函数将标量值转换成一个新标量值；
表值函数将标量值转换成新的行数据；
聚合函数将多行数据里的标量值转换成一个新标量值；
表值聚合函数将多行数据里的标量值转换成新的行数据；
异步表值函数是异步查询外部数据系统的特殊函数。

标量函数 ScalarFunction

概述

用户定义的标量函数，可以将 0、1 或多个标量值，映射到新的标量值。

为了定义标量函数，必须在 org.apache.flink.table.functions 中扩展基类 Scalar Function，并实现（一个或多个）求值（evaluation，eval）方法。

标量函数的行为由求值方法决定，求值方法必须公开声明并命名为 eval（直接 def 声明，没有 override）。求值方法的参数类型和返回类型，确定了标量函数的参数和返回类型。

示例实现自定义函数实现截取字符串

package com.hjt.yxh.hw.tableapitest

import com.hjt.yxh.hw.apitest.SensorReading
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.annotation.{DataTypeHint, FunctionHint}
import org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Schema}
import org.apache.flink.table.api.bridge.scala._
import org.apache.flink.table.api._
import org.apache.flink.table.functions.{ScalarFunction, TableFunction}
import org.apache.flink.types.Row

class MySubString extends ScalarFunction {
  def eval(s: String, begin: Integer, end: Integer): String = {
    return s.substring(begin, end)
  }

  def eval(s: String, begin: Integer): String = {
    s.substring(begin)
  }
}

object UDFTest {
  def main(args: Array[String]): Unit = {

    //构建环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setMaxParallelism(12)

    val datastream = env
      .readTextFile(
        "D:\\LearnWorkSpace\\FlinkDemo\\src\\main\\resources\\Data\\sensor.txt")
      .filter(_.nonEmpty)
      .map(data => {
        val array = data.split(",")
        SensorReading(array(0), array(1).toLong, array(2).toDouble)
      })

    //构建table环境
    val tableEnvironmentSettings = EnvironmentSettings
      .newInstance()
      .inStreamingMode()
      .build()

    val tableEnv = StreamTableEnvironment.create(env, tableEnvironmentSettings)

    val inputTable = tableEnv.fromDataStream(
      datastream,
      Schema
        .newBuilder()
        .column("id", DataTypes.STRING().notNull())
        .column("timestamp", DataTypes.BIGINT().notNull())
        .column("temperature", DataTypes.DOUBLE())
        .columnByExpression(
          "rowtime",
          "CAST(TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`)) AS TIMESTAMP(3))")
        .watermark("rowtime", "rowtime - interval '5' SECONDS ")
        .build()
    )

    //注册表
    tableEnv.createTemporaryView("sensor",inputTable)

    //注册函数--标量函数
    tableEnv.createTemporaryFunction("mySubstr", classOf[MySubString])
    val mySplit = new MySplit(" ")
    tableEnv.createTemporaryFunction("mySplit",mySplit)

    //tableApi 调用方式
    val result1 = inputTable.select(call(classOf[MySubString],$"id",2,5),$"timestamp")
    tableEnv.toDataStream(result1).print("result1")

    //SQL調用方式
    val result = tableEnv.sqlQuery("SELECT mySubstr(id,2,5),`timestamp` from sensor")
    tableEnv.toDataStream(result).print("result")
    env.execute("UDF test")
  }
}

表值函数 TableFunction

概述

与用户定义的标量函数类似，用户定义的表函数，可以将 0、1 或多个标量值作为输入参数；与标量函数不同的是，它可以返回任意数量的行作为输出，而不是单个值。为了定义一个表函数，必须扩展org.apache.flink.table.functions 中的基类

TableFunction并实现（一个或多个）求值方法。表函数的行为由其求值方法决定，求值方法必须是 public 的，并命名为 eval。求值方法的参数类型，决定表函数的所有有效参数。返回表的类型由 TableFunction 的泛型类型确定。求值方法使用 protected collect（T）方法发出输出行。

在 Table API 中，Table函数需要与.joinLateral或.leftOuterJoinLateral 一起使用。 joinLateral算子，会将外部表中的每一行，与表函数（TableFunction，算子的参数是它的表达式）计算得到的所有行连接起来。而 leftOuterJoinLateral算子，则是左外连接，它同样会将外部表中的每一行与表函数计算生成的所有行连接起来；并且，对于表函数返回的是空表的外部行，也要保留下来。

示例：实现自定义表函数实现拆分字段

package com.hjt.yxh.tableapi.udf

import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.{DataTypes, EnvironmentSettings, Schema}
import org.apache.flink.table.api.bridge.scala._

case class SensorReading(id: String, timestamp: Long, temperature: Double)

import org.apache.flink.table.annotation.DataTypeHint
import org.apache.flink.table.annotation.FunctionHint
import org.apache.flink.table.api._
import org.apache.flink.table.functions.TableFunction
import org.apache.flink.types.Row


@FunctionHint(output = new DataTypeHint("ROW"))
class MySplit(separator: String) extends TableFunction[Row] {
  def eval(s: String): Unit = {
    s.split(separator).foreach(word => collect(Row.of(word, Int.box(word.length))))
  }
}

object UDFTest {
  def main(args: Array[String]): Unit = {

    //构建环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment
    env.setMaxParallelism(12)

    val datastream = env
      .readTextFile(
        "D:\\java_workspace\\hadoop\\FlinkDemo\\src\\main\\resources\\Data\\sensor.txt")
      .filter(_.nonEmpty)
      .map(data => {
        val array = data.split(",")
        SensorReading(array(0), array(1).toLong, array(2).toDouble)
      })

    //构建table环境
    val tableEnvironmentSettings = EnvironmentSettings
      .newInstance()
      .inStreamingMode()
      .build()

    val tableEnv = StreamTableEnvironment.create(env, tableEnvironmentSettings)

    val inputTable = tableEnv.fromDataStream(
      datastream,
      Schema
        .newBuilder()
        .column("id", DataTypes.STRING().notNull())
        .column("timestamp", DataTypes.BIGINT().notNull())
        .column("temperature", DataTypes.DOUBLE())
        .columnByExpression(
          "rowtime",
          "CAST(TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`)) AS TIMESTAMP(3))")
        .watermark("rowtime", "rowtime - interval '5' SECONDS ")
        .build()
    )

    //注册表
    tableEnv.createTemporaryView("sensor", inputTable)

    //注册函数
    tableEnv.createTemporaryFunction("mySplit", new MySplit("_"))

    //tableApi 调用方式
    val result1 = inputTable
      .leftOuterJoinLateral(call("mySplit", $"id")).select($"word", $"len", $"id")
    tableEnv.toDataStream(result1).print("result1")

    //SQL調用方式
    val result = tableEnv.sqlQuery("SELECT id,word,len from sensor left join lateral table(mySplit(id))  on true ")

    //SQL重命名
    val result2 = tableEnv.sqlQuery("SELECT id,newWord,newLen from sensor left join lateral table(mySplit(id)) AS T(newWord,newLen)  on true ")
    tableEnv.toDataStream(result).print("result2")
    env.execute("UDF test")
  }
}

聚合函数 UDAGG

自定义聚合函数（UDAGG）是把一个表（一行或者多行，每行可以有一列或者多列）聚合成一个标量值。

上面的图片展示了一个聚合的例子。假设你有一个关于饮料的表。表里面有三个字段，分别是 id、name、price，表里有 5 行数据。假设你需要找到所有饮料里最贵的饮料的价格，即执行一个 max() 聚合。你需要遍历所有 5 行数据，而结果就只有一个数值。

自定义聚合函数是通过扩展 AggregateFunction 来实现的。AggregateFunction 的工作过程如下。首先，它需要一个 accumulator，它是一个数据结构，存储了聚合的中间结果。通过调用 AggregateFunction 的 createAccumulator() 方法创建一个空的 accumulator。接下来，对于每一行数据，会调用 accumulate() 方法来更新 accumulator。当所有的数据都处理完了之后，通过调用 getValue 方法来计算和返回最终的结果。

下面几个方法是每个 AggregateFunction 必须要实现的：

createAccumulator()
accumulate()
getValue()

Flink 的类型推导在遇到复杂类型的时候可能会推导出错误的结果，比如那些非基本类型和普通的 POJO 类型的复杂类型。所以跟 ScalarFunction 和 TableFunction 一样，AggregateFunction 也提供了 AggregateFunction#getResultType() 和 AggregateFunction#getAccumulatorType() 来分别指定返回值类型和 accumulator 的类型，两个函数的返回值类型也都是 TypeInformation。

除了上面的方法，还有几个方法可以选择实现。这些方法有些可以让查询更加高效，而有些是在某些特定场景下必须要实现的。例如，如果聚合函数用在会话窗口（当两个会话窗口合并的时候需要 merge 他们的 accumulator）的话，merge() 方法就是必须要实现的。

AggregateFunction 的以下方法在某些场景下是必须实现的：

retract() 在 bounded OVER 窗口中是必须实现的。
merge() 在许多批式聚合和会话以及滚动窗口聚合中是必须实现的。除此之外，这个方法对于优化也很多帮助。例如，两阶段聚合优化就需要所有的 AggregateFunction 都实现 merge 方法。
resetAccumulator() 在许多批式聚合中是必须实现的。

AggregateFunction 的所有方法都必须是 public 的，不能是static的，而且名字必须跟上面写的一样。createAccumulator、getValue、getResultType 以及 getAccumulatorType 这几个函数是在抽象类AggregateFunction中定义的，而其他函数都是约定的方法。如果要定义一个聚合函数，你需要扩展org.apache.flink.table.functions.AggregateFunction，并且实现一个（或者多个）accumulate 方法。accumulate 方法可以重载，每个方法的参数类型不同，并且支持变长参数。

示例：自定义聚合函数，求平均值

package com.hjt.yxh.hw.tableapitest.udf
import com.hjt.yxh.hw.apitest.SensorReading
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.api.bridge.scala._
import org.apache.flink.table.api._
import org.apache.flink.table.functions.AggregateFunction
import org.apache.flink.table.planner.{JDouble, JInt}

class AvgAcc {
  var sum: JDouble = 0.00
  var count: JInt = 0
}

class MyAvgFunction extends AggregateFunction[JDouble, AvgAcc] {
  override def getValue(accumulator: AvgAcc): JDouble = {
    accumulator.sum / accumulator.count
  }

  override def createAccumulator(): AvgAcc = {
    new AvgAcc
  }
  
  def accumulate(accumulator: AvgAcc, temperature: JDouble): Unit = {
    accumulator.count += 1
    accumulator.sum += temperature
  }
}

object AggUDFTest {
  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    val tableSettings =
      EnvironmentSettings.newInstance().inBatchMode().build()

    val tableEnv = StreamTableEnvironment.create(env, tableSettings)

    val inputPath =
      "D:\\LearnWorkSpace\\FlinkDemo\\src\\main\\resources\\Data\\sensor.txt"
    val dataStream = env
      .readTextFile(inputPath)
      .filter(_.nonEmpty)
      .map(data => {
        val arr = data.split(",")
        SensorReading(arr(0), arr(1).toLong, arr(2).toDouble)
      })

    //创建表
    val inputTable = tableEnv.fromDataStream(
      dataStream,
      Schema
        .newBuilder()
        .column("id", DataTypes.STRING())
        .column("timestamp", DataTypes.BIGINT())
        .column("temperature", DataTypes.DOUBLE())
        .columnByExpression(
          "rowtime",
          "CAST(TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`)) AS TIMESTAMP(3))")
        .watermark("rowtime", "rowtime - INTERVAL '5' SECOND")
        .build()
    )

    //注册表
    tableEnv.createTemporaryView("sensor", inputTable)

    //注册自定义函数
    tableEnv.createTemporaryFunction("myAvg", new MyAvgFunction)

    //使用自定义函数
    val result1 = inputTable
      .groupBy($"id")
      .aggregate(call("myAvg", $"temperature") as "avg_temperature")
      .select($"id", $"avg_temperature")
    tableEnv.toDataStream(result1).print("table")

    //SQL中使用
    val result2 = tableEnv.sqlQuery("""
                                      |SELECT
                                      |   id,
                                      |   myAvg(temperature) as avg_temperature
                                      |FROM sensor group by id
                                    """.stripMargin)
    tableEnv.toDataStream(result2).print("sql")

    env.execute("UDF Test")

  }
}

表值聚合函数 TableAggregateFunction

自定义表值聚合函数（UDTAGG）可以把一个表（一行或者多行，每行有一列或者多列）聚合成另一张表，结果中可以有多行多列。

上图展示了一个表值聚合函数的例子。假设你有一个饮料的表，这个表有 3 列，分别是 id、name 和 price，一共有 5行。假设你需要找到价格最高的两个饮料，类似于 top2()表值聚合函数。你需要遍历所有 5 行数据，结果是有 2 行数据的一个表。

用户自定义表值聚合函数是通过扩展 TableAggregateFunction 类来实现的。一个 TableAggregateFunction 的工作过程如下。首先，它需要一个 accumulator，这个 accumulator 负责存储聚合的中间结果。通过调用 TableAggregateFunction 的 createAccumulator 方法来构造一个空的accumulator。接下来，对于每一行数据，会调用 accumulate 方法来更新 accumulator。当所有数据都处理完之后，调用 emitValue 方法来计算和返回最终的结果。

下面几个 TableAggregateFunction 的方法是必须要实现的：

createAccumulator()
accumulate()

Flink 的类型推导在遇到复杂类型的时候可能会推导出错误的结果，比如那些非基本类型和普通的 POJO 类型的复杂类型。所以类似于 ScalarFunction 和TableFunction，TableAggregateFunction 也提供了TableAggregateFunction#getResultType() 和TableAggregateFunction#getAccumulatorType() 方法来指定返回值类型和accumulator 的类型，这两个方法都需要返回 TypeInformation。

除了上面的方法，还有几个其他的方法可以选择性的实现。有些方法可以让查询更加高效，而有些方法对于某些特定场景是必须要实现的。比如，在会话窗口（当两个会话窗口合并时会合并两个 accumulator）中使用聚合函数时，必须要实现merge() 方法。

下面几个 TableAggregateFunction 的方法在某些特定场景下是必须要实现的：

retract() 在 bounded OVER 窗口中的聚合函数必须要实现。
merge() 在许多批式聚合和以及流式会话和滑动窗口聚合中是必须要实现的。
resetAccumulator() 在许多批式聚合中是必须要实现的。
emitValue() 在批式聚合以及窗口聚合中是必须要实现的。
下面的 TableAggregateFunction 的方法可以提升流式任务的效率：

emitUpdateWithRetract() 在 retract 模式下，该方法负责发送被更新的值。
emitValue 方法会发送所有 accumulator 给出的结果。拿 TopN 来说，emitValue 每次都会发送所有的最大的 n 个值。这在流式任务中可能会有一些性能问题。为了提升性能，用户可以实现 emitUpdateWithRetract 方法。这个方法在 retract 模式下会增量的输出结果，比如有数据更新了，我们必须要撤回老的数据，然后再发送新的数据。如果定义了 emitUpdateWithRetract 方法，那它会优先于 emitValue 方法被使用，因为一般认为 emitUpdateWithRetract 会更加高效，因为它的输出是增量的。

TableAggregateFunction 的所有方法都必须是 public 的、非 static 的，而且名字必须跟上面提到的一样。createAccumulator、getResultType 和 getAccumulatorType 这三个方法是在抽象父类 TableAggregateFunction 中定义的，而其他的方法都是约定的方法。要实现一个表值聚合函数，你必须扩展 org.apache.flink.table.functions.TableAggregateFunction，并且实现一个（或者多个）accumulate 方法。accumulate 方法可以有多个重载的方法，也可以支持变长参数。

示例：实现top-2 表值聚合函数

package com.hjt.yxh.hw.tableapitest.udf

import com.hjt.yxh.hw.apitest.SensorReading
import org.apache.flink.streaming.api.scala._
import org.apache.flink.table.annotation.{DataTypeHint, FunctionHint}
import org.apache.flink.table.api.bridge.scala.StreamTableEnvironment
import org.apache.flink.table.api._
import org.apache.flink.table.functions.TableAggregateFunction
import org.apache.flink.table.planner.JDouble
import org.apache.flink.types.Row
import org.apache.flink.util.Collector

class Top2Acc {
  var first: JDouble = Double.MinValue
  var second: JDouble = Double.MinValue
}

//提取所有温度中温度值最高的两个温度，
@FunctionHint(output = new DataTypeHint("ROW"))
class Top2AggFunction extends TableAggregateFunction[Row, Top2Acc] {
  override def createAccumulator(): Top2Acc = {
    new Top2Acc
  }

  def accumulate(acc: Top2Acc, temperature: JDouble): Unit = {
    if (temperature > acc.first) {
      acc.second = acc.first
      acc.first = temperature
    } else if (temperature > acc.second) {
      acc.second = temperature
    }
  }

  def emitValue(acc: Top2Acc, out: Collector[Row]): Unit = {
    out.collect(Row.of(acc.first, Int.box(1)))
    out.collect(Row.of(acc.second, Int.box(2)))
  }

}

object TableUAggTest {
  def main(args: Array[String]): Unit = {

    val env = StreamExecutionEnvironment.getExecutionEnvironment

    val tableSettings =
      EnvironmentSettings
        .newInstance()
        .inStreamingMode()
        .build()

    val tableEnv = StreamTableEnvironment.create(env, tableSettings)

    val inputPath =
      "D:\\LearnWorkSpace\\FlinkDemo\\src\\main\\resources\\Data\\sensor.txt"
    val dataStream = env
      .readTextFile(inputPath)
      .filter(_.nonEmpty)
      .map(data => {
        val arr = data.split(",")
        SensorReading(arr(0), arr(1).toLong, arr(2).toDouble)
      })

    //创建表
    val inputTable = tableEnv.fromDataStream(
      dataStream,
      Schema
        .newBuilder()
        .column("id", DataTypes.STRING())
        .column("timestamp", DataTypes.BIGINT())
        .column("temperature", DataTypes.DOUBLE().notNull())
        .columnByExpression(
          "rowtime",
          "CAST(TO_TIMESTAMP(FROM_UNIXTIME(`timestamp`)) AS TIMESTAMP(3))")
        .watermark("rowtime", "rowtime - INTERVAL '5' SECOND")
        .build()
    )

    //注册表
    tableEnv.createTemporaryView("sensor", inputTable)

    //注册自定义函数
    tableEnv.createTemporaryFunction("myTop2", new Top2AggFunction)

    //使用自定义函数
    val result1 = inputTable
      .groupBy($"id")
      .flatAggregate(call("myTop2", $"temperature"))
      .select($"id", $"tempera", $"rank")
    tableEnv.toRetractStream[Row](result1).print("table").setParallelism(1)

    env.execute("UDF Test")

  }
}

你可能感兴趣的:(FLink,大数据,flink,学习,sql,scala)

机器学习驱动的智能化电池管理技术与应用满木悦电池化学机器人化学电池机器学习人工智能硕博研究生
在人工智能与电池管理技术融合的背景下，电池科技的研究和应用正迅速发展，创新解决方案层出不穷。从电池性能的精确评估到复杂电池系统的智能监控，从数据驱动的故障诊断到电池寿命的预测优化，人工智能技术正以其强大的数据处理能力和模式识别优势，推动电池管理领域的技术进步。据最新研究动态，目前在电池管理领域的人工智能应用主要集中在以下几个方面：1.状态估计：包括电池的荷电状态（SOC）和健康状态（SOH）的实时
Kubernetes Init 容器：实现 Nginx 和 PHP 对 MySQL 的依赖检查曹天骄 kubernetes nginx php
在设计KubernetesPod时，如果需要在启动Nginx和PHP之前等待MySQL启动完成，可以通过初始化容器（initC）来实现。初始化容器可以用于检查MySQL是否可用，只有在MySQL可用后，才会继续启动主容器（Nginx和PHP）。设计思路初始化容器（initC）:使用一个简单的脚本或工具（如mysql-client）来检查MySQL服务是否可用。如果MySQL可用，初始化容器成功退出
目标检测YOLO实战应用案例100讲-基于深度学习的无人机目标检测算法轻量化研究（中）林聪木目标检测 YOLO 深度学习
目录基于改进YOLOv5的无人机图像实时目标检测4.1引言4.2基于改进YOLOv5的目标检测模型结构4.3消融实验及结果分析4.4算法迁移验证实验基于Jetson-Xavier的模型优化部署5.1引言5.2基于人在回路的目标检测模型裁剪5.3嵌入式实时目标检测交互软件基于深度学习的无人机目标检测算法轻量化研究知识拓展基于YOLOv8/YOLOv7/YOLOv6/YOLOv5的无人机目标检测1.数
MyBatis-Plus 的加载及初始化一个public的class java mybatis
在SpringBoot启动过程中，MyBatis-Plus的加载和初始化涉及多个阶段的工作。这些工作包括MyBatis-Plus自身的配置解析、Mapper接口的扫描与注册、SQL语句的动态注入以及底层MyBatis的初始化等。以下是对整个过程的详细分析：1.SpringBoot启动时对MyBatis-Plus的加载SpringBoot在启动时会对MyBatis-Plus进行自动配置（AutoCo
OpenCV 基础模块 Python 版 ice_junjun OpenCV opencv python 计算机视觉
OpenCV基础模块权威指南（Python版）一、模块全景图plaintextOpenCV架构(v4.x+)├─核心层│├─core：基础数据结构与操作（Mat/Scalar/Point）│└─imgproc：图像处理流水线（滤波→变换→检测）├─交互层│├─highgui：GUI与媒体I/O（显示/捕获/交互）│└─video：视频分析（运动检测/目标跟踪）├─3D视觉层│└─calib3d：相
腾讯面经，有点难度~ 后端go
今天分享组织内的朋友在腾讯安全的实习面经。内容涵盖了QPS测试方法、SQL聚合查询、Linux进程管理、Redis数据结构与持久化、NAT原理、Docker隔离机制、Go语言GMP调度模型、协程控制、系统调用流程、变量逃逸分析及map操作等等知识点。下面是我整理的面经详解：面经详解一个表，里面有数据列，id，name,class，查学生最喜欢的前10个课程，sql语句实现SELECTclass,C
SQL中体会多对多 PlumCarefree sql 数据库
我们可以根据学生与课程多对多关系的数据库模型，给出实际的表数据以及对应的查询结果示例，会用到JOIN``LEFTJOIN两种连接1.学生表（students）student_idstudent_name1张三2李四3王五2.课程表（courses）course_idcourse_name1数学2英语3物理3.选课表（student_courses）idstudent_idcourse_id1112
云智慧：拥抱AI算法驱动的智能运维服务创新引擎
随着信息化、数字化、智能化的加码，企业对人工智能、大数据等技术应用呈现出明显兴趣，海笔研究对国内中型规模企业调研表明，在2020年，54.1%的企业选择购买人工智能类应用，41.9%的企业选择购买大数据及BI类应用，各类产品软件的应用大幅提升了企业信息系统复杂度，以及运维管理难度。业务发展催生服务需求从系统管理者角度出发，信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等，
梯度下降法理论理解伶星37 机器学习人工智能
梯度下降法：看似原始却透露着机器学习的本质前提：在研究梯度下降方法之前，你要理解矩阵运算（解析解）的方法矩阵运算目前的缺点只能进行对线性函数经行分析，无法对复杂的函数经行分析什么是梯度，以及梯度向量梯度下降的形象例子以及基本思想有三个兄弟被困在山上，得要死，他们目标是看谁尽快找到山谷中的水源老大比较后选择最陡的方向随便探索一下，就朝较低处走去探测几下就走陡峭的方向梯度下降算法的核心思想就是沿着负梯
MybatisPlus 伶星37 spring boot 后端
代码部分添加依赖该代码添加位置：就是在springboot配置文件里面的pom.xml里面要添加的东西对新手说的话，如果这一步没有看懂的话，可以去看一下基础，否则这样的话不能做到理解学习//mybatis-plus的一个插件com.baomidoumybatis-plus-boot-starter3.4.2//这个是关于mysql的一种依赖mysqlmysql-connector-java5.1.
英伟达开源超强模型Nemotron-70B；OpenAI推出Windows版ChatGPT桌面客户端 go2coding AI日报 chatgpt
AI新闻英伟达开源超强模型Nemotron-70B摘要：英伟达近日开源了新型AI模型Nemotron-70B，迅速超越GPT-4o和Claude3.5Sonnet，成为AI社区的新宠。该模型在多项基准测试中表现优异，采用混合训练方法和人类反馈强化学习，模型权重已在HuggingFace发布。Niemotron-70B的开发基于Llama-3.1，且开源数据集加强其训练效果。分析指出，英伟达的策略是
头歌实践教学平台 Python程序设计实训答案（三）学习的锅头哥实践教学平台实训答案 python
第七阶段文件实验一文本文件的读取第1关：学习-Python文件之文本文件的读取任务描述本关任务：使用open函数以只写的方式打开文件，打印文件的打开方式。相关知识为了完成本关任务，你需要掌握：文本文件；open函数及其参数；文件打开模式；文件对象常用属性；关闭文件close函数。#请在下面的Begin-End之间按照注释中给出的提示编写正确的代码##########Begin###########
C++开发内存监控工具推荐点云SLAM 开发工具开发环境 c++开发语言 AddProperty gperftools Address 内存监控访问越界
在C++开发中，内存管理是至关重要的，尤其是当程序处理大数据或长时间运行时，内存泄漏或不当使用可能导致性能下降或崩溃。以下是几种常见且有效的内存监控工具，它们可以帮助开发者实时分析、诊断和优化程序的内存使用。1.ValgrindValgrind是一个广泛使用的内存调试和性能分析工具，它的Memcheck工具可以帮助你检查程序中的内存泄漏、内存越界、未初始化内存使用等问题。特点：检测内存泄漏。检查内
React Native：跨平台移动应用开发的强大框架冬冬小圆帽 react native react.js javascript
ReactNative介绍ReactNative是由Facebook开发并开源的一款基于JavaScript和React的跨平台移动应用开发框架。它允许开发者使用React的语法和组件模型来构建原生移动应用（iOS和Android）。ReactNative的核心思想是“LearnOnce,WriteAnywhere”，即学习一次，编写多端应用。1.核心特点跨平台开发：使用JavaScript和Re
AI大模型产品经理学习路线，2025最新，从AI产品经理零基础入门到精通，非常详细收藏我这一篇够了！ AGI-杠哥人工智能产品经理学习语言模型 agi 自然语言处理
随着人工智能技术的发展，尤其是大模型（LargeModel）的兴起，越来越多的企业开始重视这一领域的投入。作为大模型产品经理，你需要具备一系列跨学科的知识和技能，以便有效地推动产品的开发、优化和市场化。以下是一份详细的大模型产品经理学习路线，旨在帮助你构建所需的知识体系，从零基础到精通。一、基础知识阶段1.计算机科学基础数据结构与算法：理解基本的数据结构（如数组、链表、树、图等）和常用算法（如排序
mongodb与爬虫的关系 getapi mongodb 爬虫数据库
MongoDB与爬虫之间的关系主要体现在数据存储和管理的层面。爬虫（WebCrawler或Spider）是一种自动化工具，用于从互联网上抓取网页内容或特定数据。而MongoDB是一个NoSQL数据库，常被用来存储和管理爬虫抓取到的数据。以下是它们之间关系的具体分析：1.爬虫的数据存储需求爬虫在运行过程中会抓取大量的非结构化或半结构化数据（例如HTML页面、JSON数据、图片链接等）。这些数据通常具
Java 大视界 -- Java 大数据在智慧农业精准灌溉与施肥决策中的应用（144）青云交大数据新视界 Java 大视界 java 大数据智慧农业精准灌溉施肥决策数据分析机器学习
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- 基于 Java 的大数据机器学习模型的多模态融合技术与应用（143）青云交大数据新视界 Java 大视界 java 大数据机器学习多模态融合智能安防智能客服数据处理
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
2025年第二届机器学习与神经网络国际学术会议(MLNN 2025) 分享学术科研与论文的禁小默机器学习神经网络人工智能
重要信息官网：www.icmlnn.org时间：2025年4月22-24日地点：中国-重庆简介2025年第二届机器学习与神经网络国际学术会议（MLNN2025）围绕学习系统与神经网络的核心理论、关键技术和应用展开讨论，涵盖深度学习、计算机视觉、自然语言处理、强化学习等多个子领域，通过特邀报告、主题演讲、海报展示等形式，展示相关领域的最新研究成果和技术创新。征稿主题神经网络机器学习深度学习算法及应用
单节点MySQL部署 QX_hao MySQL mysql
Ubuntu22.04安装单节点Mysql步骤1：更新软件包列表并安装MySQL更新系统的软件包列表：sudoaptupdatesudoaptupgrade-y安装MySQLServer：sudoaptinstallmysql-server-y检查MySQL服务是否已启动：sudosystemctlstatusmysql如果没有运行，可以手动启动：sudosystemctlstartmysql步骤
字节跳动离职后，转行学起了AI大模型！该说不说，真的香！！小城哇哇人工智能 AI大模型语言模型 agi ai LLM 转行
个人自我介绍鄙人出生于南方小乡镇，为了走出小镇，在当地够拼够努力，不是自夸，确确实实也算得上“别人家的小孩”，至少在学习这件事情少，没有要家里人操过心。高考特别顺利，一个老牌985，具体哪个学校就不说了，不想给母校丢脸。毕业后，也算是“风光”地进入了字节跳动。做的是运维测试。在职期间刚入职的时候真的信心满满⛽️，但才3天就感受到了互联网头部公司的强度不是一般的大。明面上的早十晚八工作制完全不存在，
别只会用别人的模型了，自学Ai大模型，顺序千万不要搞反了！刚入门的小白必备！鸡腿爱学习人工智能学习自然语言处理服务器数据库
大家好，我是JackBytes，一个专注于将人工智能应用于日常生活的半吊子程序猿，平时主要分享AI、NAS、Docker、搞机技巧、开源项目等。在使用诸如DeepSeek、ChatGPT、豆包、文心一言等大模型之余，你是否知道这些大模型背后的技术原理是什么？假如让你从头开始学习大模型，你知道应该遵循什么样的路线嘛？今天给大家介绍一下Ai大模型的学习路线，顺序千万不要搞反了！，大家可以按照这个路线进
01.什么是MQTT？墨先森 NodeMCU与MQTT 物联网
目录00_前言01_简述02_特性03_MQTT运行机制00_前言本系列博客是基于NodeMCU平台来完成的一个物联网小项目，目的在于了解并学习MQTT协议，掌握MQTT协议的作用机制。以上。01_简述以下摘自百度百科MQTT(消息队列遥测传输)是ISO标准(ISO/IECPRF20922)下基于发布/订阅范式的消息协议。它工作在TCP/IP协议族上，是为硬件性能低下的远程设备以及网络状况糟糕的情
SQL Server 2022常见问题软件研究员数据库 sql server
根据本人多年使用数据库的经验，总结SQLServer2022数据库常见问题包含安装、链接、性能等问题，下面简单说下。一、安装失败问题主要是以下问题：1、硬件配置问题sqlServer2022运行的最低硬件配置要求：根据官网公布要求最低1G内存，最低6G可用磁盘空间，处理器速度1.4GHz，x64处理器；显示器Super-VGA(800x600)。注意：在这里我说的是最低配置。2、软件插件问题缺少.
python列表添加元素的三种方法定义集合数据对象_python 学习第三天可迭代对象（列表，字典，元组和集合）... weixin_39852491
列表，字典，元组和集合列表list列表是由一系列特定元素组成的，元素和元素之间没有任何关联关系，但他们之间有先后顺序关系列表是一种容器列表是序列的一种列表是可以被改变的序列Python中的序列类型简介（sequence）字符串（str）列表（list）元组（tuple）字节串（bytes）字节数组（bytearray）创建空列表的字面值L=[]#L绑定空列表创建非空列表：L=[1,’two’,3,
网安会有35岁中年危机吗，还有网安将来发展怎么样？网络安全工程师可以干到多大年龄认真写程序的强哥 web安全干货分享黑客技术网络安全渗透测试编程计算机
关于35岁中年危机这个问题，我想说，在网安行业里，这根本就不是个事儿！！与传统的IT行业不同，网安行业更加注重实战经验和技能深度，而不是单一的年龄因素。随着经验的积累，网络安全工程师在面对复杂问题时，反应更快、决策更准，这种价值是无法用年龄来衡量的。所以，只要你保持学习热情，不断提升自己的技能，35岁不仅不是终点，反而可能是你职业生涯的新起点。初入计算机行业的人或者想转行大学计算机相关专业准程序员
深度学习--概率 fantasy_arch 深度学习人工智能
1基本概率论1.1假设我们掷骰子，想知道1而不是看到另一个数字的概率，如果骰子是公司，那么所有6个结果(1..6),都有相同的可能发生，因此，我们可以说1发生的概率为1/6.然而现实生活中，对于我们从工厂收到的真实骰子，我们需要检查它是否有瑕疵，唯一的办法就是多投掷骰子，对于每个骰子观察到的[1.2...6]的概率随着投掷次数的增加，越来越接近1/6.导入必要的包%matplotlibinline
R.E.D.算法：革新文本分类的半监督学习新范式真智AI 算法 r语言分类人工智能学习
随着大型语言模型（LLMs）在解决问题方面的应用进入新时代，只有少数问题仍然存在不尽如人意的解决方案。大多数分类问题（在概念验证层面）可以通过良好的提示工程技术和自适应的上下文学习（ICL）示例，利用LLMs以70-90%的精确度/F1分数来解决。当您希望持续实现高于此水平的性能时——当提示工程不再足够时，会发生什么？分类难题文本分类是监督学习中最古老且最易理解的示例之一。鉴于这一前提，构建能够处
国内外的网络安全成难题，IPLOOK 2022年用产品筑起“护城墙” 爱浦路 IPLOOK 网络安全安全架构
《爱尔兰时报》和爱尔兰国家广播电台（RTE）于12月31日对2021年爱尔兰科技行业的赢家和弱点进行了年终盘点。双方纷纷表示，2021年爱尔兰科技行业最大的弱点是爱尔兰的网络安全，这一年是一场前所未有的灾难。随着人工智能、大数据、5G等新兴技术的发展，企业面临的威胁日益增加，信息安全的重要性变得越来越突显。现在我们把视线从爱尔兰的网络安全问题拉回到国内的网络安全现状。我国对网络安全问题保持时刻警惕
【大模型学习路线】从月薪6K到年薪35W，普通二本生转行大模型的逆袭之路：我的500小时崩溃实录与实战秘籍（附保姆级学习路线） AGI大模型学习学习人工智能大模型应用程序员 AI 大模型 AI大模型
摘要：26岁机械专业零基础转大模型，被面试官羞辱“非科班别做梦”，5个月死磕源码，现拿下3个大厂offer。踩过所有新人会踩的坑，总结出普通人高效突围的4个阶段+7个杀手级项目。（文末送自研《大模型避坑指南》+120G学习资料包）一、血泪教训：这些弯路我替你走了（小白必看）2023年3月12日，我在工地上画完第108张CAD图纸后，突然收到大学班群消息：“XX同学入职字节AILab，年薪50W+”
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

FLink学习笔记：13-Flink 的Table API的Window和UDF

文章目录

Table API的Window操作

Group Windows

时间语义的设定和watermark的生成

分组滚动窗口

方式一：Table API的实现

方式二：SQL实现

完整示例

分组滑动窗口

方式一：Table Api实现

方式二：SQL实现

分组会话窗口

方式一:Table API 实现

方式二：SQL实现

OverWindow

方式一：Table Api实现

方式二：SQL实现

Flink Table的函数和UDF

常用的系统内置函数

数学计算函数

字符串处理函数

时间处理函数

类型转换函数

自定义函数UDF

标量函数 ScalarFunction

概述

示例 实现自定义函数实现截取字符串

表值函数 TableFunction

概述

示例：实现自定义表函数实现拆分字段

聚合函数 UDAGG

示例：自定义聚合函数，求平均值

表值聚合函数 TableAggregateFunction

示例：实现top-2 表值聚合函数

你可能感兴趣的:(FLink,大数据,flink,学习,sql,scala)

示例实现自定义函数实现截取字符串