Flink 流处理 API_实现 UDF 函数——更细粒度的控制流

1 函数类(Function Classes)

Flink 暴露了所有 udf 函数的接口(实现方式为接口或者抽象类)。例如

MapFunction, FilterFunction, ProcessFunction 等等。

下面例子实现了 FilterFunction 接口:

class FilterFilter extends FilterFunction[String] { 
      override def filter(value: String): Boolean = {         
      value.contains("flink") 
      }

val flinkTweets = tweets.filter(new FlinkFilter)

还可以将函数实现成匿名类

val flinkTweets = tweets.filter( new RichFilterFunction[String] { 
        override def filter(value: String): Boolean = { 
            value.contains("flink") 
        } 
    } 
)

我们 filter 的字符串"flink"还可以当作参数传进去。

val tweets: DataStream[String] = ... 
val flinkTweets = tweets.filter(new KeywordFilter("flink")) 
 class KeywordFilter(keyWord: String) extends FilterFunction[String] { 
    override def filter(value: String): Boolean = { 
        value.contains(keyWord) 
    } 

 

2 匿名函数(Lambda Functions

val tweets: DataStream[String] = ... 
val flinkTweets = tweets.filter(_.contains("flink"))

 

3 富函数(Rich Functions

 

“富函数”是 DataStream API 提供的一个函数类的接口,所有 Flink 函数类都有其 Rich 版本。它与常规函数的不同在于,可以获取运行环境的上下文,并拥有一些生命周期方法,所以可以实现更复杂的功能。

  1. RichMapFunction
  2. RichFlatMapFunction
  3. RichFilterFunction

Rich Function 有一个生命周期的概念。典型的生命周期方法有:

  1. open()方法是 rich function 的初始化方法,当一个算子例如 map 或者 filter 被调用之前 open()会被调用。
  2. close()方法是生命周期中的最后一个调用的方法,做一些清理工作。
  3. getRuntimeContext()方法提供了函数的 RuntimeContext 的一些信息,例如函

数执行的并行度,任务的名字,以及 state 状态

class MyFlatMap extends RichFlatMapFunction[Int, (Int, Int)] { 
    var subTaskIndex = 0 
    override def open(configuration: Configuration): Unit = { 
        subTaskIndex = getRuntimeContext.getIndexOfThisSubtask 
        // 以下可以做一些初始化工作,例如建立一个和HDFS的连接 
    }  
    override def flatMap(in: Int, out: Collector[(Int, Int)]): Unit = {
        if (in % 2 == subTaskIndex) { 
            out.collect((subTaskIndex, in)) 
        } 
    }  
    override def close(): Unit = { 
        // 以下做一些清理工作,例如断开和HDFS的连接。 
    } 
}

你可能感兴趣的:(Flink)