Flink系列:Transformation API使用方法

 

Transformation自带DataSet算子

  • Map:输入一个元素,然后返回一个元素,中间可以进行清洗转换等操作。
  • FlatMap :输入一个元素,可以返回零个、一个或者多个元素。
  • Filter :过滤函数,对传入的数据进行判断,符合条件的数据会被留下。
  • KeyBy :根据指定的Key进行分组,Key相同的数据会进入同一个分区。

KeyBy的两种典型用法

  • DataStream.keyBy("someKey")指定对象中的someKey段作为分组Key。
  • DataStream.keyBy(0)指定Tuple中的第一个元素作为分组Key。
  • Reduce :对数据进行聚合操作,结合当前元素和上一次Reduce返回的值进行聚 合操作,然后返回一个新的值。
  • Aggregations : sum()、min()、max()等。
  • Distinct:返回数据集去重之后的元素。
  • Join :内 连接。
  • OuterJoin: 链接
  • Cross :获取两个数据集的笛卡尔积。
  • Union :合并多个流,新的流会包含所有流中的数据,但是Union有一个限制, 就是所有合并的流类型必须是一致的。
  • Connect :和Union类似,但是只能连接两个流,两个流的数据类型可以不同,会 对两个流中的数据应用不同的处理方法。

 

自定义

Flink系列:自定义Transformation转换函数

你可能感兴趣的:(Flink)