SparkStreaming之updateStateByKey

SparkStreaming之updateStateByKey_第1张图片

SparkStreaming之updateStateByKey_第2张图片

我们一直执行 hadoop fs -put a.txt /hdfs 的话,
第1次执行是(spark,4)
第2次执行是(spark,4)
第3次执行是(spark,4)

但是如果我们想要这种效果呢?
第1次执行是(spark,4)
第2次执行是(spark,8)
第3次执行是(spark,12)

这样的话,就重用了历史数据。

package com.llcc.sparkSql.MyTimeSort

import org.apache.spark.streaming.StreamingContext
import org.apache.spark.SparkConf
import org.apache.spark.streaming.Seconds

object NetWordCountUpdateStateByKey {
  def main(args: Array[String]): Unit = {
    /**
      * local[1]  中括号里面的数字都代表的是启动几个工作线程
  

你可能感兴趣的:(大数据-spark)