sparkstreaming之flume--Spark Streaming整合Flume的第一种方式FlumePush

package com.yys.spark

import org.apache.spark.SparkConf
import org.apache.spark.streaming.flume.FlumeUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Spark Streaming整合Flume的第一种方式
  */
object FlumePushWordCount {

  def main(args: Array[String]): Unit = {
//重构代码。使用参数,不写死服务器
    if(args.length != 2) {
      System.err.println("Usage: FlumePushWordCount ")
      System.exit(1)
    }
//定义参数使用args 传进来
    val Array(hostname, port) = args
    
    // val sparkConf = new SparkConf().setMaster("local[2]").setAppName("FlumePushWordCount")
    val sparkConf = new SparkConf() //.setMaster("local[2]").setAppName("FlumePushWordCount")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    //TODO... 如何使用SparkStreaming整合Flume
    //val flumeStream = FlumeUtils.createStream(ssc, "0.0.0.0",41414)
    val flumeStream = FlumeUtils.createStream(ssc, hostname, port.toInt)
    
    //先把内容数据event一下,事件拿到,再把body数据拿到,把数据变为字节数组,把空的数据trim一下,现在就是我们需要的数据
    //通过flatMap把我们需要的数据用空格进行拆分,把每一个单词赋为一个值1,再进行reduceByKey
    flumeStream.map(x=> new String(x.event.getBody.array()).trim)
      .flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).print()

    ssc.start()
    ssc.awaitTermination()
  }
}

你可能感兴趣的:(spark)