Spark Streaming整合Flume&Kafka打造通用流处理基础

一、流程图

Spark Streaming整合Flume&Kafka打造通用流处理基础_第1张图片


首先服务器集群中将日志信息通过固定的主机名和端口号,对接到Flume中的Source,然后Flume将chanel中的数据按批次sink到Kafka中,即充当Kafka中的生产者,然后,kafka把生产的数据放入到broker list中,而再将Kafka与Spark Streaming 进行对接,即让Spark Streaming充当消费者,对数据进行处理(对接方式主要有两者,之前的博客里介绍过),最后将处理的结果存储到数据库中,而再用WEB UI将数据库的内容展示出来,形成一个界面分析图。

二、日志的产生

这里,我采用简单的Log4j的方式记录日志,并用开启一个循环的日志生成任务,代码如下:

import org.apache.log4j.Logger;

/**
 * 模拟日志产生
 */
public class LoggerGenerator {

    private static Logger logger = Logger.getLogger(LoggerGenerator.class.getName());

    public static void main(String[] args) throws Exception{

        int index = 0;
        while(true) {
            Thread.sleep(1000);
            logger.info("value : " + index++);
        }
    }
}

另外,我要注意到的是Log4j的配置文件:

log4j.rootLogger=INFO,stdout,flume

log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.target = System.out
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%p] - %m%n


log4j.appender.flume = org.apache.flume.clients.log4jappender.Log4jAppender
log4j.appender.flume.Hostname = hadoop000
log4j.appender.flume.Port = 41414
log4j.appender.flume.UnsafeMode = true

 需要主要到的是,前面的log4j是对控制台的输出,而后面的配置代码,是将Log4j的日志对接到Flume的source中,Hostname和Port设置为你们Flume的服务器主机和source的端口就可以了。

三、启动Flume接收日志

在Flume的安装目录里,进入conf文件夹,生成一个配置文件,此处我生成的是streaming.conf文件,内容如下:

agent1.sources=avro-source
agent1.channels=logger-channel
agent1.sinks=kafka-sink

#define source
agent1.sources.avro-source.type=avro
agent1.sources.avro-source.bind=0.0.0.0
agent1.sources.avro-source.port=41414

#define channel
agent1.channels.logger-channel.type=memory

#define sink
agent1.sinks.kafka-sink.type=org.apache.flume.sink.kafka.KafkaSink
agent1.sinks.kafka-sink.topic = streamingtopic
agent1.sinks.kafka-sink.brokerList = hadoop000:9092
agent1.sinks.kafka-sink.requiredAcks = 1
agent1.sinks.kafka-sink.batchSize = 20

agent1.sources.avro-source.channels=logger-channel
agent1.sinks.kafka-sink.channel=logger-channel
这配置意思就是从log4j里读取数据,然后sink到指定的Kafka里面,这样使得Flume把数据sink到Kafka中,相当于Kafka中的生产者一样。

启动Flume的命令如下:

flume-ng agent \
--conf $FLUME_HOME/conf \
--conf-file $FLUME_HOME/conf/streaming2.conf \
--name agent1 \
-Dflume.root.logger=INFO,console

四、启动Kafka

1.首先启动zookeeper

2.启动Kafka server

3.创建kafka的topics

4.启动Kafka的消费者,指定topic和zookeeper,为了调通方便,此处也可以用到控制台的消费,即把生产的数据在直接在控制台上打印出来,更方便联调。

四、启动SparkStreaming对Kafka进行数据的消费

这里的Demo类似于我之前写的SparkStreaming与Kafka的对接,我现在采用的是第一种方式做个简单的演示:

import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * Spark Streaming对接Kafka
  */
object KafkaStreamingApp {

  def main(args: Array[String]): Unit = {

    if(args.length != 4) {
      System.err.println("Usage: KafkaStreamingApp    ")
    }

    val Array(zkQuorum, group, topics, numThreads) = args

    val sparkConf = new SparkConf().setAppName("KafkaReceiverWordCount")
      .setMaster("local[2]")

    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap

    // TODO... Spark Streaming如何对接Kafka
    val messages = KafkaUtils.createStream(ssc, zkQuorum, group,topicMap)

    // TODO... 自己去测试为什么要取第二个
    messages.map(_._2).count().print()

    ssc.start()
    ssc.awaitTermination()
  }
}
 然后本地调试的话,直接在IDEA里运行就可以,也可以根据我之前写的一样,在Spark上用Spark-submit进行启动任务。

六、总结

我们现在是在本地进行测试的,在IDEA中运行LoggerGenerator,然后使用Flume、Kafka以及Spark Streaming进行处理操作。

在生产上肯定不是这么干的,具体步骤如下:
1) 打包jar,执行LoggerGenerator类
2) Flume、Kafka和我们的测试是一样的
3) Spark Streaming的代码也是需要打成jar包,然后使用spark-submit的方式进行提交到环境上执行
可以根据你们的实际情况选择运行模式:local/yarn/standalone/mesos

在生产上,整个流处理的流程都一样的,区别在于业务逻辑的复杂性。



你可能感兴趣的:(Spark,Flume,SparkStreaming,Kafka)