首先服务器集群中将日志信息通过固定的主机名和端口号,对接到Flume中的Source,然后Flume将chanel中的数据按批次sink到Kafka中,即充当Kafka中的生产者,然后,kafka把生产的数据放入到broker list中,而再将Kafka与Spark Streaming 进行对接,即让Spark Streaming充当消费者,对数据进行处理(对接方式主要有两者,之前的博客里介绍过),最后将处理的结果存储到数据库中,而再用WEB UI将数据库的内容展示出来,形成一个界面分析图。
这里,我采用简单的Log4j的方式记录日志,并用开启一个循环的日志生成任务,代码如下:
import org.apache.log4j.Logger;
/**
* 模拟日志产生
*/
public class LoggerGenerator {
private static Logger logger = Logger.getLogger(LoggerGenerator.class.getName());
public static void main(String[] args) throws Exception{
int index = 0;
while(true) {
Thread.sleep(1000);
logger.info("value : " + index++);
}
}
}
另外,我要注意到的是Log4j的配置文件:
log4j.rootLogger=INFO,stdout,flume
log4j.appender.stdout = org.apache.log4j.ConsoleAppender
log4j.appender.stdout.target = System.out
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d{yyyy-MM-dd HH:mm:ss,SSS} [%t] [%c] [%p] - %m%n
log4j.appender.flume = org.apache.flume.clients.log4jappender.Log4jAppender
log4j.appender.flume.Hostname = hadoop000
log4j.appender.flume.Port = 41414
log4j.appender.flume.UnsafeMode = true
需要主要到的是,前面的log4j是对控制台的输出,而后面的配置代码,是将Log4j的日志对接到Flume的source中,Hostname和Port设置为你们Flume的服务器主机和source的端口就可以了。
在Flume的安装目录里,进入conf文件夹,生成一个配置文件,此处我生成的是streaming.conf文件,内容如下:
agent1.sources=avro-source
agent1.channels=logger-channel
agent1.sinks=kafka-sink
#define source
agent1.sources.avro-source.type=avro
agent1.sources.avro-source.bind=0.0.0.0
agent1.sources.avro-source.port=41414
#define channel
agent1.channels.logger-channel.type=memory
#define sink
agent1.sinks.kafka-sink.type=org.apache.flume.sink.kafka.KafkaSink
agent1.sinks.kafka-sink.topic = streamingtopic
agent1.sinks.kafka-sink.brokerList = hadoop000:9092
agent1.sinks.kafka-sink.requiredAcks = 1
agent1.sinks.kafka-sink.batchSize = 20
agent1.sources.avro-source.channels=logger-channel
agent1.sinks.kafka-sink.channel=logger-channel
这配置意思就是从log4j里读取数据,然后sink到指定的Kafka里面,这样使得Flume把数据sink到Kafka中,相当于Kafka中的生产者一样。启动Flume的命令如下:
flume-ng agent \
--conf $FLUME_HOME/conf \
--conf-file $FLUME_HOME/conf/streaming2.conf \
--name agent1 \
-Dflume.root.logger=INFO,console
1.首先启动zookeeper
2.启动Kafka server
3.创建kafka的topics
4.启动Kafka的消费者,指定topic和zookeeper,为了调通方便,此处也可以用到控制台的消费,即把生产的数据在直接在控制台上打印出来,更方便联调。
这里的Demo类似于我之前写的SparkStreaming与Kafka的对接,我现在采用的是第一种方式做个简单的演示:
import org.apache.spark.SparkConf
import org.apache.spark.streaming.kafka.KafkaUtils
import org.apache.spark.streaming.{Seconds, StreamingContext}
/**
* Spark Streaming对接Kafka
*/
object KafkaStreamingApp {
def main(args: Array[String]): Unit = {
if(args.length != 4) {
System.err.println("Usage: KafkaStreamingApp ")
}
val Array(zkQuorum, group, topics, numThreads) = args
val sparkConf = new SparkConf().setAppName("KafkaReceiverWordCount")
.setMaster("local[2]")
val ssc = new StreamingContext(sparkConf, Seconds(5))
val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
// TODO... Spark Streaming如何对接Kafka
val messages = KafkaUtils.createStream(ssc, zkQuorum, group,topicMap)
// TODO... 自己去测试为什么要取第二个
messages.map(_._2).count().print()
ssc.start()
ssc.awaitTermination()
}
}
然后本地调试的话,直接在IDEA里运行就可以,也可以根据我之前写的一样,在Spark上用Spark-submit进行启动任务。
我们现在是在本地进行测试的,在IDEA中运行LoggerGenerator,然后使用Flume、Kafka以及Spark Streaming进行处理操作。
在生产上肯定不是这么干的,具体步骤如下:
1) 打包jar,执行LoggerGenerator类
2) Flume、Kafka和我们的测试是一样的
3) Spark Streaming的代码也是需要打成jar包,然后使用spark-submit的方式进行提交到环境上执行
可以根据你们的实际情况选择运行模式:local/yarn/standalone/mesos
在生产上,整个流处理的流程都一样的,区别在于业务逻辑的复杂性。