分布式日志收集框架Flume简介及环境安装部署

最近在做一个基于Spark Streaming的实时流处理项目,之间用到了Flume来收集日志信息,所以在这里总结一下Flume的用法及原理.
Flume是一个分布式、高可靠、高可用、负载均衡的进行大量日志数据采集、聚合和并转移到存储中的框架, 基于流式架构,容错性强,也很灵活简单,主要用于在线实时的引用分析,只能在Unix环境下运行,底层源码由Java实现.
Flume目前常见的应用场景:日志—>Flume—>实时计算(如Kafka+Storm或者Spark Streaming) 、日志—>Flume—>离线计算(如HDFS、HBase)、日志—>Flume—>ElasticSearch。
分布式日志收集框架Flume简介及环境安装部署_第1张图片

Flume架构及核心组件:
分布式日志收集框架Flume简介及环境安装部署_第2张图片
multi-agent
分布式日志收集框架Flume简介及环境安装部署_第3张图片
更多架构图见用户文档
https://flume.apache.org/FlumeUserGuide.html

Flume主要分为三个组件:Source、Channel、Sink
1、Source负责日志流入,比如从文件、网络、Kafka等数据源流入数据,数据流入的方式有两种,轮训拉取和事件驱动;

2、Channel负责数据聚合/暂存,比如暂存到内存、本地文件、数据库、Kafka等,类似于缓冲区,日志数据不会在管道停留很长时间,很快会被Sink消费掉;

3、Sink负责数据转移到存储,比如从Channel拿到日志后直接存储到HDFS、HBase、Kafka、ElasticSearch等,然后再有如Hadoop、Storm、ElasticSearch之类的进行数据分析或查询。

一个Agent会同时存在这三个组件,Source和Sink都是异步执行的,相互之间不会影响。

要想学得好,官网少不了.https://flume.apache.org/

安装部署:
首先Java环境要配好,JDK1.7或者1.8,配好环境变量等等,这个应该都没问题,不多说了
Flume下载:http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.6.0-cdh5.7.1.tar.gz
自己选择相应版本即可
完成后解压缩,ls看到文件如下:
在这里插入图片描述
这里只需要注意bin和conf文件夹即可
现在将flume路径配置到环境变量里面
vi /etc/profile
分布式日志收集框架Flume简介及环境安装部署_第4张图片
source /etc/profile
然后输入 echo $FLUME_HOME即可看到flume的路径
/home/zq/apache-flume-1.6.0-cdh5.7.0-bin
开始配置:
依次执行以下命令

cd conf
cp flume-env.sh.template flume-env.sh

修改flume-env.sh文件
添加jdk路径
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64

检测是否安装成功:
查看版本信息
分布式日志收集框架Flume简介及环境安装部署_第5张图片
表示已经安装成功

你可能感兴趣的:(分布式日志收集框架Flume)