flume入门二(监控日志实时采集新增)

    我们的日志基本是从web服务中采集,那么flume有好的配置,接下来我将分别演示单台和多台聚合例子。

一、单台flum

    对于实时的日志flume采集修改配置source为exec,sink目前测试只是模拟打印出来,对于真正的生产环境我们是可以配置成Hdfs或者kafka,分别用于以后离线计算以及实时流计算处理。对于sink发送至kafak我将在后面的内容中写出,至于配置文件位置和如何启动我就不说了,上一节内容已经说明,直接上配置即可:

flume入门二(监控日志实时采集新增)_第1张图片

如上标注的文件是我们生产环境日志文件即可,此处我们可以在自己的文件夹上创建一个该文件进行模拟,然后我们来说明下下exec的配置,直接把官网的说明列出就一目了然:

flume入门二(监控日志实时采集新增)_第2张图片

接下来启动flume,然后模拟输入命令,如下两个图分别是输入和flume打印出来的内容

flume入门二(监控日志实时采集新增)_第3张图片
flume入门二(监控日志实时采集新增)_第4张图片

2)、多台

应用场景说明:接下来要演示的是多台服务聚合的场景(看下图一幕了然),例如我们有两天web服务,我们分别配置了flume,但是这两天没有没有HDFS服务,我们如何把这两个服务保存到hdfs中?其实就是两天日志的通过配置sink,然后将日志发送到存在HDFS服务商flume服务中即可。


flume入门二(监控日志实时采集新增)_第5张图片

好了,接下来我们就来演示上图的这种环境,我将用两天测试,用一台接收web服务的日志然后发送到另外一台flume中即可:

第一台配置如下(接收web服务配置):注意我们的sink的type要配置成avro

flume入门二(监控日志实时采集新增)_第6张图片

第二台配置(接收flume的配置):注意我们的source的type要配置成avro

flume入门二(监控日志实时采集新增)_第7张图片

如上配置好启动即可,然后在第一台服务模拟数据,第二台的日志就会打印出来。此处与单台模拟操作相同就不在展示。

总结:flume的核心其实就是sources、Channels、sinks

            配置的时候我们基本按照这四部走:1:配置source,2:配置Channel 3:配置Sink 4:把以上三个联系起来即可

            如果我们忘记命令可以在flume中直接输入flume-ng即可查看如下图:

flume入门二(监控日志实时采集新增)_第8张图片

    如何解决我们的数据从其他server移动到hadoop中?

        1)、shell脚本cp到hadoop中 hdfs -put,但是太麻烦不能及时

        2)、flume(比较好的选择)

    Flume的概述:flume是具有分布式、高效可用的,收集、聚合大量的日志文件的框架,并且可靠、扩展性强

    

你可能感兴趣的:(flume入门二(监控日志实时采集新增))