Flume.apache.org 官方文档学习笔记 part three

flume 源 
  avro 源
      监听 Avro的端口和从外部的Avro客户端数据流接收事件,当built-Avro 接收器和另一个流代理配对时,他可以创建层列式收集拓扑,所需的属性用粗体表示了:
      Flume.apache.org 官方文档学习笔记 part three_第1张图片

  Example for agent named a1:

    

a1.sources = r1
a1.channels = c1
a1.sources.r1.type = avro
a1.sources.r1.channels = c1
a1.sources.r1.bind = 0.0.0.0
a1.sources.r1.port = 4141

    ipFilterRules 的例子

    ipFilter 定义由逗号分割的N个netty ipFilter模式规则必须采用此格式。

    <'allow'或deny>:<'ip'或'name'代表计算机名>:或allow / deny:ip / name:pattern

    示例:ipFilterRules = allow:ip:127。*,allow:name:localhost,deny:ip:*
 
    请注意,这个第一个规则去匹配的时候会申请展示客户端到本地,就像下面的这个例子一样。

     这将会允许本地客户端拒绝其他任意ip地址的客户端:"allow:name:localhost,deny:ip:" 这将会拒绝本地客户端去允许来自其他ip的客户端:"deny:name:localhost,allow:ip"


     Thrift 源

     监听 Thrift端口 并且接收从外部Thrift客户端数据流发来的事件。当built-Avro 接收器和另一个流代理配对时,他可以创建层列式收集拓扑,Thrift源可以被配置用安全模式启动,去接收身份认证,代理-principal 和 代理-keytab 是Thrift源 认证kberberos KDC所需要的属性。所需的属性用粗体表示了:

    

Flume.apache.org 官方文档学习笔记 part three_第2张图片

    代理a1的示例:
    a1.sources = r1
    a1.channels = c1
    a1.sources.r1.type = thrift
    a1.sources.r1.channels = c1
    a1.sources.r1.bind = 0.0.0.0
    a1.sources.r1.port = 4141

    执行源:
    执行源运行一个给出的unix 命令去开启并且期待那些进程不断地产生数据在标准输出上。(标准错误流是被抛弃的,除非logStdErr的属性被设置成true)。如果进程不管什么原因退出,这个源也会退出并且不会进一步产生数据。 这表示像cat [name pipe] 或者 tail -F[file]这样的配置会产生期望的结果,但是date 可能不会- 前两个命令产生数据流,而后者产生单个事件并退出。

    必需属性以粗体显示:
        

 

Flume.apache.org 官方文档学习笔记 part three_第3张图片

     

    警告: 执行源和其他异步源的问题是,如果无法将事件放入信道中,则源无法保证客户端知道他。这种情况下,这些数据会损失掉。 例如,一个最常请求的功能是“tail -F 【file】”- 其中这种应用程序写入到磁盘的日志文件,Flume将文件作为尾部发送,将这些行作为一个事件发送。虽然这是可能的,但是有一个明显的问题,如果频道填满并且Flume无法发送时间,会发生什么? 由于某种原因,flume无法向编写日志文件的应用程序指示他需要保留日志或事件尚未发送。如果这没有意义,您只需要会自动啊:当使用ExecSource 等单向异步接口时,您的应用程序永远无法保证收到数据!作为此警告的延伸-并且完全清除-使用此源时,事件传递绝对没有保证。为了获得更强的可靠性保证,请考虑Spooling Source,Taildir Source或通过sdk直接与Flume集成。
    代理名为a1的示例:
        a1.sources = r1
    a1.channels = c1
    a1.sources.r1.type = exec
    a1.sources.r1.command = tail -F /var/log/secure
    a1.sources.r1.channels = c1

    该shell 配置用于通过命令shell(如Bash或Powershell)调用命令。‘command’作为参数传递给‘shell’以便执行。这允许‘命令’,使用shell中的功能,例如通配符。后退标识,管道,循环,条件等。 如果没有‘shell’配置,将直接调用‘command’。 为‘外壳’共同值:''/bin/sh-c'.'/bin/ksh -c' ,'powershell -Command',等等。

你可能感兴趣的:(BigData)