BedrockOfAI

Flume详细配置

Flume：
=====================
    Flume是一种分布式的、可靠的、可用的服务，可以有效地收集、聚合和移动大量的日志数据。
    它有一个基于流数据的简单而灵活的体系结构。
    它具有健壮性和容错能力，具有可调的可靠性机制和许多故障转移和恢复机制。
    它使用一个简单的可扩展数据模型，允许在线分析应用程序。

    

    source：源    
        对channel而言，相当于生产者，通过接收各种格式数据发送给channel进行传输

    channel：通道
        相当于数据缓冲区，接收source数据发送给sink

    sink：沉槽
        对channel而言，相当于消费者，通过接收channel数据通过指定数据类型发送到指定位置



Event：
===============
    flume传输基本单位：
        head + body
        
    

flume安装：
================
    1、解压
    2、符号链接
    3、配置环境变量并使其生效
    4、修改配置文件
        1)重命名flume-env.ps1.template为flume-env.ps1
        2)重命名flume-env.sh.template为flume-env.sh
        3)修改flume-env.sh，配置jdk目录,添加
            export JAVA_HOME=/soft/jdk

    5、flume 查看版本
         flume-ng version

        

flume使用：
=========================
    //flume可以将配置文件写在zk上

    //flume运行命令
    flume-ng agent -n a1 -f xxx.conf    /flume-ng agent -n xx -f xxx.conf

    agent:    a1
    source:    s1
    channel:c1
    sink:    n1

    使用方法：
        1、编写配置文件r_nc.conf
            # 将agent组件起名
            a1.sources = r1
            a1.sinks = k1
            a1.channels = c1

            # 配置source
            a1.sources.r1.type = netcat
            a1.sources.r1.bind = localhost
            a1.sources.r1.port = 8888

            # 配置sink
            a1.sinks.k1.type = logger

            # 配置channel
            a1.channels.c1.type = memory
            a1.channels.c1.capacity = 1000
            a1.channels.c1.transactionCapacity = 100

            # 绑定channel-source, channel-sink
            a1.sources.r1.channels = c1
            a1.sinks.k1.channel = c1

        2、启动flume，指定配置文件
            flume-ng agent -n a1 -f r_nc.conf

        3、启动另一个会话，进行测试
            nc localhost 8888


    //用户手册
        http://flume.apache.org/FlumeUserGuide.html

后台运行程序：
=============================================

    ctrl + z :将程序放在后台运行 =====> [1]+  Stopped                 flume-ng agent -n a1 -f r_nc.conf

    通过 bg %1 的方式将程序后台运行

    通过jobs查看后台任务

    通过  fg %1 的方式将程序放在前台运行

flume:
    海量日志数据的收集、聚合和移动


    flume-ng agent -n a1 -f xxx.conf


    source
        相对于channel是生产者    //netcat
    channel
        类似于缓冲区        //memory
    sink
        相对于channel是消费者    //logger

    
Event: 
    header + body
    k v     data


source:
============================================
    1、序列(seq)源：多用作测试
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = seq
        # 总共发送的事件个数
        a1.sources.r1.totalEvents = 1000    

        # 配置sink
        a1.sinks.k1.type = logger

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1
    
    2、压力(stress)源:多用作负载测试
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = org.apache.flume.source.StressSource
        # 单个事件大小,单位：byte
        a1.sources.r1.size = 10240
        # 事件总数
        a1.sources.r1.maxTotalEvents = 1000000

        # 配置sink
        a1.sinks.k1.type = logger

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1

    3、滚动目录(Spooldir)源：监听指定目录新文件产生，并将新文件数据作为event发送
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = spooldir
        # 设置监听目录
        a1.sources.r1.spoolDir = /home/centos/spooldir

        # 通过以下配置指定消费完成后文件后缀
        #a1.sources.r1.fileSuffix = .COMPLETED 

        # 配置sink
        a1.sinks.k1.type = logger

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1


    4、exec源    //通过执行linux命令产生新数据
            //典型应用 tail -F (监听一个文件,文件增长的时候，输出追加数据)
            //不能保证数据完整性，很可能丢失数据

        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = exec
        # 配置linux命令
        a1.sources.r1.command = tail -F /home/centos/readme.txt

        # 配置sink
        a1.sinks.k1.type = logger

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1

    5、Taildir源        //监控目录下文件
                //文件类型可通过正则指定
                //有容灾机制

        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = TAILDIR
        # 设置source组 可设置多个
        a1.sources.r1.filegroups = f1
        # 设置组员的监控目录和监控文件类型,使用正则表示,只能监控文件
        a1.sources.r1.filegroups.f1 = /home/centos/taildir/.*

        # 设置定位文件的位置
        # a1.sources.r1.positionFile     ~/.flume/taildir_position.json

        # 配置sink
        a1.sinks.k1.type = logger

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1


sink：
====================================
    1、fileSink    //多用作数据收集
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = netcat
        a1.sources.r1.bind = localhost
        a1.sources.r1.port = 8888

        # 配置sink
        a1.sinks.k1.type = file_roll
        # 配置目标文件夹
        a1.sinks.k1.sink.directory = /home/centos/file
        # 设置滚动间隔，默认30s，设为0则不滚动，成为单个文件
        a1.sinks.k1.sink.rollInterval = 0

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1

    2、hdfsSink        //默认以seqFile格式写入
                //k：LongWritable
                //v: BytesWritable
                //
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = netcat
        a1.sources.r1.bind = localhost
        a1.sources.r1.port = 8888
        
        # 配置sink
        a1.sinks.k1.type = hdfs
        # 配置目标文件夹
        a1.sinks.k1.hdfs.path = /flume/events/%y-%m-%d/
        # 配置文件前缀
        a1.sinks.k1.hdfs.filePrefix = events-
        # 滚动间隔，秒
        a1.sinks.k1.hdfs.rollInterval = 0
        # 触发滚动文件大小，byte
        a1.sinks.k1.hdfs.rollSize = 1024
        # 配置使用本地时间戳
        a1.sinks.k1.hdfs.useLocalTimeStamp = true
        # 配置输出文件类型，默认SequenceFile
        # DataStream文本格式,不能设置压缩编解码器
        # CompressedStream压缩文本格式，需要设置编解码器
        a1.sinks.k1.hdfs.fileType = DataStream


        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1

    3、hiveSink：        //hiveserver帮助：hive --service help
                //1、hive --service metastore 启动hive的metastore服务，metastore地址：thrift://localhost:9083
                //2、将hcatalog的依赖放在/hive/lib下，cp hive-hcatalog* /soft/hive/lib    (位置/soft/hive/hcatalog/share/hcatalog)
                //3、创建hive事务表
                //SET hive.support.concurrency=true;                                  
                  SET hive.enforce.bucketing=true;                                    
                  SET hive.exec.dynamic.partition.mode=nonstrict;                     
                  SET hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;
                  SET hive.compactor.initiator.on=true;                               
                  SET hive.compactor.worker.threads=1;
                  
                //create table myhive.weblogs(id int, name string, age int)
                  clustered by(id) into 2 buckets                                         
                  row format delimited                                                          
                  fields terminated by '\t'                                                     
                  stored as orc                                                                 
                  tblproperties('transactional'='true');                                        


        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = netcat
        a1.sources.r1.bind = localhost
        a1.sources.r1.port = 8888

        # 配置sink
        a1.sinks.k1.type = hive
        a1.sinks.k1.hive.metastore = thrift://127.0.0.1:9083
        a1.sinks.k1.hive.database = myhive
        a1.sinks.k1.hive.table = weblogs
        a1.sinks.k1.useLocalTimeStamp = true
        #输入格式，DELIMITED和json
        #DELIMITED    普通文本
        #json        json文件
        a1.sinks.k1.serializer = DELIMITED
        #输入字段分隔符,双引号
        a1.sinks.k1.serializer.delimiter = ","
        #输出字段分隔符,单引号
        a1.sinks.k1.serializer.serdeSeparator = '\t'
        #字段名称，","分隔，不能有空格
        a1.sinks.k1.serializer.fieldnames =id,name,age

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1

    4、hbaseSink            //SimpleHbaseEventSerializer将rowKey和col设置了默认值，不能自定义
                    //RegexHbaseEventSerializer可以手动指定rowKey和col字段名称

        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = netcat
        a1.sources.r1.bind = localhost
        a1.sources.r1.port = 8888
        
        # 配置sink
        a1.sinks.k1.type = hbase
        a1.sinks.k1.table = flume_hbase
        a1.sinks.k1.columnFamily = f1
        a1.sinks.k1.serializer = org.apache.flume.sink.hbase.RegexHbaseEventSerializer

        
        # 配置col正则手动指定
        # rowKeyIndex手动指定rowKey，索引以0开头
        a1.sinks.k1.serializer.colNames = ROW_KEY,name,age
        a1.sinks.k1.serializer.regex = (.*),(.*),(.*)
        a1.sinks.k1.serializer.rowKeyIndex=0

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1

    
    5、asynchbaseSink        //异步hbaseSink
                    //异步机制，写入速度快
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = netcat
        a1.sources.r1.bind = localhost
        a1.sources.r1.port = 8888
        
        # 配置sink
        a1.sinks.k1.type = asynchbase
        a1.sinks.k1.table = flume_hbase
        a1.sinks.k1.columnFamily = f1
        a1.sinks.k1.serializer = org.apache.flume.sink.hbase.SimpleAsyncHbaseEventSerializer

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1
        

channel：缓冲区
=====================================
    1、memorychannel
        a1.channels.c1.type = memory
        # 缓冲区中存留的最大event个数
        a1.channels.c1.capacity = 1000
        # channel从source中每个事务提取的最大event数
        # channel发送给sink每个事务发送的最大event数
        a1.channels.c1.transactionCapacity = 100

    2、fileChannel：    //检查点和数据存储在默认位置时，当多个channel同时开启
                //会导致文件冲突，引发其他channel会崩溃
        
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = netcat
        a1.sources.r1.bind = localhost
        a1.sources.r1.port = 8888

        # 配置sink
        a1.sinks.k1.type = logger

        # 配置channel
        a1.channels = c1
        a1.channels.c1.type = file
        a1.channels.c1.checkpointDir = /home/centos/flume/checkpoint
        a1.channels.c1.dataDirs = /home/centos/flume/data

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1


    memoryChannel：快速，但是当设备断电，数据会丢失
    
    FileChannel：  速度较慢，即使设备断电，数据也不会丢失


Avro 
===============================================
    source
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = avro
        a1.sources.r1.bind = 0.0.0.0
        a1.sources.r1.port = 4444

        # 配置sink
        a1.sinks.k1.type = logger

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1

    ***********************************************************************************************    
    *启动avro客户端，发送数据：                                      *
    *    flume-ng avro-client -H localhost -p 4444 -R ~/avro/header.txt -F ~/avro/user0.txt    *
    *                 指定ip                   指定端口 指定header文件      指定数据文件          *
    ***********************************************************************************************


    sink
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = TAILDIR
        a1.sources.r1.filegroups = f1
        a1.sources.r1.filegroups.f1 = /home/centos/taildir/.*

        # 配置sink
        a1.sinks.k1.type = avro
        a1.sinks.k1.bind = 192.168.23.101
        a1.sinks.k1.port = 4444


        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1
        
        



Flume跃点：
=====================================
    1、将s101的flume发送到其他节点
        xsync.sh /soft/flume
        xsync.sh /soft/apache-flume-1.8.0-bin/

    2、切换到root用户，分发环境变量文件
        su root
        xsync.sh /etc/profile
        exit

    3、配置文件
        1)配置s101    //hop.conf
            设置source:avro
            设置sink： hdfs

            # 将agent组件起名
            a1.sources = r1
            a1.sinks = k1
            a1.channels = c1

            # 配置source
            a1.sources.r1.type = avro
            a1.sources.r1.bind = 0.0.0.0
            a1.sources.r1.port = 4444

            # 配置sink
            a1.sinks.k1.type = hdfs
            a1.sinks.k1.hdfs.path = /flume/hop/%y-%m-%d/
            a1.sinks.k1.hdfs.filePrefix = events-
            a1.sinks.k1.hdfs.rollInterval = 0
            a1.sinks.k1.hdfs.rollSize = 1024
            a1.sinks.k1.hdfs.useLocalTimeStamp = true
            a1.sinks.k1.hdfs.fileType = DataStream

            # 配置channel
            a1.channels.c1.type = memory
            a1.channels.c1.capacity = 1000
            a1.channels.c1.transactionCapacity = 100

            # 绑定channel-source, channel-sink
            a1.sources.r1.channels = c1
            a1.sinks.k1.channel = c1


        2)配置s102-s104        //hop2.conf
            设置source:taildir
            设置sink： avro

            # 将agent组件起名
            a1.sources = r1
            a1.sinks = k1
            a1.channels = c1

            # 配置source
            a1.sources.r1.type = TAILDIR
            a1.sources.r1.filegroups = f1
            a1.sources.r1.filegroups.f1 = /home/centos/taildir/.*

            # 配置sink
            a1.sinks.k1.type = avro
            a1.sinks.k1.hostname = 192.168.23.101
            a1.sinks.k1.port = 4444


            # 配置channel
            a1.channels.c1.type = memory
            a1.channels.c1.capacity = 1000
            a1.channels.c1.transactionCapacity = 100

            # 绑定channel-source, channel-sink
            a1.sources.r1.channels = c1
            a1.sinks.k1.channel = c1

    4、在s102-s104创建~/taildir文件夹
        xcall.sh "mkdir ~/taildir"

    
    5、启动s101的flume
        flume-ng agent -n a1 -f /soft/flume/conf/hop.conf

    6、分别启动s102-s104的flume,并将其放在后台运行
        flume-ng agent -n a1 -f /soft/flume/conf/hop2.conf &

    
    7、进行测试，分别在s102-s104的taildir中创建数据，观察hdfs数据情况
        s102]$ echo 102 > taildir/1.txt 
        s103]$ echo 103 > taildir/1.txt
        s104]$ echo 104 > taildir/1.txt

    
interceptor：拦截器
==================================
    是source端组件：负责修改或删除event
    每个source可以配置多个拦截器    ===> interceptorChain

    

    1、Timestamp Interceptor    //时间戳拦截器    + header

        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = netcat
        a1.sources.r1.bind = localhost
        a1.sources.r1.port = 8888
        # 给拦截器起名
        a1.sources.r1.interceptors = i1
        # 指定拦截器类型
        a1.sources.r1.interceptors.i1.type = timestamp


        # 配置sink
        a1.sinks.k1.type = logger

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1

        
    2、Static Interceptor    //静态拦截器    + header

    3、Host Interceptor    //主机拦截器    + header

    4、设置拦截器链：
        
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1
        a1.channels = c1

        # 配置source
        a1.sources.r1.type = netcat
        a1.sources.r1.bind = localhost
        a1.sources.r1.port = 8888

        a1.sources.r1.interceptors = i1 i2 i3
        a1.sources.r1.interceptors.i1.type = timestamp
        a1.sources.r1.interceptors.i2.type = host
        a1.sources.r1.interceptors.i3.type = static
        a1.sources.r1.interceptors.i3.key = location
        a1.sources.r1.interceptors.i3.value = NEW_YORK


        # 配置sink
        a1.sinks.k1.type = logger

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1
        a1.sinks.k1.channel = c1
    


channel selector：通道挑选器
====================================
    是source端组件：负责将event发送到指定的channel，相当于分区
        
    当一个source设置多个channel时，默认以副本形式向每个channel发送一个event拷贝

    
    1、replication副本通道挑选器    //默认挑选器，source将所有channel发送event副本
                    //设置source x 1, channel x 3, sink x 3 
                    //    nc       memory    file
    
        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1 k2 k3
        a1.channels = c1 c2 c3

        # 配置source
        a1.sources.r1.type = netcat
        a1.sources.r1.bind = localhost
        a1.sources.r1.port = 8888
        a1.sources.r1.selector.type = replicating

        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        a1.channels.c2.type = memory
        a1.channels.c2.capacity = 1000
        a1.channels.c2.transactionCapacity = 100

        a1.channels.c3.type = memory
        a1.channels.c3.capacity = 1000
        a1.channels.c3.transactionCapacity = 100

        
        # 配置sink
        a1.sinks.k1.type = file_roll
        a1.sinks.k1.sink.directory = /home/centos/file1
        a1.sinks.k1.sink.rollInterval = 0

        a1.sinks.k2.type = file_roll
        a1.sinks.k2.sink.directory = /home/centos/file2
        a1.sinks.k2.sink.rollInterval = 0

        a1.sinks.k3.type = file_roll
        a1.sinks.k3.sink.directory = /home/centos/file3
        a1.sinks.k3.sink.rollInterval = 0

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1 c2 c3
        a1.sinks.k1.channel = c1
        a1.sinks.k2.channel = c2
        a1.sinks.k3.channel = c3


    
    2、Multiplexing 多路复用通道挑选器    //选择avro源发送文件
                        
                        
                        
                        

        # 将agent组件起名
        a1.sources = r1
        a1.sinks = k1 k2 k3
        a1.channels = c1 c2 c3
        
        # 配置source
        a1.sources.r1.type = avro
        a1.sources.r1.bind = 0.0.0.0
        a1.sources.r1.port = 4444
        # 配置通道挑选器
        a1.sources.r1.selector.type = multiplexing
        a1.sources.r1.selector.header = country
        a1.sources.r1.selector.mapping.CN = c1
        a1.sources.r1.selector.mapping.US = c2
        a1.sources.r1.selector.default = c3
        
        # 配置channel
        a1.channels.c1.type = memory
        a1.channels.c1.capacity = 1000
        a1.channels.c1.transactionCapacity = 100

        a1.channels.c2.type = memory
        a1.channels.c2.capacity = 1000
        a1.channels.c2.transactionCapacity = 100

        a1.channels.c3.type = memory
        a1.channels.c3.capacity = 1000
        a1.channels.c3.transactionCapacity = 100

        
        # 配置sink
        a1.sinks.k1.type = file_roll
        a1.sinks.k1.sink.directory = /home/centos/file1
        a1.sinks.k1.sink.rollInterval = 0

        a1.sinks.k2.type = file_roll
        a1.sinks.k2.sink.directory = /home/centos/file2
        a1.sinks.k2.sink.rollInterval = 0

        a1.sinks.k3.type = file_roll
        a1.sinks.k3.sink.directory = /home/centos/file3
        a1.sinks.k3.sink.rollInterval = 0

        # 绑定channel-source, channel-sink
        a1.sources.r1.channels = c1 c2 c3
        a1.sinks.k1.channel = c1
        a1.sinks.k2.channel = c2
        a1.sinks.k3.channel = c3


        1、创建file1 file2 file3文件夹，家目录
            mkdir file1 file2 file3

        2、创建文件夹country，并放入头文件和数据
            创建头文件CN.txt、US.txt、OTHER.txt 
                CN.txt ===> country CN              
                US.txt ===> country US              
                OTHER.txt ===> country OTHER   
            
            创建数据 1.txt 
                1.txt ====> helloworld

        3、运行flume
            flume-ng agent -n a1 -f /soft/flume/selector_multi.conf

        4、运行Avro客户端
            flume-ng avro-client -H localhost -p 4444 -R ~/country/US.txt -F ~/country/1.txt    ===> 查看file2
            flume-ng avro-client -H localhost -p 4444 -R ~/country/CN.txt -F ~/country/1.txt    ===> 查看file1
            flume-ng avro-client -H localhost -p 4444 -R ~/country/OTHER.txt -F ~/country/1.txt    ===> 查看file3


        
sinkProcessor
=================================
    sink Runner 运行一个 sink Group

    sink Group 是由一个或多个 sink 构成

    sink Runner 告诉 sink Group 处理下一批 event

    sink Group 含有一个 sink Processor , 负责指定一个 sink 来处理这批数据


    2、failover 容灾    //将所有sink设置一个优先级
                //数量越大，优先级越高
                //当数据传入时，优先级最高的sink负责处理
                //当sink挂掉，次高优先级的sink被激活，继续处理数据
                //channel和sink必须一对一

        a1.sources = r1
        a1.sinks = s1 s2 s3
        a1.channels = c1 c2 c3

        # Describe/configure the source
        a1.sources.r1.type = seq

        a1.sinkgroups = g1
        a1.sinkgroups.g1.sinks = s1 s2 s3
        a1.sinkgroups.g1.processor.type = failover
        a1.sinkgroups.g1.processor.priority.s1 = 5
        a1.sinkgroups.g1.processor.priority.s2 = 10
        a1.sinkgroups.g1.processor.priority.s3 = 15
        a1.sinkgroups.g1.processor.maxpenalty = 10000

        # Describe the sink
        a1.sinks.s1.type = file_roll
        a1.sinks.s1.sink.directory = /home/centos/file1
        a1.sinks.s2.type = file_roll
        a1.sinks.s2.sink.directory = /home/centos/file2
        a1.sinks.s3.type = file_roll
        a1.sinks.s3.sink.directory = /home/centos/file3

        # Use a channel which buffers events in memory
        a1.channels.c1.type = memory
        a1.channels.c2.type = memory
        a1.channels.c3.type = memory

        # Bind the source and sink to the channel
        a1.sources.r1.channels = c1 c2 c3
        a1.sinks.s1.channel = c1
        a1.sinks.s2.channel = c2
        a1.sinks.s3.channel = c3




Event事件是由Source端封装输入数据的字节数组得来的
    Event event = EventBuilder.withBody(body);



Sink中的process方法返回两种状态：
    1、READY    //一个或多个event成功分发
    2、BACKOFF    //channel中没有数据提供给sink
        

flume中事务的生命周期：
    
    tx.begin()    //开启事务，之后执行操作
    tx.commit()    //提交事务，操作完成后由此提交
    tx.rollback()    //回滚事务，出现异常可以采取回滚措施
    tx.close()    //关闭事务，最后一定要关闭事务

Flume与Couchbase集成原理与实例 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
Flume与Couchbase集成原理与实例作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着大数据时代的到来，企业对数据存储和处理的效率要求越来越高。在数据采集、存储、处理和分析的各个环节，都需要高效、可靠的技术支持。Flume和Couchbase正是这样两种优秀的工具，前者擅长于数据采集和传输，后者擅长于键值存储和文
Hadoop相关面试题努力的搬砖人. java 面试 hadoop
以下是150道Hadoop面试题及其详细回答，涵盖了Hadoop的基础知识、HDFS、MapReduce、YARN、HBase、Hive、Sqoop、Flume、ZooKeeper等多个方面，每道题目都尽量详细且简单易懂：Hadoop基础概念类1.什么是Hadoop？Hadoop是一个由Apache基金会开发的开源分布式计算框架，主要用于处理和存储大规模数据集。它提供了高容错性和高扩展性的分布式存
详细的讲一下Vite 在 Vue3 项目中最常用和最重要的配置项 asecretman! vue.js javascript 前端
Vite在Vue3中的配置详解基础配置结构首先让我们看一个基础的Vite配置文件结构：import{defineConfig}from'vite'importvuefrom'@vitejs/plugin-vue'importpathfrom'path'exportdefaultdefineConfig({//配置项})详细配置项解析1.基础路径配置(base)exportdefaultdefine
Flume详解——介绍、部署与使用克里斯蒂亚诺罗纳尔多阿维罗 flume 大数据分布式
1.Flume简介ApacheFlume是一个专门用于高效地收集、聚合、传输大量日志数据的分布式、可靠的系统。它特别擅长将数据从各种数据源（如日志文件、消息队列等）传输到HDFS、HBase、Kafka等大数据存储系统。特点：可扩展：支持大规模数据传输，灵活扩展容错性：支持数据恢复和失败重试，确保数据不丢失多种数据源：支持日志文件、网络数据、HTTP请求、消息队列等多种来源流式处理：数据边收集边传
大数据学习（67）- Flume、Sqoop、Kafka、DataX对比 viperrrrrrr 大数据学习 flume kafka sqoop datax
大数据学习系列专栏：哲学语录:用力所能及，改变世界。如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop间数据同步关系型数据库→Hadoop生态系统（HDFS、Hive、
Nginx负载均衡配置详解 p-knowledge nginx 负载均衡
Nginx是一个高性能的HTTP和反向代理服务器，广泛用于负载均衡。它支持多种负载均衡策略，可以根据不同的需求进行配置。以下是Nginx负载均衡的详细配置和使用示例。一、负载均衡基本概念负载均衡是将请求分配到多个后端服务器上，以提高网站的可用性和性能。Nginx可以通过配置负载均衡器，将客户端请求分发给多个后端服务器。二、负载均衡配置安装Nginx如果还未安装Nginx，可以使用以下命令进行安装（
WebSocket详细介绍以及与HTTP的区别和归纳 dr李四维全栈 websocket 网络协议网络 java 后端前端 http
目录一、WebSocket与HTTP的区别区别介绍：WebSocket流程详述：下面是一个简单的对于WebScoket的使用：二、WebSocket使用步骤与比喻添加依赖：创建WebSocket服务端：3.处理客户端消息：4.关闭连接：5.前端代码：三、应用场景与详细配置1.添加依赖2.配置WebSocket服务器3.创建WebSocket端点（Endpoint）4.处理消息5.客户端代码6.运行
Flume-HBase-Kafka 正在緩沖҉99% kafka Flume HBase 大数据
Flume-HBase-Kafka一、各自介绍1.Flume简介和特征2.HBase简介和特征3.Kafka简介和特征二、通过Flume读取日志文件写入到Kafka中在写入HBase各自作用一、各自介绍1.Flume简介和特征一、简介Flume是一个分布式、可靠、和高可用的海量日志聚合的系统，支持在系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方
大数据环境（单机版） Flume传输数据到Kafka 凡许真大数据 flume kafka 数据采集
文章目录前言一、准备二、安装三、配置环境变量四、修改配置4.1、kafka配置4.2、Flume配置五、启动程序5.1、启动zk5.2、启动kafka5.3、启动flume六、测试6.1、启动一个kafka终端，用来消费消息6.2、写入日志其他前言flume监控指定目录，传输数据到kafka一、准备flume-1.10.1kafka_2.11-2.4.1zookeeper-3.4.13二、安装使用
Svelte 高效开发必备插件与工具推荐（附详细配置指南） i建模前端开发前端框架 svelte
#Svelte必备插件与工具推荐（附详细配置指南）---##摘要Svelte作为近年来备受关注的前端框架，凭借其**编译时优化**和**极简语法**迅速赢得开发者青睐。但想要充分发挥其潜力，离不开强大的工具链支持。本文精选**10+实用插件与工具**，覆盖开发、调试、预处理、UI库等全场景，助你打造高效Svelte工作流！---##一、开发与构建工具###1.**@sveltejs/vite-pl
Kafka系列之：记录一次源头数据库刷数据，造成数据丢失的原因快乐骑行^_^ Kafka Kafka系列记录一次源头数据库刷数据造成数据丢失的原因
Kafka系列之：记录一次源头数据库刷数据，造成数据丢失的原因一、背景二、查看topic日志信息三、结论四、解决方法一、背景源头数据库在很短的时间内刷了大量的数据，部分数据在hdfs丢失了理论上debezium数据采集不会丢失，就需要排查数据链路某个节点是否有数据丢失。数据链路是：debezium——kafka——flume——hdfs根据经验定位数据在kafka侧丢失，下一面进一步确认是否数据在
Anaconda的详细配置过程（附图）椰卤工程师机器学习 anaconda tensorflow
Anaconda是Python的一个科学计算发行库，内置了上千个Python经常会用到的库，包括Scikit-learn、Numpy、Scipy、Pandas等。1.Anaconda下载下载地址：https://www.anaconda.com/download/官网下载速度很慢，慎用！建议通过国内镜像网站下载。Anaconda是跨平台的，有Windows、macOS、Linux版本，博主这里以W
强大的ETL利器—DataFlow3.0 lixiang2114 数据分析 etl flume sqoop 数据库数据仓库
产品开发背景DataFlow是基于应用数据流程的一套分布式ETL系统服务组件，其前身是LogCollector2.0日志系统框架，自LogCollector3.0版本开始正式更名为DataFlow3.0。目前常用的ETL工具Flume、LogStash、Kettle、Sqoop等也可以完成数据的采集、传输、转换和存储；但这些工具都不具备事务一致性。比如Flume工具仅能应用到通信质量无障碍的局域网
关于在mac中配置Java系统环境变量我要最优解 macos java flutter
引言在macOS上开发Java或Flutter应用时，正确配置环境变量是至关重要的。环境变量不仅能让系统找到开发工具的位置，还能简化命令行操作。本文将手把手教你从零开始安装JavaSDK，并详细配置环境变量，涵盖常见问题解决和优化技巧。在macOS系统中配置Java环境变量的详细步骤如下：一、配置Java环境变量1.安装JavaJDKmacOS默认可能未安装JDK（或版本较旧），以下是两种安装方式
Linux(32)Rockchip RK3568 Ubuntu22.04上部署 Docker: 详细配置与功能测试一歲抬頭《Linux系统开发入门定制》linux docker ubuntu
前言在本博客中，实践如何在Rockchip3568设备上通过Ubuntu22.04系统安装和运行Docker。我会比较DockerCE和Docker.io两种版本的安装过程、兼容性以及在特定硬件上的表现，为兄弟们提供一个清晰的安装指南和实用的运行笔记。参考Linux(31)RockchipRK3568Ubuntu22.04上部署Docker:问题与解决方案Linux下搭建RK3568Docker开
大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构 m0_74823705 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
数据仓库与数据挖掘记录三匆匆整棹还数据挖掘
数据仓库的数据存储和处理数据的ETL过程数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换.加载与索引等数据调和工作,如图2.2所示。1）数据提取（Extract）从多个数据源中获取原始数据（如数据库、日志文件、API、云存储等）。数据源可能是结构化（如MySQL）、半结构化（如JSON）、非结构化（如文本）。关键技术：SQL查询、Web爬虫、日志采集工具（如Flume）
【大数据技术】搭建完全分布式高可用大数据集群（Flume） Want595 Python大数据采集与分析大数据分布式 flume
搭建完全分布式高可用大数据集群（Flume）apache-flume-1.11.0-bin.tar.gz注：请在阅读本篇文章前，将以上资源下载下来。写在前面本文主要介绍搭建完全分布式高可用集群Flume的详细步骤。注意：统一约定将软件安装包存放于虚拟机的/software目录下，软件安装至/opt目录下。安装Flume用finalshell将压缩包上传到虚拟机master的/software目录下
uniapp - 超详细 H5 网页引入百度地图教程，附地图示例 / 获取当前设备定位的省市区、详细地址、经纬度信息 / 用户当前 IP 属地定位地理位置等等（新手小白快速上手，详细配置及使用全流程）王二红 +UniApp uniapp百度地图详细教程 uniap获取用户ip属地城市 uniapp百度地图拿到省市区 uniapp安装接入百度地图示 unia获取用户经纬度地理位置
前言网上的教程非常乱（各种不规范的使用教程存在各种BUG），代码贼乱而且没有注释，根本无法进行改造。在uniapph5网站项目中，从安装配置到使用百度地图插件，再到详细的显示地图示例、获取当前位置定位信息（经纬度、省市区名称等）、获取当前IP属地等，常见功能示例源码！支持uniappv2/v3版本，本文站在新手小白的角度，您可以一键复制源码稍微改改就能用了（保证可用）。如下图真机运行所示，成功安装
计算机毕业设计hadoop+spark+hive新能源汽车数据分析可视化大屏汽车推荐系统新能源汽车推荐系统汽车爬虫汽车大数据机器学习大数据毕业设计深度学习知识图谱人工智能 qq+593186283 hadoop 大数据人工智能
（1）设计目的本次设计一个基于Hive的新能源汽车数据仓管理系统。企业管理员登录系统后可以在汽车保养时，根据这些汽车内置传感器传回的数据分析其故障原因，以便维修人员更加及时准确处理相关的故障问题。或者对这些数据分析之后向车主进行预警提示车主注意保养汽车，以提高汽车行驶的安全系数。（2）设计要求利用Flume进行分布式的日志数据采集，Kafka实现高吞吐量的数据传输，DateX进行数据清洗、转换和整
python消费kafka数据nginx日志实时_基于nginx+flume+kafka+mongodb实现埋点数据采集 weixin_39534208
名词解释埋点其实就是用于记录用户在页面的一些操作行为。例如，用户访问页面(PV，PageViews)、访问页面用户数量(UV,UserViews)、页面停留、按钮点击、文件下载等，这些都属于用户的操作行为。开发背景我司之前在处理埋点数据采集时，模式很简单，当用户操作页面控件时，前端监听到操作事件，并根据上下文环境，将事件相关的数据通过接口调用发送至埋点数据采集服务(简称ets服务)，ets服务对数
大数据-267 实时数仓 - ODS Lambda架构 Kappa架构核心思想 m0_74823336 面试学习路线阿里巴巴大数据架构
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！MyBatis更新完毕目前开始更新Spring，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）Cl
nginx+flume网络流量日志实时数据分析实战_日志数据分析(1) 2401_84182578 程序员 nginx flume 数据分析
得到visits模型hadoopjar/export/data/mapreduce/web_log.jarcn.itcast.bigdata.weblog.clickstream.ClickStreamVisit网络日志数据分析-数据加载对于日志数据的分析，Hive也分为三层：ods层、dw层、app层创建数据库createdatabaseifnotexistsweb_log_ods;create
【大数据入门核心技术-Flume】（二）Flume安装部署 forest_long 大数据技术入门到21天通关 big data hadoop 大数据 hbase flume
目录一、准备工作1、基本Hadoop环境安装2、下载安装包二、安装1、解压2、修改环境变量3、修改并配置flume-env.sh文件4、验证是否安装成功一、准备工作1、基本Hadoop环境安装参考Hadoop安装【大数据入门核心技术-Hadoop】（五）Hadoop3.2.1非高可用集群搭建【大数据入门核心技术-Hadoop】（六）Hadoop3.2.1高可用集群搭建2、下载安装包官方网址：
13.zookeeper开机自启动配置小黑要上天 pgmp zookeeper linux 分布式
要在Linux(RHEL7.7)系统中设置zookeeper开机自启动，可以创建一个系统服务单元文件。以下是为详细配置部署，假设你已经安装了zookeeper并且可以通过zkServer.sh命令启动它。1.进入/lib/systemd/system目录命令：cd/lib/systemd/system[root@rhel77system]#cd/lib/systemd/system[root@rh
java.io.FileNotFoundException: /tmp/log/flume-ng/flume.log (Permission denied) 海洋之心 Flume问题解决 Hadoop问题解决 java flume 开发语言 zookeeper 大数据
文章目录问题描述：原因分析：解决方案：问题描述：使用Flume将本地文件监控上传到HDFS上时出现log4j:ERRORsetFile(null,true)callfailed.java.io.FileNotFoundException:/tmp/log/flume-ng/flume.log(Permissiondenied)log4j:ERRORsetFile(null,true)callfai
flume系列之：消费Kafka集群Topic报错java.io.IOException: Can‘t resolve address: data03:9092 快乐骑行^_^ flume flume系列消费Kafka集群Topic OException resolve address
flume系列之：消费Kafka集群Topic报错java.io.IOException:Can'tresolveaddress:data03:9092Causedby:java.nio.channels.UnresolvedAddressException一、flume消费Kafka集群Topic报错二、报错原因三、解决方法一、flume消费Kafka集群Topic报错21Sep202214:5
基于Spark的实时计算服务的流程架构小小搬运工40 spark 大数据
基于Spark的实时计算服务的流程架构通常涉及多个组件和步骤，从数据采集到数据处理，再到结果输出和监控。以下是一个典型的基于Spark的实时计算服务的流程架构：1.数据源数据源是实时计算服务的起点，常见的数据源包括：消息队列：如Kafka、RabbitMQ、AmazonKinesis等。日志系统：如Flume、Logstash等。传感器数据：物联网设备产生的数据流。数据库变更数据捕获（CDC）：如
大数据开发的底层逻辑是什么？瑰茵大数据
大数据开发的底层逻辑主要围绕数据的生命周期进行，包括数据的采集、存储、处理、分析和可视化等环节。以下是大数据开发的一些关键底层逻辑：数据采集：目的：从不同的数据源（如日志文件、数据库、传感器等）收集数据。方法：使用数据采集工具（如ApacheFlume、ApacheKafka、ApacheSqoop）来捕获和传输数据。数据存储：目的：将收集到的数据存储在可靠且可扩展的存储系统中。方法：使用分布式文
flume+ Elasticsearch +kibana环境搭建及讲解 pincharensheng 大数据 flume kibana elasticsearch 分布式
1、软件介绍1.1、flume1.1.1、flume介绍1）flume概念1、flume是一个分布式的日志收集系统，具有高可靠、高可用、事务管理、失败重启等功能。数据处理速度快，完全可以用于生产环境；2、flume的核心是agent。agent是一个java进程，运行在日志收集端，通过agent接收日志，然后暂存起来，再发送到目的地；3、agent里面包含3个核心组件：source、channel
Enum 枚举 120153216 enum 枚举
原文地址：http://www.cnblogs.com/Kavlez/p/4268601.html Enumeration 于Java 1.5增加的enum type...enum type是由一组固定的常量组成的类型，比如四个季节、扑克花色。在出现enum type之前，通常用一组int常量表示枚举类型。比如这样： public static final int APPLE_FUJI = 0
Java8简明教程 bijian1013 java jdk1.8
Java 8已于2014年3月18日正式发布了，新版本带来了诸多改进，包括Lambda表达式、Streams、日期时间API等等。本文就带你领略Java 8的全新特性。一.允许在接口中有默认方法实现 Java 8 允许我们使用default关键字，为接口声明添
Oracle表维护快速备份删除数据 cuisuqiang oracle 索引快速备份删除
我知道oracle表分区，不过那是数据库设计阶段的事情，目前是远水解不了近渴。当前的数据库表，要求保留一个月数据，且表存在大量录入更新，不存在程序删除。为了解决频繁查询和更新的瓶颈，我在oracle内根据需要创建了索引。但是随着数据量的增加，一个半月数据就要超千万，此时就算有索引，对高并发的查询和更新来说，让然有所拖累。为了解决这个问题，我一般一个月会进行一次数据库维护，主要工作就是备
java多态内存分析麦田的设计者 java 内存分析多态原理接口和抽象类
“ 时针如果可以回头，熟悉那张脸，重温嬉戏这乐园，墙壁的松脱涂鸦已经褪色才明白存在的价值归于记忆。街角小店尚存在吗？这大时代会不会牵挂，过去现在花开怎么会等待。但有种意外不管痛不痛都有伤害，光阴远远离开，那笑声徘徊与脑海。但这一秒可笑不再可爱，当天心
Xshell实现Windows上传文件到Linux主机被触发 windows
经常有这样的需求，我们在Windows下载的软件包，如何上传到远程Linux主机上？还有如何从Linux主机下载软件包到Windows下；之前我的做法现在看来好笨好繁琐，不过也达到了目的，笨人有本方法嘛；我是怎么操作的： 1、打开一台本地Linux虚拟机，使用mount 挂载Windows的共享文件夹到Linux上，然后拷贝数据到Linux虚拟机里面；（经常第一步都不顺利，无法挂载Windo
类的加载ClassLoader 肆无忌惮_ ClassLoader
类加载器ClassLoader是用来将java的类加载到虚拟机中，类加载器负责读取class字节文件到内存中，并将它转为Class的对象（类对象），通过此实例的 newInstance()方法就可以创建出该类的一个对象。其中重要的方法为findClass(String name)。如何写一个自己的类加载器呢？首先写一个便于测试的类Student
html5写的玫瑰花知了ing html5
<html> <head> <title>I Love You!</title> <meta charset="utf-8" /> </head> <body> <canvas id="c"></canvas>
google的ConcurrentLinkedHashmap源代码解析矮蛋蛋 LRU
原文地址： http://janeky.iteye.com/blog/1534352 简述 ConcurrentLinkedHashMap 是google团队提供的一个容器。它有什么用呢？其实它本身是对 ConcurrentHashMap的封装，可以用来实现一个基于LRU策略的缓存。详细介绍可以参见 http://code.google.com/p/concurrentlinke
webservice获取访问服务的ip地址 alleni123 webservice
1. 首先注入javax.xml.ws.WebServiceContext, @Resource private WebServiceContext context; 2. 在方法中获取交换请求的对象。 javax.xml.ws.handler.MessageContext mc=context.getMessageContext(); com.sun.net.http
菜鸟的java基础提升之道——————>是否值得拥有百合不是茶
1，c++，java是面向对象编程的语言，将万事万物都看成是对象；java做一件事情关注的是人物，java是c++继承过来的，java没有直接更改地址的权限但是可以通过引用来传值操作地址，java也没有c++中繁琐的操作，java以其优越的可移植型，平台的安全型，高效性赢得了广泛的认同，全世界越来越多的人去学习java，我也是其中的一员 java组成：
通过修改Linux服务自动启动指定应用程序 bijian1013 linux
Linux中修改系统服务的命令是chkconfig (check config)，命令的详细解释如下: chkconfig 功能说明：检查，设置系统的各种服务。语　　法：chkconfig [ -- add][ -- del][ -- list][系统服务] 或 chkconfig [ -- level <</SPAN>
spring拦截器的一个简单实例 bijian1013 java spring 拦截器 Interceptor
Purview接口 package aop; public interface Purview { void checkLogin(); } Purview接口的实现类PurviesImpl.java package aop; public class PurviewImpl implements Purview { public void check
[Velocity二]自定义Velocity指令 bit1129 velocity
什么是Velocity指令在Velocity中，#set,#if, #foreach, #elseif, #parse等，以#开头的称之为指令，Velocity内置的这些指令可以用来做赋值，条件判断，循环控制等脚本语言必备的逻辑控制等语句，Velocity的指令是可扩展的，即用户可以根据实际的需要自定义Velocity指令自定义指令(Directive)的一般步骤 &nbs
【Hive十】Programming Hive学习笔记 bit1129 programming
第二章 Getting Started 1.Hive最大的局限性是什么？一是不支持行级别的增删改(insert, delete, update)二是查询性能非常差(基于Hadoop MapReduce）,不适合延迟小的交互式任务三是不支持事务2. Hive MetaStore是干什么的？Hive persists table schemas and other system metadata.
nginx有选择性进行限制 ronin47 nginx 动静　限制
http { limit_conn_zone $binary_remote_addr zone=addr:10m; limit_req_zone $binary_remote_addr zone=one:10m rate=5r/s;... server {... location ~.*\.(gif|png|css|js|icon)$ {
java-4.-在二元树中找出和为某一值的所有路径 . bylijinnan java
/* * 0.use a TwoWayLinkedList to store the path.when the node can't be path,you should/can delete it. * 1.curSum==exceptedSum:if the lastNode is TreeNode,printPath();delete the node otherwise
Netty学习笔记 bylijinnan java netty
本文是阅读以下两篇文章时： http://seeallhearall.blogspot.com/2012/05/netty-tutorial-part-1-introduction-to.html http://seeallhearall.blogspot.com/2012/06/netty-tutorial-part-15-on-channel.html 我的一些笔记 ===
js获取项目路径 cngolon js
//js获取项目根路径，如： http://localhost:8083/uimcardprj function getRootPath(){ //获取当前网址，如： http://localhost:8083/uimcardprj/share/meun.jsp var curWwwPath=window.document.locati
oracle 的性能优化 cuishikuan oracle SQL Server
在网上搜索了一些Oracle性能优化的文章，为了更加深层次的巩固[边写边记]，也为了可以随时查看，所以发表这篇文章。 1.ORACLE采用自下而上的顺序解析WHERE子句，根据这个原理，表之间的连接必须写在其他WHERE条件之前，那些可以过滤掉最大数量记录的条件必须写在WHERE子句的末尾。（这点本人曾经做过实例验证过，的确如此哦！
Shell变量和数组使用详解 daizj linux shell 变量数组
Shell 变量定义变量时，变量名不加美元符号（$，PHP语言中变量需要），如： your_name="w3cschool.cc" 注意，变量名和等号之间不能有空格，这可能和你熟悉的所有编程语言都不一样。同时，变量名的命名须遵循如下规则：首个字符必须为字母（a-z，A-Z）。中间不能有空格，可以使用下划线（_）。不能使用标点符号。不能使用ba
编程中的一些概念，KISS、DRY、MVC、OOP、REST dcj3sjt126com REST
KISS、DRY、MVC、OOP、REST （1）KISS是指Keep It Simple,Stupid（摘自wikipedia），指设计时要坚持简约原则，避免不必要的复杂化。（2）DRY是指Don't Repeat Yourself（摘自wikipedia），特指在程序设计以及计算中避免重复代码，因为这样会降低灵活性、简洁性，并且可能导致代码之间的矛盾。（3）OOP 即Object-Orie
[Android]设置Activity为全屏显示的两种方法 dcj3sjt126com Activity
1. 方法1：AndroidManifest.xml 里，Activity的 android:theme 指定为" @android:style/Theme.NoTitleBar.Fullscreen" 示例: <application
solrcloud 部署方式比较 eksliang solrCloud
solrcloud 的部署其实有两种方式可选，那么我们在实践开发中应该怎样选择呢？第一种：当启动solr服务器时，内嵌的启动一个Zookeeper服务器，然后将这些内嵌的Zookeeper服务器组成一个集群。第二种：将Zookeeper服务器独立的配置一个集群，然后将solr交给Zookeeper进行管理谈谈第一种：每启动一个solr服务器就内嵌的启动一个Zoo
Java synchronized关键字详解 gqdy365 synchronized
转载自：http://www.cnblogs.com/mengdd/archive/2013/02/16/2913806.html 多线程的同步机制对资源进行加锁，使得在同一个时间，只有一个线程可以进行操作，同步用以解决多个线程同时访问时可能出现的问题。同步机制可以使用synchronized关键字实现。当synchronized关键字修饰一个方法的时候，该方法叫做同步方法。当s
js实现登录时记住用户名 hw1287789687 记住我记住密码 cookie 记住用户名记住账号
在页面中如何获取cookie值呢? 如果是JSP的话,可以通过servlet的对象request 获取cookie,可以参考:http://hw1287789687.iteye.com/blog/2050040 如果要求登录页面是html呢?html页面中如何获取cookie呢? 直接上代码了页面:loginInput.html 代码: <!DOCTYPE html PUB
开发者必备的 Chrome 扩展 justjavac chrome
Firebug：不用多介绍了吧https://chrome.google.com/webstore/detail/bmagokdooijbeehmkpknfglimnifench ChromeSnifferPlus：Chrome 探测器，可以探测正在使用的开源软件或者 js 类库https://chrome.google.com/webstore/detail/chrome-sniffer-pl
算法机试题李亚飞 java 算法机试题
在面试机试时，遇到一个算法题，当时没能写出来，最后是同学帮忙解决的。这道题大致意思是：输入一个数，比如4,。这时会输出： &n
正确配置Linux系统ulimit值字符串 ulimit
在Linux下面部署应用的时候，有时候会遇上Socket/File: Can’t open so many files的问题；这个值也会影响服务器的最大并发数，其实Linux是有文件句柄限制的，而且Linux默认不是很高，一般都是1024，生产服务器用其实很容易就达到这个数量。下面说的是，如何通过正解配置来改正这个系统默认值。因为这个问题是我配置Nginx+php5时遇到了，所以我将这篇归纳进
hibernate调用返回游标的存储过程 Supanccy2013 java DAO oracle Hibernate jdbc
注：原创作品，转载请注明出处。上篇博文介绍的是hibernate调用返回单值的存储过程，本片博文说的是hibernate调用返回游标的存储过程。此此扁博文的存储过程的功能相当于是jdbc调用select 的作用。 1，创建oracle中的包，并在该包中创建的游标类型。 ---创建oracle的程
Spring 4.2新特性-更简单的Application Event wiselyman application
1.1 Application Event Spring 4.1的写法请参考10点睛Spring4.1-Application Event 请对比10点睛Spring4.1-Application Event 使用一个@EventListener取代了实现ApplicationListener接口,使耦合度降低; 1.2 示例包依赖 <p

Flume详细配置

你可能感兴趣的:(Flume详细配置)