迷路剑客

Flume学习-小项目实例

Flume学习-小项目实例

系列文章目录

Flume架构与实践
Flume学习-小项目实例

0x01 摘要

Flume是一个分布式的、可靠的、高效的日志数据搜集服务。作者为了进一步学习Flume，做了一个简易的分布式日志搜集系统，仅供新手参考。

注意设定$FLUME_HOME，flume-ng执行时会去FLUME_HOME/lib下找jar

0x02 项目背景

使用分层日志收集架构设计一个高可用的分布式日志收集系统，最终将收集到的日志数据分别发送到kafka的ad_log主题和在磁盘中滚动生成日志文件。

0x03 架构设计

以上是本项目的架构图。

在目标业务机器上部署N个日志搜集Flume-Agent，将日志发送到日志汇集层主备Flume-Agent，最后通过ReplicatingChannelSelector ，复制events到两个channels，相应的sink以自己配置的方式分别写入Kafka和滚动生成的日志文件。

0x04 详细设计

4.1 日志搜集层

可以根据需要在ad_log业务机上部署多个flume-agent，下面分别介绍下flume三大组件的设计理念。

4.1.1 flume-source

source采用TAILDIR type。这个type支持用正则匹配监听多个文件或文件夹，且支持新增文件监听、断点续传和数据读取at most once。

4.1.2 flume-channel

channel采用filechannel，并开启备份检查点，保证在挂掉后重启agent的时候能快速回放检查点文件恢复数据。

4.1.3 flume-sink

sink使用failover type，配置两个sink，其中一个权重更高，保证在高权重挂掉的情况下能切换到另一个sink，业务不受影响。

4.2 日志汇集层

4.2.1 flume-source

source采用avro type。这个type会通过监听指定端口接收上游RPC过来的events。
在这个项目中我们还加入了replicating type的selector。这种selelctor的特点是将events以复制的方式同时写入多个channel。这样的好处是不同用途的sink从不同的channel中获取相同的event。

4.2.2 flume-channel

跟日志搜集层的channel相同，采用filechannel，并开启备份检查点，保证在挂掉后重启agent的时候能快速回放检查点文件恢复数据。

4.1.3 flume-sink

sink1 采用kafkaSink，将数据写入topic为ad_log的kafka。acks配置为1，丢数据和性能间平衡。
sink2 采用file-rolling-sink，数据写入磁盘中滚动生成的文件。

4.3 持久化层

Kafka：一份数据写入kafka，作为消息队列可供多个消费者组使用。
Roll-file：一份数据写入磁盘中滚动生成的文件。

0x05 Flume-config

5.1 ad_log_agent.conf

agent1.sources = r1
agent1.channels = c1
agent1.sinks = k1 k2

agent1.sources.r1.type = TAILDIR
agent1.sources.r1.positionFile = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/taildir/position/taildir_position.json
agent1.sources.r1.filegroups = f1
# 监听该目录下.log结尾文件
agent1.sources.r1.filegroups.f1 = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/input/.*\\.log
agent1.sources.r1.channels = c1

agent1.channels.c1.type = file
agent1.channels.c1.dataDirs = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/agent1/data
agent1.channels.c1.checkpointDir = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/agent1/checkpoint
agent1.channels.c1.useDualCheckpoints = true
agent1.channels.c1.backupCheckpointDir = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/agent1/backup-checkpoint

agent1.sinkgroups = g1
agent1.sinkgroups.g1.sinks = k1 k2
agent1.sinkgroups.g1.processor.type = failover
agent1.sinkgroups.g1.processor.priority.k1 = 10
agent1.sinkgroups.g1.processor.priority.k2 = 5

agent1.sinks.k1.type = avro
agent1.sinks.k1.channel = c1
agent1.sinks.k1.hostname = 127.0.0.1
agent1.sinks.k1.port = 8888

agent1.sinks.k2.type = avro
agent1.sinks.k2.channel = c1
agent1.sinks.k2.hostname = 127.0.0.1
agent1.sinks.k2.port = 8889

5.2 ad_log_collect1.conf

collector1.sources = r1
collector1.channels = c1 c2
collector1.sinks = k1 k2

#定义source为8888端口avro
collector1.sources.r1.type = avro
collector1.sources.r1.bind = 127.0.0.1
collector1.sources.r1.port = 8888
collector1.sources.r1.threads= 3
collector1.sources.r1.channels = c1
#设置复制选择器
collector1.sources.r1.selector.type = replicating
#设置required channel
collector1.sources.r1.channels = c1 c2

#设置channel c1
collector1.channels.c1.type = file
collector1.channels.c1.dataDirs = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector1/c1/data
collector1.channels.c1.checkpointDir = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector1/c1/checkpoint
collector1.channels.c1.useDualCheckpoints = true
collector1.channels.c1.backupCheckpointDir = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector1/c1/backup-checkpoint

#设置channel c2
collector1.channels.c2.type = file
collector1.channels.c2.dataDirs = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector1/c2/data
collector1.channels.c2.checkpointDir = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector1/c2/checkpoint
collector1.channels.c2.useDualCheckpoints = true
collector1.channels.c2.backupCheckpointDir = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector1/c2/backup-checkpoint

#设置sink1为kafka-sink,topic为ad_log
collector1.sinks.k1.channel = c1
collector1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
collector1.sinks.k1.kafka.topic = ad_log
collector1.sinks.k1.kafka.bootstrap.servers = 127.0.0.1:9092
collector1.sinks.k1.kafka.flumeBatchSize = 10
collector1.sinks.k1.kafka.producer.acks = 1

#设置sink2为file-rolling-sink
collector1.sinks.k2.channel = c2
collector1.sinks.k2.type = file_roll
collector1.sinks.k2.sink.directory = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/output
collector1.sinks.k2.sink.rollInterval = 60

5.3 ad_log_collect2.conf

collector2.sources = r1
collector2.channels = c1 c2
collector2.sinks = k1 k2

#定义source为8889端口avro
collector2.sources.r1.type = avro
collector2.sources.r1.bind = 127.0.0.1
collector2.sources.r1.port = 8889
collector2.sources.r1.threads= 3
collector2.sources.r1.channels = c1
#设置复制选择器
collector2.sources.r1.selector.type = replicating
#设置required channel
collector2.sources.r1.channels = c1 c2

#设置channel c1
collector2.channels.c1.type = file
collector2.channels.c1.dataDirs = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector2/c1/data
collector2.channels.c1.checkpointDir = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector2/c1/checkpoint
collector2.channels.c1.useDualCheckpoints = true
collector2.channels.c1.backupCheckpointDir = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector2/c1/backup-checkpoint

#设置channel c2
collector2.channels.c2.type = file
collector2.channels.c2.dataDirs = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector2/c2/data
collector2.channels.c2.checkpointDir = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector2/c2/checkpoint
collector2.channels.c2.useDualCheckpoints = true
collector2.channels.c2.backupCheckpointDir = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/filechannel/collector2/c2/backup-checkpoint

#设置sink1为kafka-sink,topic为ad_log
collector2.sinks.k1.channel = c1
collector2.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
collector2.sinks.k1.kafka.topic = ad_log
collector2.sinks.k1.kafka.bootstrap.servers = 127.0.0.1:9092
collector2.sinks.k1.kafka.flumeBatchSize = 10
collector2.sinks.k1.kafka.producer.acks = 1

#设置sink2为file-rolling-sink
collector2.sinks.k2.channel = c2
collector2.sinks.k2.type = file_roll
collector2.sinks.k2.sink.directory = /Users/chengc/cc/apps/apache-flume-1.8.0-bin/test/ad_log/output
collector2.sinks.k2.sink.rollInterval = 60

0x06 项目启动步骤

创建kafka topic：ad_log
bin/kafka-topics.sh --create --zookeeper 127.0.0.1:2181 --replication-factor 1 --partitions 3 --topic ad_log
启动ad_log数据汇集agent1
bin/flume-ng agent --conf conf --conf-file conf/ad_log/ad_log_collect1.conf --name collector1 -Dflume.root.logger=INFO,console
启动ad_log数据汇集agent2
bin/flume-ng agent --conf conf --conf-file conf/ad_log/ad_log_collect2.conf --name collector2 -Dflume.root.logger=INFO,console
启动ad_log采集agent
bin/flume-ng agent --conf conf --conf-file conf/ad_log/ad_log_agent.conf --name agent1 -Dflume.root.logger=INFO,console
查看kafka ad_log topic 数据
bin/kafka-console-consumer.sh --zookeeper 127.0.0.1:2181 --from-beginning --topic ad_log

0xFE 总结

本文只是作者学习Flume过程中的一个小例子。更多的Flume使用细节，请查看官方文档。

0xFF 参考文档

Apache Flume

你可能感兴趣的:(flume)

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构武子康大数据离线数仓大数据数据仓库 java 后端 hadoop hive
点一下关注吧！！！非常感谢！！持续更新！！！Java篇开始了！目前开始更新MyBatis，一起深入浅出！目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis（已更完）Kafka（已更完）Spark（已更完）Flink（已更完）ClickHouse（已
kafka直接对接nginx Lu_Xiao_Yue nginx kafka
很多时候我们要对nginx产生的日志进行分析都是通过flume监控nginx产生的日志，通过flume把日志文件发送该kafka，flume作为生产者，但是这种方式的缺点就是可能效率会比较慢，除此之外还可以使用kafka直接对接nginx，nginx作为生产者，把log日志直接对接到kafka的某些分区中，这种方法的效率比较高，但是缺点就是可能会出现数据丢失，可以通过把nginx的日志进行一份给k
大数据新视界 --大数据大厂之大数据实战指南：Apache Flume 数据采集的配置与优化秘籍青云交大数据新视界数据库 Apache Flume 数据采集安装部署配置优化高级功能大数据工具集成
亲爱的朋友们，热烈欢迎你们来到青云交的博客！能与你们在此邂逅，我满心欢喜，深感无比荣幸。在这个瞬息万变的时代，我们每个人都在苦苦追寻一处能让心灵安然栖息的港湾。而我的博客，正是这样一个温暖美好的所在。在这里，你们不仅能够收获既富有趣味又极为实用的内容知识，还可以毫无拘束地畅所欲言，尽情分享自己独特的见解。我真诚地期待着你们的到来，愿我们能在这片小小的天地里共同成长，共同进步。本博客的精华专栏：大数
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
解决flume在抽取不断产生的日志文件时，hdfs上出现很多小文件的问题 lzhlizihang flume hdfs 大数据
问题在使用flume时，需要编写conf文件，然后执行，明明sinks已经指定了roll的三个参数：a1.sinks.k1.hdfs.rollInterval=0（根据写入时间来切割）a1.sinks.k1.hdfs.rollSize=0（根据写入的文件大小来切割）a1.sinks.k1.hdfs.rollCount=0（根据Event数量来切割）其中0代表不根据其属性来切割文件但是hdfs上还会
pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark) weixin_39793638 pyspark kafka mysql
蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume数据传输的基本单元。Source：用来接收Event，并将Event批量传
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据基础之Flume——Flume基础及Flume agent配置以及自定义拦截器 Clozzz Flume 大数据 flume hadoop
Flume简介Flume用于将多种来源的日志以流的方式传输至Hadoop或者其他目的地 -一种可靠、可用的高效分布式数据收集服务Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复由Cloudera2009年捐赠给Apache，现为Apache顶级项目Flume架构Client：客户端，数据产生的地方，如Web服务器Event：事件，指通过Agent传输的单个数据包，如日志数据通常对
Flume介绍及调优桓桓桓桓分布式大数据日志搜集
一、概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本Flume0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flu
大数据技术之Flume 数据流监控——Ganglia 的安装与部署（11）大数据深度洞察 Flume 大数据 flume
目录Flume数据流监控Ganglia的安装与部署Ganglia组件介绍1）安装Ganglia2）在hadoop12修改配置文件/etc/httpd/conf.d/ganglia.conf3）在hadoop12修改配置文件/etc/ganglia/gmetad.conf4）在hadoop12,hadoop13,hadoop14修改配置文件/etc/ganglia/gmond.conf5）在hado
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty 小波2200013045 flume 大数据
[root@master~]#flume-ngversion[root@master~]#cd/usr/local/flume/bin[root@masterbin]#vimflume-ng配置文件中加入红框代码#determineHBASEjava.library.pathandusethatforflumelocalHBASE_CLASSPATH=""localHBASE_JAVA_LIBRA
flume系列之：批量并行启动、停止、重启flume agent组快乐骑行^_^ flume flume系列批量并行启动停止重启 flume agent组
Flume系列之：批量并行启动、停止、重启flumeagent组批量启动flumeagent组批量启动flumeagent组importsubprocessimportthreadingdefrun_command(command):process=subprocess.Popen(command,shell=True)process
大数据技术之Flume 企业开发案例——负载均衡和故障转移（6）大数据深度洞察 Flume 大数据 flume 负载均衡
目录负载均衡和故障转移1）案例需求2）需求分析3）实现步骤负载均衡和故障转移1）案例需求使用Flume1监控一个端口，其sink组中的sink分别对接Flume2和Flume3，采用FailoverSinkProcessor，实现故障转移的功能。2）需求分析故障转移案例3）实现步骤准备工作在/opt/module/flume/job目录下创建group2文件夹[lzl@hadoop12job]$c
大数据技术之Flume事务及内部原理（3）大数据深度洞察 Flume flume 大数据
目录FlumeAgent架构概述FlumeAgent内部工作流程FlumeAgent的配置FlumeAgent内部重要组件ChannelSelectorSinkProcessorApacheFlume是一个分布式的、可靠的、可用的服务，用于有效地收集、聚合和移动大量日志数据。它具有简单灵活的架构，基于流式数据流动模型。Flume主要由三个核心组件组成：Source（源）、Channel（通道）和S
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务16：数据采集/消费/存储我非夏日大数据开发---电信项目大数据大数据技术开发 hadoop
任务描述“数据生产”的程序启动后，会持续向callLog.csv文件中写入模拟的通话记录。接下来，我们需要将这些实时的数据通过Flume采集到Kafka集群中，然后提供给HBase消费。Flume：是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据
flume集成kafka weixin_34112181 大数据 python java
2019独角兽企业重金招聘Python工程师标准>>>1.kafka的配置参照https://my.oschina.net/u/1591525/blog/22519102.flum配置在flume的conf目录下新建kafka.propertiesagent.sources=s1agent.channels=c1agent.sinks=k1agent.sources.s1.type=execage
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
Flume总结我是嘻哈大哥
1.概述2.角色（source、Channel、sink、event)3.使用（1）监控端口（2）实时读取本地文件到HDFS（3）实时读取目录文件到HDFS（4）Flume与Flume之间数据传递：单Flume多Channel、Sink（5）Flume与Flume之间数据传递，多Flume汇总数据到单Flume
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
大数据技术之 Flume 骚戴大数据大数据 Flume
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。骚戴理解：注意这里是日志采集，也就是只能采集文本类型的数据！Flume的作用的特点就是可以实时采集！1.2Flume基础架构Flume组成架构如下图所示1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送
FLUME-NG 使用总结 .道不虚行 hadoop flume 大数据数据收集
FLUME-NG使用总结1、Flume-NG概述2、Flume-NG架构设计要点3、FlowPipeline4、FlumeNG三个组件概要4.1、FlumeSource4.2、FlumeChannel4.3、FlumeSink5、入门应用5.1、flume-ng通过网络端口采集数据5.2、flume-ng通过Exectail采集数据5.3、可能遇到的问题1、Flume-NG概述Flume-NG是一
【大数据】Flume-1.9.0安装➕入门案例欧叶冲冲冲 flume 大数据 flume 学习分布式
目录前言一、Flume概述Flume基础架构二、Flume-1.9.0安装➕入门案例1.下载1.9.0解压2.监控端口数据官方案例3.实时读取本地文件（hive.log）到HDFS案例4.实时读取目录文件到HDFS案例5.实时监控目录下多个追加文件总结前言大数据解决的无非是海量数据的采集、存储、计算，Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。
大数据入门--Flume（一）安装教程与案例许中宝大数据 flume 大数据
Flume（一）安装教程与案例安装教程案例监控端口数据官方案例(netcat-logger)实时监控单个追加文件(exec-hdfs)进阶版存在的问题实时监控目录下多个新文件(taildir)实时监控目录下多个新文件（spooldir-hdfs）安装教程下载安装apache-flume-1.9.0-bin.tar.gz解压配置JAVA_HOMEviconf/flume-env.sh.templat
大数据Flume--入门泛黄的咖啡店大数据 flume
文章目录FlumeFlume定义Flume基础架构AgentSourceSinkChannelEventFlume安装部署安装地址安装部署Flume入门案例监控端口数据官方案例实时监控单个追加文件实时监控目录下多个新文件实时监控目录下的多个追加文件FlumeFlume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简
Flume安装部署在下区区俗物 flume 大数据
安装部署安装包连接：链接：https://pan.baidu.com/s/1m0d5O3Q2eH14BpWsGGfbLw?pwd=6666（1）将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下tar-zxf/opt/software/
大数据相关技术 ssttIsme
1数据获取方式爬虫:分布式爬虫java的jsoup(操作方式基于选择器)，pythoon,八爪鱼日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)(收集用户ip，访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段，拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
解读Servlet原理篇二---GenericServlet与HttpServlet 周凡杨 java HttpServlet 源理 GenericService 源码
在上一篇《解读Servlet原理篇一》中提到，要实现javax.servlet.Servlet接口（即写自己的Servlet应用），你可以写一个继承自javax.servlet.GenericServletr的generic Servlet ，也可以写一个继承自java.servlet.http.HttpServlet的HTTP Servlet（这就是为什么我们自定义的Servlet通常是exte
MySQL性能优化 bijian1013 数据库 mysql
性能优化是通过某些有效的方法来提高MySQL的运行速度，减少占用的磁盘空间。性能优化包含很多方面，例如优化查询速度，优化更新速度和优化MySQL服务器等。本文介绍方法的主要有： a.优化查询 b.优化数据库结构
ThreadPool定时重试 dai_lm java ThreadPool thread timer timertask
项目需要当某事件触发时，执行http请求任务，失败时需要有重试机制，并根据失败次数的增加，重试间隔也相应增加，任务可能并发。由于是耗时任务，首先考虑的就是用线程来实现，并且为了节约资源，因而选择线程池。为了解决不定间隔的重试，选择Timer和TimerTask来完成 package threadpool; public class ThreadPoolTest {
Oracle 查看数据库的连接情况周凡杨 sql oracle 连接
首先要说的是，不同版本数据库提供的系统表会有不同，你可以根据数据字典查看该版本数据库所提供的表。 select * from dict where table_name like '%SESSION%'; 就可以查出一些表，然后根据这些表就可以获得会话信息 select sid,serial#,status,username,schemaname,osuser,terminal,ma
类的继承朱辉辉33 java
类的继承可以提高代码的重用行，减少冗余代码；还能提高代码的扩展性。Java继承的关键字是extends 格式:public class 类名（子类）extends 类名（父类）{ } 子类可以继承到父类所有的属性和普通方法，但不能继承构造方法。且子类可以直接使用父类的public和 protected属性，但要使用private属性仍需通过调用。子类的方法可以重写，但必须和父类的返回值类
android 悬浮窗特效肆无忌惮_ android
最近在开发项目的时候需要做一个悬浮层的动画，类似于支付宝掉钱动画。但是区别在于，需求是浮出一个窗口，之后边缩放边位移至屏幕右下角标签处。效果图如下：一开始考虑用自定义View来做。后来发现开线程让其移动很卡，ListView+动画也没法精确定位到目标点。后来想利用Dialog的dismiss动画来完成。自定义一个Dialog后，在styl
hadoop伪分布式搭建林鹤霄 hadoop
要修改4个文件 1: vim hadoop-env.sh 第九行 2: vim core-site.xml <configuration> &n
gdb调试命令 aigo gdb
原文：http://blog.csdn.net/hanchaoman/article/details/5517362 一、GDB常用命令简介 r run 运行.程序还没有运行前使用 c cuntinue
Socket编程的HelloWorld实例 alleni123 socket
public class Client { public static void main(String[] args) { Client c=new Client(); c.receiveMessage(); } public void receiveMessage(){ Socket s=null; BufferedRea
线程同步和异步百合不是茶线程同步异步
多线程和同步 : 如进程、线程同步，可理解为进程或线程A和B一块配合，A执行到一定程度时要依靠B的某个结果，于是停下来，示意B运行；B依言执行，再将结果给A；A再继续操作。所谓同步，就是在发出一个功能调用时，在没有得到结果之前，该调用就不返回，同时其它线程也不能调用这个方法多线程和异步:多线程可以做不同的事情,涉及到线程通知 &
JSP中文乱码分析 bijian1013 java jsp 中文乱码
在JSP的开发过程中，经常出现中文乱码的问题。首先了解一下Java中文问题的由来： Java的内核和class文件是基于unicode的，这使Java程序具有良好的跨平台性，但也带来了一些中文乱码问题的麻烦。原因主要有两方面，
js实现页面跳转重定向的几种方式 bijian1013 JavaScript 重定向
js实现页面跳转重定向有如下几种方式：一.window.location.href <script language="javascript"type="text/javascript"> window.location.href="http://www.baidu.c
【Struts2三】Struts2 Action转发类型 bit1129 struts2
在【Struts2一】 Struts Hello World http://bit1129.iteye.com/blog/2109365中配置了一个简单的Action，配置如下 <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configurat
【HBase十一】Java API操作HBase bit1129 hbase
Admin类的主要方法注释： 1. 创建表 /** * Creates a new table. Synchronous operation. * * @param desc table descriptor for table * @throws IllegalArgumentException if the table name is res
nginx gzip ronin47 nginx gzip
Nginx GZip 压缩 Nginx GZip 模块文档详见：http://wiki.nginx.org/HttpGzipModule 常用配置片段如下： gzip on; gzip_comp_level 2; # 压缩比例，比例越大，压缩时间越长。默认是1 gzip_types text/css text/javascript; # 哪些文件可以被压缩 gzip_disable &q
java-7.微软亚院之编程判断俩个链表是否相交给出俩个单向链表的头指针，比如 h1 ， h2 ，判断这俩个链表是否相交 bylijinnan java
public class LinkListTest { /** * we deal with two main missions: * * A. * 1.we create two joined-List(both have no loop) * 2.whether list1 and list2 join * 3.print the join
Spring源码学习-JdbcTemplate batchUpdate批量操作 bylijinnan java spring
Spring JdbcTemplate的batch操作最后还是利用了JDBC提供的方法，Spring只是做了一下改造和封装 JDBC的batch操作： String sql = "INSERT INTO CUSTOMER " + "(CUST_ID, NAME, AGE) VALUES (?, ?, ?)";
[JWFD开源工作流]大规模拓扑矩阵存储结构最新进展 comsci 工作流
生成和创建类已经完成,构造一个100万个元素的矩阵模型,存储空间只有11M大,请大家参考我在博客园上面的文档"构造下一代工作流存储结构的尝试",更加相信的设计和代码将陆续推出......... 竞争对手的能力也很强.......,我相信..你们一定能够先于我们推出大规模拓扑扫描和分析系统的....
base64编码和url编码 cuityang base64 url
import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.io.StringWriter; import java.io.UnsupportedEncodingException;
web应用集群Session保持 dalan_123 session
关于使用 memcached 或redis 存储 session ，以及使用 terracotta 服务器共享。建议使用 redis，不仅仅因为它可以将缓存的内容持久化，还因为它支持的单个对象比较大，而且数据类型丰富，不只是缓存 session，还可以做其他用途，一举几得啊。1、使用 filter 方法存储这种方法比较推荐，因为它的服务器使用范围比较多，不仅限于tomcat ，而且实现的原理比较简
Yii 框架里数据库操作详解-[增加、查询、更新、删除的方法 'AR模式'] dcj3sjt126com 数据库
public function getMinLimit () { $sql = "..."; $result = yii::app()->db->createCo
solr StatsComponent（聚合统计） eksliang solr聚合查询 solr stats
StatsComponent 转载请出自出处：http://eksliang.iteye.com/blog/2169134 http://eksliang.iteye.com/ 一、概述 Solr可以利用StatsComponent 实现数据库的聚合统计查询，也就是min、max、avg、count、sum的功能二、参数
百度一道面试题 greemranqq 位运算百度面试寻找奇数算法 bitmap 算法
那天看朋友提了一个百度面试的题目：怎么找出{1,1,2,3,3,4,4,4,5,5,5,5} 找出出现次数为奇数的数字. 我这里复制的是原话，当然顺序是不一定的，很多拿到题目第一反应就是用map,当然可以解决，但是效率不高。还有人觉得应该用算法xxx,我是没想到用啥算法好...！还有觉得应该先排序... 还有觉
Spring之在开发中使用SpringJDBC ihuning spring
在实际开发中使用SpringJDBC有两种方式： 1. 在Dao中添加属性JdbcTemplate并用Spring注入； JdbcTemplate类被设计成为线程安全的，所以可以在IOC 容器中声明它的单个实例，并将这个实例注入到所有的 DAO 实例中。JdbcTemplate也利用了Java 1.5 的特定(自动装箱，泛型，可变长度
JSON API 1.0 核心开发者自述 | 你所不知道的那些技术细节 justjavac json
2013年5月，Yehuda Katz 完成了JSON API(英文，中文) 技术规范的初稿。事情就发生在 RailsConf 之后，在那次会议上他和 Steve Klabnik 就 JSON 雏形的技术细节相聊甚欢。在沟通单一 Rails 服务器库—— ActiveModel::Serializers 和单一 JavaScript 客户端库——&
网站项目建设流程概述 macroli 工作
一.概念网站项目管理就是根据特定的规范、在预算范围内、按时完成的网站开发任务。二.需求分析项目立项　　我们接到客户的业务咨询，经过双方不断的接洽和了解，并通过基本的可行性讨论够，初步达成制作协议，这时就需要将项目立项。较好的做法是成立一个专门的项目小组，小组成员包括：项目经理，网页设计，程序员，测试员，编辑/文档等必须人员。项目实行项目经理制。客户的需求说明书　　第一步是需
AngularJs 三目运算表达式判断 qiaolevip 每天进步一点点学习永无止境众观千象 AngularJS
事件回顾：由于需要修改同一个模板，里面包含2个不同的内容，第一个里面使用的时间差和第二个里面名称不一样，其他过滤器，内容都大同小异。希望杜绝If这样比较傻的来判断if-show or not，继续追究其源码。 var b = "{{", a = "}}"; this.startSymbol = function(a) {
Spark算子：统计RDD分区中的元素及数量 superlxw1234 spark spark算子 Spark RDD分区元素
关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量 Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithInd
Spring 3.2.x将于2016年12月31日停止支持 wiselyman Spring 3
Spring 团队公布在2016年12月31日停止对Spring Framework 3.2.x（包含tomcat 6.x）的支持。在此之前spring团队将持续发布3.2.x的维护版本。请大家及时准备及时升级到Spring
fis纯前端解决方案fis-pure zccst JavaScript
作者：zccst FIS通过插件扩展可以完美的支持模块化的前端开发方案，我们通过FIS的二次封装能力，封装了一个功能完备的纯前端模块化方案pure。 1，fis-pure的安装 $ fis install -g fis-pure $ pure -v 0.1.4 2，下载demo到本地 git clone https://github.com/hefangshi/f

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他