月夜楓

flume

1：配置了两个flume实例以后，会报错误：

2016-07-11 12:40:27,845 (conf-file-poller-0) [INFO - org.mortbay.log.Slf4jLog.info(Slf4jLog.java:67)] jetty-6.1.26

2016-07-11 12:40:27,871 (conf-file-poller-0) [INFO - org.mortbay.log.Slf4jLog.info(Slf4jLog.java:67)] Started [email protected]:41414

Server@5ea03ac7: java.net.BindException: Address already in use

java.net.BindException: Address already in use

at java.net.PlainSocketImpl.socketBind(Native Method)

at java.net.AbstractPlainSocketImpl.bind(AbstractPlainSocketImpl.java:376)

at java.net.ServerSocket.bind(ServerSocket.java:376)

at org.apache.flume.node.PollingPropertiesFileConfigurationProvider$FileWatcherRunnable.run(PollingPropertiesFileConfigurationProvider.java:140)

at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)

at java.util.concurrent.FutureTask.runAndReset(FutureTask.java:304)

at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$301(ScheduledThreadPoolExecutor.java:178)

at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)

at java.lang.Thread.run(Thread.java:744)

at net.sf.json.util.JSONTokener.syntaxError(JSONTokener.java:505)

at net.sf.json.JSONObject._fromJSONTokener(JSONObject.java:1271)

at net.sf.json.JSONObject.fromObject(JSONObject.java:155)

at net.sf.json.util.JSONTokener.nextValue(JSONTokener.java:347)

at net.sf.json.JSONObject._fromJSONTokener(JSONObject.java:1180)

at net.sf.json.JSONObject.fromObject(JSONObject.java:155)

at net.sf.json.util.JSONTokener.nextValue(JSONTokener.java:347)

at net.sf.json.JSONObject._fromJSONTokener(JSONObject.java:1180)

at net.sf.json.JSONObject.fromObject(JSONObject.java:155)

at net.sf.json.util.JSONTokener.nextValue(JSONTokener.java:347)

at net.sf.json.JSONArray._fromJSONTokener(JSONArray.java:1132)

at org.mortbay.jetty.handler.HandlerWrapper.handle(HandlerWrapper.java:152)

at org.mortbay.jetty.Server.handle(Server.java:326)

at org.mortbay.jetty.HttpConnection.handleRequest(HttpConnection.java:542)

at org.mortbay.jetty.HttpConnection$RequestHandler.content(HttpConnection.java:945)

at org.mortbay.jetty.HttpParser.parseNext(HttpParser.java:756)

at org.mortbay.jetty.HttpParser.parseAvailable(HttpParser.java:218)

at org.mortbay.jetty.HttpConnection.handle(HttpConnection.java:404)

at org.mortbay.jetty.bio.SocketConnector$Connection.run(SocketConnector.java:228)

at org.mortbay.thread.QueuedThreadPool$PoolThread.run(QueuedThreadPool.java:582)

解决方法：参照【 http://qianshangding.iteye.com/blog/2259389 】

添加的flume监控

Flume主要由以下几种监控方式：

JMX监控

JMX高爆可以在flume-env.sh文件修改JAVA_OPTS环境变量，如下：

Java代码

export JAVA_OPTS=”-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=5445 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false”

Ganglia监控

Flume也可以报告metrics到Ganglia 3或者是Ganglia 3.1的metanodes。要将metrics报告到Ganglia，必须在启动的时候就支持Flume Agent。这个Flume Agent使用flume.monitoring作为前缀，通过下面的参数启动。当然也可以在flume-env.sh中设置：

属性默认描述

type	–	de >组件名：gangliade>
hosts	–	de >Ganglia服务器的hostname:port列表，有逗号分隔。de>
pollFrequency	60	多少秒向Ganglia发一次数据。
isGanglia3	false	刚的服务器是否是3，默认情况下是发Ganglia3.1的格式。

如果要支持Ganglia，可以通过如下命令启动。

Java代码

$ bin/flume-ng agent --conf-file example.conf --name a1 -Dflume.monitoring.type=ganglia -Dflume.monitoring.hosts=com.example:1234,com.example2:5455

JSON监控

Flume可以通过JSON形式报告metrics，启用JSON形式，Flume需要配置一个端口。如下是采用JSON格式报告metrics的格式：

Java代码

{
"typeName1.componentName1" : {"metric1" : "metricValue1", "metric2" : "metricValue2"},
"typeName2.componentName2" : {"metric3" : "metricValue3", "metric4" : "metricValue4"}
}

例如：

Java代码

{
"CHANNEL.fileChannel":{"EventPutSuccessCount":"468085",
"Type":"CHANNEL",
"StopTime":"0",
"EventPutAttemptCount":"468086",
"ChannelSize":"233428",
"StartTime":"1344882233070",
"EventTakeSuccessCount":"458200",
"ChannelCapacity":"600000",
"EventTakeAttemptCount":"458288"},
"CHANNEL.memChannel":{"EventPutSuccessCount":"22948908",
"Type":"CHANNEL",
"StopTime":"0",
"EventPutAttemptCount":"22948908",
"ChannelSize":"5",
"StartTime":"1344882209413",
"EventTakeSuccessCount":"22948900",
"ChannelCapacity":"100",
"EventTakeAttemptCount":"22948908"}
}

属性名默认描述

type	–	组件的名称：de >httpde>
port	41414	启动服务的端口

可以用如下命令启动Flume:

Java代码

$ bin/flume-ng agent --conf-file example.conf --name a1 -Dflume.monitoring.type=http -Dflume.monitoring.port=34545

自定义监控

自定义的监控需要实现org.apache.flume.instrumentation.MonitorService接口。例如有一个HTTP的监控类叫HttpReporting，我可以通过如下方式启动这个监控。

Java代码

$ bin/flume-ng agent --conf-file example.conf --name a1 -Dflume.monitoring.type=com.example.reporting.HTTPReporting -Dflume.monitoring.node=com.example:332

报告metrics我们也可以自定义组件，不过一定要继承 org.apache.flume.instrumentation.MonitoredCounterGroup 虚拟类。Flume已经实现的类，如下图：

根据上面的规范我么就可以开发自定义的监控组件了。

2：flume配置的几个总结：

参考：https://book.douban.com/people/cswuyg/annotation/26013531/

1、Overview and Architecture

Flume was created to meet this need and create a standard, simple, robust, flexible, and extensible tool for data ingestion into Hadoop.

In June of 2011, Cloudera moved control of the Flume project to the Apache foundation.

大家都需要flume这样一个实时传输数据的工具，Cloudera公司做了一个，然后在2011年6月将这个工具迁移到了Apache基金会，2012年出来了重构后的flume，版本号为flume1.X，这一系列也称为flume-ng。

flume-ng跟之前的flume相比，明显的不同是去掉了master/masters、ZooKeeper，其传输框架、配置也发生了很大的变化。

page9 hdfs上的文件如果不关闭，那么当它发生意外的时候，整个文件就是空文件。但小文件对hadoop不友好，所以也不能频繁的关闭文件。

In HDFS the file exists only as a directory entry, it shows as having zero length until the file is closed. This means if data is written to a file for an extended period without closing it, a network disconnect with the client will leave you with nothing but and empty file for all your efforts.

Since the HDFS metadata is kept in memory on the NameNode, the more files you create, the more RAM you'll need to use, From a MapReduce prospective, tiny file lead to poor efficiency.

If you have lots of tiny files, the cost of starting the worker processes can be disproportionally high compared to the data it is processing.

page10

A source writes events to one or more channels.

A channel is the holding area as events are passed from a source to a sink.

A sink receives events from one channel only.

An agent can have many sources, channels, and sinks.

数据传递的基本单位是event，event是header和body的组合，其中header可以是0或者多个字段的组合。

Interceptors, channel selectors, and sink processes

1、interceptor：可以观察、修改Flume的events；一个source可以有多个interceptor。

2、channel selector：对来自source的数据分流到一个或多个channel中；flume自己提供了两类selector：（1）replicating channel selector，把event拷贝分给个channel，这类似副本；（2）multiplexing channel selector, 把event根据header信息分发给多个channel，这类似shard。

3、sink processor ：可以用于做备用sink，也可以用作多个sink对一个channel的负载均衡。

Tiered data collection（multiple flows and/or agents）

可以把多个agent串起来，譬如在必要的时候，可以在数据源跟Hadoop集群之间增加一个中间层，用于缓存数据源到Hadoop集群的数据。

2、Flume Quick Start

Flume configuration file overview

Flume agent的配置采用Java property format，一个配置文件中可以配置多个agent，所以启动时，需要指定agent名。

最简单的例子：

agent.sources=s1

agent.channels=c1

agent.sinks=k1

agent.sources.s1.type=netcat

agent.sources.s1.channels=c1

agent.sources.s1.bind=0.0.0.0

agent.sources.s1.port=12345

agent.channels.c1.type=memory

agent.sinks.k1.type=logger

agent.sinks.k1.channel=c1

agent名为agent，source名为s1，channel名为c1，sink名为k1

一个sink只能对应一个channel。

启动flume例子：./bin/flume-ng agent -n agent -c conf -f conf/hw.conf -Dflume.root.logger=INFO,console

-Dflume.root.logger=INFO,console 表示日志打到控制台，如果不设置默认打到 log/flume.log文件中，可以修改 cong/log4j.properties 文件改变日志配置。

3、Channels

Memory Channel：管道数据不缓存在磁盘，机器故障、重启flume可能会导致数据丢失，受限于内存大小，管道能缓存的event不多；

File Channel：管道数据缓存在磁盘，保证数据不丢失，能缓存更多的event，缺点是性能下降；

Memory Channel

如果增加了管道的容量，记得也要增加java的堆空间：using the -Xmx and optionally the -Xms parameters。

transactionCapacity属性的用途是设定一次传输多少events，包括从source写入到channel，从channel被sink读走。这个值如果设置得高，可以减少平均每个event的包装成本，但如果传输失败，重传成本也会相应变高。

keep-alive 属性指定数据写入channel时的超时时间，当channel数据满时，会触发超时。

File Channel

适用于不允许数据丢失的使用场景。

如果有多个File Channel，要把它们分配到多个磁盘上，避免IO瓶颈，如果有多块磁盘，可以在设置dataDirs 的时候用逗号分隔使用多个磁盘。

避免使用NFS，太慢。

默认capacity为100W条event。

maxFileSize 属性设置每个log文件的大小，当一个文件满的时候，才会去检查是否需要删掉旧log文件，而检查时，如果发现旧文件的数据还没有被处理过，则不做删除，所以如果设置为2GB大小，那么可能峰值会达到4GB的磁盘空间。

minimumRequired 属性表示file-channel所在磁盘至少需要剩下多少空间，如果剩下的空间小于这个值，则会抛出异常。

Summary

对比总结：

The memory channel offers speed at the cost of data loss in the event of failure.

Alternatively, the file channel provides a more reliable transport, in that it can tolerate agent failures and restarts, at a performance cost.

在做选择的时候有几个方面的考虑：1、如果选择了memory channel，数据丢失需要付出多少代价？如果选择了file-channel，需要为保证性能花费多少硬件升级资金？ 2、如果数据丢失了，是否容易找回？

传输到hdfs中的数据可能有重复的，有两种做法，一种是定期启动MapReduce去清理重复数据，另一种是在使用数据的时候再做处理。

4、Sinks and Sink Processors

有很多开源的sink可以用，如果没有找到合适的，可以继承 org.apache.flume.sink.Abstractsink 自己写一个。

hdfs sink，支持很多种方式的文件命名、文件路径设定。

数据可以设置压缩存储：agent.sinks.k1.hdfs.codeC=gzip ，但是如果读取的次数很多，这会影响性能。

Event serializer

把event转换为另一种格式

An event serializer is the mechanism by which a Flume event is converted into another format for output.

Sink group

可以设置多个sink用于故障备用，或者是负载均衡。指定sinkgroup的processor.type为failover则表示故障备用。

如果是load balancing，balance的方式可以选择为:round_robin、random，所谓round_robin其实就是取模、轮流。

压缩、数据写入格式...

5、Sources and Channel Selectors

有很多source插件可用，如果找不到，则可以继承 org.apache.flume.source. AbstractSource 自己写一个。

The problem with using tail

flume以前的版本曾经有TailSource，类似于tail -f的插件，但是后来移除了，因为它容易导致数据丢失，而且丢失得很隐蔽：

譬如：

（1）应用写入a.log文件，flume读取a.log文件；

（2）a.log文件满，应用将其重命名为a.log.1，然后写入到新的a.log文件，这时候，flume还没处理完原来的文件，于是继续读取a.log.1

（3）a.log文件又满了，应用将a.log.1重命名为a.log.2，a.log重命名为a.log.1，写入新的a.log文件，这时候，flume处理的文件为a.log.2文件，处理完后，它会认为最新的文件时a.log文件，于是去处理a.log文件，a.log.1文件丢失了。

还有，tail的方式无法得知日志写入channel成功与否，如果channel已经满了，tail不会知道，数据就丢了。

The exec source

可以执行一个外部进程，但注意，flume重启的时候，不会关闭掉旧插件进程，需要自己关闭。

The Spooling directory source

监控目录，但是注意不能修改文件的名字，不能出现同名覆盖文件，不要出现只有一半内容的文件。传输完成之后，文件会被重命名为xx.COMPLETED，需要有定时清理脚本把这些文件清理掉。

重启会导致出现重复event，因为那些被传输到一半的文件没有被设置为完成状态。

Syslog

可以用来接收syslog，支持TCP、UDP

Channel Selectors

有两种selector，一种是副本（Replicating），一种是分散（Multiplexing）。

The replicating selector writes the same event to all channels in the source's channels list.

如：

agent.sources.s1.channels=c1 c2 c3

agent.sources.s1.selector.type=replicating

agent.sources.s1.selector.optional=c2 c3

如果设置为可选，则表示可选的channel写入失败也无所谓，只要保证c1写入成功即可。

If you wanted to send different events to different channels, you would use a multiplexing channel selector by setting selector.typeto multiplexing.

multiplexing 可以设置根据某个字段的值分流到不同的channel中

如：

agent.sources.s1.selector.type=multiplexing

agent.sources.s1.selector.header=port

agent.sources.s1.selector.default=c2

agent.sources.s1.selector.mapping.11111=c1 c2

agent.sources.s1.selector.mapping.44444=c2

agent.sources.s1.selector.optional.44444=c3

6、Interceptors, ETL, and Routing

interceptor：在source之后，在sink之前，用来修改events。

我用到的是static interceptor，用它来增加header，eg:

agent.sources.s1.interceptors=pos env

agent.sources.s1.interceptors.pos.type=static

agent.sources.s1.interceptors.pos.key=pointOfSale

agent.sources.s1.interceptors.pos.value=US

agent.sources.s1.interceptors.env.type=static

agent.sources.s1.interceptors.env.key=environment

agent.sources.s1.interceptors.env.value=staging

指定type为static，指定key、value为需要设置的值。

可以使用regex_extractor去提取body中的信息，然后再用上serializer插件把信息加入到event的header中。

自定义interceptor，实现接口：

org.apache.flume.interceptor.Interceptor

org.apache.flume.interceptor.Interceptor.Builder

Tiering data flows

使用Avro作为传输协议，在多个agent之间传递event。

传输文件，eg：

./flume-ng avro-client --filename foo.log --headerFile headers. properties --host collector.example.com --port 42424

Log4J Appender

The Load Balancing Log4J Appender

让应用直接把日志打到channel中

Routing

interceptor给events打上标签，然后再用channel selector根据标签分流到不同的channel。

7、Monitoring Flume

我们需要监控数据进入source的速度，channel使用比例，数据被sink读取的速度。

Ganglia

The internal HTTP server

可以启动一个内置的HTTPServer，用来简单观察flume运行情况，启动方法：在启动命令行上增加参数：

-Dflume.monitoring.type=http -Dflume.monitoring.port=8879，表明在8879端口上查看监控信息，如： http://xxxx:8879/metrics 可以查看到一些性能信息，如channel的使用率，在开发测试时，可以根据它来确认file-channel要开多大。

也可以把上面的启动参数加到./conf/flume-env.sh文件的JAVA_OPTS变量上。

8、There Is No Spoon — The Realities Of Real-time Distributed Data Collection

需要注意的一些问题：

（1）传输时间跟日志时间，日志接受时间跟传输时间不一样的；

（2）时区，在全球都有机房，要注意统一时区，或者使用UTC时间，设置：-Duser.timezone=UTC；

（3）磁盘容量，大容量大价钱，需要考虑数据的价值；

（4）多数据中心，在各个数据中心都布一套hadoop，不用把数据都传到一个数据中心，但这也会让总数计算变得复杂；

（5）数据使用权限（法律问题）

end.

3总结2：

flume介绍

flume最新release版本是1.6.0
官方介绍：
Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data. It has a simple and flexible architecture based on streaming data flows. It is robust and fault tolerant with tunable reliability mechanisms and many failover and recovery mechanisms. It uses a simple extensible data model that allows for online analytic application.

flume基本组件架构

Flume-basic

flume agent: 由若干source,channel,sink组成，其中source接收来自外源（external source）发送来的数据，然后将数据写入一个或多个channel，channel被动的存储接收的数据直到数据被sink消费。一个agent内的source和sink是借助于channle异步运行的（The source and sink within the given agent run asynchronously with the events staged in the channel.）
Event: event在flume里被定义为一个数据流的基本单位，event里包含可设置各种属性的header。
Client SDK: 提供了rpc client接口，比较特殊的包括Failover client（一组agents组成一个faileover group），以及LoadBalancing RPC client（一组agents组成load-balancing group，负载均衡策略可以是随机，R-R，或者自己定义）

可靠性

数据（events）只有在被下一个agent中的channel存储或者发生到终端（terminal repository）后才会被从channel中删除。
（The Sink removes an Event from the Channel only after the Event is stored into the Channel of the next agent or stored in the terminal repository. This is how the single-hop message delivery semantics in Flume provide end-to-end reliability of the flow.）
flume利用channel提供的事务性来保证数据分发的可靠性，这样可以确保数据流中端到端的数据可靠性。
（The Sources and Sinks encapsulate the storage/retrieval of the Events in a Transaction provided by the Channel. ）

事务

flume-transaction
如上图所示。

可恢复性

数据被暂存在channel中，channel负责故障恢复。
channle支持持久化（本地文件）和非持久化（内存）两种模式。

flume支持级联模式

只需要配置上对应agent的source和sink即可。
flume-more-hop

多路技术

flume支持多路分发，支持一个源发布到多个端
flume-multiplexing
注意，一个source实例可以配置多个channel，但是一个sink只能配置指定到一个channel

分发数据流（Fan out flow）

前面说道，flume支持从一个source到多个channel的多路分发技术，具体实现有两种方法，一个是复制（replicating），一个是多路技术（multiplexing）。
replicating模式中，数据会被发送到配置指定的所有channels。
multiplexing模式中，数据可能只会被发送到符合规则的channels中，可能是一个，多个或所有的。

两种模式可以通过指定selector.type来选择，默认为replicating。
如果指定的是multiplexing模式，则需要进一步指定规则，主要是通过header内容判断，然后分发到不同channel。
如：

agent_foo.sources.avro-AppSrv-source1.selector.type = multiplexing
agent_foo.sources.avro-AppSrv-source1.selector.header = State
agent_foo.sources.avro-AppSrv-source1.selector.mapping.CA = mem-channel-1
agent_foo.sources.avro-AppSrv-source1.selector.mapping.AZ = file-channel-2
agent_foo.sources.avro-AppSrv-source1.selector.mapping.NY = mem-channel-1 file-channel-2
agent_foo.sources.avro-AppSrv-source1.selector.default = mem-channel-1

则selector会检查header中的state值，CA会发送到mem-channel-1，以此类推。

多种source

flume支持多种source，如Avro source, thrift source,exec source（命令行，如tail -f filelog），kafka source等等。
每个source实例都会有自己的生命周期，包括start(),stop(),process().

多种sink

flume支持多种sink，如hdfs sink,hive sink,logger sink, avro sink,thrift sink等等。
每个sink实例都会有自己的生命周期，包括start(),stop(),process().

多种channel

flume支持多种channel，如memory channel,file channel,kafka channel

flume拦截器（flume interceptors）

fulme具有修改或者丢弃接收到的数据（events）的能力。即对接收到的数据按照一定的配置规则处理。可以是增加字段，修改替换，过滤等。

flume轮询配置

flume agent会不断检查看配置文件是否修改更新，如果更新则会重新加载。

设计拓扑结构的一些考虑点

flume适合将文本log数据写到HDFS。但可传输的数据可以多种多样，对flume来讲，会把接收的数据都看作是二进制数据。此外，你的拓扑结构可以修改，但不适合经常性的修改，但不适合每天都要修改（because reconfiguration takes some thought and overhead.）。
数据流的可靠性。channel类型选择，持久化还是内存型的，以及当channel满时情况，因为有可能造成数据丢失。以及是否使用冗余拓扑。（Whether you use redundant topologies.）
拓扑结构设计。如果源比较多的话是否使用聚合功能。
估算数据量，吞吐能力。

一家之言

优点：

系统架构设计的非常清晰，组件之间耦合度非常低，可以根据需求自由组合；
同时提供了多种source和sink，扩展性很强。

不足：

配置不够灵活，尤其是需要动态更新一条数据流时；
虽然提供了channel的事务，但是整个系统的异常处理能力还是比较弱的，不适合对数据质量要求较高的场景；
用户接入的代价也比较高，以及运维是个挑战。

你可能感兴趣的:(flume)

nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
Flume：大规模日志收集与数据传输的利器傲雪凌霜，松柏长青后端大数据 flume 大数据
Flume：大规模日志收集与数据传输的利器在大数据时代，随着各类应用的不断增长，产生了海量的日志和数据。这些数据不仅对业务的健康监控至关重要，还可以通过深入分析，帮助企业做出更好的决策。那么，如何高效地收集、传输和存储这些海量数据，成为了一项重要的挑战。今天我们将深入探讨ApacheFlume，它是如何帮助我们应对这些挑战的。一、Flume概述ApacheFlume是一个分布式、可靠、可扩展的日志
解决flume在抽取不断产生的日志文件时，hdfs上出现很多小文件的问题 lzhlizihang flume hdfs 大数据
问题在使用flume时，需要编写conf文件，然后执行，明明sinks已经指定了roll的三个参数：a1.sinks.k1.hdfs.rollInterval=0（根据写入时间来切割）a1.sinks.k1.hdfs.rollSize=0（根据写入的文件大小来切割）a1.sinks.k1.hdfs.rollCount=0（根据Event数量来切割）其中0代表不根据其属性来切割文件但是hdfs上还会
pyspark kafka mysql_数据平台实践①——Flume+Kafka+SparkStreaming(pyspark) weixin_39793638 pyspark kafka mysql
蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume数据传输的基本单元。Source：用来接收Event，并将Event批量传
【大数据Big DATA】大数据解决方案，提供完整的大数据采集，大数据存储，大数据处理，具体业务应用解决方案 _晓夏_ JAVA大数据大数据解决方案大数据BIG DATA 大数据采集大数据存储大数据处理大数据分析
大数据解决方案是指利用大数据技术，结合企业实际业务需求，为企业提供数据采集、存储、处理、分析和报告等一站式服务，以帮助企业更好地利用大数据提高运营效率、优化决策制定。以下是一些常见的大数据解决方案：一、数据采集数据采集是大数据解决方案的起点，涉及从各种数据源中抓取和收集数据。常见的大数据采集工具包括Flume、Scribd等，这些工具可以帮助企业快速、高效地采集各类数据。二、数据存储大数据存储解决
大数据技术之Flume 企业开发案例——自定义 Interceptor（8）大数据深度洞察 Flume flume 大数据
目录自定义Interceptor1）案例需求2）需求分析3）实现步骤创建一个Maven项目，并引入以下依赖。定义CustomInterceptor类并实现Interceptor接口。编辑flume配置文件分别在hadoop12，hadoop13，hadoop14上启动flume进程，注意先后顺序。在hadoop12使用netcat向localhost:44444发送字母和数字。观察hadoop13
大数据基础之Flume——Flume基础及Flume agent配置以及自定义拦截器 Clozzz Flume 大数据 flume hadoop
Flume简介Flume用于将多种来源的日志以流的方式传输至Hadoop或者其他目的地 -一种可靠、可用的高效分布式数据收集服务Flume拥有基于数据流上的简单灵活架构，支持容错、故障转移与恢复由Cloudera2009年捐赠给Apache，现为Apache顶级项目Flume架构Client：客户端，数据产生的地方，如Web服务器Event：事件，指通过Agent传输的单个数据包，如日志数据通常对
Flume介绍及调优桓桓桓桓分布式大数据日志搜集
一、概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。当前Flume有两个版本Flume0.9X版本的统称Flume-og，Flume1.X版本的统称Flume-ng。由于Flume-ng经过重大重构，与Flu
大数据技术之Flume 数据流监控——Ganglia 的安装与部署（11）大数据深度洞察 Flume 大数据 flume
目录Flume数据流监控Ganglia的安装与部署Ganglia组件介绍1）安装Ganglia2）在hadoop12修改配置文件/etc/httpd/conf.d/ganglia.conf3）在hadoop12修改配置文件/etc/ganglia/gmetad.conf4）在hadoop12,hadoop13,hadoop14修改配置文件/etc/ganglia/gmond.conf5）在hado
大数据技术之Flume okbin1991 大数据 flume java hadoop 开发语言
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。1.2Flume基础架构Flume组成架构如下图所示。1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送至目的。Agent主要有3个部分组成，Source、Channel、Sink。1.2.2Sourc
错误: 找不到或无法加载主类 org.apache.flume.tools.GetJavaProperty 小波2200013045 flume 大数据
[root@master~]#flume-ngversion[root@master~]#cd/usr/local/flume/bin[root@masterbin]#vimflume-ng配置文件中加入红框代码#determineHBASEjava.library.pathandusethatforflumelocalHBASE_CLASSPATH=""localHBASE_JAVA_LIBRA
flume系列之：批量并行启动、停止、重启flume agent组快乐骑行^_^ flume flume系列批量并行启动停止重启 flume agent组
Flume系列之：批量并行启动、停止、重启flumeagent组批量启动flumeagent组批量启动flumeagent组importsubprocessimportthreadingdefrun_command(command):process=subprocess.Popen(command,shell=True)process
大数据技术之Flume 企业开发案例——负载均衡和故障转移（6）大数据深度洞察 Flume 大数据 flume 负载均衡
目录负载均衡和故障转移1）案例需求2）需求分析3）实现步骤负载均衡和故障转移1）案例需求使用Flume1监控一个端口，其sink组中的sink分别对接Flume2和Flume3，采用FailoverSinkProcessor，实现故障转移的功能。2）需求分析故障转移案例3）实现步骤准备工作在/opt/module/flume/job目录下创建group2文件夹[lzl@hadoop12job]$c
大数据技术之Flume事务及内部原理（3）大数据深度洞察 Flume flume 大数据
目录FlumeAgent架构概述FlumeAgent内部工作流程FlumeAgent的配置FlumeAgent内部重要组件ChannelSelectorSinkProcessorApacheFlume是一个分布式的、可靠的、可用的服务，用于有效地收集、聚合和移动大量日志数据。它具有简单灵活的架构，基于流式数据流动模型。Flume主要由三个核心组件组成：Source（源）、Channel（通道）和S
从零到一建设数据中台 - 关键技术汇总我码玄黄数据中台数据挖掘数据分析大数据
一、数据中台关键技术汇总语言框架：Java、Maven、SpringBoot数据分布式采集：Flume、Sqoop、kettle数据分布式存储：HadoopHDFS离线批处理计算：MapReduce、Spark、Flink实时流式计算：Storm/SparkStreaming、Flink批处理消息队列：Kafka查询分析：Hbase、Hive、ClickHouse、Presto搜索引擎：Elast
基于Hadoop平台的电信客服数据的处理与分析④项目实现：任务16：数据采集/消费/存储我非夏日大数据开发---电信项目大数据大数据技术开发 hadoop
任务描述“数据生产”的程序启动后，会持续向callLog.csv文件中写入模拟的通话记录。接下来，我们需要将这些实时的数据通过Flume采集到Kafka集群中，然后提供给HBase消费。Flume：是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据
flume集成kafka weixin_34112181 大数据 python java
2019独角兽企业重金招聘Python工程师标准>>>1.kafka的配置参照https://my.oschina.net/u/1591525/blog/22519102.flum配置在flume的conf目录下新建kafka.propertiesagent.sources=s1agent.channels=c1agent.sinks=k1agent.sources.s1.type=execage
Hadoop生态圈陈超Terry的技术屋
生态圈1.HBase的数据存储在HDFS里2.MapReduce可以计算HBase里的数据，也可以计算HDFS里的数据3.Hive是数据分析数据引擎，也是MapReduce模型，支持SQL4.Pig也是一个数据分析引擎，不支持SQL，有自己的PigLatin数据5.Sqoop是数据采集工具，针对关系数据库6.Flume是针对文件等数据的采集7.Hadoop的HA通过Zookeeper来实现8.HU
Flume总结我是嘻哈大哥
1.概述2.角色（source、Channel、sink、event)3.使用（1）监控端口（2）实时读取本地文件到HDFS（3）实时读取目录文件到HDFS（4）Flume与Flume之间数据传递：单Flume多Channel、Sink（5）Flume与Flume之间数据传递，多Flume汇总数据到单Flume
离线数仓（一）【数仓概念、需求架构】让线程再跑一会离线数仓大数据
前言今天开始学习数仓的内容，之前花费一年半的时间已经学完了Hadoop、Hive、Zookeeper、Spark、HBase、Flume、Sqoop、Kafka、Flink等基础组件。把学过的内容用到实践这是最重要的，相信会有很大的收获。1、数据仓库概念1.1、概念数据仓库（DataWarehouse），是为企业制定决策，提供数据支持的。可以帮助企业，改进业务流程、提高产品质量等。（数据仓库的目的
大数据技术之 Flume 骚戴大数据大数据 Flume
第1章Flume概述1.1Flume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单。骚戴理解：注意这里是日志采集，也就是只能采集文本类型的数据！Flume的作用的特点就是可以实时采集！1.2Flume基础架构Flume组成架构如下图所示1.2.1AgentAgent是一个JVM进程，它以事件的形式将数据从源头送
FLUME-NG 使用总结 .道不虚行 hadoop flume 大数据数据收集
FLUME-NG使用总结1、Flume-NG概述2、Flume-NG架构设计要点3、FlowPipeline4、FlumeNG三个组件概要4.1、FlumeSource4.2、FlumeChannel4.3、FlumeSink5、入门应用5.1、flume-ng通过网络端口采集数据5.2、flume-ng通过Exectail采集数据5.3、可能遇到的问题1、Flume-NG概述Flume-NG是一
【大数据】Flume-1.9.0安装➕入门案例欧叶冲冲冲 flume 大数据 flume 学习分布式
目录前言一、Flume概述Flume基础架构二、Flume-1.9.0安装➕入门案例1.下载1.9.0解压2.监控端口数据官方案例3.实时读取本地文件（hive.log）到HDFS案例4.实时读取目录文件到HDFS案例5.实时监控目录下多个追加文件总结前言大数据解决的无非是海量数据的采集、存储、计算，Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。
大数据入门--Flume（一）安装教程与案例许中宝大数据 flume 大数据
Flume（一）安装教程与案例安装教程案例监控端口数据官方案例(netcat-logger)实时监控单个追加文件(exec-hdfs)进阶版存在的问题实时监控目录下多个新文件(taildir)实时监控目录下多个新文件（spooldir-hdfs）安装教程下载安装apache-flume-1.9.0-bin.tar.gz解压配置JAVA_HOMEviconf/flume-env.sh.templat
大数据Flume--入门泛黄的咖啡店大数据 flume
文章目录FlumeFlume定义Flume基础架构AgentSourceSinkChannelEventFlume安装部署安装地址安装部署Flume入门案例监控端口数据官方案例实时监控单个追加文件实时监控目录下多个新文件实时监控目录下的多个追加文件FlumeFlume定义Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简
Flume安装部署在下区区俗物 flume 大数据
安装部署安装包连接：链接：https://pan.baidu.com/s/1m0d5O3Q2eH14BpWsGGfbLw?pwd=6666（1）将apache-flume-1.10.1-bin.tar.gz上传到linux的/opt/software目录下（2）解压apache-flume-1.10.1-bin.tar.gz到/opt/moudle/目录下tar-zxf/opt/software/
大数据相关技术 ssttIsme
1数据获取方式爬虫:分布式爬虫java的jsoup(操作方式基于选择器)，pythoon,八爪鱼日志收集:log4j(可以控制级别和放置的位置)(可以输出数据到flume)(可以输出到mq),flume(分布式日志收集系统)(收集用户ip，访问了哪个方法)(例如三大运营商的日志分析能根据用户71个字段，拿到谁在什么时间什么地点用什么手机什么浏览器哪个版本访问了什么网站访问了多长时间网站内容是什么)
java大数据hadoop2.9.2 Flume安装&操作 crud-boy java大数据大数据 flume
1、flume安装（1）解压缩tar-xzvfapache-flume-1.9.0-bin.tar.gzrm-rfapache-flume-1.9.0-bin.tar.gzmv./apache-flume-1.9.0-bin//usr/local/flume（2）配置cd/usr/local/flume/confcp./flume-env.sh.template./flume-env.shvifl
java基础：System.getenv() VS System.getProperty() CarsonCao
在阅读flume源码的时候发下如下函数：privatestaticvoidinitSysPropFromEnvVar(StringsysPropName,StringenvVarName,Stringdescription){if(System.getProperty(sysPropName)!=null){LOGGER.debug("GlobalSSL"+description+"hasbeen
flume：(conf-file-poller-0) [ERROR - org.apache.flume.node.AbstractConfigurationProvider.loadSinks WSQ(E) flume
flume启动失败(conf-file-poller-0)[ERROR-org.apache.flume.node.AbstractConfigurationProvider.loadSinks(AbstractConfigurationProvider.java:427)]Sinkk1hasbeenremovedduetoanerrorduringconfigurationorg.apache.
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http