weixin_34407348

Flumn

2.4.6.2.1 概论

数据发生器产生的数据被被单个的运行在数据发生器所在服务器上的agent所收集，之后数据收容器从各个agent上汇集数据并将采集到的数据存入到HDFS或者HBase中。

2.4.6.2.2 Flumn的一些核心概念

2.4.6.2.2.1 Event

一个数据单元，消息头和消息体组成。（Events可以是日志记录、 avro 对象等。）

2.4.6.2.2.2 Agent

Flume 运行的核心是 Agent。Flume以agent为最小的独立运行单位。一个agent就是一个JVM。它是一个完整的数据收集工具，含有三个核心组件，分别是 source、 channel、 sink。通过这些组件， Event 可以从一个地方流向另一个地方，如下图所示。

2.4.6.2.2.2.1 source

从数据发生器接收数据，并将接收的数据以Flume的event格式传递给一个或者多个通道channal，Flume提供多种数据接收的方式，比如Avro,Thrift,twitter1%等。

2.4.6.2.2.2.2 Channel

channal是一种短暂的存储容器，它将从source处接收到的event格式的数据缓存起来，直到它们被sinks消费掉,它在source和sink间起着一共桥梁的作用，channal是一个完整的事务，这一点保证了数据在收发的时候的一致性。并且它可以和任意数量的source和sink链接。支持的类型有： JDBC channel、File System channel、Memort channel等。

2.4.6.2.2.2.3 sink

sink将数据存储到集中存储器比如Hbase和HDFS，它从channals消费数据(events)并将其传递给目标地。目标地可能是另一个sink，也可能HDFS、HBase。

2.4.6.2.2.2.4 source支持的数据接收方式、sink支持的写出方式、Channel支持的类型

参考官方API

url：http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html

目录如下：

2.4.6.2.3 Flumn的配置和启动

2.4.6.2.3.1 Flumn配置

(1) 配置文件命名需要以conf作为后缀名

(2) 监控文件写入HDFS配置如下：

#配置一个agent，agent的名称可以自定义（如a1）

#指定agent的sources（如r1、r2）、sinks（如k1、k2）、channels（如c1、c2）

tier1.sources=r1 r2

tier1.sinks=k1 k2

tier1.channels=c1 c2

#描述source r1

#配置目录scource

#配置监控的目录，当目录出现新文件时会进行写入

tier1.sources.r1.type = spooldir

tier1.sources.r1.spoolDir =/var/flumefile

tier1.sources.r1.channels=c1

#配置sink

#输出方式为hdfs，并提供目录

tier1.sinks.k1.type=hdfs

tier1.sinks.k1.hdfs.path=hdfs://192.168.1.222:8020/pd

tier1.sinks.k1.channel=c1

#描述source r2

#配置目录scource

#配置监控的目录，当目录出现新文件时会进行写入

tier1.sources.r2.type = spooldir

tier1.sources.r2.spoolDir =/var/flumefile2

tier1.sources.r2.channels=c1

#配置sink

#输出方式为hdfs，并提供目录

tier1.sinks.k2.type=hdfs

tier1.sinks.k2.hdfs.path=hdfs://192.168.1.222:8020/flumefile

tier1.sinks.k2.channel=c1

#配置channels类型为 File

tier1.channels.c1.type=file

tier1.channels.c2.type=file

(3) 监控文件作为生产者提供数据到Kafak配置如下：

#配置一个agent，agent的名称可以自定义（如a1）

#指定agent的sources（如r1、r2）、sinks（如k1、k2）、channels（如c1、c2）

tier1.sources=r1 r2

tier1.sinks=k1 k2

tier1.channels=c1 c2

#描述source r1

#配置目录scource

#配置监控的目录，当目录出现新文件时会进行写入

tier1.sources.r1.type = spooldir

tier1.sources.r1.spoolDir =/var/flumefile

tier1.sources.r1.channels=c1

#配置数据源输出

#设置Kafka接收器,此处最坑,注意版本,此处为Flume 1.6.0的输出槽类型

tier1.sinks.k1.type= org.apache.flume.sink.kafka.KafkaSink

#设置Kafka的broker地址和端口号

tier1.sinks.k1.brokerList=master:9092

#设置Kafka的Topic

tier1.sinks.k1.topic=topic-test

#设置序列化方式

tier1.sinks.k1.serializer.class=kafka.serializer.StringEncoder

#将三者级联

tier1.sinks.k1.channel=c1

#配置channels类型为 File

tier1.channels.c1.type=memory

tier1.channels.c1.capacity=10000

tier1.channels.c1.transactionCapacity=100

#描述source r1

#配置目录scource

#配置监控的目录，当目录出现新文件时会进行写入

tier1.sources.r2.type = spooldir

tier1.sources.r2.spoolDir =/var/flumefile2

tier1.sources.r2.channels=c2

#配置数据源输出

#设置Kafka接收器,此处最坑,注意版本,此处为Flume 1.6.0的输出槽类型

tier1.sinks.k2.type= org.apache.flume.sink.kafka.KafkaSink

#设置Kafka的broker地址和端口号

tier1.sinks.k2.brokerList=master:9092

#设置Kafka的Topic

tier1.sinks.k2.topic=test

#设置序列化方式

tier1.sinks.k2.serializer.class=kafka.serializer.StringEncoder

#将三者级联

tier1.sinks.k2.channel=c2

#配置channels类型为 File

tier1.channels.c2.type=memory

tier1.channels.c2.capacity=10000

tier1.channels.c2.transactionCapacity=100

2.4.6.2.3.1 Flumn启动

(1) 将上述配置文件放在Flumn安装路径的根目录下conf.empty文件夹中，目前192.168.1.222服务器下的安装地址为/opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/etc/flume-ng/

(2) 启动命令

登陆之后在根目录执行启动，并且登陆角色拥有安装目录文件的操作权限。

#表示启动agent

flume-ng agent

#启动的agent的名字为tier1 对应配置文件中配置的agent名字

--name tier1

#配置文件所在的路径

--conf /opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/etc/flume-ng/conf.empty

#配置文件所在的全路径

--conf-file /opt/cloudera/parcels/CDH-5.14.2-1.cdh5.14.2.p0.3/etc/flume-ng/conf.empty/flume-config.conf

#打印执行信息到控制台上

-Dflume.root.logger=INFO,console

转载于:https://www.cnblogs.com/Mr-yl/p/11063823.html

Flumn weixin_34407348
2.4.6.2.1概论数据发生器产生的数据被被单个的运行在数据发生器所在服务器上的agent所收集，之后数据收容器从各个agent上汇集数据并将采集到的数据存入到HDFS或者HBase中。2.4.6.2.2Flumn的一些核心概念2.4.6.2.2.1Event一个数据单元，消息头和消息体组成。（Events可以是日志记录、avro对象等。）2.4.6.2.2.2AgentFlume运行的核心是A
flumn的配置启动和关闭 jacobwe 基础架构
flume的三大组件source对应的是数据源，有http,avro,log等，可以自定义拦截器interceptor来做数据缘的分发channel是一个持久化存储，或者说是传输到sink的的一种机制。会把数据放入内存memory，WAL等存储缓存起来。可以修改customChannel来定义sink可以写入hdfs，kafka，hive，hbase，looger里。查看flume的进程psaux
Windows上MySQL数据库迁移到Linux Joseph25 mysql
最近项目要数据库跨平台，可怜我个小渣渣，还一直想着怎么用Flumn采集windows上的数据库再存放到Linux上的MySQL数据库里(主要是不会，欢迎大佬嘲笑指导)，后来在网上发现有很多简单的案例，然后借助网上大佬们的思路，加上自己总结验证，然后跟大家一起学习下方法一：1，进入本地MySQL的服务端C:\ProgramFiles\MySQL\MySQLServer5.7\bin>mysql-hl
对拦截器模式的思考 dingchd 设计模式
拦截器模式在很多场合会见到，本质上讲它不属于基础24种设计模式的一种，但从设计实现角度看，责任链模式可以很好得实现拦截器。比如web服务器的filter、structs2框架中的interceptor、flumn的interceptor等等。很多时候，我们会过度迷恋设计模式，我以为，适合拦截器设计的场合如下： 1.各个拦截器彼此之间独立拦截器彼此之间不应当有关联，即彼此无耦
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发

Flumn

2.4.6.2.1 概论

2.4.6.2.2 Flumn的一些核心概念

2.4.6.2.2.1 Event

2.4.6.2.2.2 Agent

2.4.6.2.3 Flumn的配置和启动

2.4.6.2.3.1 Flumn配置

2.4.6.2.3.1 Flumn启动

你可能感兴趣的:(Flumn)