Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集场景
2, 运行机制
Flume分布式系统中最核心的角色是agent,flume采集系统就是由一个个agent所连接起来形成
每一个agent相当于一个数据传递员,内部有三个组件:
Source:采集源,用于跟数据源对接,以获取数据
Sink:下沉地,采集数据的传送目的,用于往下一级agent传递数据或者往最终存储系统传递数据
Channel:angent内部的数据传输通道,用于从source将数据传递到sink
多级agent之间串联
3, Flume的安装部署Flume的安装非常简单,只需要解压即可,当然,前提是已有hadoop环境
上传安装包到数据源所在节点上
然后解压 tar -zxvfapache-flume-1.6.0-bin.tar.gz
然后进入flume的目录,修改conf下的flume-env.sh,在里面配置
export JAVA_HOME=/usr/java/jdk1.7.0_67(输入你自己的jdk路径)
#输入你本地 flume-kafka-source-xx.jar包路径,注意flume1.6之前的版本好像没有这个jar, 只是要1.6及以上版本
FLUME_CLASSPATH="/usr/app/apache-flume-1.6.0-bin/lib/flume-kafka-source-1.6.0.jar"
根据数据采集的需求配置采集方案,描述在配置文件中(文件名可任意自定义)
先用一个最简单的例子来测试一下程序环境是否正常
1、先在flume的conf目录下新建一个文件
vi netcat-logger.conf
# 定义这个agent中各组件的名字
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# 描述和配置source组件:r1
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
# 描述和配置sink组件:k1
a1.sinks.k1.type = logger
# 描述和配置channel组件,此处使用是内存缓存的方式
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# 描述和配置source channel sink之间的连接关系
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
2、启动agent去采集数据
bin/flume-ng agent -c conf -f conf/netcat-logger.conf-n a1 -Dflume.root.logger=INFO,console
-c conf 指定flume自身的配置文件所在目录
-f conf/netcat-logger.con 指定我们所描述的采集方案
-n a1 指定我们这个agent的名字
3、测试
先要往agent采集监听的端口上发送数据,让agent有数据可采
随便在一个能跟agent节点联网的机器上
telnet anget-hostname port (telnet localhost 44444)
上面只是介绍了一种flume案例,实际上flume用处太多,具体用到的话大家可以去官网等等查看。
sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。
导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统;
导出数据:从Hadoop的文件系统中导出数据到关系数据库
将导入或导出命令翻译成mapreduce程序来实现
在翻译出的mapreduce中主要是对inputformat和outputformat进行定制
安装sqoop的前提是已经具备java和hadoop的环境
最新版下载地址http://ftp.wayne.edu/apache/sqoop 自行下载安装不解释
进入sqoop的conf目录
$ mv sqoop-env-template.sh sqoop-env.sh
打开sqoop-env.sh并编辑下面几行:
export HADOOP_COMMON_HOME=/home/hadoop/apps/hadoop-2.6.1/ (输入你自己的hadoop安装目录)
export HADOOP_MAPRED_HOME=/home/hadoop/apps/hadoop-2.6.1/
exportHIVE_HOME=/home/hadoop/apps/hive-1.2.1
cp ~/app/hive/lib/mysql-connector-java-5.1.28.jar $SQOOP_HOME/lib/
$ cd $SQOOP_HOME/bin
$ sqoop-version
预期的输出:
15/12/17 14:52:32 INFO sqoop.Sqoop: RunningSqoop version: 1.4.6
Sqoop 1.4.6 git commit id5b34accaca7de251fc91161733f906af2eddbe83
Compiled by abe on Fri Aug 1 11:19:26 PDT2015
到这里,整个Sqoop安装工作完成。
下面的语法用于将数据导入HDFS。
$ sqoop import (generic-args) (import-args) |
下面的命令用于从MySQL数据库服务器中的emp表导入HDFS。
$bin/sqoop import \ --connect jdbc:mysql://sqooptest:3306/test \ --username root \ --password root \ --table emp \ --m 1 |
为了验证在HDFS导入的数据,请使用以下命令查看导入的数据
$ $HADOOP_HOME/bin/hadoop fs -cat /user/hadoop/emp/part-m-00000 |