一、使用hadoop shell命令导入和导出数据到HDFS
→1、创建新目录:hadoop fs -mkdir /data/logs/
→2、从本地复制到HDFS的新目录:hadoop fs -copyFromLocal entries.log /data/logs
→3、列出HDFS上entries.log文件信息:hadoop fs -ls /data/logs/entries.log
→4、将HDFS上的entries.log复制到本地当前目录下:hadoop fs -copyToLocal /data/logs/entries.log ./entries.log
→5、copyFromLocal与put命令类似,put更通用;copyToLocal与get命令的实现完全一样。
→6、MapReduce的输出结果可能是一个或者多个,最终输出结果的文件个数是由mapred.reduce.tasks的值决定的。可以通过Jobconf类中的setNumReduceTasks()方法来设置。该参数是客户端参数,非集群参数,默认值为1。官方推荐的设置公式为:0.95 * NUMBER_OF_NODES * mapred.tasktracker.reduce.maximum,或者是1.75 * NUMBER_OF_NODES * mapred.tasktracker.reduce.tasks.maximum。0.95可以保证在map结束后可以立即望去所有的reduce;1.75使得运行比较快的reducer能够再执行第二波reduce,保证两波reduce就能完成作业,使作业整体的负载均衡保持得比较好。
→原理简析:Hadoop shell非常轻量地封装在HDFS FileSystem API之上。在执行hadoop命令时,如果传进去的参数是fs,实际上执行的是org.apache.hadoop.fs.FsShell这个类。在0.20.2版本中FsShell实例化了一个org.apache.hadoop.fs.FileSystem对象,并且将命令行参数与方法映射起来。比如,执行hadoop fs -mkdir /data/logs/相当于调用了FileSystem.mkdirs(new Path(“/data/logs/”))。
二、使用distcp实现集群间数据复制
distcp是通过启动MapReduce实现数据复制的。使用MapReduce的好处包含可并行性、高容错性、作业恢复、日志记录、进度汇报。
操作前,最好关闭复制源集群map任务的推测机制,可以在配置文件mapred-site.xml中将mapred.map.tasks.speculative.execution的值设置为false来实现。同时,要保证两个集群之间的hadoop版本完全一致,即保证RPC协议必须一致。
→1、将集群A的logs文件夹复制到集群B上:hadoop distcp hdfs://namenodeA/data/logs hdfs://namenodeB/data/logs
→2、将集群A的logs文件夹得到集群B上,并覆盖已存在的文件:hadoop distcp -overwrite hdfs://namenodeA/data/logs hdfs://namenodeB/logs
→3、同步集群A和集群B之间的logs文件夹:hadoop distcp -update hdfs://namenodeA/data/logs hdfs://namenodeB/data/logs
→注意,如果要在运行的hadoop版本不一的两个集群之间进行数据复制,一般在复制源集群使用HftpFileSystem。HftpFileSystem是一个只读的文件系统。相应的distcp命令只能在目标服务器上运行:hadoop distcp hftp://namenodeA:port/data/logs hdfs://namenodeB/data/logs。小心,这条命令中的port值要与配置文件hdfs-site.xml中的dfs.http.address属性的端口值一致。
→原理简析:在源集群,文件夹中的内容将被复制为一个临时的大文件。将会启动一个只有map(map-only)的MapReduce作业来实现两个集群间的数据复制。默认情况下,每个map将会分配到一个256MB的数据块文件。distcp复制可通过设置参数手动启动map的数量,如hadoop distcp -m 10 hdfs://a/ hdfs://b/
三、使用Sqoop从MySQL数据库导入数据到HDFS
Sqoop是Apache基金下的一个项目,是庞大hadoop生态圈中的一部分。与distcp类似,都是建立在MapReduce之上的,利用了MapReduce的并行性和容错性。与集群间的数据复制不同,Sqoop设计通过JDBC驱动连接实现hadoop集群与关系数据库之间的数据复制。
→1、将MySQL JDBC驱动包复制到$SQOOP_HOME/libs目录下。
→2、在MySQL实例中创建一个新数据库:create database logs。
→3、创建并载入表web_logs:
use logs;
create table web_logs (md5 varchar(32), url varchar(64), request_date date, request_time time, ip varchar(15));
load data infile ‘/path/entries.log’ into table web_logs fields terminated by ‘\t’ lines terminated by ‘\r\n’。
→4、查询web_logs表的行数:mysql > select count(*) from web_logs
→5、将MySQL数据导出到HDFS:sqoop import -m 1 –connect jdbc:mysql://:/logs –username hdp_usr –password 123456 –table web_logs –target-dir /data/logs/import
→工作原理:默认情况下,导入的数据将按主键进行分割。如果导入的表并不包含主键,必须指定-m或者–split-by参数决定导入的数据如何分割。Sqoop利用数据库中存储的元数据生成每一列的DBWritable类,这些类使用了DBInputFormat。DBInputFormat是Hadoop用来格式化读取数据库任意查询的结果。
四、使用Sqoop从HDFS导出数据到MySQL
→1、在MySQL实例中创建一个新数据库:create database logs;
→2、创建表web_logs_from_hdfs:
use logs;
create table web_logs_from_hdfs (md5 varchar(32), url varchar(64), request_date date, request_time time, ip varchar(15));
→3、从HDFS导出entries.log文件到MySQL:sqoop export -m 1 –connect jdbc:mysql://:/logs –username hdp_usr –password 123456 –table web_logs_from_hdfs –export-dir /data/logs/ –input-fields-terminated-by ‘\t’ –mysql-delmiters
→Sqoop export默认情况下是创建新增语句。如果–update-key参数被设置,则将是创建更新语句。如果–update-key设置的值并没找到,可以设置–update-mode为allowinsert允许新增这行数据。-m参数决定将配置几个mapper来读取HDFS上文件块。设置参数–staging-table,会促使任务将数据插入一个临时表,等待一个事务完成再将数据从临时表复制到–table参数配置的表中。临时表必须是一个空表,否则需要配置参数–clear-staging-table。
五、从HDFS导出数据到MongoDB
先从github上克隆Mongo-Hadoop工程,并且将该工程编译到一个特定的Hadoop版本,编译完的JAR文件需要复制到Hadoop集群每个节点的 HADOOPHOME/lib目录下。MongoJava的驱动包也需要安装到Hadoop集群每个节点的 HADOOP_HOME/lib。
→1、通过下面的命令实现克隆mongo-hadoop工程:git clone https://github.com/mongodb/mongo-hadoop.git
→2、切换到稳定发布的1.0分支版本:git checkout release-1.0
→3、必须保持mongo-hadoop与Hadoop版本一致。将mongo-hadoop目录下的build.sbt文件中hadoopRelease in ThisBuild := “default”,修改为hadoopRelease in ThisBuild := “cdh3”
→4、编译mongo-hadoop:./sbt package。会生一个Jar
→5、从https://github.com/mongodb/mongo-java-driver/downloads下载MongoDB的Java驱动包
→6、复制mongo-hadoop和MongoDB Java驱动包到Hadoop集群每个节点的 HADOOPHOME/lib:cp1.jar2.jar HADOOP_HOME/lib
→7、编写MapReduce读取HDFS上entires.log文件并通过MongoOutputFormat类将数据写入MongoDB中。
→8、将第7步所写的java程序导出为一个可运行的jar文件,并运行该作业:hadoop jar xxxx.jar
→9、在Mongo shell上验证weblogs已经导入MongoDB:db.weblogs.find()
六、从MongoDB导入数据到HDFS
前六步与8、9两步,与第五的一致。
→7、编写MapReduce读取MongoDB数据库中的数据并写入HDFS中。
七、使用Pig从HDFS导出数据到MongoDB
→前五步,与第五个一致。
→6、复制mongo-hadoop-core、mongo-hadoop-pig和MongoDB Java驱动包到Hadoop集群每个节点的$HADOOP_HOME/lib目录下。
→7、创建一个Pig脚本读取HDFS上的weblogs数据,并将其存储到MongoDB数据库:
register /path/to/mongo-hadoop/mongo-2.8.0.jar
register /path/to/mongo-hadoop/core/target/mongo-hadoop-core-1.0.0.jar
register /path/to/mongo-hadoop/pig/target/mongo-hadoop-pig-1.0.0.jar
define MongoStorage com.mongodb.hadoop.pig.MongoStorage()
weblogs = load '/data/logs/entires.log' as (md5:chararray, url:chararray, date:chararray, time:chararray, ip:chararray)
store web_logs into 'mongodb://:/test.weblogs_from_pig' using MongoStorage()
八、利用Flume加载数据到HDFS中
→1、使用dump命令测试Flume是否配置正确:flume dump ‘text(“/path/to/entries.log”)’
→2、通过flume shell执行一个配置:flume shell -c: -e ‘exec config text(“/path/to/entries.log”) | collectorSink(“hdfs://:/data/logs/flume”)’
→原理简析:Flume包含Sources和Sinks两个抽象概念,并通过管状的数据流将它们合并在一起。