hadoop streaming参数整理

1.Streaming简介

Hadoop Streaming 是Hadoop提供的一个编程工具,Streamining框架允许任何可执行文件或者脚本文件作为Mapper和Reducer在Hadoop MapReduce中使用,方便已有程序向Hadoop平台移植。因此可以说对于hadoop的扩展性意义重大。

Streamining的原理:mapper和reducer会从标准输入中读取数据,一行一行处理后发送给标准输出,Streming 工具会创建MapReduce作业,发送给各个tasktracker,同时监控整个作业的执行过程。

如果一个文件(可执行文件或脚本)作为mapper,mapper初始化时,每一个mapper任务会把该文件作为一个单独进程启动,mapper任务运行时,它把输入切分成行并把每一行提供给可执行文件进程的标准输入,同时,mapper收集可执行文件进程标准输出的内容,并把收到的每一行内容转化成key/value对,作为mapper的输出,默认情况下,一行中第一个tab之前的部分作为key,之后的作为value。如果没有tab,整行作为key,value值为null。

2.基础配置参数介绍

下面参数中-files,-archives,-libjars为hadoop命令

  • -file将客户端本地文件打成jar包上传到HDFS然后分发到计算节点
  • -cacheFile将HDFS文件分发到计算节点
  • -cacheArchive将HDFS压缩文件分发到计算节点并解压,也可以指定符号链接
  • -files:将指定的本地/hdfs文件分发到各个Task的工作目录下,不对文件进行任何处理,例如:-files hdfs://host:fs_port/user/testfile.txt#testlink ;
  • -archives选项允许用户复制jar包到当前任务的工作路径,并且自动解压jar包,例如:-archives hdfs://host:fs_port/user/testfile.jar#testlink3 。在这个例子中,符号链接testlink3创建在当前任务的工作路径中。符号链接指向存放解压jar包的文件路径
  • -libjars:指定待分发的jar包,Hadoop将这些jar包分发到各个节点上后,会将其自动添加到任务的CLASSPATH环境变量中
  • -input:指定作业输入,可以是文件或者目录,可以使用*通配符,也可以使用多次指定多个文件或者目录作为输入
  • -output:指定作业输出目录,并且必须不存在,并且必须有创建该目录的权限,-output只能使用一次
  • -mapper:指定mapper可执行程序或Java类,必须指定且唯一
  • -reducer:指定reducer可执行程序或Java类
  • -numReduceTasks: 指定reducer的个数,如果设置为0或者-reducer NONE 则没有reducer程序,mapper的输出直接作为整个作业的输出

3.其他参数配置

一般用 -jobconf | -D NAME=VALUE 指定作业参数,指定 mapper or reducer 的 task 官方上说要用 -jobconf 但是这个参数已经过时,不可以用了,官方说要用 -D, 注意这个-D是要作为最开始的配置出现的,因为是在maper 和 reducer 执行之前,就需要硬性指定好的,所以要出现在参数的最前面 ./bin/hadoop jar hadoop-0.19.2-streaming.jar -D ………-input …….. 类似这样

  • mapred.job.name=”jobname” 设置作业名,特别建议
  • mapred.job.priority=VERY_HIGH|HIGH|NORMAL|LOW|VERY_LOW 设置作业优先级
  • * mapred.job.map.capacity=M设置同时最多运行M个map任务*
  • mapred.job.reduce.capacity=N 设置同时最多运行N个reduce任务
  • mapred.map.tasks 设置map任务个数
  • mapred.reduce.tasks 设置reduce任务个数
  • mapred.job.groups 作业可运行的计算节点分组
  • mapred.task.timeout 任务没有响应(输入输出)的最大时间
  • mapred.compress.map.output 设置map的输出是否压缩
  • mapred.map.output.compression.codec 设置map的输出压缩方式
  • mapred.output.compress 设置map的输出是否压缩
  • mapred.output.compression.codec 设置reduce的输出压缩方式
  • stream.map.output.field.separator 指定map输出分隔符,默认情况下Streaming框架将map输出的每一行的第一个’\t’之前的部分作为key,之后的部分作为value,key\value再作为reduce的输入;
  • stream.num.map.output.key.fields 设置分隔符的位置,如果设置为2,指定在第2个分隔符处分割,也就是第二个之前作为key,之后作为value,如果分隔符少于2个,则以整行为key,value为空
  • stream.reduce.output.field.separator 指定reduce输出分隔符
  • stream.num.reduce.output.key.fields 指定reduce输出分隔符位置

其中sort和partition的参数用的比较多 
map.output.key.field.separator: map中key内部的分隔符 
num.key.fields.for.partition: 分桶时,key按前面指定的分隔符分隔之后,用于分桶的key占的列数。通俗地讲,就是partition时候按照key中的前几列进行划分,相同的key会被打到同一个reduce里。 
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 前两个参数,要配合partitioner选项使用!

stream.map.output.field.separator: map中的key与value分隔符 
stream.num.map.output.key.fields: map中分隔符的位置 
stream.reduce.output.field.separator: reduce中key与value的分隔符 
stream.num.reduce.output.key.fields: reduce中分隔符的位置

另外还有压缩参数

Job输出结果是否压缩

mapred.output.compress

是否压缩,默认值false。

mapred.output.compression.type

压缩类型,有NONE, RECORD和BLOCK,默认值RECORD。

mapred.output.compression.codec

压缩算法,默认值org.apache.hadoop.io.compress.DefaultCodec。

map task输出是否压缩

mapred.compress.map.output

是否压缩,默认值false

mapred.map.output.compression.codec

压缩算法,默认值org.apache.hadoop.io.compress.DefaultCodec

另外,Hadoop本身还自带一些好用的Mapper和Reducer:

1、Hadoop聚集功能:Aggregate提供一个特殊的reducer类和一个特殊的combiner类,并且有一系列的“聚合器”(例如:sum、max、min等)用于聚合一组value的序列。可以使用Aggredate定义一个mapper插件类,这个类用于为mapper输入的每个key/value对产生“可聚合项”。combiner/reducer利用适当的聚合器聚合这些可聚合项。要使用Aggregate,只需指定”-reducer aggregate”。 
2、字段的选取(类似于Unix中的’cut’):Hadoop的工具类org.apache.hadoop.mapred.lib.FieldSelectionMapReduc帮助用户高效处理文本数据,就像unix中的“cut”工具。工具类中的map函数把输入的key/value对看作字段的列表。 用户可以指定字段的分隔符(默认是tab),可以选择字段列表中任意一段(由列表中一个或多个字段组成)作为map输出的key或者value。 同样,工具类中的reduce函数也把输入的key/value对看作字段的列表,用户可以选取任意一段作为reduce输出的key或value。


4.默认情况

在hadoop streaming的默认情况下,是以”\t”作为分隔符的。对于标准输入来说,每行的第一个”\t” 以前的部分为key,其他部分为对应的value。如果一个”\t”字符没有,则整行都被当做key。这个

5.map阶段的sort与partition

map阶段很重要的阶段包括sort与partition。排序是按照key来进行的。咱们之前讲了默认的key是由”\t”分隔得到的。我们能不能自己控制相关的sort与partition呢?答案是可以的。

先看以下几个参数: 
map.output.key.field.separator: map中key内部的分隔符 
num.key.fields.for.partition: 分桶时,key按前面指定的分隔符分隔之后,用于分桶的key占的列数。通俗地讲,就是partition时候按照key中的前几列进行划分,相同的key会被打到同一个reduce里。 
-partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner 前两个参数,要配合partitioner选项使用!

stream.map.output.field.separator: map中的key与value分隔符 
stream.num.map.output.key.fields: map中分隔符的位置 
stream.reduce.output.field.separator: reduce中key与value的分隔符 
stream.num.reduce.output.key.fields: reduce中分隔符的位置



你可能感兴趣的:(hadoop streaming参数整理)