最近看了很多如何让hadoop运行时间减少的文章,一点自己的理解,记录如下
1)压缩map输出和reduce输出
压缩输出结果,不仅可以减少写数据,还可以加快map到ruduce的传输速度,有利于加快运行时间。
2)不要重复创建对象
尽量在mapper或者reducer的类中去创建,不要重复的在map函数中创建对象。
3)scan的参数设置
在扫描数据库表时,scan的一些属性:hbase.scan.catching 和 hbase.scan.batch 都是可以一次性的返回
多条记录,避免每次都要去访问数据库,同时要注意只设置自己需要的columnFamily就可以了,减少不必要的
数据返回,同时设置scan.setCatchingBlocks(false),这样可以避免扫库的时候重写了缓存,因为扫库这种动作
不代表真实的查询频率,不应该覆盖缓存。
4)推测执行
mapred.map.tasks.speculative.execution,此属性默认为true,即当程序感知到某个map的运行时间较慢,会
在另外一个机器上运行同样的任务,成功后kill掉当前运行的任务。个人感觉这个参数在资源充足的时候,可以设置
为false,避免浪费资源。在资源不足的时候,可以打开此参数,避免因为某些任务过慢,影响整体任务的执行时间。
5)hbase的参数设置(客户端设置无效)
hbase.regionserver.handler.count
regionserver的工作线程数量,默认是10,没有疑问,官方默认值太小,通常都调到100~200之间,提高regionserver性能。
hbase.regionserver.lease.period
regionserer租约时间,默认值是60s,也有点小,如果你的生产环境中,在执行一些任务时,如mapred时出现lease超时的报错,那这个时候就需要去调大这个值了。
hfile.block.cache.size
regionserver cache的大小,默认是0.2,是整个堆内存的多少比例作为regionserver的cache,调大该值会提升查询性能,当然也不能过大,如果你的hbase都大量的查询,
写入不是很多的话,调到0.5也就够了。