Hadoop执行Job时因超时自动kill原因及解决方案

转自:http://snv.iteye.com/blog/1879983

Hadoop执行Job时因超时自动kill,信息如下:

Java代码   收藏代码
  1. Task attempt_201305231045_3281_m_000003_0 failed to report status for 600 seconds. Killing!  

原因:

1.执行MR的时间过长,超过了mapred.task.timeout 中设置的值

2.MR执行中因业务比较复杂,没有report status从而使得master感觉不到此task的存在而kill

解决方案:

方案1:修改mapred-site.xml:

Java代码   收藏代码
  1.   
  2.     mapred.task.timeout  
  3.     600000可以改的更长!  
  4.   

方案2:根据业务需要手动set值:

Java代码   收藏代码
  1. conf.setLong("mapred.task.timeout", 900000L);  


但在hadoop0.20.2中貌似最大值限制:36,000,000 ms,顾采用方案3比较可靠

方案3:定时report status

在Mapper或者Reducer的时候,执行复杂的业务操作的时候report status

Java代码   收藏代码
  1. context.progress();  

你可能感兴趣的:(Hadoop)