HDP学习--YARN Component Failure

一、YARN的故障

  即使完美的软件也会有故障, YARN 是为了减少停机时间,而不是组件故障。
HDP学习--YARN Component Failure_第1张图片

二、 YARN Failure Monitoring Communication

  下图显示YARN中故障监控时, 各组件的通信来确保都存活的, 在故障发生时, 每个组件都有中重启机制。
HDP学习--YARN Component Failure_第2张图片

三、修改Ambari中的故障检测行为

HDP学习--YARN Component Failure_第3张图片

四、ResourceManager的设置检查

为了检查各组件是否存活, 定期巡检, 并处理故障组件。
HDP学习--YARN Component Failure_第4张图片

五、NodeManager的检查设置

HDP学习--YARN Component Failure_第5张图片

六、Container / Task and ApplicationMaster 的恢复

HDP学习--YARN Component Failure_第6张图片

七、NodeManager and ResourceManager 的恢复

HDP学习--YARN Component Failure_第7张图片

八、YARN Work-Preserving Restarts

HDP学习--YARN Component Failure_第8张图片

YARN Work-Preserving Restarts 相关配置:

HDP学习--YARN Component Failure_第9张图片

九、YARN Log Aggregation

  • Enabled by default in HDP 2.3
  • Enables long-term
  • storage of NodeManager logs by storing them in a central location in HDFS
    -Avoids the need to truncate logs in order to conserve space on a local file system
    -Provides ability to centrally view log files via a single web UI (the Job History Server)

YARN Log Aggregation 默认配置:

HDP学习--YARN Component Failure_第10张图片

十、 知识回顾

HDP学习--YARN Component Failure_第11张图片

十一、 总结

HDP学习--YARN Component Failure_第12张图片

你可能感兴趣的:(#,HDP学习)