Hadoop面试题---Yarn的三个调度器和调度算法

一、Yarn的三种调度器

(1)先进先出调度器(FIFO)
(2)容量调度器(默认)(Capacity Scheduler)
(3)公平调度器(Fair Scheduler)

二、具体细节和调度算法

1、先进先出调度器(FIFO)
单队列,根据作业的提交顺序,先来先服务。(一般不用)

2、容量调度器(默认)(Capacity Scheduler)Hadoop面试题---Yarn的三个调度器和调度算法_第1张图片特点:
1、多队列:每个队列可配置一定的资源量,每个队列采用FIFO调度策略。
2、容量保证:管理员可为每个队列设置资源最低保证和资源使用上限。
3、灵活性:如果一个队列中的资源有剩余,可以暂时共享给那些需要资源的队列,而一旦该队列有新的应用程序提交,则其他队列借调的资源会归还给该队列。
4、多用户: 支持多用户共享集群和多应用程序同时运行。为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定。

容量调度第的资源分配算法:
1、队列资源分配:使用深度优先算法,优先对资源使用率最低的队列分配资源。资源使用率:已经使用的资源量除以最小队列资源容量;
2、作业资源分配:根据作业的优先级和提交时间分配;
3、容器资源分配:先按照容器的优先级分配,若优先级相同,再按照数据本地行原则分配。(任务和数据在同意节点,任务和数据在同一机架,两者既不在同一节点也不在同一机架上)

3、公平调度器(Fair Scheduler)
Hadoop面试题---Yarn的三个调度器和调度算法_第2张图片
特点:(与容量调度器一样)
1、多队列:支持多队列多作业;
2、容量保证:管理员可为每个队列设置资源最低保证和资源使用上限。
3、灵活性:如果一个队列中的资源有剩余,可以暂时共享给那些需要资源的队列,而一旦该队列有新的应用程序提交,则其他队列借调的资源会归还给该队列。
4、多用户: 支持多用户共享集群和多应用程序同时运行。为了防止同一个用户的作业独占队列中的资源,该调度器会对同一用户提交的作业所占资源量进行限定。

与容量调度器的不同之处:
1核心调度策略不同
容量调度器优先选择资源使用率最低的队列,而公平调度器优先选择资源缺额比较大的队列。
(缺额:某一时刻一个作业应获资源和实际获取资源的差距叫“缺额”)
2.、每个队列的资源分配方式不同:
容量:FIFO(默认只考虑内存)、DRF策略(考虑内存和cpu);
公平:FIFO(此时公平等同于容量)
FAIR策略:基于最大最小公平算法实现的资源多路复用方式;
DRF:Yarn默认只考虑内存资源,该策略对不同应用不同资源(CPU和内存)进行一个不同比例的限制,因为每个应用程序需求量不一样。

Yarn常见问题:

1、创建多队列的好处:
(1)因为担心员工不小心,写递归死循环代码,把所有资源全部耗尽。
(2)实现任务的降级使用,特殊时期保证重要的任务队列资源充足。11.11 6.18 降级指的就是:先紧着重要的任务占用资源执行。
业务部门1(重要)=》业务部门2(比较重要)=》下单(一般)=》购物车(一般)=》登录注册(次要)

2、在生产环境中你会怎么合理的创建多队列?
(1)调度器默认就1 个default 队列,不能满足生产要求。
(2)按照框架:hive /spark/ flink 每个框架的任务放入指定的队列(企业用的不是特别多)
(3)按照业务模块:登录注册、购物车、下单、业务部门1、业务部门2

你可能感兴趣的:(大数据面试相关,hadoop,yarn,算法)