YARN开启Label Scheduler

Spark Streaming实时长时服务与MapRedue、Spark、Hive等批处理应用共享YARN集群资源。在共享环境中，经常因一个批处理应用占用大量网络资源或者CPU资源导致Spark Streaming资源被抢占，服务不稳定。

该实验在hadoop-2.7.1下操作

创建Label存储目录

为了label的高可用（在ResourceManager重启时候），我们需要为Lalel在HDFS上创建存储目录，用来存储Label元信息。

sudo su hdfs
hadoop fs -mkdir -p /yarn/node-labels
hadoop fs -chown -R yarn:yarn /yarn
hadoop fs -chmod -R 700 /yarn

为YARN配置Node Label

我们需要将下列配置添加到yarn-site.xml

添加下列配置开启Label Scheduler


  yarn.node-labels.enabled
  true

添加下列配置，label元数据在hdfs上的存储路径


  yarn.node-labels.fs-store.root-dir
  hdfs://:/

添加下列配置，为YARN配置capacity scheduler

label scheduler无法单独使用，而且只能配合capacity scheduler策略使用


  yarn.resourcemanager.scheduler.class
  org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler

重启ResourceManager

由于我们对yarn-site.xml做了修改，所以我们需要重启ResourceManager让配置生效。

# stop rm
$HADOOP_HOME/sbin/yarn-daemon.sh stop resourcemanager

# start rm
$HADOOP_HOME/sbin/yarn-daemon.sh start resourcemanager

添加Label

sudo su yarn
yarn rmadmin -addToClusterNodeLabels "(exclusive=),(exclusive=)"

NOTE: exclusive并不是必须的参数，默认值为true

集群标签Web UI

你可以通过下列命令来删除集群的Label

yarn rmadmin -removeFromClusterNodeLabels ","

NOTE: 如果某个Label已经关联Queue，那么你无法从集群中将其移除

关联Node Label和Cluster Label

运行下列命令，将节点Label关联到集群Label上。

yarn rmadmin -replaceLabelsOnNode ":= :="

NOTE: 节点的Label必须包含在集群的Label中。也就是说我们在上一步中配置的集群Label为节点Label的全集。

如果想为节点删除Label，我们也可以通过replaceLabelsOnNode命令来操作，我们只要将Label参数置为空即可。例如，我们可以通过下列命令来将node-1.example.com节点的Label置空。

sudo su yarn
yarn rmadmin -replaceLabelsOnNode "node-1.example.com"

关联Queue和Node Label


  
  
    yarn.scheduler.capacity.root.queues
    x,y
  
  
    yarn.scheduler.capacity.root.accessible-node-labels.a.capacity
    100
    root队列对a标签节点可用的百分比
  

  
  
    yarn.scheduler.capacity.root.x.capacity
    50
    x队列可用root队列资源的百分比
  
  
    yarn.scheduler.capacity.root.x.maximum-capacity
    100
    x队列资源使用上限
  
  
    yarn.scheduler.capacity.root.x.accessible-node-labels
    a
    x队列应用可用的节点标签
  
  
    yarn.scheduler.capacity.root.x.default-node-label-expression
    a
    x队列应用默认节点标签
  
  
    yarn.scheduler.capacity.root.x.accessible-node-labels.a.capacity
    x队列对a标签节点可用的百分比
    100
  

  
  
    yarn.scheduler.capacity.root.y.capacity
    50

NOTE:
1.获取更多配置
2.如果我们想让某个队列的使用没有标签的节点，那么我们必须将yarn.scheduler.capacity..accessible-node-labels设置为空格，例如：
 yarn.scheduler.capacity.root.y.accessible-nod-labels
  
3.拥有相同父队列的队列的yarn.scheduler.capacity..capacity之后必须等于100

刷新队列

在配置完capacity-scheduler.xml之后，我们需要刷新下队列，让配置生效。

sudo su yarn
yarn rmadmin -refreshQueues

验证

我们可以启动个spark shell来验证下yarn label scheduler是否正确开启。

bin/spark-shell \
--master yarn \
--deploy-mode client \
--driver-memory 2g \
--executor-memory 1g \
--executor-cores 1 \
--queue x \
--num-executors 2

YARN RUNNING Application Web UI

遇到的问题

Q1:提交任务一直处于ACCEPTED状态

任务处于ACCEPTED状态说明该任务所在的队列没有可用的资源。一开始的时候我忘记配置yarn.scheduler.capacity.root.accessible-node-labels.a.capacity，导致x队列无可用资源。

Q2:小任务饿死

capacity scheduler其实是多队列的FIFO调度，所以存在任务饿死的可能性，又由于我们实验环境采用2.7.1版本的hadoop，无法开启capacity scheduler的资源抢占功能，导致在有大任务运行时，小任务提交无法分配到资源，最终饿死。