spark 大型项目实战(四十九):troubleshooting之解决yarn-client模式导致的网卡流量激增问题
yarn-client模式下,会产生什么样的问题呢?由于咱们的driver是启动在本地机器的,而且driver是全权负责所有的任务的调度的,也就是说要跟yarn集群上运行的多个executor进行频繁的通信(中间有task的启动消息、task的执行统计消息、task的运行状态、shuffle的输出结果)。咱们来想象一下。比如你的executor有100个,stage有10个,task有1000个。