[tools]Yarn & Spark/Spark-shell/Shark(SparkSQL的前身)


简单之美 | Hadoop YARN架构设计要点
http://shiyanjun.cn/archives/1119.html

YARN整体架构
YARN是基于Master/Slave模式的分布式架构,我们先看一下,YARN的架构设计,如图所示(来自官网文档):

yarn-high-level-architecture
上图,从逻辑上定义了YARN系统的核心组件和主要交互流程,各个组件说明如下:


一次Hadoop集群宕机事故总结 - sdn_prc的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/sdn_prc/article/details/49802673
机房中心交换机坏掉,导致HDFS集群和【MR(YARN)集群】宕掉。


Hive使用Spark on Yarn作为执行引擎 – lxw的大数据田地
http://lxw1234.com/archives/2016/05/673.htm


Spark On Yarn:提交Spark应用程序到Yarn – lxw的大数据田地
http://lxw1234.com/archives/2015/07/416.htm


在Yarn上运行spark-shell和spark-sql命令行 – lxw的大数据田地
http://lxw1234.com/archives/2015/08/448.htm


SparkSQL On Yarn with Hive,操作和访问Hive表 – lxw的大数据田地
http://lxw1234.com/archives/2015/08/466.htm
前面的文章介绍过如何向Yarn中提交Spark应用程序《Spark On Yarn:提交Spark应用程序到Yarn》,

以及在Yarn上运行spark-shell和spark-sql命令行《在Yarn上运行spark-shell和spark-sql命令行》。

本文将介绍以yarn-cluster模式运行SparkSQL应用程序,访问和操作Hive中的表,这个和在Yarn上运行普通的Spark应用程序有所不同,重点是需要将Hive的依赖包以及配置文件传递到Driver和Executor上,因为在yarn-cluster模式下,Driver和Executor都是由Yarn和分配的。


你可能感兴趣的:([tools]Yarn & Spark/Spark-shell/Shark(SparkSQL的前身))