Spark原理

  1. Spark的体系架构:
    主从架构:
    主节点:Master
    作用:接收客户端发送的数据处理的请求,将数据处理任务分配给Worker执行
    从节点:Worker
    作用:执行数据处理任务

  2. 通过浏览器查看spark运行状态:
    http://主节点主机名:8080

  3. Spark架构相关的术语
    (1) Driver
    (2) SparkContext
    (3) Cluster Manager
    (4) Worker
    (5) Master
    (6) Executor
    (7) Task

  4. Spark安装部署方式
    (1) 本地模式:不分主从进程,很少用
    (2) 伪分布式:主从节点都运行在一台机器上
    (3) 完全分布式:主从分开运行在不同机器上,一主多从。

  5. Spark的三种运行模式:
    (1) standalone:独立模式,也就是spark自身实现集群资源管理,不依赖于任何第三方资源管理框架;
    (2) yarn模式:spark集群资源管理依赖yarn实现,类似MapReduce。
    Yarn模式:根据Driver所在的位置不同,又分类yarn-cluster模式,yarn-client模式.
    Yarn-cluster集群模式:Driver位于主节点Master;
    Yarn-client客户端模式:Driver位于客户端

(3) mesos模式:spark集群资源管理依赖mesos框架实现。了解。
6. 启动spark的命令
(1) 采用独立模式启动spark,运行命令:spark-shell
(2) Yarn-cluster模式启动,运行命令: spark-shell --master yarn-cluster
(3) Yarn-client模式启动,运行命令:spark-shell --master yarn-client

你可能感兴趣的:(大数据平台)