Java_Yhua

7000字超详细讲解Hadoop、Spark、Storm、YARN，建议收藏！

一、Hadoop
- 1.1. 概念
- 1.2. HDFS
- - 1.2.1. Client
  - 1.2.2. NameNode
  - 1.2.3. Secondary NameNode
  - 1.2.4. DataNode
- 1.3. MapReduce
- - 1.3.1. Client
  - 1.3.2. JobTracker
  - 1.3.3. TaskTracker
  - 1.3.4. Task
  - 1.3.5. Reduce Task 执行过程
- 1.4. Hadoop MapReduce 作业的生命周期
二. Spark
- 2.1. 概念
- 2.2. 核心架构
- 2.3. 核心组件
- 2.4. SPARK 编程模型
- 2.5. SPARK 计算模型
- 2.6. SPARK 运行流程
- 2.7. SPARK RDD 流程
- 2.8. SPARK RDD
三. Storm
- 3.1. 概念
- 3.1. 集群架构
- - 3.1.1. Nimbus（master-代码分发给 Supervisor）
  - 3.1.2. Supervisor（slave-管理 Worker 进程的启动和终止）
  - 3.1.3. Worker（具体处理组件逻辑的进程）
  - 3.1.4. Task
  - 3.1.5. ZooKeeper
- 3.2. 编程模型（spout->tuple->bolt）
- - 3.2.1. Topology
  - 3.2.2. Spout
  - 3.2.3. Bolt
  - 3.2.4. Tuple
  - 3.2.5. Stream
- 3.3. Topology 运行
- 3.3.1. Worker(1 个 worker 进程执行的是 1 个 topology 的子集)
- 3.3.2. Executor(executor 是 1 个被 worker 进程启动的单独线程)
- 3.3.3. Task(最终运行 spout 或 bolt 中代码的单元)
- 3.4. Storm Streaming Grouping
- - 3.4.1. huffle Grouping
  - 3.4.2. Fields Grouping
  - 3.4.3. All grouping ：广播
  - 3.4.4. Global grouping
  - 3.4.5. None grouping ：不分组
  - 3.4.6. Direct grouping ：直接分组指定分组
四. YARN
- 4.1. 概念
- 4.2. ResourceManager
- 4.3. NodeManager
- 4.4. ApplicationMaster
- 4.5.YARN 运行流程

一、Hadoop

1.1. 概念

就是一个大数据解决方案。它提供了一套分布式系统基础架构。核心内容包含 hdfs 和mapreduce。
hadoop2.0 以后引入 yarn.
hdfs 是提供数据存储的，mapreduce 是方便数据计算的。

hdfs 又对应 namenode 和 datanode. namenode 负责保存元数据的基本信息，
datanode 直接存放数据本身；
mapreduce 对应 jobtracker 和 tasktracker. jobtracker 负责分发任务，tasktracker 负
责执行具体任务；
对应到 master/slave 架构，namenode 和 jobtracker 就应该对应到 master, datanode
和 tasktracker 就应该对应到 slave.

1.2. HDFS

需要这份java学习笔记资料的点这里-》》》》》》》

1.2.1. Client

Client（代表用户）通过与 NameNode 和 DataNode 交互访问 HDFS 中的文件。 Client 提供了一个类似 POSIX 的文件系统接口供用户调用。

1.2.2. NameNode

整个 Hadoop 集群中只有一个 NameNode。它是整个系统的“ 总管”，负责管理 HDFS 的目
录树和相关的文件元数据信息。这些信息是以“ fsimage”（ HDFS 元数据镜像文件）和
“ editlog”（HDFS 文件改动日志）两个文件形式存放在本地磁盘，当 HDFS 重启时重新构造出来的。此外， NameNode 还负责监控各个 DataNode 的健康状态，一旦发现某个 DataNode 宕掉，则将该 DataNode 移出 HDFS 并重新备份其上面的数据。

1.2.3. Secondary NameNode

Secondary NameNode 最重要的任务并不是为 NameNode 元数据进行热备份，而是定期合并fsimage 和 edits 日志，并传输给 NameNode。这里需要注意的是，为了减小 NameNode 压力， NameNode 自己并不会合并 fsimage 和 edits，并将文件存储到磁盘上，而是交由Secondary NameNode 完成。

1.2.4. DataNode

一般而言，每个 Slave 节点上安装一个 DataNode，它负责实际的数据存储，并将数据信息定期汇报给 NameNode。 DataNode 以固定大小的 block 为基本单位组织文件内容，默认情况下block 大小为 64MB。当用户上传一个大的文件到 HDFS 上时，该文件会被切分成若干个 block，分别存储到不同的 DataNode ；同时，为了保证数据可靠，会将同一个 block 以流水线方式写到若干个（默认是 3，该参数可配置）不同的 DataNode 上。这种文件切割后存储的过程是对用户透明的。

1.3. MapReduce

需要这份java学习笔记资料的点这里-》》》》》》》

同 HDFS 一样，Hadoop MapReduce 也采用了 Master/Slave（M/S）架构，具体如图所示。它主要由以下几个组件组成：Client、JobTracker、TaskTracker 和 Task。下面分别对这几个组件进行介绍。

1.3.1. Client

用户编写的 MapReduce 程序通过 Client 提交到 JobTracker 端；同时，用户可通过 Client 提供的一些接口查看作业运行状态。在 Hadoop 内部用“作业”（Job）表示 MapReduce 程序。
一个 MapReduce 程序可对应若干个作业，而每个作业会被分解成若干个 Map/Reduce 任务
（Task）。

1.3.2. JobTracker

JobTracker 主要负责资源监控和作业调度。JobTracker 监控所有 TaskTracker 与作业的健康状况，一旦发现失败情况后，其会将相应的任务转移到其他节点；同时 JobTracker 会跟踪任务的执行进度、资源使用量等信息，并将这些信息告诉任务调度器，而调度器会在资源出现空闲时，选择合适的任务使用这些资源。在 Hadoop 中，任务调度器是一个可插拔的模块，用户可以根据自己的需要设计相应的调度器。

1.3.3. TaskTracker

TaskTracker 会周期性地通过 Heartbeat 将本节点上资源的使用情况和任务的运行进度汇报给JobTracker，同时接收 JobTracker 发送过来的命令并执行相应的操作（如启动新任务、杀死任务等）。TaskTracker 使用“slot” 等量划分本节点上的资源量。“slot” 代表计算资源（CPU、内存等）。一个 Task 获取到一个 slot 后才有机会运行，而 Hadoop 调度器的作用就是将各个TaskTracker 上的空闲 slot 分配给 Task 使用。 slot 分为 Map slot 和 Reduce slot 两种，分别供MapTask 和 Reduce Task 使用。 TaskTracker 通过 slot 数目（可配置参数）限定 Task 的并发度。

1.3.4. Task

Task 分为 Map Task 和 Reduce Task 两种，均由 TaskTracker 启动。 HDFS 以固定大小的 block 为基本单位存储数据，而对于 MapReduce 而言，其处理单位是 split。split 与 block 的对应关系如图所示。 split 是一个逻辑概念，它只包含一些元数据信息，比如数据起始位置、数据长度、数据所在节点等。它的划分方法完全由用户自己决定。但需要注意的是，split 的多少决定了 Map Task 的数目，因为每个 split 会交由一个 Map Task 处理。
Map Task 执行过程如图所示。由该图可知，Map Task 先将对应的 split 迭代解析成一个个
key/value 对，依次调用用户自定义的 map() 函数进行处理，最终将临时结果存放到本地磁盘上，其中临时数据被分成若干个 partition，每个 partition 将被一个 Reduce Task 处理。

1.3.5. Reduce Task 执行过程

该过程分为三个阶段

从远程节点上读取 MapTask 中间结果（称为“Shuffle 阶段”）；
按照 key 对 key/value 对进行排序（称为“ Sort 阶段”）；
依次读取，调用用户自定义的 reduce() 函数处理，并将最终结果存到 HDFS
上（称为“ Reduce 阶段”）。

1.4. Hadoop MapReduce 作业的生命周期

需要这份java学习笔记资料的点这里-》》》》》》》

1.作业ᨀ交与初始化

用户提交作业后，首先由 JobClient 实例将作业相关信息，比如将程序 jar 包、作业配置文
件、分片元信息文件等上传到分布式文件系统（一般为 HDFS）上，其中，分片元信息文件
记录了每个输入分片的逻辑位置信息。然后 JobClient 通过 RPC 通知 JobTracker。
JobTracker 收到新作业提交请求后，由作业调度模块对作业进行初始化：为作业创建一个
JobInProgress 对象以跟踪作业运行状况，而 JobInProgress 则会为每个 Task 创建一个
TaskInProgress 对象以跟踪每个任务的运行状态， TaskInProgress 可能需要管理多个
“ Task 运行尝试”（称为“ Task Attempt”）。
2.任务调度与监控。
前面提到，任务调度和监控的功能均由 JobTracker 完成。TaskTracker 周期性地通过
Heartbeat 向 JobTracker 汇报本节点的资源使用情况，一旦出现空闲资源， JobTracker
会按照一定的策略选择一个合适的任务使用该空闲资源，这由任务调度器完成。任务调度器
是一个可插拔的独立模块，且为双层架构，即首先选择作业，然后从该作业中选择任务，其
中，选择任务时需要重点考虑数据本地性。此外，JobTracker 跟踪作业的整个运行过程，并
为作业的成功运行提供全方位的保障。首先，当 TaskTracker 或者 Task 失败时，转移计算
任务；其次，当某个 Task 执行进度远落后于同一作业的其他 Task 时，为之启动一个相同
Task，并选取计算快的 Task 结果作为最终结果。
3.任务运行环境准备
运行环境准备包括 JVM 启动和资源隔离，均由 TaskTracker 实现。 TaskTracker 为每个
Task 启动一个独立的 JVM 以避免不同 Task 在运行过程中相互影响；同时，TaskTracker 使
用了操作系统进程实现资源隔离以防止 Task 滥用资源。
4.任务执行
TaskTracker 为 Task 准备好运行环境后，便会启动 Task。在运行过程中，每个 Task 的最
新进度首先由 Task 通过 RPC 汇报给 TaskTracker，再由 TaskTracker 汇报给 JobTracker。
5.作业完成。
待所有 Task 执行完毕后，整个作业执行成功。

二. Spark

需要这份java学习笔记资料的点这里-》》》》》》》

2.1. 概念

Spark 提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。

2.2. 核心架构

Spark Core
包含 Spark 的基本功能；尤其是定义 RDD 的 API、操作以及这两者上的动作。其他 Spark 的库都是构建在 RDD 和 Spark Core 之上的
*Spark SQL
提供通过 Apache Hive 的 SQL 变体 Hive 查询语言（HiveQL）与 Spark 进行交互的 API。每个数据库表被当做一个 RDD，Spark SQL 查询被转换为 Spark 操作。
Spark Streaming
对实时数据流进行处理和控制。Spark Streaming 允许程序能够像普通 RDD 一样处理实时数据
Mllib
一个常用机器学习算法库，算法被实现为对 RDD 的 Spark 操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。
GraphX
控制图、并行图操作和计算的一组算法和工具的集合。GraphX 扩展了 RDD API，包含控制图、创建子图、访问路径上所有顶点的操作

2.3. 核心组件

Cluster Manager-制整个集群，监控 worker
在 standalone 模式中即为 Master 主节点，控制整个集群，监控 worker。在 YARN 模式中为资源管理器
Worker 节点-负责控制计算节点
从节点，负责控制计算节点，启动 Executor 或者 Driver。
Driver：运行 Application 的 main()函数
Executor：执行器，是为某个 Application 运行在 worker node 上的一个进程

2.4. SPARK 编程模型

Spark 应用程序从编写到提交、执行、输出的整个过程如图所示，图中描述的步骤如下：

用户使用 SparkContext 提供的 API（常用的有 textFile、sequenceFile、runJob、stop 等）
编写 Driver application 程序。此外 SQLContext、HiveContext 及 StreamingContext 对
SparkContext 进行封装，并提供了 SQL、Hive 及流式计算相关的 API。
使用SparkContext提交的用户应用程序，首先会使用BlockManager和BroadcastManager
将任务的 Hadoop 配置进行广播。然后由 DAGScheduler 将任务转换为 RDD 并组织成 DAG，
DAG 还将被划分为不同的 Stage。最后由 TaskScheduler 借助 ActorSystem 将任务提交给
集群管理器（Cluster Manager）。
集群管理器（ClusterManager）给任务分配资源，即将具体任务分配到Worker上，Worker
创建 Executor 来处理任务的运行。Standalone、YARN、Mesos、EC2 等都可以作为 Spark
的集群管理器。

2.5. SPARK 计算模型

RDD 可以看做是对各种数据计算模型的统一抽象，Spark 的计算过程主要是 RDD 的迭代计算过程。RDD 的迭代计算过程非常类似于管道。分区数量取决于 partition 数量的设定，每个分区的数据只会在一个 Task 中计算。所有分区可以在多个机器节点的 Executor 上并行执行。

2.6. SPARK 运行流程

1. 构建 Spark Application 的运行环境，启动 SparkContext
2. SparkContext 向资源管理器（可以是 Standalone，Mesos，Yarn）申请运行 Executor 资源，并启动 StandaloneExecutorbackend，
3. Executor 向 SparkContext 申请 Task
4. SparkContext 将应用程序分发给 Executor
5. SparkContext 构建成 DAG 图，将 DAG 图分解成 Stage、将 Taskset 发送给 Task Scheduler，最后由 Task Scheduler 将 Task 发送给 Executor 运行
6. Task 在 Executor 上运行，运行完释放所有资源

2.7. SPARK RDD 流程

创建 RDD 对象
DAGScheduler 模块介入运算，计算 RDD 之间的依赖关系，RDD 之间的依赖关系就形成了
DAG
每一个 Job 被分为多个 Stage。划分 Stage 的一个主要依据是当前计算因子的输入是否是确
定的，如果是则将其分在同一个 Stage，避免多个 Stage 之间的消息传递开销

2.8. SPARK RDD

需要这份java学习笔记资料的点这里-》》》》》》》

（1）RDD 的创建方式
1）从 Hadoop 文件系统（或与Hadoop兼容的其他持久化存储系统，如Hive、Cassandra、
HBase）输入（例如 HDFS）创建。
2）从父 RDD 转换得到新 RDD。
3）通过 parallelize 或 makeRDD 将单机数据创建为分布式 RDD。
（2）RDD 的两种操作算子（转换（Transformation）与行动（Action））
对于 RDD 可以有两种操作算子：转换（Transformation）与行动（Action）。
1）转换（Transformation）：Transformation操作是延迟计算的，也就是说从一个RDD转
换生成另一个 RDD 的转换操作不是马上执行，需要等到有 Action 操作的时候才会真正触
发运算。

2）行动（Action）：Action 算子会触发 Spark 提交作业（Job），并将数据输出 Spark 系统。

三. Storm

需要这份java学习笔记资料的点这里-》》》》》》》

3.1. 概念

Storm 是一个免费并开源的分布式实时计算系统。利用 Storm 可以很容易做到可靠地处理无限的数据流，像 Hadoop 批量处理大数据一样，Storm 可以实时处理数据。

3.1. 集群架构

3.1.1. Nimbus（master-代码分发给 Supervisor）

Storm 集群的 Master 节点，负责分发用户代码，指派给具体的 Supervisor 节点上的 Worker 节点，去运行 Topology 对应的组件（Spout/Bolt）的 Task。

3.1.2. Supervisor（slave-管理 Worker 进程的启动和终止）

Storm 集群的从节点，负责管理运行在 Supervisor 节点上的每一个 Worker 进程的启动和终止。通过 Storm 的配置文件中的 supervisor.slots.ports 配置项，可以指定在一个 Supervisor 上最大允许多少个 Slot，每个 Slot 通过端口号来唯一标识，一个端口号对应一个 Worker 进程（如果该Worker 进程被启动）。

3.1.3. Worker（具体处理组件逻辑的进程）

运行具体处理组件逻辑的进程。Worker 运行的任务类型只有两种，一种是 Spout 任务，一种是Bolt 任务。

3.1.4. Task

worker中每一个spout/bolt的线程称为一个task. 在storm0.8 之后，task不再与物理线程对应，不同 spout/bolt 的 task 可能会共享一个物理线程，该线程称为 executor。

3.1.5. ZooKeeper

用来协调 Nimbus 和 Supervisor，如果 Supervisor 因故障出现问题而无法运行 Topology，
Nimbus 会第一时间感知到，并重新分配 Topology 到其它可用的 Supervisor 上运行

3.2. 编程模型（spout->tuple->bolt）

strom 在运行中可分为 spout 与 bolt 两个组件，其中，数据源从 spout 开始，数据以 tuple 的方式发送到 bolt，多个 bolt 可以串连起来，一个 bolt 也可以接入多个 spot/bolt.运行时原理如下图：

3.2.1. Topology

Storm 中运行的一个实时应用程序的名称。将 Spout、 Bolt 整合起来的拓扑图。定义了 Spout 和Bolt 的结合关系、并发数量、配置等等。

3.2.2. Spout

在一个 topology 中获取源数据流的组件。通常情况下 spout 会从外部数据源中读取数据，然后转换为 topology 内部的源数据。

3.2.3. Bolt

接受数据然后执行处理的组件,用户可以在其中执行自己想要的操作。

3.2.4. Tuple

一次消息传递的基本单元，理解为一组消息就是一个 Tuple。

3.2.5. Stream

Tuple 的集合。表示数据的流向。

3.3. Topology 运行

在 Storm 中,一个实时应用的计算任务被打包作为 Topology 发布，这同 Hadoop MapReduce
任务相似。但是有一点不同的是:在 Hadoop 中，MapReduce 任务最终会执行完成后结束；而在Storm 中，Topology 任务一旦提交后永远不会结束，除非你显示去停止任务。计算任务
Topology 是由不同的 Spouts 和 Bolts，通过数据流（Stream）连接起来的图｡一个 Storm 在集群上运行一个 Topology 时，主要通过以下 3 个实体来完成 Topology 的执行工作：
(1). Worker（进程）
(2). Executor（线程）
(3). Task

3.3.1. Worker(1 个 worker 进程执行的是 1 个 topology 的子集)

1 个 worker 进程执行的是 1 个 topology 的子集（注：不会出现 1 个 worker 为多个 topology
服务）。1 个 worker 进程会启动 1 个或多个 executor 线程来执行 1 个 topology 的
component(spout 或 bolt)。因此，1 个运行中的 topology 就是由集群中多台物理机上的多个
worker 进程组成的。

3.3.2. Executor(executor 是 1 个被 worker 进程启动的单独线程)

executor 是 1 个被 worker 进程启动的单独线程。每个 executor 只会运行 1 个 topology 的 1 个component(spout 或 bolt)的 task（注：task 可以是 1 个或多个，storm 默认是 1 个
component 只生成 1 个 task，executor 线程里会在每次循环里顺序调用所有 task 实例）。

3.3.3. Task(最终运行 spout 或 bolt 中代码的单元)

是最终运行 spout 或 bolt 中代码的单元（注：1 个 task 即为 spout 或 bolt 的 1 个实例，
executor 线程在执行期间会调用该 task 的 nextTuple 或 execute 方法）。topology 启动后，1 个 component(spout 或 bolt)的 task 数目是固定不变的，但该 component 使用的 executor 线程数可以动态调整（例如：1 个 executor 线程可以执行该 component 的 1 个或多个 task 实例）。这意味着，对于 1 个 component 存在这样的条件：#threads<=#tasks（即：线程数小于等于 task 数目）。默认情况下 task 的数目等于 executor 线程数目，即 1 个 executor 线程只运行 1 个 task。

3.4. Storm Streaming Grouping

Storm 中最重要的抽象，应该就是 Stream grouping 了，它能够控制 Spot/Bolt 对应的 Task 以什么样的方式来分发 Tuple，将 Tuple 发射到目的 Spot/Bolt 对应的 Task.

目前，Storm Streaming Grouping 支持如下几种类型：

3.4.1. huffle Grouping

随机分组，尽量均匀分布到下游 Bolt 中将流分组定义为混排。这种混排分组意味着来自 Spout 的输入将混排，或随机分发给此 Bolt 中的任务。shuffle grouping 对各个 task 的 tuple 分配的比较均匀。

3.4.2. Fields Grouping

按字段分组，按数据中 field 值进行分组；相同 field 值的 Tuple 被发送到相同的 Task 这种
grouping 机制保证相同 field 值的 tuple 会去同一个 task。

3.4.3. All grouping ：广播

广播发送，对于每一个 tuple 将会复制到每一个 bolt 中处理。

3.4.4. Global grouping

全局分组，Tuple 被分配到一个 Bolt 中的一个 Task，实现事务性的 Topology。Stream 中的所有的 tuple 都会发送给同一个 bolt 任务处理，所有的 tuple 将会发送给拥有最小 task_id 的 bolt任务处理。

3.4.5. None grouping ：不分组

不关注并行处理负载均衡策略时使用该方式，目前等同于 shuffle grouping,另外 storm 将会把bolt 任务和他的上游提供数据的任务安排在同一个线程下。

3.4.6. Direct grouping ：直接分组指定分组

由 tuple 的发射单元直接决定 tuple 将发射给那个 bolt，一般情况下是由接收 tuple 的 bolt 决定接收哪个 bolt 发射的 Tuple。这是一种比较特别的分组方法，用这种分组意味着消息的发送者指定由消息接收者的哪个 task 处理这个消息。只有被声明为 Direct Stream 的消息流可以声明这种分组方法。而且这种消息 tuple 必须使用 emitDirect 方法来发射。消息处理者可以通过TopologyContext 来获取处理它的消息的 taskid (OutputCollector.emit 方法也会返回
taskid)。

四. YARN

需要这份java学习笔记资料的点这里-》》》》》》》

4.1. 概念

YARN 是一个资源管理、任务调度的框架，主要包含三大模块：ResourceManager（RM）、NodeManager（NM）、ApplicationMaster（AM）。其中，ResourceManager 负责所有资源的监控、分配和管理； ApplicationMaster 负责每一个具体应用程序的调度和协调；NodeManager 负责每一个节点的维护。对于所有的 applications，RM 拥有绝对的控制权和对资源的分配权。而每个 AM 则会和 RM 协商资源，同时和 NodeManager 通信来执行和监控 task。几个模块之间的关系如图所示。

4.2. ResourceManager

ResourceManager 负责整个集群的资源管理和分配，是一个全局的资源管理系统。
NodeManager 以心跳的方式向 ResourceManager 汇报资源使用情况（目前主要是 CPU 和
内存的使用情况）。RM 只接受 NM 的资源回报信息，对于具体的资源处理则交给 NM 自己
处理。
YARN Scheduler 根据 application 的请求为其分配资源，不负责 application job 的监控、
追踪、运行状态反馈、启动等工作。

4.3. NodeManager

NodeManager 是每个节点上的资源和任务管理器，它是管理这台机器的代理，负责该节点
程序的运行，以及该节点资源的管理和监控。YARN集群每个节点都运行一个NodeManager。
NodeManager 定时向 ResourceManager 汇报本节点资源（CPU、内存）的使用情况和
Container 的运行状态。当 ResourceManager 宕机时 NodeManager 自动连接 RM 备用节
点。
NodeManager 接收并处理来自 ApplicationMaster 的 Container 启动、停止等各种请求。

4.4. ApplicationMaster

用户提交的每个应用程序均包含一个 ApplicationMaster，它可以运行在 ResourceManager 以外的机器上。

负责与 RM 调度器协商以获取资源（用 Container 表示）。
将得到的任务进一步分配给内部的任务(资源的二次分配)。
与 NM 通信以启动/停止任务。
监控所有任务运行状态，并在任务运行失败时重新为任务申请资源以重启任务。
当前 YARN 自带了两个 ApplicationMaster 实现，一个是用于演示 AM 编写方法的实例程序
DistributedShell，它可以申请一定数目的 Container 以并行运行一个 Shell 命令或者 Shell
脚本；另一个是运行 MapReduce 应用程序的 AM—MRAppMaster。
注：RM 只负责监控 AM，并在 AM 运行失败时候启动它。RM 不负责 AM 内部任务的容错，任务
的容错由 AM 完成。

4.5.YARN 运行流程

client 向 RM 提交应用程序，其中包括启动该应用的 ApplicationMaster 的必须信息，例如
ApplicationMaster 程序、启动 ApplicationMaster 的命令、用户程序等。
ResourceManager 启动一个 container 用于运行 ApplicationMaster。
启动中的ApplicationMaster向ResourceManager注册自己，启动成功后与RM保持心跳。
ApplicationMaster 向 ResourceManager 发送请求，申请相应数目的 container。
ResourceManager 返回 ApplicationMaster 的申请的 containers 信息。申请成功的
container，由 ApplicationMaster 进行初始化。container 的启动信息初始化后，AM 与对
应的 NodeManager 通信，要求 NM 启动 container。AM 与 NM 保持心跳，从而对 NM 上
运行的任务进行监控和管理。
container 运行期间，ApplicationMaster 对 container 进行监控。container 通过 RPC 协议
向对应的 AM 汇报自己的进度和状态等信息。
应用运行期间，client 直接与 AM 通信获取应用的状态、进度更新等信息。
应用运行结束后，ApplicationMaster 向 ResourceManager 注销自己，并允许属于它的
container 被收回

需要这份java学习笔记资料的点这里-》》》》》》》

你可能感兴趣的:(java,hadoop,程序员,编程,编程语言)

一些对编程语言的看法后端程序员
我让AI列出了一些较为常见的编程语言，要纯编译型的得到如下经典编译型语言名称主要特点C最经典的编译型语言，直接编译为机器码。C++基于C的扩展，同样通过编译器生成原生二进制文件。Fortran科学计算领域的老牌语言，编译为高效机器码。COBOL商业和金融领域的历史语言，完全编译执行。Ada高可靠性系统（如航空航天）的编译型语言。Pascal/Delphi(ObjectPascal)Delphi/f
Apollo部署及整合SpringBoot实战 It_BeeCoder SpringBoot
前言：最近在完成毕业设计，题目是《基于微服务的B2C网上商城系统的设计与实现》，整个项目最早是我在看黑马的培训视频时学习JavaWeb做的一个项目，第一次做完大约在去年过年的时候，这个项目前前后后自己改了差不多5、6次了，使用技术不断更新（还有一些小细节的修改比如最早购物车用Session后来用Redis存储），从最早的Servlet+Filter到SSM+Redis到SpringBoot+Thy
Python 基础：类诸葛思颖 python python 开发语言
目录一、类的概念二、定义类三、创建对象并进行访问四、修改属性的值方法一：句点表示法直接访问并修改方法二：通过方法进行修改五、继承继承父类属性和方法重写父类方法六、将实例用作属性七、导入类导入单个类从一个模块中导入多个类导入整个模块导入模块中的所有类八、一些代码编写规范遇到看不明白的地方，欢迎在评论中留言呐，一起讨论，一起进步！本文参考：《Python编程：从入门到实践（第2版）》一、类的概念类是是
‌Visual Studio Code（VS Code）支持的编程语言计算机辅助工程 vscode
‌JavaScript‌：VSCode原生支持JavaScript，提供语法高亮、代码折叠、自动补全等功能。推荐使用ESLint和Prettier进行代码格式化和错误检查‌。‌TypeScript‌：作为JavaScript的超集，TypeScript在VSCode中也得到原生支持，提供类似的编辑功能‌。‌Python‌：通过安装Python扩展，VSCode支持Python编程，提供调试、Int
指针高级06【数组指针】-黑马程序员C语言 c
数组指针的基本用法概念：指向数组的指针，叫做数组指针作用：方便操作数组中的各种数据#include"stdio.h"intmain(){intarr[]={10,20,30,40,50};intlen=sizeof(arr)/sizeof(int);//获取数组的指针//实际上获取数据的首地址int*p1=arr;int*p2=&arr[0];printf("%p\n",p1);printf("%
记一次多线程导入问题排查过程程序辕日记 java MySql java spring boot
记一次多线程导入问题排查过程1.需求2.遇到问题3.排查解决问题1.需求大数据量的核对：现在有1000个excel文件，每个excel文件内有21个sheet页，现在要对这些数据进行核对，需要先将这些数据导入到库中，再进行核对。2.遇到问题库使用的是MySql，程序是Java，springcloud生态，在串行导入的时候，导入一次大概需要60分钟，现在对其进行改造，使用多线程导入，其思路为：创建线
报表控件stimulsoft操作：使用 Angular 应用程序的报告查看器组件 CodeCraft Studio 控件 angular.js 前端 javascript
StimulsoftUltimate（原StimulsoftReports.Ultimate）是用于创建报表和仪表板的通用工具集。该产品包括用于WinForms、ASP.NET、.NETCore、JavaScript、WPF、PHP、Java和其他环境的完整工具集。无需比较产品功能，StimulsoftUltimate包含了所有内容！StimulsoftReports最新版下载介绍报告和仪表板查看
我要写整个中文互联网界最牛逼的JVM系列教程 | 「JVM与Java体系架构」章节：如何看待Java上层技术与JVM？李阿昀只要你有心人人都是JVM精通者 java jvm
「JVM与Java体系架构」章节的整体目录从现在开始我们就要正式步入第一章——JVM和Java体系结构的学习中了，首先我们看一下这一章要讲授的主要内容都有哪些。前言面向人群及参考书目Java及JVM简介Java发展的重大事件虚拟机与Java虚拟机JVM的整体结构Java代码执行流程JVM的架构模型JVM的生命周期JVM的发展历程从上面可以看到，这一章节的内容分量还是比较充足的，而且也比较详细，因为
Java集成InfluxDB 动亦定物联网数据库 java 数据库
1.添加InfluxDB依赖首先，在项目中添加InfluxDB的Java客户端依赖。如果使用Maven，可以在pom.xml中添加以下依赖：com.influxdbinfluxdb-client-java6.3.02.创建InfluxDB客户端接下来，创建InfluxDB客户端实例，用于连接InfluxDB服务器。importcom.influxdb.client.InfluxDBClient;i
从零手撸工业级Qt文件传输系统：TCP粘包/断点续传/SSL加密全解十年编程老舅 QT开发 qt项目 qt项目实战 c++项目 qt 计算机毕设项目 qt文件传输 qt教程
很多初学者都会遇到这个坎，如何将Windows数据结构、网络编程等知识整合为完整的项目。本文将深入解析一个基于C++Qt开发的企业级文件传输系统，涵盖TCP通信、断点续传、SSL加密、SQLite持久化等核心技术。（项目源码来文章底部拿）一、系统核心功能1.基础通信能力双工消息传输（支持中文字符）文件传输进度条同步（4KB分块策略）传输完整性验证（安装包可执行性测试）2.高级特性断点续传（记录已传
Java直通车系列28【Spring Boot】（数据访问Spring Data JPA）浪九天 Java直通车 java spring spring boot 开发语言后端
目录SpringDataJPA概述核心概念1.仓库接口（Repository）2.实体类（Entity）3.方法命名查询4.@Query注解场景示例步骤1：添加依赖步骤2：配置数据库连接步骤3：创建实体类步骤4：创建仓库接口步骤5：创建服务类步骤6：创建控制器类测试示例SpringDataJPA概述SpringDataJPA是Spring提供的一个用于简化JPA（JavaPersistenceAP
Java直通车系列27【Spring Boot】（配置文件使用）浪九天 Java直通车 java spring boot spring 后端开发语言
目录配置文件的作用与格式配置文件的类型配置文件的加载顺序场景示例SpringBoot中配置文件的使用非常灵活和重要，主要有.properties和.yml（.yaml）两种格式：配置文件的作用与格式作用：用于配置SpringBoot应用程序的各种属性，如数据库连接信息、服务器端口、日志级别、自定义属性等，实现对应用行为的定制化。.properties格式：以键值对形式存储配置信息，每行一个键值对，
Java直通车系列19【Spring MVC】（国际化支持）浪九天 Java直通车 java spring mvc 开发语言
目录国际化支持机制概述1.资源束（ResourceBundle）2.MessageSource3.LocaleResolver4.LocaleChangeInterceptor场景示例1.创建资源束文件2.配置MessageSource3.配置LocaleResolver4.配置LocaleChangeInterceptor5.创建控制器和视图解释国际化支持机制概述SpringMVC的国际化支持主
JSON对象处理工具类波波有料 JAVA json java 开发语言
目录1.工具类的功能设计2.工具类的实现依赖配置工具类代码3.工具类的使用示例示例1：美化JSON打印示例2：从JSON中提取数据示例3：修改JSON数据示例4：合并JSON对象4.总结在现代软件开发中，JSON（JavaScriptObjectNotation）是一种广泛使用的轻量级数据交换格式。由于其简洁性和易读性，JSON被广泛应用于API通信、配置文件、数据存储等场景。然而，在处理JSON
深入理解正则表达式及基本使用教程波波有料 JAVA 正则表达式
目录摘要一、正则表达式是什么？二、正则表达式的基本语法1.元字符2.字符集与范围3.常用预定义字符集4.分组与反向引用捕获分组：非捕获分组：三、Java中正则表达式的实现1.Java基础示例2.替换字符串3.验证输入格式4.提取信息5.拆分字符串四、常见正则表达式应用场景1.手机号验证2.提取HTML标签内容3.替换多余空格五、总结摘要正则表达式（RegularExpression，简称Regex
Apache Commons Lang3 和 Commons Net 详解波波有料 apache
目录1.ApacheCommonsLang31.1什么是ApacheCommonsLang3？1.2主要功能1.3示例代码2.CommonsNet2.1什么是CommonsNet？2.2主要功能2.3示例代码3.总结3.1ApacheCommonsLang33.2CommonsNet3.3使用建议4.参考资料前言在Java开发中，ApacheCommons项目提供了许多实用的工具库，帮助开发者更高
JavaScript 性能优化实战案例与解决方案 Real Man★ javascript 性能优化开发语言
JavaScript性能优化是提升Web应用流畅度和用户体验的核心环节。以下是针对常见性能问题的实战案例与优化方案，涵盖代码优化、渲染优化、内存管理等多个方面：一、高频事件处理优化案例1：滚动事件卡顿问题：页面监听scroll事件实现动态效果，但频繁触发导致卡顿。优化方案：javascript复制//1.节流（Throttle）：固定时间间隔执行functionthrottle(fn,delay)
Java统计代码的执行时间的6种方法码叔义 java基础 java 开发语言
Java统计代码的执行时间的6种方法前言：在日前开发中我们会遇到需要统计运行的时间但是又不想运用JMH测试框架，所以本文就汇总了一些比较常用的统计时间的测试方法，总共有6种，我做了一个大概的思维导图：方法一，这个方法System.currentTimeMillis()和System.nanoTime()都是java内置的方法。packagecom.qfedu.first;publicclasste
Nginx实现接口复制 m0_74823094 面试学习路线阿里巴巴 nginx junit 运维
目录1、前言2、接口流复制2.1、方式一：使用mirror指令2.1.1、nginx配置2.1.2、配置说明2.1.3、测试结果2.1.4、注意事项2.2、方式二：使用Lua2.2.1、安装Openresty2.2.2、nginx配置2.2.3、配置说明2.2.4、测试结果3、小结1、前言项目中，通常会遇到一个中转服务需要往多个不同的系统推送同一份数据，传统做法是需要在Java代码侧中调用多个AP
Java Spring 中构造函数注入和setter注入的优缺点编程小弟 spring java spring 开发语言
JavaSpring构造函数注入和Setter注入是两种常见的依赖注入方式，它们各有优缺点，适用于不同的场景。构造函数注入优点：强制依赖：构造函数注入在对象创建时就要求所有必需的依赖项都已提供，这有助于确保对象在初始化时就是完整和可用的。如果缺少任何依赖项，对象将无法创建，这有助于在开发早期发现潜在问题。不可变性：一旦对象通过构造函数初始化，其依赖项就被固定下来，无法更改。这有助于确保对象的内部状
SpringBoot 外化配置及加载顺序 ashane1314 spring boot python 后端
SpringBoot的外化配置加载顺序遵循特定的优先级规则，高优先级的配置会覆盖低优先级的。以下是详细的配置源加载顺序及规则：一、配置源的优先级（从高到低）命令行参数通过--key=value传递的参数，如java-jarapp.jar--server.port=8081。SPRING_APPLICATION_JSON属性通过环境变量或系统属性传递的JSON格式配置，如SPRING_APPLICA
IOC 篇 ashane1314 java 开发语言
一、概念SpringIOC（InversionofControl，控制反转）是Spring框架的核心特性之一，它是一种设计理念，用于实现对象的创建和依赖关系的管理。以下为你详细介绍：核心概念传统的对象创建方式：在传统的Java开发中，对象的创建和管理通常由程序员在代码中手动完成。例如，当一个类需要依赖另一个类的对象时，通常会在该类中使用new关键字来创建依赖对象。这种方式会导致类与类之间的耦合度较
Python, Java 开发全国性仕农工商学急切诉求反映APP (惠民版） Geeker-2025 python java
开发一个全国性的“仕农工商学急切诉求APP”（以下简称“诉求APP”）是一个复杂且多层次的项目，旨在为不同社会群体（如公务员、农民、工人、商人、学生等）提供一个平台，方便他们提交和查看各自的紧急诉求。该项目需要综合运用多种技术和工具，以确保应用的稳定性、安全性和高效性。以下是使用Python、Java和C++分别开发该应用的关键模块和基本思路。##一、功能需求概述1.**用户管理**：-注册、登录
今日学习之 Java TCP通信技术与群聊程序开发 java修仙传学习 java tcp/ip 经验分享
在今天的Java学习中，我深入探索了TCP通信技术，并将其应用于群聊程序的开发，同时了解了TCP通信的BS架构。以下是我的学习总结与技术分享。一、TCP通信技术基础TCP（传输控制协议）是一种面向连接的、可靠的、基于字节流的传输层通信协议。它的主要特点包括：面向连接：在通信开始之前，需要建立连接（三次握手），通信结束后需要释放连接（四次挥手）。可靠交付：通过确认、重传和排序机制，确保数据准确无误地
Spring Boot 3 中集成 Swagger 问题：Type javax.servlet.http.HttpServletRequest not present 我命由我12345 后端 -问题清单 spring boot servlet 后端 java http spring java-ee
问题与处理策略问题描述io.springfoxspringfox-swagger23.0.0io.springfoxspringfox-swagger-ui3.0.0在SpringBoot3中集成Swagger时，报如下错误java.lang.TypeNotPresentException:Typejavax.servlet.http.HttpServletRequestnotpresent#翻译
Java每日一讲讲什么好_撩课-Java每天10道面试题第1天 Robeon Lee Java每日一讲讲什么好
1.简述JDK、JRE、JVM？一、JDKJDK(JavaDevelopmentKit)是整个JAVA的核心，包括了Java运行环境(JavaRuntimeEnvirnment)，一堆Java工具(javac/java/jdb等)和Java基础的类库(即JavaAPI包括rt.jar)。JDK是java开发工具包，基本上每个学java的人都会先在机器上装一个JDK，那他都包含哪几部分呢？在目录下面
每日学Java之一万个为什么 ~Yogi 修炼 java 开发语言
文章目录RESTFUL风格设计JSON数据中的返回工具类R浏览器跨域问题及其前后端解决办法SpringMVC基于AOP的功能有哪些SpringMVC声明式异常处理SpringMVC拦截器区别filter不能放行RESTFUL风格设计url：尽量使用名词，如果实在重复使用动词method：GETDELET（区别路径传参：唯一标识，和接受查询字符串：范围查询）POSTPUTparam：response
Spring Boot整合Redis详解光阴不负卿 redis redis
Redis的Java客户端有很多，例如Jedis、JRedis、SpringDataRedis等，SpringBoot借助于SpringDataRedis为Redis提供了开箱即用的自动化配置，开发者只需要添加相关依赖并配置Redis连接信息即可，具体步骤如下：创建SpringBoot项目：首先创建SpringBoot项目，添加如下依赖：org.springframework.bootspring
mySQL和Hive的区别 iijik55 面试学习路线阿里巴巴 hive mysql 大数据 tomcat 面试
SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3、索引：Hive无索引，每次扫描所有数据，底层是MR，并行计算，适用于大数据量；MySQL有索引，适合在线查询数据；4、执行：Hive底层是MapReduce；MySQL底层是执行引擎；5、可扩展性
程序员必备神器：DeepSeek如何帮你高效开发？后端
作为一名程序员，你是否曾经为了找到一个合适的代码片段而翻遍GitHub？或者为了调试一个复杂的算法而熬夜到凌晨？如果你也有类似的经历，那么今天我要介绍的这款工具——DeepSeek，可能会成为你的开发利器。它不仅能帮你快速找到解决方案，还能提升你的开发效率，甚至让你在代码的世界里游刃有余。DeepSeek是什么？简单来说，它就像是一个智能助手，专门为程序员设计。无论是前端开发、后端架构，还是数据分
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

7000字超详细讲解Hadoop、Spark、Storm、YARN，建议收藏！

目录

一、Hadoop

1.1. 概念

1.2. HDFS

1.2.1. Client

1.2.2. NameNode

1.2.3. Secondary NameNode

1.2.4. DataNode

1.3. MapReduce

1.3.1. Client

1.3.2. JobTracker

1.3.3. TaskTracker

1.3.4. Task

1.3.5. Reduce Task 执行过程

1.4. Hadoop MapReduce 作业的生命周期

二. Spark

2.1. 概念

2.2. 核心架构

2.3. 核心组件

2.4. SPARK 编程模型

2.5. SPARK 计算模型

2.6. SPARK 运行流程

2.7. SPARK RDD 流程

2.8. SPARK RDD

三. Storm

3.1. 概念

3.1. 集群架构

3.1.1. Nimbus（master-代码分发给 Supervisor）

3.1.2. Supervisor（slave-管理 Worker 进程的启动和终止）

3.1.3. Worker（具体处理组件逻辑的进程）

3.1.4. Task

3.1.5. ZooKeeper

3.2. 编程模型（spout->tuple->bolt）

3.2.1. Topology

3.2.2. Spout

3.2.3. Bolt

3.2.4. Tuple

3.2.5. Stream

3.3. Topology 运行

3.3.1. Worker(1 个 worker 进程执行的是 1 个 topology 的子集)

3.3.2. Executor(executor 是 1 个被 worker 进程启动的单独线程)

3.3.3. Task(最终运行 spout 或 bolt 中代码的单元)

3.4. Storm Streaming Grouping

3.4.1. huffle Grouping

3.4.2. Fields Grouping

3.4.3. All grouping ：广播

3.4.4. Global grouping

3.4.5. None grouping ：不分组

3.4.6. Direct grouping ：直接分组 指定分组

四. YARN

4.1. 概念

4.2. ResourceManager

4.3. NodeManager

4.4. ApplicationMaster

4.5.YARN 运行流程

你可能感兴趣的:(java,hadoop,程序员,编程,编程语言)

3.4.6. Direct grouping ：直接分组指定分组