MasterT-J

Apache Storm 实时流处理系统通信机制源码分析

我们今天就来仔细研究一下Apache Storm 2.0.0-SNAPSHOT的通信机制。下面我将从大致思想以及源码分析，然后我们细致分析实时流处理系统中源码通信机制研究。

1. 简介

Worker间的通信经常需要通过网络跨节点进行，Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。

Worker进程内部通信：不同worker的thread通信使用LMAX Disruptor来完成。

不同topologey之间的通信，Storm不负责，需要自己想办法实现，例如使用kafka等；

Worker进程间消息传递机制，消息的接收和处理的大概流程见下图：

实时流处理系统一般都有一个Worker进程用来分配资源，Worker进程是资源分配的最小单位。每个Worker进程中又包含多个Executor，Executor是用来真正执行Task的组件，里面包含一个工作线程和发送线程。每个Executor都有自己的接收队列和发送队列。
1.每个Worker进程都有一个单独的接受线程监听接收端口。Worker接收线程将收到的消息通过Task编号传递给对应的Executor(一个或则多个)接收队列。Worker接收线程将每个从网络上传来的消息发送到相应的Executor的接收队列中。Executor接收队列存放Worker或者Worker内部其他xecutor发送过来的消息。
2. Executor工作线程从接收队列中拿出数据，然后调用execute方法，发送Tuple到Executor的发送队列。
3. Executor的发送线程从发送队列中获取消息，按照消息目的地址选择发送到Worker的传输队列中或者其他Executor的接收队列中。

4. 最后Worker的发送线程从传输队列中读取消息，然后将Tuple元组发送到网络中。

1.1 具体细节

对于worker进程来说，为了管理流入和传出的消息，每个worker进程有一个独立的接收线程(对配置的TCP端口supervisor.slots.ports进行监听);

每个executor有自己的sendQueue和receiveQueue。

Worker接收线程将收到的消息通过task编号传递给对应的executor(一个或多个)的receiveQueue;

每个executor有单独的线程分别来处理spout/bolt的业务逻辑，业务逻辑输出的中间数据会存放在sendQueue中，当executor的sendQueue中的tuple达到一定的阀值，executor的发送线程将批量获取sendQueue中的tuple,并发送到TransferQueue中。

每个worker进程控制一个或多个executor线程，用户可在代码中进行配置。其实就是我们在代码中设置的并发度个数。

一个worker进程运行一个专用的接收线程来负责将外部发送过来的消息移动到对应的executor线程的receiveQueue中

        TransferQueue的大小由参数topology.transfer.buffer.size来设置。TransferQueue的每个元素实际上代表一个tuple的集合
        TransferQueue的大小由参数topology.transfer.buffer.size来设置。
        executor的sendQueue的大小用户可以自定义配置。

executor的receiveQueue的大小用户可以自定义配置

1.2 Worker进程间通信分析

1、 Worker接受线程通过网络接受数据，并根据Tuple中包含的taskId，匹配到对应的executor；然后根据executor找到对应的incoming-queue，将数据存发送到receiveQueue队列中。
2、业务逻辑执行现成消费receiveQueue的数据，通过调用Bolt的execute(xxxx)方法，将Tuple作为参数传输给用户自定义的方法
3、业务逻辑执行完毕之后，将计算的中间数据发送给sendQueue队列，当sendQueue中的tuple达到一定的阀值，executor的发送线程将批量获取sendQueue中的tuple,并发送到Worker的TransferQueue中
4、 Worker发送线程消费TransferQueue中数据，计算Tuple的目的地，连接不同的node+port将数据通过网络传输的方式传送给另一个的Worker。
5、另一个worker执行以上步骤1的操作。

2. Storm 通信机制源码分析

2.1 Spout/Bolt 发送Tuple数据

SpoutOutputCollector 调用emit方法，然后在emit方法中调用sendSpoutMsg方法。我们仔细分析sendSpoutMsg方法，首先根据emit方法中指定的stream和values，调用taskData的taskData.getOutgoingTasks(stream, values)的方法，获取数据要发往哪个TaskID（根据上游spout和下游bolt之间的分组信息）。然后根据这个TaskID，循环遍历将数据封装成TupleImpl。然后outputCollector通过调用executor的ExecutorTransfer类的transfer方法(）将tuple添加目标taskId信息，封装成AddressTuple，将数据发送到相应的目标Task。

/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 * http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.apache.storm.executor.spout;

public class SpoutOutputCollectorImpl implements ISpoutOutputCollector {

    private final SpoutExecutor executor;
    private final Task taskData;
    private final int taskId;
    private final MutableLong emittedCount;
    private final boolean hasAckers;
    private final Random random;
    private final Boolean isEventLoggers;
    private final Boolean isDebug;
    private final RotatingMap pending;

    @SuppressWarnings("unused")
    public SpoutOutputCollectorImpl(ISpout spout, SpoutExecutor executor, Task taskData, int taskId,
                                    MutableLong emittedCount, boolean hasAckers, Random random,
                                    Boolean isEventLoggers, Boolean isDebug, RotatingMap pending) {
        this.executor = executor;
        this.taskData = taskData;
        this.taskId = taskId;
        this.emittedCount = emittedCount;
        this.hasAckers = hasAckers;
        this.random = random;
        this.isEventLoggers = isEventLoggers;
        this.isDebug = isDebug;
        this.pending = pending;
    }

    @Override
    public List emit(String streamId, List