JStorm源码分析-7.Ack机制的实现

1. Ack的使用

通过Ack机制，spout发送出去的每一条消息，都可以确定是被成功处理或失败处理。，从而可以让开发者采取动作。比如成功被处理，即可更新偏移量，当失败时，重复发送数据。
spout发送的每一条消息：

在规定的时间内，spout收到Acker的ack响应，即认为该tuple 被后续bolt成功处理
在规定的时间内，spout没有收到Acker的ack响应tuple，就触发fail动作，即认为该tuple处理失败，
在规定的时间内，收到Acker发送的fail响应tuple，也认为失败，触发fail动作。

1.1 代码示例

Spout

public void nextTuple() {
  //生成一个唯一编号
  String msgId = UUID.randomUUID().toString();
  //模拟一条消息
  String msg = "this is test message";
  //把消息存入map
  msgBuffer.put(msgId, msg);
  //向下游bolt发送一条数据,并附带唯一编号
  spoutOutputCollector.emit(new Values(msg), msgId);
}
@Override
public void ack(Object msgId) {
    System.out.println("消息处理成功了, msgId: "+msgId);
    super.ack(msgId);
}

@Override
public void fail(Object msgId) {
    System.out.println("消息处理失败了需要重发, msgId: "+msgId);
    //如果发送数据失败后,从map中取出数据再次发送
    String msg = msgBuffer.get(msgId);
    spoutOutputCollector.emit(new Values(msg), msgId);
}

Bolt

public void execute(Tuple tuple) {
    //获取数据
    String line = tuple.getStringByField("line");
    String[] words = line.split(" ");
    for (String word : words) {
        //将新产生的tuple与原有tuple关联
        outputCollector.emit(tuple, new Values(word));
    }
    //bolt对数据完成处理后发出信号
    outputCollector.ack(tuple);
    //测试消息处理失败
    //outputCollector.fail(tuple);
}

2. 实现分析

2.1 Topology的修改

在WorkerData的构造方法中，有如下两行代码

rawTopology = StormConfig.read_supervisor_topology_code(conf,topology_id);
sysTopology = Common.system_topology(stormConf, rawTopology);

第一行从本地读取topology文件并反序列化为rawTopology，第二行system_topology方法会根据配置修改Topology结构，这个过程会添加AckBolt。

将rawTopology深拷贝一份
读取配置，记录ack的数量ackercount
add_acker 为整个Topology添加Ack这个特殊的Bolt
add_system_streams 向Topology中所有组件添加输出stream：SYSTEM_STREAM_ID

add_acker

生成outputs，用于设置AckBolt输出的stream对应的field，AckBolt的output有两个stream：ACKER_ACK_STREAM_ID和ACKER_FAIL_STREAM_ID，分别用来向spout发送ack和fail通知。
生成inputs，acker_inputs中会遍历topology中的所有spout和bolt，spout会通过ACKER_INIT_STREAM_ID发送消息到AckBolt，bolt会通过ACKER_ACK_STREAM_ID和ACKER_FAIL_STREAM_ID两个stream向AckBolt发送消息。
有了输入和输出的stream信息，创建Acker，这也是一个IBolt。Thrift.mkAckerBolt会将Acker和输入输出组装为标准的，可被序列化的Bolt。

struct Bolt {
  1: required ComponentObject bolt_object;
  2: required ComponentCommon common;
}
union ComponentObject {
  1: binary serialized_java;
  2: ShellComponent shell;
  3: JavaObject java_object;
}
struct ComponentCommon {
  1: required map inputs; // input source
  2: required map streams; //key is stream id, output stream
  3: optional i32 parallelism_hint; //how many threads across the cluster should be dedicated to this component
  4: optional string json_conf;
}

遍历Topology中的Bolt，添加输出的Stream：ACKER_ACK_STREAM_ID和ACKER_FAIL_STREAM_ID，因为Bolt中会调用ack和fail方法；遍历Topology中的Spout，为其添加输入的Stream：ACKER_ACK_STREAM_ID和ACKER_FAIL_STREAM_ID，因为Spout会受到ack或fail通知。
最后，将Ack这个bolt加入Topology的结构中。

add_system_streams
从topology中手机所有组件，然后为其添加输出stream：SYSTEM_STREAM_ID

经过这一系列修改，Topology中的Spout会通过ACKER_INIT_STREAM_ID发送消息到AckBolt，所有Bolt会通过ACKER_ACK_STREAM_ID和ACKER_FAIL_STREAM_ID两个stream向AckBolt发送消息。AckBolt会向Spout的ACKER_ACK_STREAM_ID和ACKER_FAIL_STREAM_ID两个Stream发送消息，通知Spout调用ack或fail方法。

2.2 Spout的emit

SpoutExecutors中调用SpoutOutputCollector发送消息，如果需要Ack机制（message_id不为空且ackerNum大于0）needAck为true，会执行如下操作：

TupleInfo info = new TupleInfo();
info.setStream(out_stream_id);
info.setValues(values);
info.setMessageId(message_id);
info.setTimestamp(System.currentTimeMillis());
pending.putHead(root_id, info);

// tuple： root_id ，结束之后的id，taskid
List

JStorm源码分析-7.Ack机制的实现

1. Ack的使用

1.1 代码示例

2. 实现分析

2.1 Topology的修改

2.2 Spout的emit

2.3 Acker

2.4 Spout对Ack消息的处理

2.5 Bolt的ack和fail

你可能感兴趣的:(JStorm源码分析-7.Ack机制的实现)