storm kafka

1.1 KafkaSpout流程

建立zookeeper客户端，在zookeeper "borkers/topics/" + _topic + "/partitions" 路径下获取到partition列表
针对每个partition 到路径"borkers/topics/" + _topic + "/partitions"+"/" + partition_id + "/state"下面获取到leader partition 所在的broker id
到/brokers/ids/broker id 路径下获取broker的host 和 port 信息，并保存到Map中partition_id –-> learder broker
获取spout的任务个数和当前任务的index，然后再根据partition的个数来分配当前spout 所消费的partition列表
针对所消费的每个broker建立一个SimpleConsumer对象用来从kafka上获取数据，我们是从partition的leader读取数据，应该是连接leader所在的broker节点，然后构建具体的SimpleConsumer对象
提交当前partition的消费信息到zookeeper上面保存（0.9以前的版本）

1.2 partition 的分配策略

在KafkaSpout中获取spout的task的个数，对应就是consumer的个数
在KafkaSpout中获取当前spout的 task index，注意，task index和task id是不同的，task id是当前spout在整个topology中的id，而task index是当前spout在组件中的id，取值范围为[0, spout_task_number-1]
获取所有的partiton与对应的leader partition所在broker的映射关系
获取当前spout消费的partition的列表，假设spout的并发度是3，当前spout的task index 是 1，总的partition的个数为5，那么当前spout消费的partition id为1,4

1.3 partition的更新策略

如果出现broker宕机，spout挂掉的情况，那么spout是要重新分配parition的，KafkaSpout并没有监听zookeeper上broker、partition和其他spout的状态，所以当有异常发生的时候KafkaSpout并不知道的，它采用了两种方法来更新partition的分配。

定时更新
根据ZkHosts中的refreshFreqSecs字段来定时更新partition列表，我们可以通过修改配置来更改定时刷新的间隔。每一次调用kafkaspout的nextTuple方法时，都会首先调用ZkCoordinator的getMyManagedPartitions方法来获取当前spout消费的partition列表；getMyManagedPartitions方法中会判断是否已经到了该刷新的时间，如果到了就重新分配partition（默认60秒）

public List getMyManagedPartitions() {
        if (_lastRefreshTime == null || (System.currentTimeMillis() - _lastRefreshTime) > _refreshFreqMs) {
            refresh();
            _lastRefreshTime = System.currentTimeMillis();
        }
        return _cachedList;
    }

异常更新
当调用kafkaspout的nextTuple方法出现异常时（除了UpdateOffsetException），强制更新当前spout的partition消费列表。

1.4 消费状态的维护

首先要分析一下当spout启动的时候是怎么获取初始offset的。在每个spout获取到消费的partition列表时，会针对每个partition来创建PartitionManager对象，下面看一下PartitionManager的初始化过程：

到连接池里注册partition leader所在的broker host，如果连接池里有该broker的连接，则直接返回该连接、如果连接池里没有，则建立broker的连接，并返回连接对象SimpleConsumer

Map _connections = new HashMap();
public SimpleConsumer register(Partition partition) {
    Broker broker = _reader.getCurrentBrokers().getBrokerFor(partition.partition);
    return register(broker, partition.partition);
}

获取zookeeper上offset的提交路径

private String committedPath() {
    return _spoutConfig.zkRoot + "/" + _spoutConfig.id + "/" + _partition.getId();
}

从提交路径上读取信息，提取记录的该partition的消费offset；如果zookeeper上没有该路径则表示当前topic没有被spout消费过

可以根据时间戳查询offset，细粒度为log segment，查询最新可能的offset在不大于这个时间戳下。segment size比较大的时候，offset会不准确。为了更精确，我们可以配置log segment的大小，基于时间(log.roll.ms) 代替基于大小 (log.segment.bytes).

从broker上获取当前partition的offset，默认为获取最新的offset，如果用户配置forceFromStart（KafkaConfig），则获取该partition最早的offset，也就是consume from beginning。

情况1：如果从zookeeper上没有获取topology和消费信息，则直接用从broker上获取到的offset
情况2：获取到的topology id 不一致或者用户要求从新获取数据的时候，则从broker上获取offset。
情况3：使用zookeeper上保留的offset进行消费；
如果zookeeper消费的offset已经过期，则直接消费新数据

PartitionManager 中的 _emittedToOffset用来保存当前消费的offset，在每一次获取到消息的时候都会更新这个值

offset的提交是周期性的，提交的周期可在SpoutConfig中的stateUpdateIntervalMs（2秒）中来配置。每次调用kafkaspout的nextTuple方法后都会判断是否需要提交offset；

如果需要提交则调用kafkaspout的commit方法，使用轮巡的方式提交每个partition的消费状况；具体的提交是委托PartitionManager来完成的

获取当前要提交的offset，如果pending Set剩余offset的话，就说明还有一些消息没有完成处理，则提交pending消息的第一个offset。
如果没有pending的消息，则提交当前消费的offset。

public void commit() {
    long lastCompletedOffset = lastCompletedOffset();
    if (_committedTo != lastCompletedOffset) {
        LOG.debug("Writing last completed offset (" + lastCompletedOffset + ") to ZK for " + _partition + " for topology: " + _topologyInstanceId);
        Map data = (Map) ImmutableMap.builder()
            .put("topology", ImmutableMap.of("id", _topologyInstanceId,
                "name", _stormConf.get(Config.TOPOLOGY_NAME)))
            .put("offset", lastCompletedOffset)
            .put("partition", _partition.partition)
            .put("broker", ImmutableMap.of("host", _partition.host.host,
                "port", _partition.host.port))
            .put("topic", _spoutConfig.topic).build();
        _state.writeJSON(committedPath(), data);

        _committedTo = lastCompletedOffset;
        LOG.debug("Wrote last completed offset (" + lastCompletedOffset + ") to ZK for " + _partition + " for topology: " + _topologyInstanceId);
    } else {
        LOG.debug("No new offset for " + _partition + " for topology: " + _topologyInstanceId);
    }
}

1.5 kafkaspout ack 和 fail的处理

当调用kafkaspout的nextTuple方法时，kafkaspout委托PartitionManager next方法来发送数据

 public EmitState next(SpoutOutputCollector collector) {
    if (_waitingToEmit.isEmpty()) {
            fill();
        }
        while (true) {
            MessageAndRealOffset toEmit = _waitingToEmit.pollFirst();
            if (toEmit == null) {
                return EmitState.NO_EMITTED;
            }
            Iterable> tups = KafkaUtils.generateTuples(_spoutConfig, toEmit.msg);
            if (tups != null) {
                for (List