罗西的思考

[源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练

[源码解析] 深度学习分布式训练框架 horovod (21) — 之如何恢复训练

文章目录

[源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练
- 0x00 摘要
- 0x01 总论
- 0x02 Sampler
- - 2.1 PyTorch Distributed Optimizer
  - - 2.1.1 定义
    - 2.1.2 问题点
  - 2.2 ElasticSampler
  - - 2.2.1 定义
    - 2.2.2 弹性方案
    - - 2.2.2.1 常规流程
      - 2.2.2.2 异常处理
    - 2.2.1 如何使用
    - - 2.2.1.1 主体代码
      - 2.2.1.2 训练代码
- 0x03 保存和定期检查
- - 3.1 定期保存
  - 3.2 异常处理
  - 3.3 Commit
- 0x04 State
- - 4.1 恢复训练
  - 4.2 TorchState
  - 4.3 设置 handler
  - 4.4 SamplerStateHandler
  - 4.5 保存
  - 4.6 HostsUpdatedInterrupt
  - 4.7 HorovodInternalError
  - 4.8 `ElasticSampler.__iter__`
- 0xEE 个人信息
- 0xFF 参考

0x00 摘要

本文以 PyTorch on Horovod 为切入点，分析一下 Horovod 弹性训练的恢复流程，具体涉及知识点有：

ElasticSampler与PyTorch 原生DistributedSampler 的区别，Horovod 弹性训练如何恢复等。

本系列其他文章链接如下：

[\源码解析] 深度学习分布式训练框架 Horovod — (1) 基础知识

[\源码解析] 深度学习分布式训练框架 horovod (2) — 从使用者角度切入

[\源码解析] 深度学习分布式训练框架 horovod (3) — Horovodrun背后做了什么

[\源码解析] 深度学习分布式训练框架 horovod (4) — 网络基础 & Driver

[\源码解析] 深度学习分布式训练框架 horovod (5) — 融合框架

[\源码解析] 深度学习分布式训练框架 horovod (6) — 后台线程架构

[\源码解析] 深度学习分布式训练框架 horovod (7) — DistributedOptimizer

[源码解析] 深度学习分布式训练框架 horovod (8) — on spark

[源码解析] 深度学习分布式训练框架 horovod (9) — 启动 on spark

[源码解析] 深度学习分布式训练框架 horovod (10) — run on spark

[源码解析] 深度学习分布式训练框架 horovod (11) — on spark — GLOO 方案

[源码解析] 深度学习分布式训练框架 horovod (12) — 弹性训练总体架构

[源码解析] 深度学习分布式训练框架 horovod (13) — 弹性训练之 Driver

[源码解析] 深度学习分布式训练框架 horovod (14) — 如何发现节点挂了？

[源码解析] 深度学习分布式训练框架 horovod (15) — 广播 & 通知

[源码解析] 深度学习分布式训练框架 horovod (16) — 弹性训练之Worker生命周期

[源码解析] 深度学习分布式训练框架 horovod (17) — 弹性训练之容错

[源码解析] 深度学习分布式训练框架 horovod (18) — kubeflow tf-operator

[源码解析] 深度学习分布式训练框架 horovod (19) — kubeflow MPI-operator

[源码解析] 深度学习分布式训练框架 horovod (20) — Elastic Training Operator

0x01 总论

本文缘起于一个兄弟的留言：

请问在弹性训练中，如果节点数目发生变化，数据怎么重新划分呢？比如一个epoch还没有进行完，这时添加了新节点，新数据重新划分的话，当前内存中用旧数据训练的模型还有效吗？

我恰好在分析PyTorch分布式的时候也有类似疑问，所以就回头再看看Horovod是如何实现的。

我们之前对于 Horovod 的分析和示例大多以 TensorFlow 为例。大家对各种框架如何在Horovod之中适配的总体逻辑和思路应该有了一个大致的认识，所以我们本部分主要看看一些PyTorch 相关的特殊之处。

使用PyTorch做切入的另外一个原因是：在恢复训练这个流程上，PyTorch相关部分确实相对清晰明确。

在 horovod/torch/elastic/ 目录下，有两个文件：state.py 和 sampler.py。既然是弹性相关，所以我们先来看看其特殊之处。

0x02 Sampler

在 horovod/torch/elastic/sampler.py 之中，有一个 ElasticSampler 类，我们看看具体针对弹性做了哪些处理。

因为 ElasticSampler 类之中注明，它的实现非常类似DistributedSampler，也就是 PyTorch 原生的实现，所以我们要先看看 DistributedSampler。

2.1 PyTorch Distributed Optimizer

2.1.1 定义

DistributedSampler代码位于：torch/distributed/optim/optimizer.py。

总结一下DistributedSampler的分配方法是：每段连续的 num_replicas 个数据被拆成一个一个，分给 num_replicas 个进程，这样就达到了不重叠不交叉的目的，但也要注意的是：这样每个进程拿到的数据是不连续的。

__iter__ 代码的一个技术细节是本worker如何遍历？

indices = indices[self.rank:self.total_size:self.num_replicas]

这里，num_replicas 实际就是rank的总数，起始位置是self.rank，结束位置是总数据长度，按照num_replicas（就是world size）作为步长来递增，所以这里每个worker就会严格返回自己rank对应的那部分数据序号。

我们用一个例子来看看，比如：

a = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15]
print(a[0:15:3])
print(a[1:15:3])
print(a[2:15:3])

得到：

[1, 4, 7, 10, 13]
[2, 5, 8, 11, 14]
[3, 6, 9, 12, 15]

具体代码如下：

class DistributedSampler(Sampler[T_co]):

    def __iter__(self) -> Iterator[T_co]:
        
        if self.shuffle: # 如果需要shuffle，则会基于epoch和seed进行处理
            # deterministically shuffle based on epoch and seed
            g = torch.Generator()
            g.manual_seed(self.seed + self.epoch)
            indices = torch.randperm(len(self.dataset), generator=g).tolist()  # type: ignore[arg-type]
        else: # 否则直接返回数据集长度序列
            indices = list(range(len(self.dataset)))  # type: ignore[arg-type]

        # 是否需要补齐数据
        if not self.drop_last:
            # add extra samples to make it evenly divisible
            padding_size = self.total_size - len(indices)
            if padding_size <= len(indices):
                indices += indices[:padding_size]
            else:
                indices += (indices * math.ceil(padding_size / len(indices)))[:padding_size]
        else:
            # remove tail of data to make it evenly divisible.
            indices = indices[:self.total_size]
        assert len(indices) == self.total_size

        # subsample
        # 依据自己的rank，依次返回自己的数据序号
        indices = indices[self.rank:self.total_size:self.num_replicas]
        assert len(indices) == self.num_samples

        return iter(indices) # 后续就使用这些indices来对数据进行提取

    def __len__(self) -> int:
        return self.num_samples

    def set_epoch(self, epoch: int) -> None:
        r"""
        Sets the epoch for this sampler. When :attr:`shuffle=True`, this ensures all replicas
        use a different random ordering for each epoch. Otherwise, the next iteration of this
        sampler will yield the same ordering.

        Args:
            epoch (int): Epoch number.
        """
        self.epoch = epoch

2.1.2 问题点

DistributedSampler 如果直接用到弹性训练，是有一定问题的，让我们分析一下，有几个问题：

如果用户已经训练了5轮，那么就意味着已经使用了前面5个批次的数据。假设此时加入了新的worker节点，那么就应该恢复训练。那么对于已经使用过的前面 5 个批次的数据，按说就不应该再次被用来训练了。
- 问题1: 恢复训练之后，应该怎么去除已经处理的数据index？
如果加入或者减少节点，如果告诉 Sampler，我们需要更改提取规则，最起码，num_replicas 需要被更新，以后按照新的 num_replicas 进行提取，比如原来5个节点，num_replicas = 5，现在6个节点，num_replicas 应该为 6。
- 问题2: 恢复训练之后，何时调用 __iter__以进行新的训练?
- 问题3: 恢复训练之后，何时修改 num_replicas？

我们看看 DistributedSampler 就会发现，其__iter__之中，没有任何保存状态的相关信息。即如果重新开始训练，依然会从全体数据中提取，而非从剩余数据中提取。也没有发现对后面两个问题的解决办法。

因此，很难利用 DistributedSampler进行弹性训练，所以 Horovod 就使用 ElasticSampler 来解决这个问题。

2.2 ElasticSampler

2.2.1 定义

从注释中我们可以看到，ElasticSampler 自称与 DistributedSampler 非常类似。我们随后针对两个类代码比较可以看到，功能基本一致。

但是有两个新加入的变量值得注意，即：

    self.processed_indices = set()
    self.remaining_indices = []

定义如下：

import math
import random
import torch.utils.data.distributed
from horovod.torch.mpi_ops import rank, size

class ElasticSampler(torch.utils.data.Sampler):
    """Sampler that partitions dataset across ranks and repartitions after reset events.

    Works similar to `DistributedSampler`, but with an optional capability to record
    which dataset indices have been processed each batch. When tracked by a `TorchState`
    object, the sampler will automatically repartition the unprocessed indices among the
    new set of workers.

    In order to use this object successfully it is recommended that the user:

    1. Include this object in the `TorchState`.
    2. Call `record_batch` or `record_indices` after processing a set of samples.
    3. Call `set_epoch` at the end of each epoch to clear the processed indices.

    Args:
        dataset: Dataset used for sampling (assumed to be of constant size).
        shuffle: If `True` (default), shuffle the indices.
        seed: Random seed used to shuffle the sampler when `shuffle=True`.
              This number should be identical across all ranks (default: 0).
    """
    def __init__(self, dataset, shuffle=True, seed=0):
        self.dataset = dataset
        self.shuffle = shuffle
        self.seed = seed

        self.epoch = 0
        self.processed_indices = set() # 新加入的特色成员变量

        self.num_replicas = 0
        self.rank = 0
        self.remaining_indices = [] # 新加入的特色成员变量
        self.num_samples = 0
        self.total_size = 0

        self.reset()

2.2.2 弹性方案

具体弹性方案就围绕之前提到的两个变量来进行。

2.2.2.1 常规流程

我们回忆其注释中提到的如何使用：

1. Include this object in the `TorchState`.
2. Call `record_batch` or `record_indices` after processing a set of samples.
3. Call `set_epoch` at the end of each epoch to clear the processed indices.

我们可以推导出来其内在逻辑：

进行本 epoch 训练。
- 当使用 __iter__ 获取下一批次数据时候，self.indices = self.remaining_indices[:] 就会只从未训练的数据里面提取。
- 每处理一个批次数据之后，用户使用 record_batch 或者 record_indices 来把已经训练完的数据批次信息保存在 processed_indices。这样就记录了已经训练完的数据。
- 如果产生了问题，或者有节点变更，则：
  - 会调用 reset 函数，reset 会把已经训练完的数据 processed_indices 从总数据中移除，剩下的 self.remaining_indice就是没有训练的数据。
  - 恢复训练，只从未训练的数据里面提取。
当完成这个epoch 之后，会调用 set_epoch 来重置 processed_indices，也会调用 reset 方法进行清零。

具体功能代码是：

def set_epoch(self, epoch):
    """Sets the epoch for this sampler.

    When `shuffle=True`, this ensures all replicas use a different random ordering
    for each epoch.

    Will clear and reset the `processed_indices` for the next epoch. It is important
    that this is called at the end of the epoch (not the beginning) to ensure that
    partially completed epochs do not reprocess samples.

    Args:
        epoch: Epoch number.
    """
    self.epoch = epoch
    # 这里也许有网友会有疑问，就是下面两行代码应该交换一下次序。
    # 但是实际上是没有问题的，因为 reset 其实在异常处理时候的作用更大，在这里其实就是个清零作用。
    self.processed_indices = set()
    self.reset()

def record_batch(self, batch_idx, batch_size):
    """Record indices at batch `batch_idx` with length `batch_size` as processed."""
    indices = set(self.get_indices(batch_idx, batch_size))
    self.record_indices(indices)

def record_indices(self, indices):
    """Record set `indices` as processed."""
    self.processed_indices.update(indices) # 记录已经训练完的数据

def get_indices(self, batch_idx, batch_size):
    """Return list of indices at batch `batch_idx` with length `batch_size`."""
    start_idx = batch_idx * batch_size 
    end_idx = min(start_idx + batch_size, len(self.indices))
    return self.indices[start_idx:end_idx]

def load_state_dict(self, state_dict):
    self.epoch = state_dict['epoch']
    self.processed_indices = state_dict['processed_indices'] # 从保存的数据中提取
    self.reset()

def state_dict(self):
    return dict( # 这里是为了State.save 时候调用，就是模型保存时候，需要保存这两个变量
        epoch=self.epoch,
        processed_indices=self.processed_indices
    )

def reset(self):
    # size 代码位于horovod/torch/mpi_ops.py，是 size = _basics.size，可以认为就是 hvd.size()
    self.num_replicas = size() # 重新配置有几个worker
    self.rank = rank()

    # Exclude any samples we have already processed this epoch
    # 把已经训练完的数据移除，得到的数据 remaining_indices 都是没有经过训练的
    self.remaining_indices = [idx for idx in range(len(self.dataset))
                              if idx not in self.processed_indices]

    self.num_samples = int(math.ceil(len(self.remaining_indices) * 1.0 / self.num_replicas))
    self.total_size = self.num_samples * self.num_replicas

def __iter__(self): 
    self.indices = self.remaining_indices[:] # 从剩余数据中提取
    if self.shuffle:
        # Shuffle indices across workers deterministically in place
        seed = self.seed + self.epoch
        random.Random(seed).shuffle(self.indices)

    # add extra samples to make it evenly divisible
    self.indices += self.indices[:(self.total_size - len(self.indices))]
    assert len(self.indices) == self.total_size

    # subsample
    # 本worker如何遍历？起始index是self.rank，终止index是总数据长度，按照num_replicas来递增
    self.indices = self.indices[self.rank:self.total_size:self.num_replicas]
    assert len(self.indices) == self.num_samples

    # 后续就按照上面的遍历逻辑来遍历
    return iter(self.indices) 

def __len__(self):
    return self.num_samples

2.2.2.2 异常处理

在 horovod/torch/elastic/state.py 之中，当重新训练时候，会调用到 ElasticSampler 的 load_state_dict 方法。

而 load_state_dict 之中，会调用 reset，这样就把已经训练完的数据移除，得到的数据都是没有经过训练的。

所以重新训练时候，本epoch之内，不会用已经训练的数据再次重复训练。

我们后续会详细分析这个流程。

2.2.1 如何使用

ElasticSampler 的使用如下，代码位于：examples/elastic/pytorch/pytorch_imagenet_resnet50_elastic.py。

本节我们主要介绍如何使用，就是正常使用/处理流程，后续会介绍异常处理，这里省略部分次要代码。

2.2.1.1 主体代码

主体代码主要注意就是使用ElasticSampler分别配置了两个弹性采样器。

if __name__ == '__main__':
    allreduce_batch_size = args.batch_size * args.batches_per_allreduce

    # Elastic Horovod: use ElasticSampler to partition data among workers.
    train_dataset = datasets.ImageFolder()
    train_sampler = hvd.elastic.ElasticSampler(train_dataset) # 配置了弹性采样
    train_loader = torch.utils.data.DataLoader(
        train_dataset,
        batch_size=allreduce_batch_size,
        sampler=train_sampler,
        **kwargs)

    val_dataset = datasets.ImageFolder()
    val_sampler = hvd.elastic.ElasticSampler(val_dataset) # 配置了弹性采样
    val_loader = torch.utils.data.DataLoader(
        val_dataset,
        batch_size=args.val_batch_size,
        sampler=val_sampler,
        **kwargs)

    # Set up standard ResNet-50 model.
    model = models.resnet50()

    # Horovod: scale learning rate by the number of GPUs.
    optimizer = optim.SGD(model.parameters(),
                          lr=(args.base_lr *
                              lr_scaler),
                          momentum=args.momentum, weight_decay=args.wd)

    # Horovod: wrap optimizer with DistributedOptimizer.
    optimizer = hvd.DistributedOptimizer(
        optimizer, named_parameters=model.named_parameters(),
        compression=compression,
        backward_passes_per_step=args.batches_per_allreduce,
        op=hvd.Adasum if args.use_adasum else hvd.Average,
        gradient_predivide_factor=args.gradient_predivide_factor)

    # Restore from a previous checkpoint, if initial_epoch is specified.
    # Horovod: restore on the first worker which will broadcast weights to other workers.

    state = hvd.elastic.TorchState(model=model,
                                   optimizer=optimizer,
                                   train_sampler=train_sampler,
                                   val_sampler=val_sampler,
                                   epoch=resume_from_epoch,
                                   batch=0)

    full_train(state)

2.2.1.2 训练代码

以下代码是具体训练代码。

def train(state):
    
    model.train()
    epoch = state.epoch

    batch_offset = state.batch
    with tqdm(total=len(train_loader),
              desc='Train Epoch     #{}'.format(epoch + 1),
              disable=not verbose) as t:
        
        # 循环获取数据，会间接调用到 ElasticSampler 的 __iter__ 方法来获取数据 index
        for idx, (data, target) in enumerate(train_loader):
            # Elastic Horovod: update the current batch index this epoch
            # and commit / check for host updates. Do not check hosts when
            # we commit as it would be redundant.
            state.batch = batch_idx = batch_offset + idx
            if args.batches_per_commit > 0 and \
                    state.batch % args.batches_per_commit == 0:
                state.commit()
            elif args.batches_per_host_check > 0 and \
                    state.batch % args.batches_per_host_check == 0:
                state.check_host_updates()

            adjust_learning_rate(epoch, batch_idx)

            optimizer.zero_grad()
            
            # Split data into sub-batches of size batch_size
            for i in range(0, len(data), args.batch_size):
                data_batch = data[i:i + args.batch_size]
                target_batch = target[i:i + args.batch_size]
                output = model(data_batch)
                train_accuracy.update(accuracy(output, target_batch))
                loss = F.cross_entropy(output, target_batch)
                train_loss.update(loss)
                # Average gradients among sub-batches
                loss.div_(math.ceil(float(len(data)) / args.batch_size))
                loss.backward()

            # Elastic Horovod: record which samples were processed this batch
            # so we do not reprocess them if a reset event occurs
            # 这里会记录已经完成的数据
            state.train_sampler.record_batch(idx, allreduce_batch_size)

            # Gradient is applied across all ranks
            optimizer.step()

    state.commit()

def end_epoch(state):
    state.epoch += 1
    state.batch = 0
    state.train_sampler.set_epoch(state.epoch) # 这里会对剩余数据信息清零
    state.commit()
    
@hvd.elastic.run
def full_train(state):
    while state.epoch < args.epochs:
        train(state)
        validate(state.epoch)
        save_checkpoint(state.epoch)
        end_epoch(state) # 这里会对剩余数据信息清零

某一个epoch具体逻辑（正常处理）如下：

如果是最初运行，则调用reset进行初始化，其中会依据 dataset 长度构建一个 index list。用这个index list 减去 processed_indices ，就得到了本次epoch应该处理的数据 index，赋值给 remaining_indices，就是剩下来应该处理的数据index；
在 __iter__ 函数中，调用 self.indices = self.remaining_indices[:] ，这样 indices 就可以用来做迭代提取；
训练函数中，调用 iter(indices) 进行迭代提取，然后调用 record_indices 把本次使用过的index 更新到 processed_indices 之中。processed_indices 就记录了目前使用的所有index；
epoch 结束之后，调用 set_epoch 进行重置，即给 processed_indices 清零，调用 reset 重置 remaining_indices；

              +---------------------------------------------------------------+
              | ElasticSampler                                                |
              |                                                               |
  +--------------------------------------------> +                            |
4 | set_epoch |                                  |                            |
  |           |                                  |                            |
  |           |                                1 | reset                      |
  |           |                                  |                            |
  |           |                                  |                            |
  |           |                                  v                            |
  |           |                                                               |
  |           |             remaining_indices = dataset - processed_indices   |
  |           |                                                               |
  |           |                                  +                            |
  |           |                                  |                            |
  |           |                                  |                            |
  |           |                                2 | __iter_                    |
  |           |                                  |                            |
  |           |                                  |                            |
  |           |                                  v                            |
  |           |                       indices = remaining_indices[:]          |
  |           |                                  +                            |
  |           |                                  |                            |
  |           +---------------------------------------------------------------+
  |                                              |
  |                                            3 |
  |                                              |
  |                                              v
  |       +--------------------------------------+------------------------------------+
  |       |  train()                                                      train loop  |
  |       |                                                                           |
  |       |    ----------------------------> iter(indices)+-------------------->      |
  |       |    ^                                                               |      |
  |       |    |                                                               |      |
  |       |  step()                                                        backward() |
  |       |    |             +----------------------------------------+        |      |
  |       |    |             |record_indices                          |        |      |
  |       |    |             |                                        |        |      |
  |       |    <-------------+      processed_indices.update(indices) +------+ v      |
  |       |                  |                                        |               |
  |       |                  +----------------------------------------+               |
  |       |                                                                           |
  |       +---------------------------------------+-----------------------------------+
  |                                               |
  |                                               |
  +-----------------------------------------------+

0x03 保存和定期检查

3.1 定期保存

Hovorod 建议用户定周期性调用 state.commit() 来把状态（state）备份到内存。

定期备份非常有用。在某些worker发生意外错误时，定期备份可以避免因为状态被损坏而在重新训练时候无法恢复现场。比如，如果一个worker刚好在更新参数过程中突然出错，此时部分梯度更新完毕，部分梯度可能只更新到一半，这个状态是不可逆转而又无法继续。因此，当此状态发生时，会抛出一个 HorovodInternalError 异常，当 hvd.elastic.run 捕获到这个异常后，会利用最新一次commit中恢复所有状态。
因为commit状态代价高昂（比如如参数量太大会导致耗时过长），所以需要在"每个batch的处理时间"与"如果出错，训练需要从多久前的状态恢复"之间选取一个平衡点。比如，如果你每训练10个batches就commit一次，你就把复制时间降低了10倍。但是当发生错误时，你需要回滚到10个batches前的状态。
Elastic Horowod可以通过执行我们称之为“优雅地移除worker”操作来避免这些回滚。如果driver进程发现主机已可用或标记为删除，它将向所有workers推送一个通知。于是在下次调用state.commit()或更轻量级的state.check_host_updates()时，一个HostsUpdatedInterrupt异常将被抛出。此异常的处理方式与“HorovodInternalError”类似，只是参数状态不会还原到上次commit，而是从当前实时参数中恢复。
一般来说，如果你的硬件设施是可靠与稳定的，并且你的编排系统会在任务节点移除时提供足够的告警，你就可低频次调用 state.commit() 函数，同时只在每个batch结束时调用相对不耗时的 state.check_host_updates() 来检查节点变更情况。

具体示例代码如下：

@hvd.elastic.run
def train(state):
    for state.epoch in range(state.epoch, epochs):
        for state.batch in range(state.batch, batches_per_epoch):
            data, target = get_random_batch()
            train_one_batch(data, target)
            if state.batch % batches_per_commit == 0:
                state.commit() # 定期保存
        state.batch = 0

3.2 异常处理

我们可以看到，HorovodInternalError 和 HostsUpdatedInterrupt 这两个异常最大的区别：

HorovodInternalError 异常：当 hvd.elastic.run 捕获到这个异常后，会利用最新一次commit中恢复所有状态。
HostsUpdatedInterrupt 异常：处理方式与“HorovodInternalError”类似，只是参数状态不会还原到上次commit，而是从当前实时参数中恢复。

之所以要强调这个，因为后面就要介绍如何做到不同恢复。

3.3 Commit

在用户调用 State.commit 的时候，有两个动作：一个是保存状态。一个是调用 check_host_updates 检查更新。

class State(object):
    """State representation used for tracking in memory state across workers."""

	def commit(self):
 		self.save()
 		self.check_host_updates()

这里 save 就会调用到 State 的 save 操作，结合本文，就是下面要介绍的 TorchState 的 save 操作。

另外，check_host_updates 会抛出HostsUpdatedInterrupt异常。HostsUpdatedInterrupt 异常里面，是否需要 sync，从下面 check_host_updates 代码可以看出来，就是如果节点数目有变化了，就需要sync。HostUpdateResult.removed 数值为1，这里其实可以改进，HostUpdateResult.removed 在目前这个情况之下，设定过细了。

class HostUpdateResult(IntFlag):
    no_update = 0
    removed = 1
    added = 2
    mixed = removed | added

def check_host_updates(self):
    """Checks that a notification has been sent indicating that hosts can be added or will be removed.

    Raises a `HostsUpdatedInterrupt` if such a notification has been received.
    """
    # Iterate through the update messages sent from the server. If the update timestamp
    # is greater than the last update timestamp, then trigger a HostsUpdatedException.
    last_updated_timestamp = prev_timestamp = self._last_updated_timestamp
    all_update = HostUpdateResult.no_update
    while not self._host_messages.empty():
        timestamp, update = self._host_messages.get()
        if timestamp > last_updated_timestamp:
            last_updated_timestamp = timestamp
            all_update |= update

    # In order to ensure all workers raise the exception at the same time, we need to sync
    # the updated state across all the workers.
    # TODO(travis): this should be a max allreduce to account for changes in rank 0
    prev_timestamp, self._last_updated_timestamp, all_update = \
        self._bcast_object((prev_timestamp, last_updated_timestamp, all_update))

    # At this point, updated state is globally consistent across all ranks.
    if self._last_updated_timestamp > prev_timestamp:
        # 在这里设定，其实含义就是：如果节点有变化，就设置为True，需要同步
        raise HostsUpdatedInterrupt(all_update == HostUpdateResult.removed) # 抛出异常

0x04 State

我们接下来介绍异常处理逻辑，具体围绕着 State 来介绍。对于State，我们先回忆一下其在恢复训练时候的逻辑。

4.1 恢复训练

重新训练时候，会抛出两种异常：

如果是 ring allreduce 相关，就转为抛出异常 HorovodInternalError(e)。
如果当驱动进程通过节点发现脚本发现一个节点被标记为新增或者移除时，会抛出异常 HostsUpdatedInterrupt。

然后会进行如下处理：

def run_fn(func, reset):
    @functools.wraps(func)
    def wrapper(state, *args, **kwargs):
        notification_manager.init()
        notification_manager.register_listener(state)
        skip_sync = False

        try:
            while True:
                if not skip_sync:
                    state.sync() # 进行同步

                try:
                    return func(state, *args, **kwargs)
                except HorovodInternalError:
                    state.restore() # 进行恢复训练
                    skip_sync = False # 需要同步
                except HostsUpdatedInterrupt as e:
                    skip_sync = e.skip_sync # 记录是否需要同步

                reset()
                state.on_reset() # 进行重启
        finally:
            notification_manager.remove_listener(state)
    return wrapper

逻辑如下：

+------------------------------------------------------------------------------+
| Worker                                                                       |
|                                                                              |
|  +------------------------------------------------------------------------+  |
|  | run_fn                                                                 |  |
|  |                                 +----------------------------------+   |  |
|  |                                 |        while True:               |   |  |
|  |                                 |                                  |   |  |
|  |                                 v                                  |   |  |
|  |                                                                    |   |  |
|  |                           state.sync()                             |   |  |
|  |                                 +                                  |   |  |
|  |                                 |                                  |   |  |
|  |                                 |                                  |   |  |
|  |                                 v                                  |   |  |
|  |              +------------------+---------------+                  |   |  |
|  |              | train                            |                  |   |  |
|  |              |                                  |                  |   |  |
|  |              |    optimizer.apply_gradients +---------+            |   |  |
|  |              |                                  |     |            |   |  |
|  |         +-------+ state.commit()                      |            |   |  |
|  |         |    |                                  |     |            |   |  |
|  |         |    +----------------------------------+     |            |   |  |
|  |         |                                             |            |   |  |
|  |         v                                             v            |   |  |
|  |     HostsUpdatedInterrupt                 HorovodInternalError     |   |  |
|  |                                                       +            |   |  |
|  |         +                                             |            |   |  |
|  |         |                                             |            |   |  |
|  |         |                                             v            |   |  |
|  |         |                                     state.restore()      |   |  |
|  |         |                                             +            |   |  |
|  |         |                                             |            |   |  |
|  |         +------------------+       <------------------+            |   |  |
|  |                            |       |                               |   |  |
|  |                            |       |                               |   |  |
|  |                            v       v                               |   |  |
|  |                             reset()                                |   |  |
|  |                                                                    |   |  |
|  |                         state.on_reset()                           |   |  |
|  |                                                                    |   |  |
|  |                                +                                   |   |  |
|  |                                |                                   |   |  |
|  |                                +----------------------------------->   |  |
|  |                                                                        |  |
|  +------------------------------------------------------------------------+  |
|                                                                              |
+------------------------------------------------------------------------------+

因为这里涉及了大量的state操作，所以我们接下来要看看 TorchState：

4.2 TorchState

首先，我们要看看 TorchState 如何使用。当调用时候，使用如下方法来生成一个TorchState：

    state = hvd.elastic.TorchState(model, optimizer, batch=0, epoch=0)
    state.register_reset_callbacks([on_state_reset]) # 注册用户定义的方法 on_state_reset
    train(state)

其次，我们看看 TorchState 的定义，这里的 sync，restore，reset方法就在恢复训练中被调用。

在初始化函数 __init__ 之中，会设置 handler，以我们的调用为例，就是 train_sampler，val_sampler这两个对应的sampler会配置对应的handler，即SamplerStateHandler。

TorchState 继承了 ObjectState，ObjectState 继承了 State，所以前面提到的 commit 代码中的 self.save()，就会调用到TorchState.save，而这里又会调用到 SamplerStateHandler.save。

class TorchState(ObjectState):
    """State representation of a PyTorch training process.

    Multiple models and optimizers are supported by providing them as
    kwargs. During initialization, `TorchState` will assign attributes
    for every keyword argument, and handle its state synchronization.

    Args:
        model: Optional PyTorch model.
        optimizer: Optional PyTorch optimizer.
        kwargs: Attributes sync, will be exposed as attributes of the object. If a handler exists
                for the attribute type, it will be used to sync the object, otherwise it will be
                handled an ordinary Python object.
    """
    def __init__(self, model=None, optimizer=None, **kwargs):
        kwargs.update(dict(model=model, optimizer=optimizer))
        # 这里会设置 handler，以我们的调用为例，就是train_sampler，val_sampler这两个对应的sampler会配置对应的handler
        self._handlers, kwargs = _get_handlers(kwargs) 
        for name, handler in self._handlers.items():
            setattr(self, name, handler.value)
        super(TorchState, self).__init__(bcast_object=broadcast_object,
                                         get_rank=rank,
                                         **kwargs)

    def save(self):
        for handler in self._handlers.values():
            handler.save() # 调用到save，针对我们，就是调用到了SamplerStateHandler的save
        super(TorchState, self).save()

    def restore(self):
        # 会进行恢复状态
        for handler in self._handlers.values():
            handler.restore() # 这里会调用到sampler的restore方法。
        super(TorchState, self).restore()

    def sync(self):
        # 会进行同步状态
        for handler in self._handlers.values():
            handler.sync() # 这里会调用到sampler的sync方法。
        super(TorchState, self).sync()

    def __setattr__(self, name, value):
        if hasattr(self, name) and name in self._handlers:
            self._handlers[name].set_value(value)
        super().__setattr__(name, value)

基类代码中有：

class State(object):

    def on_reset(self):
        self._host_messages = queue.Queue()
        self.reset() # 调用到reset
        for callback in self._reset_callbacks:
            callback()

4.3 设置 handler

上节中，我们可以看到，无论是reset，还是restore，都会调用到 _handlers 来进行处理，所以我们需要进一步分析。

首先就是如何设置handler。具体参见如下代码，主要是通过一个全局配置 _handler_registry 来指定哪个 handler 处理哪种类型实例，比如这里有 (ElasticSampler, SamplerStateHandler)，就代表着 SamplerStateHandler 是用来处理 ElasticSampler的 handler。

_handler_registry = [
    (torch.nn.Module, ModelStateHandler),
    (torch.optim.Optimizer, OptimizerStateHandler),
    (ElasticSampler, SamplerStateHandler), # SamplerStateHandler 是用来处理 ElasticSampler的
]

def get_handler_registry():
    return _handler_registry

def set_handler_registry(registry):
    global _handler_registry
    _handler_registry = registry

def _get_handler(v): 
    # 依据我们的样例代码，v是 train_sampler，而 train_sampler，val_sampler就是 ElasticSampler 的实例，所以得到 handler_type是 ElasticSampler，则会构建一个 SamplerStateHandler 并且返回
    for handler_type, handler_cls in _handler_registry:
        if isinstance(v, handler_type):
            return handler_cls(v) # 调用 SamplerStateHandler(train_sampler) 生成实例
    return None

def _get_handlers(kwargs):
    handlers = {}
    remainder = {}
    # 这里k,v就是 train_sampler=train_sampler，所以 k 是 "train_sampler", v是实例 train_sampler
    for k, v in kwargs.items():
        handler = _get_handler(v)
        if handler:
            handlers[k] = handler
        else:
            remainder[k] = v
    return handlers, remainder

4.4 SamplerStateHandler

既然知道了 ElasticSampler 由 SamplerStaeHandler 处理，就来分析一下 SamplerStateHandler。

初始化之后，self.value 就是 sampler，针对我们之前的分析，就是ElasticSampler。

SamplerStateHandler 具体代码是，这里需要注意的是：初始化时候，会把ElasticSampler的状态保存起来，以后如果出错，会用此来恢复。

同时，save 也会被调用，用来恢复，我们马上就会分析。

class SamplerStateHandler(StateHandler):
    def __init__(self, sampler):
        super().__init__(sampler)
        # 这里会保存 ElasticSampler 的属性和数据
        self._saved_sampler_state = copy.deepcopy(self.value.state_dict())

    def save(self):
        # 保存 ElasticSampler 的属性和数据
        self._saved_sampler_state = copy.deepcopy(self.value.state_dict())

    def restore(self):
        # load_state_dict 会用__init__ 之中保存的原始数据来恢复，最终会调用到 ElasticSampler.reset 方法
        self.value.load_state_dict(self._saved_sampler_state)

    def sync(self):
        # 1）Get the set of processed indices from all workers
        world_processed_indices = _union(allgather_object(self.value.processed_indices))

        # 2) Replace local processed indices with global indices
        state_dict = self.value.state_dict() # 这里会调用到 ElasticSampler 的 state_dict 方法
        state_dict['processed_indices'] = world_processed_indices

        # 3) Broadcast and load the state to make sure we're all in sync
        # 注意，这里的 load_state_dict 最终也会调用一次 reset
        self.value.load_state_dict(broadcast_object(state_dict))

SamplerStateHandler 的基类是：

class StateHandler(object):
    def __init__(self, value):
        self.value = value

    def save(self):
        raise NotImplementedError()

    def restore(self):
        raise NotImplementedError()

    def sync(self):
        raise NotImplementedError()

    def set_value(self, value):
        self.value = value
        self.save()

4.5 保存

我们拓展一下save相关操作序列。

TorchState 继承了 ObjectState，ObjectState 继承了 State，所以:

前面提到的 commit 代码中的 self.save()，就会调用到TorchState.save。
而TorchState.save又会调用到 SamplerStateHandler.save。
SamplerStateHandler.save 会保存 ElasticSampler 的属性和数据，就是保存了 ElasticSampler 的 epoch 和 processed_indices。

这样，在定期 commit 的时候，就定期保存了模型的状态和 ElasticSampler 的状态，这些会在恢复训练中用到。具体下图所示：

               +---------------------------+
               | TorchState                |
               |                           |
               |             commit        |
               |                +          |
               |                |          |
               |                | 1        |
               |                |          |
               |                v          |
               |              save         |
               |                |          |
               |                |          |
               +---------------------------+
                                |
                                | 2
                                |
                                |
+-----------------------------------------------------------------+
|SamplerStateHandler            |                                 |
|                               |                                 |
|                               |                                 |
|                               |                                 |
|                               |                                 |
|  def save(self):              v                                 |
|                                                                 |
|     _saved_sampler_state = copy.deepcopy( value.state_dict() )  |
|                                                    +            |
|                                                    |            |
+-----------------------------------------------------------------+
                                                     |
                                                     |
                                                     | 3
                                                     |
                                                     |
                     +------------------------------------------+
                     | ElasticSampler                |          |
                     |                               |          |
                     |                               |          |
                     |                               |          |
                     |   def state_dict(self):       |          |
                     |        return dict(           v          |
                     |                   self.epoch,            |
                     |                   self.processed_indices |
                     |               )                          |
                     |                                          |
                     +------------------------------------------+

只看静态定义，还是很难理解，需要分析动态流程。因为有两种异常，所以我们分开剖析。

回忆一下两个异常最大的区别：

HorovodInternalError 异常：当 hvd.elastic.run 捕获到这个异常后，会利用最新一次commit中恢复所有状态。
HostsUpdatedInterrupt 异常：处理方式与“HorovodInternalError”类似，只是参数状态不会还原到上次commit，而是从当前实时参数中恢复。

4.6 HostsUpdatedInterrupt

如果当驱动进程通过节点发现脚本发现一个节点被标记为新增或者移除时，会抛出异常 HostsUpdatedInterrupt。此时不是关键异常，因此可以继续训练本epoch，只是从后续训练数据中，移除本epoch已经处理的数据。因此可以做到 参数状态不会还原到上次commit，而是从当前实时参数中恢复。

下面代码之中，我们只保留 HostsUpdatedInterrupt 相关代码。

def run_fn(func, reset):
    @functools.wraps(func)
    def wrapper(state, *args, **kwargs):
        notification_manager.init()
        notification_manager.register_listener(state)
        skip_sync = False

        try:
            while True:
                if not skip_sync:
                    state.sync() # 3) 进行同步

                try:
                    return func(state, *args, **kwargs) # 这里会出错，而且重新训练也是来到这里
                except HostsUpdatedInterrupt as e:
                    # 1) 进行异常处理
                    skip_sync = e.skip_sync # 2.1) 记录是否需要同步                

                reset() # 2）这里会调用_basics.init 重新初始化 horovod，间接设定了ElasticSampler之中的 num_replicas
                state.on_reset() # 进行重启
        finally:
            notification_manager.remove_listener(state)
    return wrapper

发生异常之后，

1）HostsUpdatedInterrupt 表示本 epoch 需要继续训练，所以进行异常处理，其中只是会:
- 1.1) 记录本异常处理是否需要同步：skip_sync = e.skip_sync。
2）这个步骤主要是重启 hvd，对worker数目进行更改。具体是调用 State 自身的 reset() 方法（代码位于horovod/torch/elastic/__init__.py），其中会:
- 2.1) 调用 shutdown() 来结束本次任务。
- 2.2) 调用 init()，从而调用_basics.init，最终重新建立 MPI 相关 context，所以 hvd.size() 就根据最新的worker数目进行了更改。后续 ElasticSampler.__iter__ 之中会相应修改num_replicas。
3）这个步骤是把已经训练完的数据移除，得到的数据都是没有经过训练的。如果需要同步，则会调用 state.sync() ，其会调用 SamplerStateHandler.sync 方法，其内部会：
- 3.1) SamplerStateHandler会利用集合通信从所有worker中收集processed_indices，赋予给 world_processed_indices，这就是所有workers 已经处理过的数据 index。
- 3.2) 调用 ElasticSampler.state_dict方法，得到本地 ElasticSampler.epoch 和 ElasticSampler.processed_indices 的引用。然后将 world_processed_indices 赋值给 state_dict[‘processed_indices’]，这样，本地 ElasticSampler.processed_indices 就是所有workers 已经处理过的数据 index。
- 3.3) self.value.load_state_dict(broadcast_object(state_dict)) 有两步操作：
  - 广播，这样在同步之后，所有worker都有同样的 state_dict[‘processed_indices’] 数据了。
  - load_state_dict 会再调用一次 ElasticSampler.reset，此次 reset 会更改 num_replicas，也会从总数据中去除processed_indices，得到新的 remaining_indices，从而后续 __iter__ 之中，就会相应对提取index 的策略进行相应更改。
4）所以这样就把已经训练完的数据移除，所以得到的 remaining_indices 数据都是没有经过训练的。所以重新训练时候，本epoch之内，不会用已经训练的数据再次重复训练，而是从当前实时参数中恢复。
- 重新训练会调用 return func(state, *args, **kwargs) 进行训练，这里会处理 ElasticSampler.__iter__ 。
- 当使用 __iter__ 获取下一批次数据时候，self.indices = self.remaining_indices[:] 就会只从未训练的数据里面提取。

具体逻辑如下：

+-----------------------------------------------------------------------------------------------------------------------+
|    Worker                                                                                                             |
|                                                                                                                       |
|  +-----------------------------------------------------------------------------------------------------------------+  |
|  |    run_fn                                                                                                       |  |
|  |                                +-----------------------------------------------------------------------------+  |  |
|  |                                |        while True:                                                          |  |  |
|  |                                |                                                                             |  |  |
|  |                                v                           3)                                                |  |  |
|  |                          state.sync() +------------------------------------------+----------------------+    |  |  |
|  |                                                                                  |                      |    |  |  |
|  |                                +                                                 |                      |    |  |  |
|  |                                |                                                 |                      |    |  |  |
|  |                                |                                                 |                      |    |  |  |
|  |                                v                                                 |                      |    |  |  |
|  |             +------------------+---------------+                            3.1) |                 3.2) |    |  |  |
|  |             | train                            |                                 |                      |    |  |  |
|  |             |                                  |                                 |                      |    |  |  |
|  |             |    optimizer.apply_gradients +---------+                           |                      |    |  |  |
|  |             |                                  +     |                           v                      |    |  |  |
|  |        +-------+ state.commit()                      |                                                  |    |  |  |
|  |        |    |                                  +     |              ElasticSampler.load_state_dict      |    |  |  |
|  |        |    +----------------------------------+     |                           +                      |    |  |  |
|  |        |                                             |                           |                      |    |  |  |
|  |        v                                             v                           |                      |    |  |  |
|  |    HostsUpdatedInterrupt                 HorovodInternalError                    v                      |    |  |  |
|  |                                                      +                  ElasticSampler.reset            |    |  |  |
|  |        +                                             |                           +                      |    |  |  |
|  |        |                                             |                           |                      |    |  |  |
|  |        |   1)                                        v                           |                      |    |  |  |
|  |        |                                     state.restore()                     v                      |    |  |  |
|  |        |                                             +               +-----------+-----------------+    |    |  |  |
|  |        |                                             |               | ElasticSampler              |    |    |  |  |
|  |        +------------------+       <------------------+               |                             |    |    |  |  |
|  |                           |       |                                  |        remaining_indices    |    |    |  |  |
|  |                           |       |                                  |                             |    |    |  |  |
|  |                           v       v                                  |        num_samples          |    |    |  |  |
|  |                            reset()                                   |                             |    |    |  |  |
|  |                                          2)                          |        total_size           |    |    |  |  |
|  |                        state.on_reset()                              |                             |    |    |  |  |
|  |                                                                      |        epoch                |    |    |  |  |
|  |                               +                                      |                             |    |    |  |  |
|  |                               |                                      |        processed_indices    |    |    |  |  |
|  |                               |                                      |                             |    |    |  |  |
|  |                               |                                      |        state_dict  <-------------+    |  |  |
|  |                               |                                      |                             |         |  |  |
|  |                               |                                      +-----------------------------+         |  |  |
|  |                               |                                                                              |  |  |
|  |                               +------------------------------------------------------------------------------^  |  |
|  |                                                                                                                 |  |
|  +-----------------------------------------------------------------------------------------------------------------+  |
|                                                                                                                       |
+-----------------------------------------------------------------------------------------------------------------------+

手机如下：

4.7 HorovodInternalError

如果是 ring allreduce 相关，就转为抛出异常 HorovodInternalError(e)。HorovodInternalError 是关键异常，此时本 epoch 现有状态其实意义不大，应该利用最新一次commit中恢复所有状态。

下面代码之中，我们只保留 HorovodInternalError 相关代码。

def run_fn(func, reset):
    @functools.wraps(func)
    def wrapper(state, *args, **kwargs):
        notification_manager.init()
        notification_manager.register_listener(state)
        skip_sync = False

        try:
            while True:
                if not skip_sync:
                    state.sync() # 3) 进行同步
                try:
                    return func(state, *args, **kwargs) # 这里会出错，而且重新训练也是来到这里
                except HorovodInternalError:
                    # 1) 进行异常处理
                    state.restore() #1.1) 进行恢复训练，这里是和 HostsUpdatedInterrupt 的不同之处
                    skip_sync = False # 1.2) 记录需要同步

                reset() # 2）这里会调用_basics.init 重新初始化 horovod，间接设定了ElasticSampler之中的 num_replicas
                state.on_reset() # 进行重启
        finally:
            notification_manager.remove_listener(state)
    return wrapper

HorovodInternalError 和 HostsUpdatedInterrupt 的代码路径几乎一样，只是多了一步 state.restore() 。

这里为啥也要查看节点变化呢？因为Horovod是定期检查节点变化，所以可能产生HorovodInternalError时候，也有节点变化了，只是还没有发现而已，所以可以一并处理了。

具体逻辑为：

1）HorovodInternalError 表示本 epoch 需要恢复训练，所以先进行异常处理：
- 1.1）state.restore() 会调用 SamplerStateHandler.restore（这里是与HostsUpdatedInterrupt处理差异之处）。
  - 进而调用 ElasticSampler.load_state_dict方法，会用在SamplerStateHandler.__init__ 或者SamplerStateHandler.save 之中原始保存的数据来恢复 ElasticSampler。保存的数据就是 processed_indices 和 epoch。
  - ElasticSampler.load_state_dict方法进而会调用 ElasticSampler.reset方法，使用 processed_indices 把已经训练完的数据移除，最新得到的 remaining_indices 数据都是没有经过训练的（针对上次保存的 processed_indices 来说）。
- 1.2) 记录本异常处理需要同步： skip_sync = False。
2）这个步骤主要是重启 hvd。调用 State 自身的 reset() 方法（代码位于horovod/torch/elastic/__init__.py），其中会:
- 2.1) 调用 shutdown() 来结束本次任务。
- 2.2) 调用 init()，从而调用_basics.init，最终重新建立 MPI 相关 context。
3）这个步骤是把已经训练完的数据移除，得到的数据都是没有经过训练的。因为这里需要同步，所以会调用 state.sync() ，其会调用 SamplerStateHandler.sync 方法，其内部会：
- 3.1) SamplerStateHandler会利用集合通信从所有worker中收集processed_indices，赋予给 world_processed_indices，这就是所有workers 已经处理过的数据 index。需要注意的是：因为是使用在__init__ 或者 save之中原始保存的数据来恢复，所以其实这一步是恢复到上次commit状态。
- 3.2) 调用 ElasticSampler.state_dict方法，得到本地 ElasticSampler.epoch 和 ElasticSampler.processed_indices 的引用。然后将 world_processed_indices 赋值给 state_dict[‘processed_indices’]，这样，本地 ElasticSampler.processed_indices 就是所有workers 已经处理过的数据 index。
- 3.3) 这里 self.value.load_state_dict(broadcast_object(state_dict)) 有两步操作：
  - 广播，这样在同步之后，所有worker都有同样的 state_dict[‘processed_indices’] 数据了。
  - load_state_dict 会再调用一次 ElasticSampler.reset，此次 reset 会更改 num_replicas，也会从总数据中去除processed_indices，得到新的 remaining_indices，从而后续 __iter__ 之中，就会相应对提取index 的策略进行相应更改。
4）这样就是恢复到epoch 上次 commit 的状态进行训练。
- 重新训练会调用 return func(state, *args, **kwargs) 进行训练，这里会处理 ElasticSampler.__iter__ 。
- 当使用 __iter__ 获取下一批次数据时候，self.indices = self.remaining_indices[:] 就会只从未训练的数据里面提取。

具体逻辑如下图：

+--------------------------------------------------------------------------------------------------------------------+
| Worker                                                                                                             |
|                                                                                                                    |
|  +--------------------------------------------------------------------------------------------------------------+  |
|  | run_fn                                                                                                       |  |
|  |                             +-----------------------------------------------------------------------------+  |  |
|  |                             |        while True:                                                          |  |  |
|  |                             |                                                                             |  |  |
|  |                             v                          3                                                  |  |  |
|  |                       state.sync() +-----------------------------------------------------------------+    |  |  |
|  |                                                                                                      |    |  |  |
|  |                             +                                  +--------------+                      |    |  |  |
|  |                             |                                  |              |                      |    |  |  |
|  |                             |                                  |              |                      |    |  |  |
|  |                             v                                  |              v                      |    |  |  |
|  |          +------------------+---------------+                  |                                     |    |  |  |
|  |          | train                            |                  |  SamplerStateHandler.restore        |    |  |  |
|  |          |                                  |                  |              +                      |    |  |  |
|  |          |    optimizer.apply_gradients +---------+            |              |                      |    |  |  |
|  |          |                                  +     |            |              |                      |    |  |  |
|  |     +-------+ state.commit()                      |            |              v                      |    |  |  |
|  |     |    |                                  +     |            | ElasticSampler.load_state_dict      |    |  |  |
|  |     |    +----------------------------------+     |            |              +                      |    |  |  |
|  |     |                                             |            |              |                      |    |  |  |
|  |     v                                             v            |              |                      |    |  |  |
|  | HostsUpdatedInterrupt                 HorovodInternalError     |              v                      |    |  |  |
|  |                                                   +            |     ElasticSampler.reset            |    |  |  |
|  |     +                                             |            |              +                      |    |  |  |
|  |     |                                             |            |              |                      |    |  |  |
|  |     |                                             v         1  |              |                      |    |  |  |
|  |     |                                     state.restore()+-----+              v                      |    |  |  |
|  |     |                                             +               +-----------+-----------------+    |    |  |  |
|  |     |                                             |               | ElasticSampler              |    |    |  |  |
|  |     +------------------+       <------------------+               |                             |    |    |  |  |
|  |                        |       |                                  |        remaining_indices    |    |    |  |  |
|  |                        |       |                                  |                             |    |    |  |  |
|  |                        v       v                                  |        num_samples          |    |    |  |  |
|  |                         reset()   2                               |                             |    |    |  |  |
|  |                                                                   |        total_size           |    |    |  |  |
|  |                     state.on_reset()                              |                             |    |    |  |  |
|  |                                                                   |        epoch                |    |    |  |  |
|  |                            +                                      |                             |    |    |  |  |
|  |                            |                                      |        processed_indices    |    |    |  |  |
|  |                            |                                      |                             |    |    |  |  |
|  |                            |                                      |        state_dict  <-------------+    |  |  |
|  |                            |                                      |                             |         |  |  |
|  |                            |                                      +-----------------------------+         |  |  |
|  |                            |                                                                              |  |  |
|  |                            +------------------------------------------------------------------------------^  |  |
|  |                                                                                                              |  |
|  +--------------------------------------------------------------------------------------------------------------+  |
|                                                                                                                    |
+--------------------------------------------------------------------------------------------------------------------+

手机如下：

4.8 `ElasticSampler.iter`

到目前为止，我们还有一个问题没有仔细分析，就是何时调用 ElasticSampler.__iter__

我们仔细梳理一下，以下是弹性训练总体逻辑：

def run_fn(func, reset):
    @functools.wraps(func)
    def wrapper(state, *args, **kwargs):
        notification_manager.init()
        notification_manager.register_listener(state)
        skip_sync = False

        try:
            while True:
                if not skip_sync:
                    state.sync()

                try:
                    # 如果出错恢复，这里会继续调用 func 进行训练
                    return func(state, *args, **kwargs)
                except HorovodInternalError:
                    state.restore()
                    skip_sync = False
                except HostsUpdatedInterrupt as e:
                    skip_sync = e.skip_sync

                reset()
                state.on_reset()
        finally:
            notification_manager.remove_listener(state)
    return wrapper

弹性逻辑使用注解来封装了full_train，所以 func 就是 full_train。

@hvd.elastic.run
def full_train(state):
    while state.epoch < args.epochs:
        train(state)
        validate(state.epoch)
        save_checkpoint(state.epoch)
        end_epoch(state)

我们看看 train 的主要代码：

def train(state):
    model.train()
    epoch = state.epoch

    with tqdm(...) as t:
        # 这里 enumerate 之中会调用到 ElasticSampler.__iter__
        for idx, (data, target) in enumerate(train_loader):

            # Split data into sub-batches of size batch_size
            for i in range(0, len(data), args.batch_size):
                data_batch = data[i:i + args.batch_size]
                target_batch = target[i:i + args.batch_size]
                output = model(data_batch)
                train_accuracy.update(accuracy(output, target_batch))
                loss = F.cross_entropy(output, target_batch)
                train_loss.update(loss)
                # Average gradients among sub-batches
                loss.div_(math.ceil(float(len(data)) / args.batch_size))
                loss.backward()

            # Elastic Horovod: record which samples were processed this batch
            # so we do not reprocess them if a reset event occurs
            state.train_sampler.record_batch(idx, allreduce_batch_size)

            # Gradient is applied across all ranks
            optimizer.step()

   state.commit()

所以我们可以理出来总体逻辑：

当出错恢复时候，train 会再次被调用，调用时候就会使用 enumerate(train_loader)调用到 ElasticSampler.__iter__。
num_replicas 在之前 reset 时候已经被设置，所以此时就是根据新的 world size 和 remaining_indices 重新确定提取数据的策略。

def __iter__(self): 
    self.indices = self.remaining_indices[:] # 从剩余数据中提取
    if self.shuffle:
        # Shuffle indices across workers deterministically in place
        seed = self.seed + self.epoch
        random.Random(seed).shuffle(self.indices)

    # add extra samples to make it evenly divisible
    self.indices += self.indices[:(self.total_size - len(self.indices))]
    assert len(self.indices) == self.total_size

    # subsample
    # 本worker如何遍历？起始index是self.rank，终止index是总数据长度，按照 num_replicas 来递增
    self.indices = self.indices[self.rank:self.total_size:self.num_replicas]
    assert len(self.indices) == self.num_samples

    # 后续就按照上面的遍历逻辑来遍历
    return iter(self.indices)

具体逻辑如下，其中

1）在 reset 之中设置了num_replicas。

2）在 ElasticSampler.__iter__ 之中根据新的 world size 和 remaining_indices 重新确定提取数据的策略。

+----------------------------------------------------------------------------------------------------------------+
|       Worker                                                                                                   |
|                                                                                                                |
|  +----------------------------------------------------------------------------------------------------------+  |
|  |       run_fn                                                                                             |  |
|  |                                                                   +----------------------------------+   |  |
|  |                                                                   |        while True:               |   |  |
|  |                                                                   |                                  |   |  |
|  |                                                                   v                                  |   |  |
|  |                                                                                                      |   |  |
|  |                                                             state.sync()                             |   |  |
|  |                                                                   +                                  |   |  |
|  |                                                                   |                                  |   |  |
|  |                                                                   |                                  |   |  |
|  |                                                                   v                                  |   |  |
|  |  +--------------------------------+            +------------------+---------------+                  |   |  |
|  |  | ElasticSampler                 |            | train                            |                  |   |  |
|  |  |  +---------------------------+ |            |    optimizer.apply_gradients +---------+            |   |  |
|  |  |  | __iter__                  | |       2）   |                                  |     |            |   |  |
|  |  |  |                           | |  <------------+ enumerate(train_loader)       |     |            |   |  |
|  |  |  |                           | |            |                                  |     |            |   |  |
|  |  |  |        remaining_indices  | |       +-------+ state.commit()                |     |            |   |  |
|  |  |  |                           | |       |    |                                  |     |            |   |  |
|  |  |  |                           | |       |    +----------------------------------+     |            |   |  |
|  |  |  |        num_replicas       | |       v                                             v            |   |  |
|  |  |  |                           | |   HostsUpdatedInterrupt                 HorovodInternalError     |   |  |
|  |  |  |              ^            | |                                                     +            |   |  |
|  |  |  |              |            | |       +                                             |            |   |  |
|  |  |  +---------------------------+ |       |                                             |            |   |  |
|  |  +--------------------------------+       |                                             v            |   |  |
|  |                    |                      |                                     state.restore()      |   |  |
|  |                    |                      |                                             +            |   |  |
|  |                    |                      |                                             |            |   |  |
|  |                    |                      +------------------+       <------------------+            |   |  |
|  |                    |                                         |       |                               |   |  |
|  |                    |                                         |       |                               |   |  |
|  |                    |             1）                          v       v                               |   |  |
|  |                    +----------------------------------------+ reset()                                |   |  |
|  |                                                                                                      |   |  |
|  |                                                           state.on_reset()                           |   |  |
|  |                                                                                                      |   |  |
|  |                                                                  +                                   |   |  |
|  |                                                                  |                                   |   |  |
|  |                                                                  +----------------------------------->   |  |
|  |                                                                                                          |  |
|  +----------------------------------------------------------------------------------------------------------+  |
|                                                                                                                |
+----------------------------------------------------------------------------------------------------------------+

手机如下：

至此，弹性训练如何恢复就分析完毕，以后可能结合 Pytorch 分布式 optimizer 来继续分析。

0xEE 个人信息

★★★★★★关于生活和技术的思考★★★★★★

微信公众账号：罗西的思考

如果您想及时得到个人撰写文章的消息推送，或者想看看个人推荐的技术资料，敬请关注。

0xFF 参考

PyTorch 中文手册（2）-自动求导

pytorch中优化器optimizer.param_groups

PyTorch学习笔记6–案例2:PyTorch神经网络(MNIST CNN)

https://github.com/chenyuntc/pytorch-book

你可能感兴趣的:(017_分布式机器学习,001_机器学习,015_深度学习,pytorch,深度学习,Horovod,分布式训练,数据并行)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【iOS】MVC设计模式 Magnetic_h ios mvc 设计模式 objective-c 学习 ui
MVC前言如何设计一个程序的结构，这是一门专门的学问，叫做"架构模式"（architecturalpattern），属于编程的方法论。MVC模式就是架构模式的一种。它是Apple官方推荐的App开发架构，也是一般开发者最先遇到、最经典的架构。MVC各层controller层Controller/ViewController/VC（控制器）负责协调Model和View，处理大部分逻辑它将数据从Mod
微服务下功能权限与数据权限的设计与实现 nbsaas-boot 微服务 java 架构
在微服务架构下，系统的功能权限和数据权限控制显得尤为重要。随着系统规模的扩大和微服务数量的增加，如何保证不同用户和服务之间的访问权限准确、细粒度地控制，成为设计安全策略的关键。本文将讨论如何在微服务体系中设计和实现功能权限与数据权限控制。1.功能权限与数据权限的定义功能权限：指用户或系统角色对特定功能的访问权限。通常是某个用户角色能否执行某个操作，比如查看订单、创建订单、修改用户资料等。数据权限：
c++ 的iostream 和 c++的stdio的区别和联系黄卷青灯77 c++算法开发语言 iostream stdio
在C++中，iostream和C语言的stdio.h都是用于处理输入输出的库，但它们在设计、用法和功能上有许多不同。以下是两者的区别和联系：区别1.编程风格iostream（C++风格）：C++标准库中的输入输出流类库，支持面向对象的输入输出操作。典型用法是cin（输入）和cout（输出），使用>操作符来处理数据。更加类型安全，支持用户自定义类型的输入输出。#includeintmain(){in
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
绘本讲师训练营【24期】8/21阅读原创《独生小孩》 1784e22615e0
24016-孟娟《独生小孩》图片发自App今天我想分享一个蛮特别的绘本，讲的是一个特殊的群体，我也是属于这个群体，80后的独生小孩。这是一本中国绘本，作者郭婧，也是一个80厚。全书一百多页，均为铅笔绘制，虽然为黑白色调，但并不显得沉闷。全书没有文字，犹如“默片”，但并不影响读者对该作品的理解，反而显得神秘，梦幻，給读者留下想象的空间。作者在前蝴蝶页这样写到：“我更希望父母和孩子一起分享这本书，使他
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
LLM 词汇表落难Coder LLMs NLP 大语言模型大模型 llama 人工智能
Contextwindow“上下文窗口”是指语言模型在生成新文本时能够回溯和参考的文本量。这不同于语言模型训练时所使用的大量数据集，而是代表了模型的“工作记忆”。较大的上下文窗口可以让模型理解和响应更复杂和更长的提示，而较小的上下文窗口可能会限制模型处理较长提示或在长时间对话中保持连贯性的能力。Fine-tuning微调是使用额外的数据进一步训练预训练语言模型的过程。这使得模型开始表示和模仿微调数
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
关于提高复杂业务逻辑代码可读性的思考编程经验分享开发经验 java 数据库开发语言
目录前言需求场景常规写法拆分方法领域对象总结前言实际工作中大部分时间都是在写业务逻辑，一般都是三层架构，表示层（Controller）接收客户端请求，并对入参做检验，业务逻辑层（Service）负责处理业务逻辑，一般开发都是在这一层中写具体的业务逻辑。数据访问层（Dao）是直接和数据库交互的，用于查数据给业务逻辑层，或者是将业务逻辑层处理后的数据写入数据库。简单的增删改查接口不用多说，基本上写好一
SQL Server_查询某一数据库中的所有表的内容 qq_42772833 SQL Server 数据库 sqlserver
1.查看所有表的表名要列出CrabFarmDB数据库中的所有表（名），可以使用以下SQL语句：USECrabFarmDB;--切换到目标数据库GOSELECTTABLE_NAMEFROMINFORMATION_SCHEMA.TABLESWHERETABLE_TYPE='BASETABLE';对这段SQL脚本的解释：SELECTTABLE_NAME：这个语句的作用是从查询结果中选择TABLE_NAM
使用LLaVa和Ollama实现多模态RAG示例 llzwxh888 python 人工智能开发语言
本文将详细介绍如何使用LLaVa和Ollama实现多模态RAG（检索增强生成），通过提取图像中的结构化数据、生成图像字幕等功能来展示这一技术的强大之处。安装环境首先，您需要安装以下依赖包：!pipinstallllama-index-multi-modal-llms-ollama!pipinstallllama-index-readers-file!pipinstallunstructured!p
使用Apify加载Twitter消息以进行微调的完整指南 nseejrukjhad twitter easyui 前端 python
#使用Apify加载Twitter消息以进行微调的完整指南##引言在自然语言处理领域，微调模型以适应特定任务是提升模型性能的常见方法。本文将介绍如何使用Apify从Twitter导出聊天信息，以便进一步进行微调。##主要内容###使用Apify导出推文首先，我们需要从Twitter导出推文。Apify可以帮助我们做到这一点。通过Apify的强大功能，我们可以批量抓取和导出数据，适用于各类应用场景。
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
GitHub上克隆项目 bigbig猩猩 github
从GitHub上克隆项目是一个简单且直接的过程，它允许你将远程仓库中的项目复制到你的本地计算机上，以便进行进一步的开发、测试或学习。以下是一个详细的步骤指南，帮助你从GitHub上克隆项目。一、准备工作1.安装Git在克隆GitHub项目之前，你需要在你的计算机上安装Git工具。Git是一个开源的分布式版本控制系统，用于跟踪和管理代码变更。你可以从Git的官方网站（https://git-scm.
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
【目标检测数据集】卡车数据集1073张VOC+YOLO格式熬夜写代码的平头哥∰ 目标检测 YOLO 人工智能
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：1073标注数量(xml文件个数)：1073标注数量(txt文件个数)：1073标注类别数：1标注类别名称:["truck"]每个类别标注的框数：truck框数=1120总框数：1120使用标注工具：labelImg标注
MongoDB Oplog 窗口喝醉酒的小白 MongoDB 运维
在MongoDB中，oplog（操作日志）是一个特殊的日志系统，用于记录对数据库的所有写操作。oplog允许副本集成员（通常是从节点）应用主节点上已经执行的操作，从而保持数据的一致性。它是MongoDB副本集实现数据复制的基础。MongoDBOplog窗口oplog窗口是指在MongoDB副本集中，从节点可以用来同步数据的时间范围。这个窗口通常由以下因素决定：Oplog大小：oplog的大小是有限
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
番茄西红柿叶子病害分类数据集12882张11类别 futureflsl 数据集分类数据挖掘人工智能
数据集类型：图像分类用，不可用于目标检测无标注文件数据集格式：仅仅包含jpg图片，每个类别文件夹下面存放着对应图片图片数量(jpg文件个数)：12882分类类别数：11类别名称:["Bacterial_Spot_Bacteria","Early_Blight_Fungus","Healthy","Late_Blight_Water_Mold","Leaf_Mold_Fungus","Powdery
钢筋长度超限检测检数据集VOC+YOLO格式215张1类别 futureflsl 数据集 YOLO 深度学习机器学习
数据集格式：PascalVOC格式+YOLO格式(不包含分割路径的txt文件，仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件)图片数量(jpg文件个数)：215标注数量(xml文件个数)：215标注数量(txt文件个数)：215标注类别数：1标注类别名称:["iron"]每个类别标注的框数：iron框数=215总框数：215使用标注工具：labelImg标注规则：对类别进
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
数据仓库——维度表一致性墨染丶eye 背诵数据仓库
数据仓库基础笔记思维导图已经整理完毕，完整连接为：数据仓库基础知识笔记思维导图维度一致性问题从逻辑层面来看，当一系列星型模型共享一组公共维度时，所涉及的维度称为一致性维度。当维度表存在不一致时，短期的成功难以弥补长期的错误。维度时确保不同过程中信息集成起来实现横向钻取货活动的关键。造成横向钻取失败的原因维度结构的差别，因为维度的差别，分析工作涉及的领域从简单到复杂，但是都是通过复杂的报表来弥补设计
java解析APK 3213213333332132 java apk linux 解析APK
解析apk有两种方法 1、结合安卓提供apktool工具，用java执行cmd解析命令获取apk信息 2、利用相关jar包里的集成方法解析apk 这里只给出第二种方法，因为第一种方法在linux服务器下会出现不在控制范围之内的结果。 public class ApkUtil { /** * 日志对象 */ private static Logger
nginx自定义ip访问N种方法 ronin47 nginx 禁止ip访问
　　　因业务需要，禁止一部分内网访问接口，　由于前端架了F5，直接用deny或allow是不行的，这是因为直接获取的前端Ｆ５的地址。　　　所以开始思考有哪些主案可以实现这样的需求，目前可实施的是三种：　　　一：把ip段放在redis里，写一段lua 二：利用geo传递变量，写一段
mysql timestamp类型字段的CURRENT_TIMESTAMP与ON UPDATE CURRENT_TIMESTAMP属性 dcj3sjt126com mysql
timestamp有两个属性，分别是CURRENT_TIMESTAMP 和ON UPDATE CURRENT_TIMESTAMP两种，使用情况分别如下： 1. CURRENT_TIMESTAMP 当要向数据库执行insert操作时，如果有个timestamp字段属性设为 CURRENT_TIMESTAMP，则无论这
struts2+spring+hibernate分页显示 171815164 Hibernate
分页显示一直是web开发中一大烦琐的难题，传统的网页设计只在一个JSP或者ASP页面中书写所有关于数据库操作的代码，那样做分页可能简单一点，但当把网站分层开发后，分页就比较困难了，下面是我做Spring+Hibernate+Struts2项目时设计的分页代码，与大家分享交流。　　1、DAO层接口的设计，在MemberDao接口中定义了如下两个方法： public in
构建自己的Wrapper应用 g21121 rap
我们已经了解Wrapper的目录结构，下面可是正式利用Wrapper来包装我们自己的应用，这里假设Wrapper的安装目录为:/usr/local/wrapper。首先，创建项目应用 &nb
[简单]工作记录_多线程相关 53873039oycg 多线程
最近遇到多线程的问题,原来使用异步请求多个接口(n*3次请求) 方案一使用多线程一次返回数据,最开始是使用5个线程,一个线程顺序请求3个接口,超时终止返回缺点测试发现必须3个接
调试jdk中的源码，查看jdk局部变量程序员是怎么炼成的 jdk 源码
转自：http://www.douban.com/note/211369821/ 学习jdk源码时使用-- 学习java最好的办法就是看jdk源代码，面对浩瀚的jdk（光源码就有40M多，比一个大型网站的源码都多）从何入手呢，要是能单步调试跟进到jdk源码里并且能查看其中的局部变量最好了。可惜的是sun提供的jdk并不能查看运行中的局部变量
Oracle RAC Failover 详解 aijuans oracle
Oracle RAC 同时具备HA(High Availiablity) 和LB(LoadBalance). 而其高可用性的基础就是Failover(故障转移). 它指集群中任何一个节点的故障都不会影响用户的使用，连接到故障节点的用户会被自动转移到健康节点，从用户感受而言，是感觉不到这种切换。 Oracle 10g RAC 的Failover 可以分为3种： 1. Client-Si
form表单提交数据编码方式及tomcat的接受编码方式 antonyup_2006 JavaScript tomcat 浏览器互联网 servlet
原帖地址：http://www.iteye.com/topic/266705 form有2中方法把数据提交给服务器，get和post,分别说下吧。（一）get提交 1.首先说下客户端（浏览器）的form表单用get方法是如何将数据编码后提交给服务器端的吧。对于get方法来说，都是把数据串联在请求的url后面作为参数，如：http://localhost:
JS初学者必知的基础百合不是茶 js函数 js入门基础
JavaScript是网页的交互语言,实现网页的各种效果, JavaScript 是世界上最流行的脚本语言。 JavaScript 是属于 web 的语言，它适用于 PC、笔记本电脑、平板电脑和移动电话。 JavaScript 被设计为向 HTML 页面增加交互性。许多 HTML 开发者都不是程序员，但是 JavaScript 却拥有非常简单的语法。几乎每个人都有能力将小的
iBatis的分页分析与详解 bijian1013 java ibatis
分页是操作数据库型系统常遇到的问题。分页实现方法很多，但效率的差异就很大了。iBatis是通过什么方式来实现这个分页的了。查看它的实现部分，发现返回的PaginatedList实际上是个接口，实现这个接口的是PaginatedDataList类的对象，查看PaginatedDataList类发现，每次翻页的时候最
精通Oracle10编程SQL(15)使用对象类型 bijian1013 oracle 数据库 plsql
/* *使用对象类型 */ --建立和使用简单对象类型 --对象类型包括对象类型规范和对象类型体两部分。 --建立和使用不包含任何方法的对象类型 CREATE OR REPLACE TYPE person_typ1 as OBJECT( name varchar2(10),gender varchar2(4),birthdate date ); drop type p
【Linux命令二】文本处理命令awk bit1129 linux命令
awk是Linux用来进行文本处理的命令，在日常工作中，广泛应用于日志分析。awk是一门解释型编程语言，包含变量，数组，循环控制结构，条件控制结构等。它的语法采用类C语言的语法。 awk命令用来做什么？ 1.awk适用于具有一定结构的文本行，对其中的列进行提取信息 2.awk可以把当前正在处理的文本行提交给Linux的其它命令处理，然后把直接结构返回给awk 3.awk实际工
JAVA(ssh2框架)+Flex实现权限控制方案分析白糖_ java
目前项目使用的是Struts2+Hibernate+Spring的架构模式，目前已经有一套针对SSH2的权限系统，运行良好。但是项目有了新需求：在目前系统的基础上使用Flex逐步取代JSP，在取代JSP过程中可能存在Flex与JSP并存的情况，所以权限系统需要进行修改。【SSH2权限系统的实现机制】权限控制分为页面和后台两块：不同类型用户的帐号分配的访问权限是不同的，用户使
angular.forEach boyitech AngularJS AngularJS API angular.forEach
angular.forEach 描述: 循环对obj对象的每个元素调用iterator, obj对象可以是一个Object或一个Array. Iterator函数调用方法: iterator(value, key, obj), 其中obj是被迭代对象，key是obj的property key或者是数组的index，value就是相应的值啦. (此函数不能够迭代继承的属性.)
java-谷歌面试题-给定一个排序数组，如何构造一个二叉排序树 bylijinnan 二叉排序树
import java.util.LinkedList; public class CreateBSTfromSortedArray { /** * 题目:给定一个排序数组，如何构造一个二叉排序树 * 递归 */ public static void main(String[] args) { int[] data = { 1, 2, 3, 4,
action执行2次 Chen.H JavaScript jsp XHTML css Webwork
xwork 写道 <action name="userTypeAction" class="com.ekangcount.website.system.view.action.UserTypeAction"> <result name="ssss" type="dispatcher">
[时空与能量]逆转时空需要消耗大量能源 comsci 能源
无论如何,人类始终都想摆脱时间和空间的限制....但是受到质量与能量关系的限制,我们人类在目前和今后很长一段时间内,都无法获得大量廉价的能源来进行时空跨越..... 在进行时空穿梭的实验中,消耗超大规模的能源是必然
oracle的正则表达式(regular expression)详细介绍 daizj oracle 正则表达式
正则表达式是很多编程语言中都有的。可惜oracle8i、oracle9i中一直迟迟不肯加入，好在oracle10g中终于增加了期盼已久的正则表达式功能。你可以在oracle10g中使用正则表达式肆意地匹配你想匹配的任何字符串了。正则表达式中常用到的元数据(metacharacter)如下： ^ 匹配字符串的开头位置。 $ 匹配支付传的结尾位置。 *
报表工具与报表性能的关系 datamachine 报表工具 birt 报表性能润乾报表
在选择报表工具时，性能一直是用户关心的指标，但是，报表工具的性能和整个报表系统的性能有多大关系呢？要回答这个问题，首先要分析一下报表的处理过程包含哪些环节，哪些环节容易出现性能瓶颈，如何优化这些环节。一、报表处理的一般过程分析 1、用户选择报表输入参数后，报表引擎会根据报表模板和输入参数来解析报表，并将数据计算和读取请求以SQL的方式发送给数据库。 2、
初一上学期难记忆单词背诵第一课 dcj3sjt126com word english
what 什么 your 你 name 名字 my 我的 am 是 one 一 two 二 three 三 four 四 five 五 class 班级，课 six 六 seven 七 eight 八 nince 九 ten 十 zero 零 how 怎样 old 老的 eleven 十一 twelve 十二 thirteen
我学过和准备学的各种技术 dcj3sjt126com 技术
语言VB https://msdn.microsoft.com/zh-cn/library/2x7h1hfk.aspxJava http://docs.oracle.com/javase/8/C# https://msdn.microsoft.com/library/vstudioPHP http://php.net/manual/en/Html
struts2中token防止重复提交表单蕃薯耀重复提交表单 struts2中token
struts2中token防止重复提交表单 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月12日 11:52:32 星期日 ht
线性查找二维数组 hao3100590 二维数组
1.算法描述有序（行有序，列有序，且每行从左至右递增，列从上至下递增）二维数组查找，要求复杂度O(n) 2.使用到的相关知识：结构体定义和使用，二维数组传递（http://blog.csdn.net/yzhhmhm/article/details/2045816） 3.使用数组名传递这个的不便之处很明显，一旦确定就是不能设置列值 //使
spring security 3中推荐使用BCrypt算法加密密码 jackyrong Spring Security
spring security 3中推荐使用BCrypt算法加密密码了，以前使用的是md5， Md5PasswordEncoder 和 ShaPasswordEncoder，现在不推荐了，推荐用bcrpt Bcrpt中的salt可以是随机的，比如： int i = 0; while (i < 10) { String password = "1234
学习编程并不难,做到以下几点即可! lampcy java html 编程语言
不论你是想自己设计游戏，还是开发iPhone或安卓手机上的应用，还是仅仅为了娱乐，学习编程语言都是一条必经之路。编程语言种类繁多，用途各异，然而一旦掌握其中之一，其他的也就迎刃而解。作为初学者，你可能要先从Java或HTML开始学，一旦掌握了一门编程语言，你就发挥无穷的想象，开发各种神奇的软件啦。 1、确定目标学习编程语言既充满乐趣，又充满挑战。有些花费多年时间学习一门编程语言的大学生到
架构师之mysql----------------用group+inner join,left join ,right join 查重复数据（替代in) nannan408 right join
1.前言。如题。 2.代码 (1)单表查重复数据,根据a分组 SELECT m.a,m.b, INNER JOIN （select a,b,COUNT(*) AS rank FROM test.`A` A GROUP BY a HAVING rank>1 )k ON m.a=k.a （2）多表查询，使用改为le
jQuery选择器小结 VS 节点查找（附css的一些东西） Everyday都不同 jquery css name选择器追加元素查找节点
最近做前端页面，频繁用到一些jQuery的选择器，所以特意来总结一下：测试页面： <html> <head> <script src="jquery-1.7.2.min.js"></script> <script> /*$(function() { $(documen
关于EXT tntxia ext
ExtJS是一个很不错的Ajax框架，可以用来开发带有华丽外观的富客户端应用，使得我们的b/s应用更加具有活力及生命力。ExtJS是一个用 javascript编写，与后台技术无关的前端ajax框架。因此，可以把ExtJS用在.Net、Java、Php等各种开发语言开发的应用中。 ExtJs最开始基于YUI技术，由开发人员Jack
一个MIT计算机博士对数学的思考 xjnine Math
在过去的一年中，我一直在数学的海洋中游荡，research进展不多，对于数学世界的阅历算是有了一些长进。为什么要深入数学的世界？作为计算机的学生，我没有任何企图要成为一个数学家。我学习数学的目的，是要想爬上巨人的肩膀，希望站在更高的高度，能把我自己研究的东西看得更深广一些。说起来，我在刚来这个学校的时候，并没有预料到我将会有一个深入数学的旅程。我的导师最初希望我去做的题目，是对appe

[源码解析] 深度学习分布式训练框架 horovod (21) --- 之如何恢复训练

[源码解析] 深度学习分布式训练框架 horovod (21) — 之如何恢复训练

文章目录

0x00 摘要

0x01 总论

0x02 Sampler

2.1 PyTorch Distributed Optimizer

2.1.1 定义

2.1.2 问题点

2.2 ElasticSampler

2.2.1 定义

2.2.2 弹性方案

2.2.2.1 常规流程

2.2.2.2 异常处理

2.2.1 如何使用

2.2.1.1 主体代码

2.2.1.2 训练代码

0x03 保存和定期检查

3.1 定期保存

3.2 异常处理

3.3 Commit

0x04 State

4.1 恢复训练

4.2 TorchState

4.3 设置 handler

4.4 SamplerStateHandler

4.5 保存

4.6 HostsUpdatedInterrupt

4.7 HorovodInternalError

4.8 ElasticSampler.__iter__

0xEE 个人信息

0xFF 参考

你可能感兴趣的:(017_分布式机器学习,001_机器学习,015_深度学习,pytorch,深度学习,Horovod,分布式训练,数据并行)

4.8 `ElasticSampler.iter`