罗西的思考

[源码解析] PyTorch分布式(5) ------ DistributedDataParallel 总述&如何使用

[源码解析] PyTorch 分布式(5) ------ DistributedDataParallel 总述&如何使用

[源码解析] PyTorch 分布式(5) ------ DistributedDataParallel 总述&如何使用
- 0x00 摘要
- 0x01 数据并行
- 0x02 DDP 运行逻辑
- 0x03 VS DataParallel
  - 3.1 本质区别
  - 3.2 实现区别
- 0x04 使用
  - 4.1 基本示例
    - 4.1.1 设置进程组
    - 4.1.2 简单模型
    - 4.1.3 处理速度偏差
    - 4.1.4 保存和加载检查点
  - 4.2 将 DDP 与模型并行相结合
- 0x05 如何多进程启动
  - 5.1 先决条件
  - 5.2 应用进程拓扑
  - 5.3 准备和启动 DDP 应用程序
  - 5.4 示例应用
    - 5.4.1 参数传递约定
  - 5.5 结论
  - 5.6 启动脚本的背后
    - 5.6.1 launch.py
    - 5.6.2 run.py
    - 5.6.3 定义
- 0xFF 参考

0x00 摘要

本文是 PyTorch 分布式系列的第五篇，以几篇官方文档的翻译为基础，加入了自己的一些思考，带领大家进入DistributedDataParallel，在后续会用5～6篇左右做深入分析。

本系列其他文章如下：

深度学习利器之自动微分(1)

深度学习利器之自动微分(2)

[源码解析]深度学习利器之自动微分(3) --- 示例解读

[源码解析]PyTorch如何实现前向传播(1) --- 基础类(上)

[源码解析]PyTorch如何实现前向传播(2) --- 基础类(下)

[源码解析] PyTorch如何实现前向传播(3) --- 具体实现

[源码解析] Pytorch 如何实现后向传播 (1)---- 调用引擎

[源码解析] Pytorch 如何实现后向传播 (2)---- 引擎静态结构

[源码解析] Pytorch 如何实现后向传播 (3)---- 引擎动态逻辑

[源码解析] PyTorch 如何实现后向传播 (4)---- 具体算法

[源码解析] PyTorch 分布式(1)------历史和概述

[源码解析] PyTorch 分布式(2) ----- DataParallel(上)

[源码解析] PyTorch 分布式(3) ----- DataParallel(下)

[源码解析] PyTorch 分布式(4)------分布式应用基础概念

0x01 数据并行

因为DistributedDataParallel 是数据并行，所以我们首先通过两个图，复习一下什么是数据并行。

第一个图片来自 https://www.cnblogs.com/yh-blog/p/12877922.html，其原始出处未知。

我们可以看到，模型并行与数据并行的区别。

第二张图来自fairscale github源码，清晰的给出了一个数据并行的运行模式，具体包括：

模型分片，本地前向计算，本地反向传播，AllReduce来同步梯度，本地更新梯度这几步。

0x02 DDP 运行逻辑

Torch.distributed 包为多个计算节点的 PyTorch 提供多进程并行通信原语，可以并行化跨进程和跨集群的计算。torch.nn.parallel.DistributedDataParallel基于torch.distributed 包的功能提供了一个同步分布式训练wrapper，这个wrapper可以对 PyTorch 模型封装进行训练。其核心功能是基于多进程级别的通信，与Multiprocessing package - torch.multiprocessing 和 DataParrallel 提供的并行性有明显区别。

以下是 DDP 的整体架构，大家可以看到ddp在整个架构之中的位置，依赖项等等。图片来自来自源码。

我们通过一个图来说明 DDP 的运行逻辑。

图片来自 https://www.telesens.co/2019/04/04/distributed-data-parallel-training-using-pytorch-on-aws/

具体逻辑如下：

加载模型阶段。每个GPU都拥有模型的一个副本，所以不需要拷贝模型。rank为0的进程会将网络初始化参数broadcast到其它每个进程中，确保每个进程中的模型都拥有一样的初始化值。
加载数据阶段。DDP 不需要广播数据，而是使用多进程并行加载数据。在 host 之上，每个worker进程都会把自己负责的数据从硬盘加载到 page-locked memory。DistributedSampler 保证每个进程加载到的数据是彼此不重叠的。
前向传播阶段。在每个GPU之上运行前向传播，计算输出。每个GPU都执行同样的训练，所以不需要有主 GPU。
计算损失。在每个GPU之上计算损失。
反向传播阶段。运行后向传播来计算梯度，在计算梯度同时也对梯度执行all-reduce操作。
更新模型参数阶段。因为每个GPU都从完全相同的模型开始训练，并且梯度被all-reduced，因此每个GPU在反向传播结束时最终得到平均梯度的相同副本，所有GPU上的权重更新都相同，也就不需要模型同步了。注意，在每次迭代中，模型中的Buffers 需要从rank为0的进程广播到进程组的其它进程上。

0x03 VS DataParallel

3.1 本质区别

既然 DataParallel 可以进行数据并行训练，那么为什么还需要提出 DistributedDataParallel呢？这里我们就需要知道两种方法的实现原理与区别：

大型模型训练。
- 如果模型太大而无法容纳在单个 GPU 上，则必须使用模型并行将其拆分到多个 GPU 中。
  - DataParallel 因为必须将模型放入单块 GPU 中，所以难以完成大型模型的训练，即，无法和模型并行（跨多个 GPU 拆分单个模型）一起合作。
  - DistributedDataParallel 可以只包括大型模型的一部分，因此可以与模型并行一起合作。
- 如果数据太大而无法容纳在一台计算机上，则需要使用数据并行。
  - 在这种情况下，每个 DistributedDataParallel 进程都可以并行使用模型，而所有进程都将并行使用数据。此时与 DP 没有太大区别。
- 如果您的模型需要跨越多台机器，或者您的用例不适合数据并行性范式，请参阅 RPC API ，以获得更多通用的分布式训练支持。
多进程还是多线程：
- DataParallel 是单进程，多线程的并行训练方式，并且只能在单台机器上运行。
- 而DistributedDataParallel 是多进程，并且适用于单机和多机训练。DistributedDataParallel 还预先复制模型，而不是在每次迭代时复制模型，并避免了全局解释器锁定。
  - 每个进程维护自己的优化器，并且在每次迭代中执行一个完整的优化步骤。由于梯度已经聚合（gather）并跨进程平均，因此梯度对于每个进程都是相同的，这就不需要广播参数步骤，因此减少了在节点之间传输张量的时间。
  - 每个进程包含一个独立的 Python 解释器，因而消除了单个 Python 进程驱动多个执行线程、模型副本或者 GPU 的额外解释器开销和"GIL 颠簸"（GIL-thrashing）。对于严重依赖 Python 运行时的模型（比如说包含 RNN 层或大量小组件的 models ）这尤其重要。
- 即使在单台机器上，DataParallel通常也比DistributedDataParallel慢，这是因为跨线程的 GIL 争用，每次迭代复制的模型以及分散输入和收集输出所带来的额外开销。

3.2 实现区别

DDP 与DP在具体实现上的区别如下：

关于优化器：
- DDP ：在每次迭代之中，DDP 的每个进程都有自己的 optimizer ，每个进程都独立完成所有优化步骤，这和非分布式训练一样。
- DP ：在 DP 中只有一个 optimizer，在主线程执行。其对各 GPU 上梯度进行求和，而在主 GPU 进行参数更新，之后再将模型参数 broadcast 到其他 GPU。
关于梯度。
- DDP ：每个进程在自己 GPU之上计算损失，运行后向传播来计算梯度，在计算梯度同时对梯度执行all-reduce操作。
- DP ：在各进程梯度计算完成之后，各进程需要将梯度进行汇总规约到主进程，主进程用梯度来更新模型权重，然后其 broadcast 模型到所有进程（其他GPU）进行下一步训练。
关于传播数据：
- DDP ：只对梯度等少量数据进行交换。由于各进程中的模型，初始参数一致 (初始时刻进行一次 broadcast)，而每次用于更新参数的梯度也一致，因此，各进程的模型参数始终保持一致。相较于 DataParallel来说，torch.distributed 传输的数据量更少，因此速度更快，效率更高。
- DP ：每次迭代，有大量交互，比如模型，前向输出，损失，梯度等。

0x04 使用

Pytorch 中分布式的基本使用流程如下：

首先需要使用 init_process_group 初始化进程组，同时初始化 distributed 包，然后才能使用 distributed 包的其他函数。
如果需要进行组内集体通信，用 new_group 创建子分组。
使用 DDP(model, device_ids=device_ids) 创建 DistributedDataParalle 模型。
为数据集创建分布式 Sampler。
使用启动工具 torch.distributed.launch 在每个主机上执行脚本，开始训练。
使用 destory_process_group() 销毁进程组。

4.1 基本示例

首先，我们使用 https://pytorch.org/tutorials/intermediate/ddp_tutorial.html 来看看。

4.1.1 设置进程组

在示例的最开始，我们首先要正确设置进程组。

init_process_group 的参数解释如下：

"gloo" 说明后端使用 "gloo"。
rank 是本进程对应的rank，如果是0，则说明本进程是 master 进程，负责广播模型状态等工作。
world_size 指的是总的并行进程数目，如果连接的进程数小于world_size，进程就会阻塞在 init_process_group之上，如果达到了 world_size，程序才会继续运行。如果 batch_size = 16，那么总体的batch size 就是 16 * world_size。

import os
import sys
import tempfile
import torch
import torch.distributed as dist
import torch.nn as nn
import torch.optim as optim
import torch.multiprocessing as mp

from torch.nn.parallel import DistributedDataParallel as DDP

# On Windows platform, the torch.distributed package only
# supports Gloo backend, FileStore and TcpStore.
# For FileStore, set init_method parameter in init_process_group
# to a local file. Example as follow:
# init_method="file:///f:/libtmp/some_file"
# dist.init_process_group(
#    "gloo",
#    rank=rank,
#    init_method=init_method,
#    world_size=world_size)
# For TcpStore, same way as on Linux.

def setup(rank, world_size):
    os.environ['MASTER_ADDR'] = 'localhost'
    os.environ['MASTER_PORT'] = '12355'

    # initialize the process group
    dist.init_process_group("gloo", rank=rank, world_size=world_size) # 这条命令之后，master进程就处于等待状态

def cleanup():
    dist.destroy_process_group()

4.1.2 简单模型

现在，让我们创建一个简单模块，用 DDP 包装它，并用一些虚拟输入数据馈送它。请注意，由于 DDP 将模型状态从 rank 0 进程广播到 DDP 构造函数中的所有其他进程，因此对于所有 DDP 进程来说，它们的起始模型参数是一样的，用户无需担心不同的 DDP 进程从不同的模型参数初始值开始。

                         +-----------+
                         |           |
                         |  Rank 0   |
                         |           |
                         +-----+-----+
                               |
                               |  Model Parameters
                               |
                               |
     +---------------+---------v----------------------+
     |               |                                |
     |               |                                |
     |               |                                |
     |               |                                |
     v               v                                v
+----+-----+    +----+-----+                      +---+-------+
|          |    |          |                      |           |
|  Rank 1  |    |  Rank 2  |    ......            |  Rank n   |
|          |    |          |                      |           |
+----------+    +----------+                      +-----------+

DDP 包装了较低级别的分布式通信细节，并提供了一个干净的 API，就好像它是一个本地模型一样。梯度同步通信发生在反向传播期间，并与反向计算重叠。当backward()返回时，param.grad已经包含同步梯度张量。因为DDP 封装了分布式通信原语，所以模型参数的梯度可以进行 all-reduce。

class ToyModel(nn.Module):
    def __init__(self):
        super(ToyModel, self).__init__()
        self.net1 = nn.Linear(10, 10)
        self.relu = nn.ReLU()
        self.net2 = nn.Linear(10, 5)

    def forward(self, x):
        return self.net2(self.relu(self.net1(x)))


def demo_basic(rank, world_size):
    print(f"Running basic DDP example on rank {rank}.")
    setup(rank, world_size)

    # create model and move it to GPU with id rank
    model = ToyModel().to(rank)
    ddp_model = DDP(model, device_ids=[rank])

    loss_fn = nn.MSELoss()
    optimizer = optim.SGD(ddp_model.parameters(), lr=0.001)

    optimizer.zero_grad()
    outputs = ddp_model(torch.randn(20, 10))
    labels = torch.randn(20, 5).to(rank)
    loss_fn(outputs, labels).backward()
    optimizer.step()

    cleanup()


def run_demo(demo_fn, world_size):
    mp.spawn(demo_fn,
             args=(world_size,),
             nprocs=world_size,
             join=True)

具体如下图

+--------------------------+                   +------------------------+
| torch.optim.SGD          |                   | DDP                    |
|                          |    parameters()   |                        |
|                          |                   |      +------------+    |
|                          | <-----------------+      |            |    |
|                          |                   |      |  ToyModel  |    |
|                          |                   |      |            |    |
|                          |                   |      +------------+    |
|                          |                   |                        |
+--------------------------+                   +--------+---------------+
                                                        |
                                                        |
                                                        |  forward outputs
                                                        |
                                                        |
                                                        v

                                               +-------------------------+
                                               | nn.MSELoss()            |
                                               |                         |
                                               |                         |
                                               |                         |
                                               |                         |
                                               +-------------------------+

4.1.3 处理速度偏差

在 DDP 中，构造函数、前向传递和后向传递是分布式同步点。我们期望不同的进程会启动相同数量的同步操作，并在大致相同的时间以相同的顺序到达这些同步点。否则，进度快的进程可能会提前到达同步点，如果快进程等待落后者的时间过长，那么先到的进程会超时。

因此，用户需要负责平衡进程间的工作负载分布。有时，由于网络延迟，资源争用，不可预测的工作负载峰值等原因，处理速度的偏差是不可避免的。为避免在这些情况下超时，请确保在调用 init_process_group 时。timeout这个参数传递足够大的值。

4.1.4 保存和加载检查点

一般来说，用户可以使用torch.save和torch.load作为checkpoints，以便从检查点恢复训练。

在使用 DDP 时，一种优化是只在一个进程中保存模型，然后在所有进程中加载模型，从而减少写入开销（这其实很像数据库中的读写分离）。因为所有进程都从相同的参数开始，并且在反向传递中同步梯度，所以优化器应该将参数设置为相同的值。如果使用此优化，请确保在保存完成之前所有进程都不会开始加载。

此外，在加载模块时，您需要提供适当的map_location 参数，以防止一个进程进入他人的设备。如果map_location 缺失，torch.load将首先将模块加载到 CPU，然后将每个参数复制到它之前保存的地方，这将导致同一台机器上的所有进程使用相同的一组设备。

有关更高级的故障恢复和弹性支持，请参阅TorchElastic。后续也会有专门系列介绍弹性部分。

从下图可以看出来，Rank 0 负责保存模型到存储之上，其他 Rank 会加载模型到其本地。

                   +-----------+
                   |           |
                   |  Rank 0   |
                   |           |
                   +-----+-----+
                         |
                    save |  Model Parameters
                         |
                         |
                         v
                 +-------+------+
                 |              |
     +-----------+  Model file  +---------------------+
     |           |              |                     |
     |           +---+----------+                     |
     |               |                                |
     |               |                                |
     |               |                                |
     |               |                                |
     |load           |load                      load  |
     |               |                                |
     |               |                                |
     |               |                                |
     |               |                                |
     v               v                                v
+----+-----+    +----+-----+                      +---+-------+
|          |    |          |                      |           |
|  Rank 1  |    |  Rank 2  |    ......            |  Rank n   |
|          |    |          |                      |           |
+----------+    +----------+                      +-----------+

具体如下：

def demo_checkpoint(rank, world_size):
    print(f"Running DDP checkpoint example on rank {rank}.")
    setup(rank, world_size)

    model = ToyModel().to(rank)
    ddp_model = DDP(model, device_ids=[rank])

    loss_fn = nn.MSELoss()
    optimizer = optim.SGD(ddp_model.parameters(), lr=0.001)

    CHECKPOINT_PATH = tempfile.gettempdir() + "/model.checkpoint"
    if rank == 0:
        # All processes should see same parameters as they all start from same
        # random parameters and gradients are synchronized in backward passes.
        # Therefore, saving it in one process is sufficient.
        torch.save(ddp_model.state_dict(), CHECKPOINT_PATH)

    # Use a barrier() to make sure that process 1 loads the model after process
    # 0 saves it.
    dist.barrier()
    # configure map_location properly
    map_location = {'cuda:%d' % 0: 'cuda:%d' % rank}
    ddp_model.load_state_dict(
        torch.load(CHECKPOINT_PATH, map_location=map_location))

    optimizer.zero_grad()
    outputs = ddp_model(torch.randn(20, 10))
    labels = torch.randn(20, 5).to(rank)
    loss_fn = nn.MSELoss()
    loss_fn(outputs, labels).backward()
    optimizer.step()

    # Not necessary to use a dist.barrier() to guard the file deletion below
    # as the AllReduce ops in the backward pass of DDP already served as
    # a synchronization.

    if rank == 0:
        os.remove(CHECKPOINT_PATH)

    cleanup()

4.2 将 DDP 与模型并行相结合

https://pytorch.org/tutorials/intermediate/ddp_tutorial.html 后半部分是与模型并行的结合，我们一起来看看。

DDP 也适用于多 GPU 模型。DDP 在使用大数据训练大模型时候特别有用。

class ToyMpModel(nn.Module):
    def __init__(self, dev0, dev1):
        super(ToyMpModel, self).__init__()
        self.dev0 = dev0
        self.dev1 = dev1
        self.net1 = torch.nn.Linear(10, 10).to(dev0)
        self.relu = torch.nn.ReLU()
        self.net2 = torch.nn.Linear(10, 5).to(dev1)

    def forward(self, x):
        x = x.to(self.dev0)
        x = self.relu(self.net1(x))
        x = x.to(self.dev1)
        return self.net2(x)

注意，当把一个多GPU 模型传递给DDP时候，不能设置device_ids和output_device。

输入和输出数据将通过应用程序或模型forward()方法来放置在适当的设备中。

def demo_model_parallel(rank, world_size):
    print(f"Running DDP with model parallel example on rank {rank}.")
    setup(rank, world_size)

    # setup mp_model and devices for this process
    dev0 = (rank * 2) % world_size
    dev1 = (rank * 2 + 1) % world_size
    mp_model = ToyMpModel(dev0, dev1)
    ddp_mp_model = DDP(mp_model)

    loss_fn = nn.MSELoss()
    optimizer = optim.SGD(ddp_mp_model.parameters(), lr=0.001)

    optimizer.zero_grad()
    # outputs will be on dev1
    outputs = ddp_mp_model(torch.randn(20, 10))
    labels = torch.randn(20, 5).to(dev1)
    loss_fn(outputs, labels).backward()
    optimizer.step()

    cleanup()


if __name__ == "__main__":
    n_gpus = torch.cuda.device_count()
    assert n_gpus >= 2, f"Requires at least 2 GPUs to run, but got {n_gpus}"
    world_size = n_gpus
    run_demo(demo_basic, world_size)
    run_demo(demo_checkpoint, world_size)
    run_demo(demo_model_parallel, world_size)

请注意，这里没有使用 Sampler，正常在使用之中，需要用DistributedSampler来配合 DDP 使用，DistributedSampler 会把数据集样本针对每个进程来划分，这样每个进程就读取到了自己应该使用的样本，而且 DistributedSampler 会为 DDP 模式使用 set_epoch 来shuffle数据集。

0x05 如何多进程启动

前面提到，如果应用程序需要跨机器边界进行扩展，需要使用多机 DistributedDataParallel 和启动脚本。torch.nn.parallel.DistributedDataParallel() 支持多个通过网络互联的机器，用户必须为每个进程显式启动一个主训练脚本。

我们下面就看看这个启动脚本 https://github.com/pytorch/examples/blob/master/distributed/ddp/README.md。以下就是这个md文件的翻译。

在本教程中，我们将演示如何构建分布式模型训练应用程序，这样它可以在多个节点上方便地启动。这里每个节点都有多个 GPU，并且使用 PyTorch 的分布式启动程序脚本 https://github.com/pytorch/pytorch/blob/master/torch/distributed/launch.py 启动实用程序torch.distributed.launch，此脚本程序可用于为每个节点启动多个进程以进行分布式训练，它在每个训练节点上产生多个分布式训练进程。

这个工具可以用作CPU训练或者GPU 训练，如果被用于GPU，每个GPU产生一个进程Process。该工具既可以用来做单节点多GPU训练，也可用于多节点多GPU训练。

如果是单节点多GPU，将会在单个GPU上运行一个分布式进程，据称可以非常好地改进单节点训练性能。
如果用于多节点分布式训练，则通过在每个节点上产生多个进程来获得更好的多节点分布式训练性能。如果有Infiniband接口则加速比会更高。

在单节点分布式训练或多节点分布式训练的两种情况下，该工具将为每个节点启动给定数量的进程（--nproc_per_node）。如果用于GPU培训，则此数字需要小于或等于当前系统上的GPU数量（nproc_per_node），每个进程将在从GPU 0到GPU（nproc_per_node - 1）的单个GPU上运行。

5.1 先决条件

多个worker通过处理大型数据集的不同部分来训练同一个全局模型，每个worker将独立计算局部梯度（也称为子梯度 sub-gradients），然后使用 AllReduce 原语来同步梯度。因为同一个程序在所有应用上运行，但每个应用都在训练数据集的不同部分上运行，所以在 HPC 术语中，这种执行模型称为单程序多数据或 SPMD，

5.2 应用进程拓扑

一个分布式数据并行 (DDP) 应用程序可以在多个节点上执行，其中每个节点可以由多个 GPU 设备组成。每个节点依次可以运行 DDP 应用程序的多个副本，每个副本在多个 GPU 上处理其模型。

设N为运行应用程序的节点数， G为每个节点的 GPU 数。同时在所有节点上运行的应用程序进程总数称为 World Size，简写为W。在每个节点上运行的进程数称为Local World Size，简写为L。

每个应用进程都分配了两个 ID：local rank 取值在 [0, L -1] 中，global rank 取值在 [0, W -1] 之中。

为了阐明上面定义的术语，我们考虑在两个节点上启动 DDP 应用程序的情况，每个节点都有四个 GPU。然后我们希望每个进程跨越（span）两个 GPU。进程到节点的映射如下图所示：

下面图片也出自于 https://github.com/pytorch/examples/blob/master/distributed/ddp/README.md。

虽然有很多方法可以将进程映射到节点，但一个好的经验法则是让一个进程跨越（span）单个 GPU。这使得 DDP 应用程序能够拥有与 GPU 一样多的并行读取流，并且在现实中也提供了 I/O 和计算成本之间的良好平衡。

5.3 准备和启动 DDP 应用程序

无论 DDP 应用程序采用何种启动方式，每个进程都需要一种机制来了解其全局和本地等级。所以，所有进程会创建一个ProcessGroup，基于ProcessGroup可以使它们能够参与诸如 AllReduce 之类的集合通信操作。

有一种便捷的方法可以启动多个 DDP 进程，并且可以初始化所有参数（这些数值是建立一个ProcessGroup 所需要的），这就是使用PyTorch 提供的分布式脚本launch.py。

这个 Launcher 可以在本地torch 安装目录的distributed子目录下找到。这是在任何操作系统上获取launch.py路径的快捷方法：

python -c " from os import path; import torch; print(path.join(path.dirname(torch.__file__), 'distributed', 'launch.py')) "

这将打印如下内容：

/home/username/miniconda3/envs/pytorch/lib/python3.8/site-packages/torch/distributed/launch.py

当 DDP 应用程序通过 launch.py启动时，它通过环境变量将 world size、 global rank、local rank，master address 和端口作为命令行参数传递给每个实例。要使用 Launcher，应用程序需要遵守以下约定：

必须为单个 worker提供入口点函数。例如，它不应该使用torch.multiprocessing.spawn启动子进程。
必须使用环境变量来初始化进程组。

为简单起见，应用程序可以假设每个进程映射到单个 GPU，但在下一节中，我们还将展示如何用更通用的办法来执行进程到 GPU 的映射。

5.4 示例应用

此示例 DDP 应用程序基于 DDP 教程的 “Hello, World” 应用。

5.4.1 参数传递约定

DDP 应用程序采用两个命令行参数：

--local_rank: 此参数将通过 launch.py传入。
--local_world_size：这是明确传递的，通常是数字 $1$ 或每个节点的 GPU 数量。

应用程序解析这些并调用spmd_main入口点：

if __name__ == "__main__":
    parser = argparse.ArgumentParser()
    parser.add_argument("--local_rank", type=int, default=0)
    parser.add_argument("--local_world_size", type=int, default=1)
    args = parser.parse_args()
    spmd_main(args.local_world_size, args.local_rank)

在 spmd_main之中，进程组使用后端（NCCL 或 Gloo）进行初始化。集合点（rendezvous ）所需的其余信息来自launch.py设置的环境变量：

def spmd_main(local_world_size, local_rank):
    # These are the parameters used to initialize the process group
    env_dict = {
        key: os.environ[key]
        for key in ("MASTER_ADDR", "MASTER_PORT", "RANK", "WORLD_SIZE")
    }
    print(f"[{os.getpid()}] Initializing process group with: {env_dict}")
    dist.init_process_group(backend="nccl")
    print(
        f"[{os.getpid()}] world_size = {dist.get_world_size()}, "
        + f"rank = {dist.get_rank()}, backend={dist.get_backend()}"
    )

    demo_basic(local_world_size, local_rank)

    # Tear down the process group
    dist.destroy_process_group()

给定 local rank 和 world size，训练函数demo_basic将通过device_ids在本地节点的一组 GPU 上初始化DistributedDataParallel模型：

def demo_basic(local_world_size, local_rank):

    # setup devices for this process. For local_world_size = 2, num_gpus = 8,
    # rank 0 uses GPUs [0, 1, 2, 3] and
    # rank 1 uses GPUs [4, 5, 6, 7].
    n = torch.cuda.device_count() // local_world_size
    device_ids = list(range(local_rank * n, (local_rank + 1) * n))

    print(
        f"[{os.getpid()}] rank = {dist.get_rank()}, "
        + f"world_size = {dist.get_world_size()}, n = {n}, device_ids = {device_ids}"
    )

    model = ToyModel().cuda(device_ids[0])
    ddp_model = DDP(model, device_ids)

    loss_fn = nn.MSELoss()
    optimizer = optim.SGD(ddp_model.parameters(), lr=0.001)

    optimizer.zero_grad()
    outputs = ddp_model(torch.randn(20, 10))
    labels = torch.randn(20, 5).to(device_ids[0])
    loss_fn(outputs, labels).backward()
    optimizer.step()

该应用程序可以通过launch.py以下方式在一个 8 GPU 的节点上启动，每个 GPU 一个进程：

python /path/to/launch.py --nnode=1 --node_rank=0 --nproc_per_node=8 example.py --local_world_size=8

并产生类似于下图所示的输出：

*****************************************
Setting OMP_NUM_THREADS environment variable for each process to be 1 in default, to avoid your system being overloaded, please further tune the variable for optimal performance in your application as needed.
*****************************************
[238627] Initializing process group with: {'MASTER_ADDR': '127.0.0.1', 'MASTER_PORT': '29500', 'RANK': '0', 'WORLD_SIZE': '8'}
[238630] Initializing process group with: {'MASTER_ADDR': '127.0.0.1', 'MASTER_PORT': '29500', 'RANK': '3', 'WORLD_SIZE': '8'}
[238628] Initializing process group with: {'MASTER_ADDR': '127.0.0.1', 'MASTER_PORT': '29500', 'RANK': '1', 'WORLD_SIZE': '8'}
[238634] Initializing process group with: {'MASTER_ADDR': '127.0.0.1', 'MASTER_PORT': '29500', 'RANK': '7', 'WORLD_SIZE': '8'}
[238631] Initializing process group with: {'MASTER_ADDR': '127.0.0.1', 'MASTER_PORT': '29500', 'RANK': '4', 'WORLD_SIZE': '8'}
[238632] Initializing process group with: {'MASTER_ADDR': '127.0.0.1', 'MASTER_PORT': '29500', 'RANK': '5', 'WORLD_SIZE': '8'}
[238629] Initializing process group with: {'MASTER_ADDR': '127.0.0.1', 'MASTER_PORT': '29500', 'RANK': '2', 'WORLD_SIZE': '8'}
[238633] Initializing process group with: {'MASTER_ADDR': '127.0.0.1', 'MASTER_PORT': '29500', 'RANK': '6', 'WORLD_SIZE': '8'}
[238633] world_size = 8, rank = 6, backend=nccl
[238628] world_size = 8, rank = 1, backend=nccl
[238629] world_size = 8, rank = 2, backend=nccl
[238631] world_size = 8, rank = 4, backend=nccl
[238630] world_size = 8, rank = 3, backend=nccl
[238632] world_size = 8, rank = 5, backend=nccl
[238634] world_size = 8, rank = 7, backend=nccl
[238627] world_size = 8, rank = 0, backend=nccl
[238633] rank = 6, world_size = 8, n = 1, device_ids = [6]
[238628] rank = 1, world_size = 8, n = 1, device_ids = [1]
[238632] rank = 5, world_size = 8, n = 1, device_ids = [5]
[238634] rank = 7, world_size = 8, n = 1, device_ids = [7]
[238629] rank = 2, world_size = 8, n = 1, device_ids = [2]
[238630] rank = 3, world_size = 8, n = 1, device_ids = [3]
[238631] rank = 4, world_size = 8, n = 1, device_ids = [4]
[238627] rank = 0, world_size = 8, n = 1, device_ids = [0]

同样，它可以使用一个跨越（span）所有 8 个 GPU 的单进程来启动：

python /path/to/launch.py --nnode=1 --node_rank=0 --nproc_per_node=1 example.py --local_world_size=1

为当前主机创建 nproc_per_node 个进程，每个进程独立执行训练脚本，同时还为每个进程分配一个 local_rank 参数，表示当前进程在当前主机上的编号。

比如 node_rank = 2, local_rank = 0，表示 node_rank 第2个节点，上第一个进程。

依次产生以下输出

[262816] Initializing process group with: {'MASTER_ADDR': '127.0.0.1', 'MASTER_PORT': '29500', 'RANK': '0', 'WORLD_SIZE': '1'}
[262816]: world_size = 1, rank = 0, backend=nccl
[262816] rank = 0, world_size = 1, n = 8, device_ids = [0, 1, 2, 3, 4, 5, 6, 7]

5.5 结论

作为分布式数据并行应用程序的作者，您的代码需要了解两种类型的资源：计算节点和每个节点内的 GPU。但是需要跟踪GPU集如何映射到应用程序进程，这个簿记（bookkeeping ）工作可能既乏味又容易出错。

所以我们希望通过按照本示例所示的方法，使用 launcher 来构建您的应用程序，这样可以显著简化分布式训练的设置。

5.6 启动脚本的背后

知道了启动脚本的作用依然不够，我们还需要知道其内部做了什么。

5.6.1 launch.py

launch.py 位于 torch/distributed/launch.py，但是实际上，它的大部分功能都被转移到了 torch/distributed/run.py 之中。

def main(args=None):
    logger.warn(
        "The module torch.distributed.launch is deprecated "
        "and going to be removed in future."
        "Migrate to torch.distributed.run"
    )
    args = parse_args(args)
    run(args)

所以我们要看看 run.py。

5.6.2 run.py

可以看到，run.py 的基本思路就是：使用 config_from_args 来从命令行之中提取信息，构建了对应的配置，执行语句和其参数，然后调用 elastic_launch 来执行。由此可见，弹性训练是未来趋势。我们后续也有系列来分析弹性训练。

def run(args):
    if args.standalone:
        args.rdzv_backend = "c10d"
        args.rdzv_endpoint = "localhost:29400"
        args.rdzv_id = str(uuid.uuid4())
        log.info(
            f"\n**************************************\n"
            f"Rendezvous info:\n"
            f"--rdzv_backend={args.rdzv_backend} "
            f"--rdzv_endpoint={args.rdzv_endpoint} "
            f"--rdzv_id={args.rdzv_id}\n"
            f"**************************************\n"
        )

    config, cmd, cmd_args = config_from_args(args)
    elastic_launch(
        config=config,
        entrypoint=cmd,
    )(*cmd_args)

run.py 也可以独立运行，比如。

>>> python -m torch.distributed.run
    --nnodes=$NUM_NODES
    --nproc_per_node=$NUM_TRAINERS
    --rdzv_id=$JOB_ID
    --rdzv_backend=c10d
    --rdzv_endpoint=$HOST_NODE_ADDR
    YOUR_TRAINING_SCRIPT.py (--arg1 ... train script args...)

5.6.3 定义

因为run.py 有很多配置参数，所以我们大致看一下。

Node - 物理实例或容器；映射到与 job manager 所协调的单元。
Worker - 分布式培训环境中的worker。
WorkerGroup - 执行相同功能的一组worker（例如trainer）。
LocalWorkerGroup - 在同一节点上运行的工作组中的workers子集。
RANK - 工作组中worker的rank，是全局rank，可以认为是一个全局GPU资源列表。
LOCAL_RANK - 本地工作组中，某个worker 的 rank，可以认为是当前节点上的GPU资源列表。
GROUP_RANK - worker group的rank。介于0和“最大节点数”之间的数字。如果每个节点运行一个单一工作组，那就是这个节点的rank。
ROLE_RANK - 对于具有相同角色worker来说，他们之间共享的rank，角色在“WorkerSpec”中被指定。
WORLD_SIZE - 工作组中worker的总数。因为节点会加入/离开，所以WORLD_SIZE会变化，不能依赖 WORLD_SIZE的稳定性进行编码。
LOCAL_WORLD_SIZE - 本地工作组的大小，即本地运行的worker数目，等于在torch.distributed.run运行时候指定的--nproc_per_node。目前，torch/distributed/run.py 仅支持同构的 LOCAL_WORLD_SIZE。也就是说，假设所有节点运行相同数量的本地工作者（每个角色）。
ROLE_WORLD_SIZE - 具有同样角色的workers总数，在 WorkerSpec之中被指定。
rdzv_id - 用户定义的id，用于唯一标识作业的工作组。这个id在每个节点加入特定工作组时候使用。
rdzv_backend-rendezvous 的后端（例如“c10d”）。这通常是一个强一致性的键值存储。
rdzv_endpoint - rendezvous 后端端点；通常以“：”的形式出现。
run_id：用户定义的id，它唯一地标识分布式应用程序的一个实例。它通常映射到作业id并用于

允许节点加入正确的分布式应用程序。
TORCHELASTIC_RESTART_COUNT - 迄今为止，工作组重启的次数。
TORCHELASTIC_MAX_RESTARTS - 配置的最大重启数目。
TORCHELASTIC_RUN_ID - 与 rendezvous run_id 相等，即唯一的job id。

我们后面会有专门系列来介绍弹性训练，所以就此略过。下一篇我们开始介绍通信所需要的store概念，敬请期待。

0xFF 参考

https://github.com/pytorch/examples/blob/master/distributed/ddp/README.md

https://pytorch.org/tutorials/intermediate/ddp_tutorial.html

你可能感兴趣的:([源码解析] PyTorch分布式(5) ------ DistributedDataParallel 总述&如何使用)

AI人工智能神经网络马里亚纳海沟网人工智能神经网络深度学习笔记运维全文检索搜索引擎
**AI人工智能神经网络概述**神经网络是并行计算设备，它们试图构建大脑的计算机模型。背后的主要目标是开发一个系统来执行各种计算任务比传统系统更快。这些任务包括模式识别和分类，近似，优化和数据聚类什么是人工神经网络(ANN)人工神经网络(ANN)是一个高效的计算系统，其核心主题是借用生物神经网络的类比。人工神经网络也被称为人工神经系统，并行分布式处理系统和连接系统。ANN获取了大量以某种模式相互连
关联规则挖掘--Apriori算法别团等shy哥发育数据挖掘与机器学习算法数据挖掘机器学习 Apriori
关联规则挖掘--Apriori算法1、关联规则概述2、置信度、支持度、提升度的概念3、关联规则挖掘问题4、Apriori算法4.1算法步骤4.2先验原理4.3寻找最大频繁项的过程4.4注意问题：项的连接5、代码实战1、关联规则概述关联规则（AssociationRules）反映一个事物与其他事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系，那么，其中一个事物就能够通过其
FP16、BF16、INT8、INT4精度模型加载所需显存以及硬件适配的分析 herosunly 大模型精度 BF16 硬件适配
大家好，我是herosunly。985院校硕士毕业，现担任算法研究员一职，热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名，CCF比赛第二名，科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法行业就业。希望和大家一起成长进步。本文主要介绍了FP16、INT8、INT4精度模型加载占用显存大小的分析，希望对学习大
【数据分析】Python+Tushare实现均线金叉死叉交易策略回测虚拟现实旅人数据分析 python 数据挖掘
【数据分析】Python+Tushare实现均线金叉死叉交易策略回测简介在本文中，我们将利用Python和Tushare数据接口，对贵州茅台（600519.SH）进行数据分析，并实现基于“双均线”策略的量化回测，完整评估该策略的收益效果。项目目标使用tushare包获取贵州茅台的历史行情数据。计算该股票历史数据的5日均线和30日均线。分析输出所有金叉日期和死叉日期。模拟实际买卖交易流程。1.数据获
Python邮件处理（使用imaplib和email库实现自动化邮件处理）老哥不老 python 自动化 java
在日常工作中，我们经常需要自动化处理电子邮件，比如自动下载附件、解析邮件内容、处理特定格式的数据等。本文将通过一个实际案例，详细介绍如何使用Python的imaplib和email库来实现邮件的自动化处理。目录环境准备与库介绍IMAP邮件服务器连接邮件搜索与获取邮件内容解析附件处理实战案例：自动化处理Excel附件最佳实践与注意事项1.环境准备与库介绍首先，我们需要导入必要的库：importima
C++ 11 中 condition_variable 的探索与实践码事漫谈 c++11 c++java 数据库
文章目录一、条件变量的基本概念1.1条件变量的定义1.2条件变量与互斥锁的配合二、条件变量的基本用法2.1常见的操作2.2示例:生产者-消费者模型代码说明三、深入理解条件变量3.1条件变量的底层实现3.2条件变量与忙等待的对比3.3提升性能的注意事项避免虚假唤醒最小化锁的持有时间四、条件变量的应用场景4.1生产者-消费者模型4.2读者-写者模型4.3线程池五、条件变量的相关类和成员函数5.1相关类
AtCoder Beginner Contest 398（ABCDEF） Cando-01 #atcoder周赛算法数据结构 c++
A-DoorsintheCenter翻译：找到一个满足下面情况长为N的字符串：每个字符是-或=。是一个回文。包含一个或两个=。如果包含两个相邻的=。如此字符串为独一无二的。思路：从两端使用=开始构造回文。在特判下中间部分，字符串s长为2，放两个=；长为1放一个=。实现：#includeusingnamespacestd;usingll=longlong;constintMX=1e5+10;void
Codeforces Round 1012 (Div. 2)（ABCD） Cando-01 #codeforces周赛算法数据结构 c++
A.TreasureHunt翻译：小B和他的朋友小K找到了一张藏宝图，现在他们只需要挖出埋在地下a.5米深处的宝藏。他们轮流挖。第一天，小B挖；第二天，小K挖。小B每天正好挖x米，而小K挖了y米。他们开始好奇谁会先挖出宝藏，也就是谁一天内挖的总深度会超过a.5米。但他们都忙着挖土，所以帮帮他们，告诉他们谁会挖到宝藏！思路：把B,K捆绑为一组，求到a.5跟前要几组，再特判加B与加K的情况。实现：#i
leetcode(力扣) 239. 滑动窗口最大值（单调队列）深度不学习！！个人笔记交流学习 leetcode python
文章目录题目描述思路分析完整代码题目描述给你一个整数数组nums，有一个大小为k的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的k个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。示例1：输入：nums=[1,3,-1,-3,5,3,6,7],k=3输出：[3,3,5,5,6,7]解释：滑动窗口的位置最大值[13-1]-3536731[3-1-3]5367313[-
Leetcode 百题训练 239. 滑动窗口最大值 XiaoO_QAQ leetcode 算法数据结构
239.滑动窗口最大值题目描述：给你一个整数数组nums，有一个大小为k的滑动窗口从数组的最左侧移动到数组的最右侧。你只可以看到在滑动窗口内的k个数字。滑动窗口每次只向右移动一位。返回滑动窗口中的最大值。示例1：输入：nums=[1,3,-1,-3,5,3,6,7],k=3输出：[3,3,5,5,6,7]解释：滑动窗口的位置最大值--------------------[13-1]-3536731
【机器学习&深度学习】适合微调的模型选型指南一叶千舟深度学习【应用必备常识】深度学习人工智能
目录一、不同规模模型微调适用性二、微调技术类型对显存的影响三、选择建议（根据你的硬件）四、实际模型推荐五、不同模型适合人群六、推荐几个“非常适合微调”的模型七、推荐使用的微调技术八、场景选择示例场景1：智能客服（中文）场景2：法律问答（中文RAG）场景3：医学问答/健康咨询场景4：AI写作助手（中英文）场景5：代码补全/AI编程助手对比总结表九、不同参数模型特点9.1参数规模vs能力9.2微型模型
RISC-V设计之Decoder的封装与函数(二)
RISC-V设计之封装与函数(SV)写在前面：今天去见了导师，他强烈要求我把设计中的decoder删去，去掉宏定义引入局部变量，使用封装的函数来取而代之。并在其他运算模块调用函数的返回值，提高代码简洁度和清晰度，避免全局变量污染环境，下面是根据导师的主页总结的设计笔记。-----2025/7/1示例代码：这个opcodes包是为一个简单的处理器设计的辅助模块，作用是封装指令解析相关的功能，供CPU
python汉语编程，将关键字与文言文对应 xinhuanjieyi 汉语编程 python
以下是将Python3.13的35个关键字与宋词中的典雅字词（或意象化表达）进行创意关联的版本，力求保留宋词意境的同时与关键字语义形成朦胧呼应：宋词风关键字映射谧（mì）-False（取自“静谧”，喻“假”之空寂，如“谧夜无痕”）缈（miǎo）-None（“缥缈”之虚，如“空山缈云踪”）瑧（zhēn）-True（“瑧”通“真”，喻“真”之确然，如“瑧意自昭昭”）俦（chóu）-and（“俦侣”喻“
Ollama增加上下文大小添财小哥大语言模型相关人工智能
1、编辑Modelfilefromqwen2.5:32b-instruct-q4_K_Mparametertemperature0.1PARAMETERtop_p0.8PARAMETERrepeat_penalty1.1PARAMETERtop_k20PARAMETERnum_ctx131072这里可能会报错：Error:commandmustbeoneof"from","license","te
SQL语句全攻略：从基础到进阶的编程之旅奔跑吧邓邓子必备核心技能 sql 数据库基础语法高级应用
目录一、引言二、SQL基础语法2.1SQL语句写法顺序2.2关联查询2.3数据处理常用函数和运算符三、数据库和表的基本操作3.1创建数据库3.2使用数据库3.3创建表四、基础增删改查操作4.1插入数据（增）4.2查询数据（查）4.3更新数据（改）4.4删除数据（删）五、复杂关系操作5.1一对多关系操作5.2多对多关系操作六、SQL优化技巧6.1索引的使用6.2避免子查询6.3其他优化建议七、SQL
Python编程实现大雪纷飞郭学会 pygame python
大雪纷飞。importpygameimportrandomimportmathimportnumpyasnp#配置参数SCREEN_WIDTH,SCREEN_HEIGHT=1280,720SNOW_COLOR=(245,245,255)TERRAIN_COLOR=(45,65,89)BACKGROUND_COLOR=(13,27,42)classTerrainGenerator:"""多噪声融合地
Python流星雨
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
关于举办首届中国工业互联网大赛的通知—— 500万奖金池 kelebb 工业互联网产业互联网工业互联网比赛大赛工信部产业互联网
*500万奖金池：关于举办首届中国工业互联网大赛的通知各有关单位：为贯彻《国务院关于深化“互联网+先进制造业”发展工业互联网的指导意见》等系列文件精神，推进工业互联网创新发展应用，定于2019年9-12月举办首届中国工业互联网大赛。现将大赛有关事项和安排通知如下：一、大赛主题点亮智慧之光二、组织机构指导单位：工业和信息化部、浙江省人民政府主办单位：中国工业互联网大赛组委会承办单位：国家工业信息安全
Python@dataclass装饰器实践首尔的初雪是眼泪 python python windows
目录1.基本使用1.1示例：基本的数据类1.2__init__自动生成2.字段的默认值2.1带有默认值的字段2.2field()函数3.不可变数据类(frozen=True)4.比较与排序4.1支持排序的dataclass5.继承与dataclass5.1继承dataclass6.总结在Python中，@dataclass是一个非常有用的装饰器，它能够自动为类生成一些常见的方法，例如__init_
腾讯云实名资质 “待补充后提交” 解决方法
目录一、引言二、为什么会出现“待补充后提交”状态三、需要补充的具体材料3.1营业执照3.2法人身份证相关3.3短信管理员资料3.4合规使用承诺函四、处理流程详细步骤4.1登录腾讯云控制台4.2进入实名资质相关页面4.3上传补充材料4.4提交审核五、注意事项5.1材料规范5.2时间节点5.3审核期间注意六、常见问题及解答6.1提交后长时间未审核怎么办6.2补充材料被驳回如何处理七、总结一、引言在数字
基于llama-factory+ollama+vllm加速大模型训推生产 zwxu_ 大模型专栏 llama 人工智能大模型
目录一、名称解释1.1产品定义二、llama-factory工具使用2.1基础镜像2.2、模型训练2.2.1以Qwen2.5-7B-Instruct为例
LeetCode 1456. 定长子串中元音的最大数目千楼滑动窗口与双指针 leetcode 算法职场和发展
题目链接1456.定长子串中元音的最大数目题目描述给定一个字符串s和一个整数k，请找出字符串中长度为k的子串中包含的最大元音字母数量。元音字母包括a、e、i、o、u。解法分析：滑动窗口法核心思路该解法采用滑动窗口技术，通过维护一个长度为k的窗口，遍历字符串时动态计算窗口内的元音字母数量，从而找到最大值。具体步骤如下：右指针扩展窗口，统计当前字符是否为元音并累加计数当窗口长度达到k后，左指针开始滑动
[Leetcode] 594. 最长和谐子序列 java 哈希表 niceHou666 Leetcode leetcode java 哈希表
和谐数组是指一个数组里元素的最大值和最小值之间的差别正好是1。现在，给定一个整数数组，你需要在所有可能的子序列中找到最长的和谐子序列的长度。示例1:输入:[1,3,2,2,5,2,3,7]输出:5原因:最长的和谐数组是：[3,2,2,2,3].思想：哈希表，求map.get(nums[i])和map.get(nums[i+1])的最大和classSolution{publicintfindLHS(
Spring Cloud Bus 和 Spring Cloud Stream 中国lanwp springboot
SpringCloudBus和SpringCloudStream都是SpringCloud生态中的消息通信组件，但它们的定位和使用场景有显著区别：1.SpringCloudBus核心定位：分布式系统的消息广播（配置刷新、事件传播）。典型场景：通过消息中间件（如RabbitMQ、Kafka）广播配置变更事件，实现所有微服务配置的集中刷新（如结合/actuator/refresh或/actuator/
Bootstrap 5 三种 JavaScript 版本的区别中国lanwp javascript bootstrap 前端
Bootstrap5三种JavaScript版本的区别Bootstrap5提供了三种不同的JavaScript版本：bootstrap.bundle.js、bootstrap.esm.js和bootstrap.js。以下是它们的区别：1.bootstrap.js(标准版)文件大小:最小包含内容:仅包含Bootstrap的核心JavaScript功能依赖关系:需要手动引入Popper.js(用于工具
前端大文件上传解决方案诸葛亮的芭蕉扇前端 javascript vue.js
本文分享的内容是前端大文件上传的解决方案，文件上传是前端开发中常见的需求，特别是在处理视频、大型文档或数据集时。对于小文件上传不做详细介绍，在源码中已附带。大文件上传前置条件设置分片大小的值，即规定每个切片的大小设置文件大小阈值，即超过多少M判定为大文件大文件上传步骤计算文件md5的值前端对文件进行分割，每个切片中包含索引、切片内容、文件名称对切片集合进行遍历，按照顺序上传切片先校验切片是否已上传
好用、强大且开源的HTML5视频播放器诸葛亮的芭蕉扇开源 html5 音视频
好用、强大且开源的HTML5视频播放器在现代的网络世界中，视频已成为信息传递和娱乐的主要形式之一。而要在网页上实现流畅、可靠的视频播放体验，则需要依赖于高效的HTML5视频播放器。本文就来分享8款功能强大且易于使用的HTML5视频播放器！PlyrPlyr是一款简单、轻量级、可访问且可自定义的HTML5、YouTube和Vimeo媒体播放器，支持现代浏览器。Plyr具有以下特点：可访问性-完全支持V
LeetCode 643. 子数组最大平均数 I 千楼滑动窗口与双指针 leetcode 算法职场和发展
题目链接643.子数组最大平均数I题目描述给定一个整数数组nums和一个整数k，找出长度为k的连续子数组的最大平均数，并返回该值。要求结果误差小于10^-5。解法分析：滑动窗口法核心思路该解法采用滑动窗口技术，通过维护一个长度为k的窗口，遍历数组时动态计算窗口内元素的和，从而找到最大和，最终求得最大平均数。具体步骤如下：右指针扩展窗口，累加当前元素到窗口和当窗口长度达到k后，左指针开始滑动，每次减
板凳-------Mysql cookbook学习（十--15） fengye207161 mysql 学习 android
10.31编写时间处理工具sql--创建测试数据--插入所有原始数据，使用STR_TO_DATE函数处理不同格式的日期INSERTINTOdate_test(event_name,event_date)VALUES('Fred',STR_TO_DATE('04-13-70','%m-%d-%y')),('Mort',STR_TO_DATE('09-3-69','%m-%d-%y')),('Alic
WebSocket概念及工作原理 zhangdayan
一、WebSocket是什么？webSocket是HTML5新增的协议，它的目的是在浏览器和服务器之间建立一个不受限的双向通信的通道，比如说，服务器可以在任意时刻发送消息给浏览器。WebSocket同样是HTML5规范的组成部分之一，用一句话概括就是：客户端向WebSocket服务器通知(notify)一个带有所有接收者ID的事件(event)，服务器接收后立即通知所有活跃的(active)客户端
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多