镰刀韭菜

【分布式训练】基于Pytorch的分布式数据并行训练

基于Pytorch的分布式数据并行训练

动机
- 为什么要并行分布数据？
- 现有资料的不足
Outline
- 整体框架图
- 带解释的最小demo示例
- - 没有multiprocessing
  - 开启multiprocessing
- 分布式训练启动方式
- 混合精度训练（采用apex）
参考资料

简介：在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练

动机

加速神经网络训练的最简单方法是使用GPU，它在神经网络中常见的计算类型（矩阵乘法和加法）上提供了比CPU更大的加速。随着模型或数据集变得越来越大，一个GPU很快就会变得不足。例如，像BERT和GPT-2这样的大型语言模型是在数百个GPU上训练的。要执行多GPU训练，我们必须有一种方法在不同的GPU之间分割模型和数据，并协调训练。

为什么要并行分布数据？

很多人喜欢在Pytorch中实现自己的深度学习模型，因为它在神经网络框架的控制和易用性之间具有最佳平衡。Pytorch有两种方法可以跨多个GPU拆分模型和数据：nn.DataParallel和nn.DistributedDataParallel。

nn.DataParallel更易于使用（只需包装模型并运行训练脚本）。然而，由于它使用一个process来计算模型权重，然后在每个批次中将其分配给每个GPU，因此网络很快成为瓶颈，GPU利用率通常很低。此外，nn.DataParallel要求所有GPU都在同一个节点上，并且不能与Apex一起用于mixed-precision训练。

因此，nn.DataParallel和nn.DistributedDataParallel的主要差异可以总结为以下几点：
1. DistributedDataParallel支持模型并行，而DataParallel不支持，这意味着如果模型太大单卡显存不足时只能使用前者；
2. DataParallel是单进程多线程，只用于单机情况，而DistributedDataParallel是多进程的，适用于单机和多机情况，真正实现分布式训练；
3. DistributedDataParallel的训练更高效，因为每个进程都是独立的Python解释器，避免GIL问题，而且通信成本低，其训练速度更快，基本上DataParallel已经被弃用；
4. 必须要说明的是DistributedDataParallel中每个进程都有独立的优化器，执行自己的更新过程，但是梯度通过通信传递到每个进程，所有执行的内容是相同的。

现有资料的不足

总的来说，Pytorch文档是完整且清晰的，但是，当试图弄清楚如何使用DistributedDataParallel时，发现所有的示例和教程都是不可访问、不完整或重载了不相关的功能的组合。

Pytorch提供了一个关于使用AWS进行分布式培训的教程，它很好地展示了如何在AWS方面进行设置。然而，它的其余部分有点混乱，因为出于某种原因，它花了很多时间来展示如何计算指标，然后再回到展示如何包装模型和启动流程。它也没有描述nn.DistributedDataParallel的作用，这使得相关的代码块很难遵循。

关于用Pytorch编写分布式应用程序的教程比第一遍所需的要详细得多，而且对于没有Python多处理背景的人来说是无法访问的。它花费了大量时间复制nn.DistributedDataParallel中的功能。然而，它没有给出它所做工作的高级概述，也没有提供如何使用它的见解(https://pytorch.org/tutorials/intermediate/ddp_tutorial.html)

还有一个Pytorch教程，介绍如何开始使用分布式数据并行。这一个展示了如何进行一些设置，但没有解释设置的目的，然后展示了一些代码，以在GPU之间拆分模型并进行一个优化步骤。不幸的是，我很确定编写的代码不会运行（函数名不匹配），而且它也没有告诉你如何运行代码。与前面的教程一样，它也没有对分布式培训的工作原理进行高层次的概述。

Pytorch提供的最接近MWE示例的是Imagenet训练示例。不幸的是，这个例子还展示了Pytorch几乎所有的其他功能，因此很难找出分布式多GPU训练的相关内容。

Apex提供了他们自己版本的Pytorch Imagenet示例。他们的nn.DistributedDataParallel版本是Pytorch的替代品，只有在学习如何使用Pytork之后才有帮助。

这个教程很好地描述了引擎盖下发生的事情以及它与nn.DataParallel的区别。但是，它没有关于如何使用nn.DataParallel的代码示例。

Outline

本教程真正针对的是那些已经熟悉在Pytorch中训练神经网络模型的人。首先概述整体思想。然后，展示了在GPU上使用MNIST进行训练的最小工作示例。我修改了这个例子，在多个GPU上进行训练，可能跨越多个节点，并逐行解释这些变化。重要的是，还解释了如何运行代码。作为奖励，还演示了如何使用Apex进行简单的混合精度分布式训练。

整体框架图

使用DistributedDataParallel进行Multiprocessing会在多个GPU上复制模型，每个GPU都由一个进程控制。（进程是在计算机上运行的python的一个实例；通过让多个进程并行运行，我们可以利用具有多个CPU核心的procressor。如果你愿意，可以让每个进程控制多个GPU，但这显然比每个进程有一个GPU要慢。也可以让多个工作进程为每个GPU获取数据，但为了简单起见，将省略这一点。）GPU可以全部位于同一节点上，也可以分布在多个节点上。（一个节点是一台“计算机”，包括它的所有CPU和GPU。如果你使用AWS，一个节点就是一个EC2实例。）每个进程都执行相同的任务，每个进程都与所有其他进程通信。只有梯度在进程/GPU之间传递，这样网络通信就不会成为瓶颈。

在训练过程中，每个进程从磁盘加载自己的mini-batches，并将其传递给GPU。每个GPU都有自己的前向通道，然后GPU之间的梯度都会减小。每一层的梯度不依赖于前一层，因此梯度all-reduce与反向传递同时计算，以进一步缓解网络瓶颈。在反向过程结束时，每个节点都具有平均梯度，确保模型权重保持同步。

所有这些都要求多个进程（可能在多个节点上）同步并进行通信。Pytorch通过其distributed.init_process_group函数来实现这一点。此函数需要知道在哪里可以找到进程0，以便所有进程都可以同步，以及预期的进程总数。每个单独的进程还需要知道进程的总数及其在进程中的排名以及使用哪个GPU。将进程的总数称为world size是很常见的。最后，每个进程都需要知道要处理哪一部分数据，以便批处理不重叠。Pytorch提供了nn.utils.data.DistributedSampler来实现这一点，即为各个进程切分数据，以保证训练数据不重叠。

更详细的DDP的内部机理见官方的文档介绍：DISTRIBUTED DATA PARALLEL

带解释的最小demo示例

为了演示如何做到这一点，将创建一个在MNIST上训练的示例，然后将其修改为在多个节点的多个GPU上运行，最后还允许混合精度训练（mixed-precision training）。

没有multiprocessing

首先，导入所需要的依赖库：

import os
import argparse
import torch
import torch.nn as nn
import torch.distributed as dist
import torch.multiprocessing as mp
import torchvision
import torchvision.transforms as transforms
from datetime import datetime
from apex.parallel import  DistributedDataParallel as DDP
from apex import amp

我们定义了一个非常简单的卷积模型来预测MNIST。

class ConvNet(nn.Module):
    def __init__(self, num_classes=10):
        super(ConvNet, self).__init__()
        self.layer1 = nn.Sequential(
            nn.Conv2d(1, 16, kernel_size=5, stride=1, padding=2),
            nn.BatchNorm2d(16),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        self.layer2 = nn.Sequential(
            nn.Conv2d(16, 32, kernel_size=5, stride=1, padding=2),
            nn.BatchNorm2d(32),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        self.fc = nn.Linear(7 * 7 * 32, num_classes)

    def forward(self, x):
        out = self.layer1(x)
        out = self.layer2(out)
        out = out.reshape(out.size(0), -1)
        out = self.fc(out)
        return out

下面是训练过程：

def train(gpu, args):
    torch.manual_seed(0)
    model = ConvNet()
    torch.cuda.set_device(gpu)
    model.cuda(gpu)
    # model = nn.DataParallel(model, device_ids=device_ids)
    # model = model.cuda(device=gpu)
    batch_size = 100
    # define loss function (criterion) and optimizer
    criterion = nn.CrossEntropyLoss().cuda(gpu)
    optimizer = torch.optim.SGD(model.parameters(), 1e-4)
    # Data loading code
    train_dataset = torchvision.datasets.MNIST(root='./data', train=True, transform=transforms.ToTensor(),
                                               download=True)
    train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True,
                                               num_workers=0, pin_memory=True)

    start = datetime.now()
    total_step = len(train_loader)
    for epoch in range(args.epochs):
        for i, (images, labels) in enumerate(train_loader):
            images = images.cuda(non_blocking=True)
            labels = labels.cuda(non_blocking=True)
            # Forward pass
            outputs = model(images)
            loss = criterion(outputs, labels)

            # Backward and optimize
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            if (i + 1) % 100 == 0 and gpu == 0:
                print('Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}'.format(epoch + 1, args.epochs, i + 1, total_step,
                                                                         loss.item()))
    if gpu == 0:
        print("Training complete in: " + str(datetime.now() - start))

main()函数将接受一些参数并运行训练函数。

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument("-n", "--nodes", default=1, type=int, metavar='N')
    parser.add_argument('-g', '--gpus', default=1, type=int, help='number of gpus per node')
    parser.add_argument('-nr', '--nr', default=0, type=int, help='ranking within the nodes')
    parser.add_argument('--epochs', default=2, type=int, metavar='N', help='number of total epochs to run')
    args = parser.parse_args()
    train(0, args)

最后，要确保main()函数被调用。

if __name__ == '__main__':
    main()

可以通过打开一个终端并键入python src/mnist.py-n 1-g 1-nr 0来运行此代码，它将在单个节点上的单个gpu上进行训练。

开启multiprocessing

要使用multiprocessing来做到这一点，我们需要一个脚本来为每个GPU启动一个进程。每个进程都需要知道要使用哪个GPU，以及它在所有正在运行的进程中的排名。需要在每个节点上运行脚本。

来看看对每个函数的更改。为了便于查找，已将新代码隔离开来：

def main():
    parser = argparse.ArgumentParser()
    parser.add_argument("-n", "--nodes", default=1, type=int, metavar='N')
    parser.add_argument('-g', '--gpus', default=1, type=int, help='number of gpus per node')
    parser.add_argument('-nr', '--nr', default=0, type=int, help='ranking within the nodes')
    parser.add_argument('--epochs', default=2, type=int, metavar='N', help='number of total epochs to run')
    args = parser.parse_args()
    #########################################################
    args.world_size = args.gpus * args.nodes
    os.environ['MASTER_ADDR'] = '172.20.109.105'
    os.environ['MASTER_PORT'] = '8888'
    mp.spawn(train, nprocs=args.gpus, args=(args,))
    #########################################################
    # train(0, args)

其中：

args.nodes表示节点总数，
args.gpus表示每个节点的GPU总数（每个节点GPU数是一样的）
args.nr表示当前节点在所有节点中的序号。

根据节点总数和每个节点的GPU数，可以计算world_size，即要运行的进程总数，所有的进程需要知道进程0的IP地址以及端口，这样所有进程可以在开始时同步，一般情况下称进程0是master进程，比如我们会在进程0中打印信息或者保存模型。

PyTorch提供了mp.spawn来在一个节点启动该节点所有进程，每个进程运行train(i, args)，其中 i 从0到args.gpus - 1。请记住，在每个节点上运行main()函数，这样总共会有args.nodes*args.gpus=args.world_size进程。

同样，我们要修改训练函数：

def train(gpu, args):
    ############################################################
    rank = args.nr * args.gpus + gpu
    dist.init_process_group(backend='nccl', init_method='env://', world_size=args.world_size, rank=rank)
    ############################################################
    torch.manual_seed(0)
    model = ConvNet()
    torch.cuda.set_device(gpu)
    model.cuda(gpu)
    batch_size = 100
    # define loss function (criterion) and optimizer
    criterion = nn.CrossEntropyLoss().cuda(gpu)
    optimizer = torch.optim.SGD(model.parameters(), 1e-4)
    ############################################################
    # Wrap the model
    model = nn.parallel.DistributedDataParallel(model, device_ids=[gpu])
    ############################################################

    # Data loading code
    train_dataset = torchvision.datasets.MNIST(root='./data', train=True, transform=transforms.ToTensor(),
                                               download=True)
    ############################################################
    train_sampler = torch.utils.data.distributed.DistributedSampler(dataset=train_dataset, num_replicas=args.world_size,
                                                                    rank=rank)
    train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=False,
                                               num_workers=0, pin_memory=True, sampler=train_sampler)
    ############################################################

    start = datetime.now()
    total_step = len(train_loader)
    for epoch in range(args.epochs):
        for i, (images, labels) in enumerate(train_loader):
            images = images.cuda(non_blocking=True)
            labels = labels.cuda(non_blocking=True)
            # Forward pass
            outputs = model(images)
            loss = criterion(outputs, labels)

            # Backward and optimize
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()
            if (i + 1) % 100 == 0 and gpu == 0:
                print('Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}'.format(epoch + 1, args.epochs, i + 1, total_step,
                                                                         loss.item()))
    if gpu == 0:
        print("Training complete in: " + str(datetime.now() - start))

这里，首先计算出当前进程序号：rank = args.nr * args.gpus + gpu，然后就是通过dist.init_process_group初始化分布式环境，其中

backend参数指定通信后端，包括mpi、gloo、nccl，这里选择nccl，它是Nvidia提供的官方多卡通信框架，相对比较高效。mpi也是高性能计算常用的通信协议，不过需要自己安装MPI实现框架，比如OpenMPI。gloo倒是内置通信后端，但是不够高效。
init_method指的是如何初始化，以完成刚开始的进程同步，这里我们设置的是env://，指的是环境变量初始化方式，需要在环境变量中配置4个参数：MASTER_PORT，MASTER_ADDR，WORLD_SIZE，RANK，前面两个参数我们已经配置，后面两个参数也可以通过dist.init_process_group函数中world_size和rank参数配置。
其它的初始化方式还包括共享文件系统以及TCP，比如采用TCP作为初始化方法init_method='tcp://10.1.1.20:23456'，其实也是要提供master的IP地址和端口。注意这个调用是阻塞的，必须等待所有进程来同步，如果任何一个进程出错，就会失败。
对于模型侧，只需要用DistributedDataParallel包装一下原来的model即可，将模型复制到GPU上以进行处理，在背后它会支持梯度的All-Reduce操作。
对于数据侧，使用nn.utils.data.DistributedSampler来给各个进程切分数据，只需要在dataloader中使用这个sampler就好，值得注意的一点是要在训练循环过程的每个epoch开始时调用train_sampler.set_epoch(epoch)，（主要是为了保证每个epoch的划分是不同的）其它的训练代码都保持不变。

最后就可以执行代码了，比如我们有4节点，每个节点是8张显卡，那么需要在4个节点终端上分别执行：

python src/mnist-distributed.py -n 4 -g 8 -nr i

例如在节点0上执行：

python src/mnist-distributed.py -n 4 -g 8 -nr 0

换句话说，在每个节点上运行这个脚本，告诉它在训练开始前启动彼此同步的args.gpus进程。

要注意的是，此时的有效batch_size其实是batch_size_per_gpu * world_size，对于有BN的模型还可以采用同步BN获取更好的效果：

model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model)

上述讲述的是分布式训练过程，其实同样适用于评估或者测试过程，比如我们把数据划分到不同的进程中进行预测，这样可以加速预测过程。实现代码和上述过程完全一样，不过我们想计算某个指标，那就需要从各个进程的统计结果进行All-Reduce，因为每个进程仅是计算的部分数据的内容。比如我们要计算分类准确度，我们可以统计每个进程的数据总数total和分类正确的数量count，然后进行聚合。

这里要提的一点，当用dist.init_process_group初始化分布式环境时，其实就是建立一个默认的分布式进程组（distributed process group），这个group同时会初始化Pytorch的torch.distributed包。这样我们可以直接用torch.distributed的API就可以进行分布式基本操作了，下面是具体实现：

# define tensor on GPU, count and total is the result at each GPU
t = torch.tensor([count, total], dtype=torch.float64, device='cuda')
dist.barrier()  # synchronizes all processes
dist.all_reduce(t, op=torch.distributed.ReduceOp.SUM,)  # Reduces the tensor data across all machines in such a way that all get the final result.
t = t.tolist()
all_count = int(t[0])
all_total = int(t[1])
acc = all_count / all_total

分布式训练启动方式

上述过程中，采用PyTorch的torch.multiprocessing包（Multiprocessing package - torch.multiprocessing）来启动分布式训练，目前官方给出的ImageNet训练例子是采用这种方式的，detectron2库也是采用这种方式启动：https://github.com/facebookresearch/detectron2/blob/main/detectron2/engine/launch.py。

如果使用torch.multiprocessing.spawn启动，要注意送入的训练function必须是fn(i,*args) 这种格式，其中第一个参数 i 指代的是当前节点的进程编号，这个参数其实就充当了local_rank, 所谓的local_rank是指的训练进程在当前节点的序号，前面说的 rank 其实是全局的进程序号，这个参数很重要，因为要根据这个参数来设置每个进程所使用的 device 设备，一般情况下，直接认为local_rank即为所采用的GPU编号，设置如下：

torch.cuda.set_device(args.local_rank)  # before your code runs

# set DDP
model = torch.nn.parallel.DistributedDataParallel(model, device_ids=[local_rank], output_device=local_rank)

# 或者
with torch.cuda.device(args.local_rank):
    # your code to run

除了采用mp.spawn，还可以采用torch.distributed.launch来启动程序（Distributed communication package - torch.distributed），这个是更常用的启动方式。比如对于单机多卡训练，其启动方式如下：

python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE
           YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3 and all other arguments of your training script)

其中NUM_GPUS_YOU_HAVE是GPU的总量，而YOUR_TRAINING_SCRIPT.py是训练的脚本，其和上述基本一致，不过区别是采用torch.distributed.launch启动，会自动设置一些环境变量（https://github.com/pytorch/pytorch/blob/master/torch/distributed/run.py#L211），比如我们需要的RANK和WORLD_SIZE 就直接可以从环境变量中获取：

rank = int(os.environ["RANK"])
world_size = int(os.environ['WORLD_SIZE'])

对于local_rank的获取有两种方式：
1）一种是在训练脚本添加一个命令行参数，程序启动时会对其自动赋值：

import argparse
parser = argparse.ArgumentParser()
parser.add_argument("--local_rank", type=int)
args = parser.parse_args()

local_rank = args.local_rank

2）另外一种方式采用torch.distributed.launch启动加上--use_env=True，此时情况下会设置LOCAL_RANK这个环境变量，就可以从环境变量中获取local_rank：

"""
python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE --use_env=True
           YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3 and all other arguments of your training script)
"""
import os
local_rank = int(os.environ["LOCAL_RANK"])

对于多机多卡训练，比如2个node，其启动命令如下所示：

# Node 1: (IP: 192.168.1.1, and has a free port: 1234)
python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE --nnodes=2 --node_rank=0 --master_addr="192.168.1.1"
           --master_port=1234 YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3 and all other arguments of your training script)

# Node 2
python -m torch.distributed.launch --nproc_per_node=NUM_GPUS_YOU_HAVE --nnodes=2 --node_rank=1 --master_addr="192.168.1.1"
           --master_port=1234 YOUR_TRAINING_SCRIPT.py (--arg1 --arg2 --arg3 and all other arguments of your training script)

这里

--nnodes表示传入node数目
--node_rank表示传入node的编号
world_size=nnodes*nproc_per_node。

不过最新版本的PyTorch推出了torchrun来替代torch.distributed.launch。 torchrun和torch.distributed.launch的用法基本一致，不过弃用了--use_env命令，直接将local_rank设置在环境变量中，目前最新版本的torchvision是采用torchrun启动方式，具体见 vision/references/classification at main · pytorch/vision。

混合精度训练（采用apex）

安装Apex：

git clone https://github.com/NVIDIA/apex
cd apex
# if pip >= 23.1 (ref: https://pip.pypa.io/en/stable/news/#v23-1) which supports multiple `--config-settings` with the same key... 
pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --config-settings "--build-option=--cpp_ext" --config-settings "--build-option=--cuda_ext" ./
# otherwise
pip install -v --disable-pip-version-check --no-cache-dir --no-build-isolation --global-option="--cpp_ext" --global-option="--cuda_ext" ./

Apex官方文档：Apex (A PyTorch Extension)

混合精度训练（浮点（FP32）和半精度（FP16）相结合的训练）使我们能够使用更大的batch_size，并利用NVIDIA Tensor Cores实现更快的计算。AWS p3实例使用带有Tensor内核的NVIDIA Tesla V100 GPU。采用NVIDIA的apex进行混合精度训练非常简单，只需要修改部分代码：

def train(gpu, args):
    ############################################################
    rank = args.nr * args.gpus + gpu
    dist.init_process_group(backend='nccl', init_method='env://', world_size=args.world_size, rank=rank)
    ############################################################
    torch.manual_seed(0)
    model = ConvNet()
    torch.cuda.set_device(gpu)
    model.cuda(gpu)
    batch_size = 100
    # define loss function (criterion) and optimizer
    criterion = nn.CrossEntropyLoss().cuda(gpu)
    optimizer = torch.optim.SGD(model.parameters(), 1e-4)
    ############################################################
    # Wrap the model
    model, optimizer = amp.initialize(model, optimizer, opt_level='O2')
    model = DDP(model)
    ############################################################

    # Data loading code
    train_dataset = torchvision.datasets.MNIST(root='./data', train=True, transform=transforms.ToTensor(),
                                               download=True)
    ############################################################
    # train_sampler = torch.utils.data.distributed.DistributedSampler(dataset=train_dataset, num_replicas=args.world_size,
    #                                                                 rank=rank)
    # train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=False,
    #                                            num_workers=0, pin_memory=True, sampler=train_sampler)
    train_loader = torch.utils.data.DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True,
                                               num_workers=0, pin_memory=True)
    ############################################################

    start = datetime.now()
    total_step = len(train_loader)
    for epoch in range(args.epochs):
        for i, (images, labels) in enumerate(train_loader):
            images = images.cuda(non_blocking=True)
            labels = labels.cuda(non_blocking=True)
            # Forward pass
            outputs = model(images)
            loss = criterion(outputs, labels)

            # Backward and optimize
            optimizer.zero_grad()
            ############################################################
            with amp.scale_loss(loss, optimizer) as scaled_loss:
                scaled_loss.backward()
            ############################################################
            optimizer.step()
            if (i + 1) % 100 == 0 and gpu == 0:
                print('Epoch [{}/{}], Step [{}/{}], Loss: {:.4f}'.format(epoch + 1, args.epochs, i + 1, total_step,
                                                                         loss.item()))
    if gpu == 0:
        print("Training complete in: " + str(datetime.now() - start))

其实就两处变化:

首先是采用amp.initialize来包装model和optimizer以支持混合精度训练，其中opt_level指的是优化级别，如果为O0（使用all floats）或者O3（使用half-precision throughout）不是真正的混合精度，但是可以用来确定模型效果和速度的baseline，而O1和O2是混合精度的两种设置，可以选择某个进行混合精度训练，其详细信息可以在Apex文档中找到。
另外一处是在进行根据梯度更新参数前，要先通过amp.scale_loss对梯度进行scale以防止梯度下溢（underflowing）。此外，你还可以用apex.parallel.DistributedDataParallel替换nn.DistributedDataParallel。

是的，所有这些代码中的第一个字符是大写字母“O”，而第二个字符是数字。是的，如果用零来代替，会得到一条令人费解的错误消息。

apex.parallel.distributedDataParallel是nn.distributedDataParallear的一个替换。不再需要指定GPU，因为Apex每个process只允许一个GPU。它还假设脚本在将模型移动到GPU之前调用torch.cuda.set_device(local_rank)。

混合精度训练要求对损失进行缩放，以防止梯度下溢。Apex会自动做到这一点。

此脚本的运行方式与分布式训练脚本相同。

python without_multiprocessing.py -n 1 -g 4 -nr 0

另外，新版本的PyTorch已经内置混合精度训练，具体见AUTOMATIC MIXED PRECISION PACKAGE - TORCH.AMP添加链接描述。而且PyTorch官方的分布式实现现在已经比较完善，而且性能和效果都不错，可以替代的方案是horovod，不仅支持PyTorch还支持TensorFlow和MXNet框架，实现起来也是比较容易的，速度方面也不错。

参考资料

Distributed data parallel training in Pytorch
在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练
PyTorch分布式训练简明教程(2022更新版)
分布式训练框架Horovod

你可能感兴趣的:(深度学习与人工智能,PyTorch,分布式训练,Distributed,Apex,混合精度训练,分布式机器学习,Horovod)

万字深度解析：DeepSeek-V3为何成为大模型时代的“速度之王“？羊不白丶大模型算法
引言在AI军备竞赛白热化的2024年，DeepSeek-V3以惊人的推理速度震撼业界：相比前代模型推理速度提升3倍，训练成本降低70%。这背后是十余项革命性技术的叠加创新，本文将为您揭开这艘"AI超跑"的性能密码。DeepSeek-V3的技术路径证明：计算效率的本质是知识组织的效率。其MoE架构中2048个专家的动态协作，恰似人脑神经网络的模块化运作——每个专家不再是被动执行计算的"劳工"，而是具
包管理工具她的双马尾 JS javascript 包管理工具 npm yarn pnpm
JavaScript包管理工具对比：npm、yarn和pnpm1.npm1.1历史与背景npm（NodePackageManager）是Node.js的默认包管理工具，首次发布于2010年。它是JavaScript生态系统中最早的包管理工具，主要用于管理和共享JavaScript模块。目前，npm拥有全球最大的JavaScript包注册中心（npmregistry），包含数百万个开源包。1.2核心
【React】List使用QueueAnim动画效果不生效——QueueAnim与函数组件兼容性问题 Yvette-W React react.js list 前端前端框架 javascript
版本：“antd-mobile”:“^5.37.1”,“rc-queue-anim”:“^2.0.0”,问题在使用QueueAnim时，如果动画的子元素是AntDesignMobile中的组件（如List.Item），可能会遇到动画不生效的问题，并且会看到类似以下警告：Warning:Functioncomponentscannotbegivenrefs.Attemptstoaccessthisr
Spring Boot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南 QQ828929QQ spring boot 后端 java
SpringBoot拦截器（Interceptor）与过滤器（Filter）深度解析：区别、实现与实战指南一、核心概念对比1.本质区别维度过滤器（Filter）拦截器（Interceptor）规范层级Servlet规范（J2EE标准）SpringMVC框架机制作用范围所有请求（包括静态资源）只处理Controller请求依赖关系不依赖Spring容器完全集成SpringIOC容器执行顺序最先执行（
OpenStack 云平台的深度定制与性能优化算法探索者 openstack
引言OpenStack作为一款领先的开源云平台，以其高度的灵活性和可扩展性，为企业构建云计算基础设施提供了强大的支持。然而，不同企业的业务场景和技术需求千差万别，原生的OpenStack部署往往无法完全满足企业特定的要求。因此，对OpenStack云平台进行深度定制，并在此基础上进行性能优化，成为了企业充分发挥OpenStack优势、提升云服务质量的关键。本文将深入探讨如何针对企业特定需求对Ope
Seata分布式事务框架及四种模式原理解析 Cloud_. 分布式 seata java Seata-AX Seata-AT
一、Seata核心概念Seata（SimpleExtensibleAutonomousTransactionArchitecture）是阿里开源的分布式事务解决方案，核心思想是通过事务协调器（TC）统一管理全局事务分支的状态，协调资源管理器（RM）和事务管理器（TM）完成事务的提交与回滚。核心组件：TC(TransactionCoordinator)：全局事务协调者，维护全局事务状态，驱动分支事务
Spring Boot 整合 RabbitMQ：注解声明队列与交换机详解 Cloud_. java-rabbitmq spring boot rabbitmq MQ 消息队列
RabbitMQ作为一款高性能的消息中间件，在分布式系统中广泛应用。SpringBoot通过spring-boot-starter-amqp提供了对RabbitMQ的无缝集成，开发者可以借助注解快速声明队列、交换机及绑定规则，极大简化了配置流程。本文将通过代码示例和原理分析，详细介绍如何用注解实现RabbitMQ的集成，并深入解析交换机的作用与类型。一、环境准备1.添加依赖在pom.xml中引入S
【STM32实物】基于STM32的扫地机器人/小车控制系统设计阿齐Archie 单片机项目合集 stm32 机器人单片机 mcu
基于STM32的扫地机器人/小车控制系统设计演示视频：基于STM32的扫地机器人小车控制系统设计简介：扫地机器人系统采用分层结构设计，主要包括底层硬件控制层、中间数据处理层和上层用户交互层。底层硬件控制层负责对各个硬件模块进行控制和数据采集，中间数据处理层负责对采集到的数据进行处理和解算，上层用户交互层负责与用户进行交互并显示系统状态信息。主控模块采用STM32F103C8T6开发板，具有高性能、
AtCoder Beginner Contest 156题解（未完） wdxcqupt 算法 c++
AtCoderBeginnerContest156D-Bouquet题意：一共有n种不同的花，问将x种花组成一束花的方案数，1<=x<=n，x!=a，x!=b。思路：补集思想，总共有∑i=1n\sum_{i=1}^n∑i=1nCniC_n^iCni=2n−12^n-12n−1,种方案，不合情况的有CnaC_n^aCna与CnbC_n^bCnb减去即是答案。E-Roaming题意：有n个房间，每个房
roaming是什么文件夹？石大师 Windows系统 windows
不少用户向小编发出疑问：roaming是什么文件夹？roaming文件夹是一种可以很容易地与服务器同步的文件夹，它的数据可以随用户的个人资料从一台PC移动到另一台PC中。那roaming文件夹在哪呢？下面就给大家介绍一下roaming的位置。Roaming文件夹是什么？Roaming文件夹是一种可以很容易地与服务器同步的文件夹。它的数据可以随用户的个人资料从一台PC移动到另一台PC——就像当您在w
最常用的Linux指令手册忍界英雄 linux 运维服务器
最常用的Linux指令手册一、远程连接1.连接远程服务器[email protected]二、文件与目录操作2.查看目录内容ls：查看目录内容、ls-l：显示详细信息、ls-al/home：包含隐藏文件3.显示当前路径pwd4.切换目录cd/var/www/html5.创建文件touchfile1.txtfile2.txt、touchlinode{1..10}.txt:创建文件6.写入文件
What's new in dubbo-go v3.3.0
我们dubbogo社区很高兴地宣布发布最新版本v3.3.0！这一版本带来了多个Bug修复、新特性以及代码优化，显著提升了dubbogo的稳定性与功能性。版本亮点在本次更新中，我们对多个核心组件进行了改进，以解决服务发现、注册中心相关的问题，并优化内存管理，减少内存泄漏。此外，我们增强了底层通信库的错误处理能力，并提升了系统的整体稳定性，为Go开发者提供更强大、更可靠的微服务开发体验。本次更新的主要
亿级流量架构网关设计思路，常用网关对比，写得太好了。。 wadfdhsajd java 后端框架大数据
什么是网关网关,很多地方将网关比如成门,没什么问题,但是需要区分网关与网桥的区别,网桥工作在数据链路层，在不同或相同类型的LAN之间存储并转发数据帧，必要时进行链路层上的协议转换。可连接两个或多个网络，在其中传送信息包。网关是一个大概念，不具体特指一类产品，只要连接两个不同的网络都可以叫网关,网桥一般只转发信息,而网关可能进行包装。网关通俗理解根据网关的特性,举个例子:假如你要去找集团老板(这儿只
AI人工智能软件开发方案：开启智能时代的创新钥匙广州硅基技术官方人工智能
一、引言：AI浪潮下的软件开发新机遇近年来，人工智能（AI）技术的迅猛发展如同一股汹涌澎湃的浪潮，席卷了全球各个领域。从最初的概念提出到如今的广泛应用，AI历经了漫长的发展历程，终于迎来了属于它的黄金时代。回首过去，AI的发展并非一帆风顺，早期由于计算能力和算法的限制，经历了多次起伏。但随着大数据、云计算、机器学习、深度学习等技术的不断突破，AI迎来了爆发式增长。如今，AI已经深入到人们生活和工作
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现） @M_J_Y@ 目标检测 YOLO 计算机视觉目标检测 python
YOLOV8多模态(可见光+红外光，基于Ultralytics官方代码实现）各位读者麻烦给个star或者fork，求求了。YOLOV8双分支模型架构图YOLOV8多模态目标检测前言：环境配置要求1.数据集DroneVehicle数据集(可见光+热红外)2.数据集文件格式(labeles:YOLO格式)3.权重文件下载4.配置模型yaml文件和数据集yaml文件5.训练6.测试7.打印模型信息8.o
【费马小定理】【欧拉定理】【扩展欧拉定理】及其证明 syzyc 数论数论
费马小定理&欧拉定理及其证明注：此文所提到的“整数”“素数”等均指正数费马小定理对于一个素数ppp，任意整数aaa，若gcd⁡(a,p)=1\gcd(a,p)=1gcd(a,p)=1（即aaa，ppp互质），则：ap−1≡1(modp)a^{p-1}\equiv1\pmod{p}ap−1≡1(modp)证明先找出所有小于等于ppp的与ppp互质的正整数，为序列A={1,2,3,…,p−1}A=\{
深度学习框架PyTorch——从入门到精通（6.2）自动微分机制 Fansv587 深度学习 pytorch 人工智能经验分享 python 机器学习
本节自动微分机制是上一节自动微分的扩展内容自动微分是如何记录运算历史的保存张量非可微函数的梯度在本地设置禁用梯度计算设置requires_grad梯度模式（GradModes）默认模式（梯度模式）无梯度模式推理模式评估模式（`nn.Module.eval()`）自动求导中的原地操作原地操作的正确性检查多线程自动求导CPU上的并发不确定性计算图保留自动求导节点的线程安全性C++钩子函数不存在线程安全
使用AirtableLoader轻松加载数据到Python bavDHAUO python 开发语言
在现代软件开发中，数据的管理与使用非常关键。Airtable作为一种灵活的数据库应用，提供了简便且强大的数据处理方式。而通过使用AirtableLoader这种工具，可以轻松地将Airtable中的数据加载到Python项目中进行处理。技术背景介绍Airtable是一款集电子表格和数据库功能于一体的工具，它以其简单易用、强大的扩展性而受到众多开发者的喜爱。AirtableLoader是一个文档加载
操作系统高频（一）线程与进程 HUZ_小Z 开发语言操作系统课程设计笔记经验分享
操作系统高频（一）线程与进程1.什么是线程？进程，线程，彼此有什么区别？⭐⭐⭐进程进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配的基本单位。是操作系统结构的基础。进程是线程的容器。程序是指令、数据及其组织形式的描述，进程是程序的实体。线程线程是操作系统最小的运算调度单位。线程包含在进程中，是进程中实际执行任务的单位。在一些操作系统中，线程也被称为轻量级进程
【Python工具】Jupyter Notebook常用快捷键清平乐的技术博客 Python高级应用由浅入深学Python jupyter ide python
1.JupyterNotebook的启动与停止环境为Windows10系统首先win+R进入命令提示符cmd，用cd命令切换到工作目录，键入命令jupyternotebook2.JupyterNotebook常用快捷键2.1模式切换当前cell侧边为蓝色时，表示此时为命令模式，按Enter切换为编辑模式当前cell侧边为绿色时，表示此时为编辑模式，按Esc切换为命令模式2.2命令模式快捷键H：显示
Deepseek和豆包在技术创新方面有哪些相同点与不同点？ alankuo 人工智能
Deepseek和豆包在技术创新方面的相同点与不同点如下：相同点架构基础：都以Transformer架构为基础进行开发。Transformer架构能有效处理长序列数据，捕捉文本语义信息，为模型性能提供基础。混合专家模型（MoE）应用：都采用了MoE架构。该架构将模型拆分为多个“专家”，训练和推理时让不同“专家”负责不同任务或数据子集，提高模型表达能力和效率，降低训练成本。模型优化以提升性能：都通过
如何使用LABVIEW调用BarTender的子程序：Bartender API调用测试，LABVIEW高效调用BarTender子程序的Bartender API实践 QZtcYmIYnDal labview 程序人生
BartenderAPI的调用本测试是LABVIEW怎么调用BarTender的子程序，可供调用。ID:89200597584724364行走的CdBartenderAPI的调用在软件开发领域，集成不同系统或工具的功能已经成为常见的需求。而在某些特定的行业或领域，如标签打印和条码管理，BarTender是一款备受欢迎的软件。BarTender作为一种强大的标签和条码设计与打印解决方案，能够满足各种
电力电子仿真：整流器仿真_（14）.电力电子电路设计与仿真实践 kkchenkx 电子电力仿真单片机嵌入式硬件电子电力仿真 matlab
电力电子电路设计与仿真实践1.电力电子电路的基本概念1.1电力电子电路的定义电力电子电路是指用于电能变换和控制的电路。它通常由电力电子器件（如二极管、晶闸管、MOSFET、IGBT等）组成，通过这些器件的开关动作，实现对电能的高效转换和精确控制。电力电子电路广泛应用于电源、电机驱动、电力系统、可再生能源等领域。1.2电力电子电路的分类电力电子电路根据其功能可以分为以下几类：AC-DC整流器：将交流
display属性书199 css
filter属性定义了元素(通常是)的可视效果(例如：模糊与饱和度)。1、grayscale灰度（值为0-1之间的小数）filter:grayscale(1);-webkit-filter:grayscale(1);0表示灰度为0%，显示原图，1表示灰度为100%灰色。2、sepia褐色（值为0-1之间的小数）filter:sepia(1);-webkit-filter:sepia(1);0表示褐
Angular与Laravel的CSRF问题探讨与解决 t0_54manong 编程问题解决手册 angular.js laravel csrf 个人开发
在现代Web开发中，安全性是一个不容忽视的关键问题。跨站请求伪造（CSRF）攻击是常见的安全威胁之一，幸运的是，Laravel框架已经为我们提供了强大的CSRF保护机制。然而，当我们将Angular前端与Laravel后端集成时，可能会遇到一些CSRF相关的挑战。今天我们将通过一个具体的案例来探讨如何解决Angular与Laravel之间的CSRF问题。背景介绍假设我们有一个使用Angular开发
学习Video.js 前端熊猫 Video Player 学习
查阅官方文档，学习video.js相关属性、回调与方法：播放器选项设置①标准的video标签属性②data-setup属性传递JSON③创建播放器实例以第二个参数配置videojs('my-player',{controls:true,autoplay:false,preload:'auto'});//修改选项varplayer=videojs('my-player');player.option
神经网络中层与层之间的关联 iisugar 神经网络深度学习计算机视觉
目录1.层与层之间的核心关联：数据流动与参数传递1.1数据流动（ForwardPropagation）1.2参数传递（BackwardPropagation）2.常见层与层之间的关联模式2.1典型全连接网络（如手写数字分类）2.2卷积神经网络（CNN，如图像分类）2.3循环神经网络（RNN/LSTM，如文本生成）2.4Transformer（如机器翻译）3.层间关联的核心原则3.1数据传递的“管道
前端请求怎么发送到后端：深度剖析与实用指南 dhfnngte24fhfn python django pygame virtualenv
前端请求怎么发送到后端：深度剖析与实用指南在web开发中，前端与后端之间的通信是至关重要的。前端通过发送请求来获取后端的数据或执行某些操作，而后端则负责处理这些请求并返回相应的响应。本文将分四个方面、五个方面、六个方面和七个方面，深入剖析前端请求是如何发送到后端的，并为你提供实用的指南。四个方面：请求与响应的基础首先，我们需要了解前端请求与后端响应的基础概念。前端通过HTTP协议向后端发送请求，后
SAP-ABAP：SAP BW模块架构与实战应用详解爱喝水的鱼丶 ABAP开发之必须知道的 VIP详情查看专栏 SAP-ABAP开发基础详解开发语言 SAP ABAP ERP 开发运维
SAPBW模块架构与实战应用详解—##一、核心架构分层设计###1.数据仓库层（DataWarehousingLayer）|组件|功能说明|典型对象||-------------------|--------------------------------------------------------------------------|-----------------------------
云原生工程师必修课：如何揪出“假忙真闲”的应用元凶 YAMLMaster 面试题 kubernetes 运维开发 devops
Tagamanent,Spain引言这是一个再经典不过的面试题了，希望大家能学到精髓。开始介绍在分布式系统和高并发场景中，高负载（HighLoad）与低使用率（LowUtilization）的共存矛盾是运维和开发者的常见挑战。这种问题往往隐蔽性强，传统监控指标难以直接定位根因。本文从系统层、应用层、架构层多维度拆解，提供一套完整的排查与优化方法论。核心概念厘清•负载（Load）：系统当前待处理任务
jQuery 键盘事件keydown ,keypress ,keyup介绍 107x js jquery keydown keypress keyup
本文章总结了下些关于jQuery 键盘事件keydown ,keypress ,keyup介绍，有需要了解的朋友可参考。一、首先需要知道的是： 1、keydown() keydown事件会在键盘按下时触发. 2、keyup() 代码如下复制代码 $('input').keyup(funciton(){
AngularJS中的Promise bijian1013 JavaScript AngularJS Promise
一.Promise Promise是一个接口，它用来处理的对象具有这样的特点：在未来某一时刻（主要是异步调用）会从服务端返回或者被填充属性。其核心是，promise是一个带有then()函数的对象。为了展示它的优点，下面来看一个例子，其中需要获取用户当前的配置文件： var cu
c++ 用数组实现栈类 CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T, int SIZE = 50> class Stack{ private: T list[SIZE];//数组存放栈的元素 int top;//栈顶位置 public: Stack(
java和c语言的雷同麦田的设计者 java 递归 scaner
软件启动时的初始化代码，加载用户信息2015年5月27号从头学java二 1、语言的三种基本结构：顺序、选择、循环。废话不多说，需要指出一下几点： a、return语句的功能除了作为函数返回值以外，还起到结束本函数的功能，return后的语句不会再继续执行。 b、for循环相比于whi
LINUX环境并发服务器的三种实现模型被触发 linux
服务器设计技术有很多，按使用的协议来分有TCP服务器和UDP服务器。按处理方式来分有循环服务器和并发服务器。 1 循环服务器与并发服务器模型在网络程序里面，一般来说都是许多客户对应一个服务器，为了处理客户的请求，对服务端的程序就提出了特殊的要求。目前最常用的服务器模型有： ·循环服务器：服务器在同一时刻只能响应一个客户端的请求 ·并发服务器：服
Oracle数据库查询指令肆无忌惮_ oracle数据库
20140920 单表查询 -- 查询************************************************************************************************************ -- 使用scott用户登录 -- 查看emp表 desc emp
ext右下角浮动窗口知了ing JavaScript ext
第一种 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/
浅谈REDIS数据库的键值设计矮蛋蛋 redis
http://www.cnblogs.com/aidandan/ 原文地址：http://www.hoterran.info/redis_kv_design 丰富的数据结构使得redis的设计非常的有趣。不像关系型数据库那样，DEV和DBA需要深度沟通，review每行sql语句，也不像memcached那样，不需要DBA的参与。redis的DBA需要熟悉数据结构，并能了解使用场景。
maven编译可执行jar包 alleni123 maven
http://stackoverflow.com/questions/574594/how-can-i-create-an-executable-jar-with-dependencies-using-maven <build> <plugins> <plugin> <artifactId>maven-asse
人力资源在现代企业中的作用百合不是茶 HR 企业管理
//人力资源在在企业中的作用人力资源为什么会存在，人力资源究竟是干什么的人力资源管理是对管理模式一次大的创新，人力资源兴起的原因有以下点：工业时代的国际化竞争，现代市场的风险管控等等。所以人力资源在现代经济竞争中的优势明显的存在，人力资源在集团类公司中存在着明显的优势(鸿海集团)，有一次笔者亲自去体验过红海集团的招聘，只知道人力资源是管理企业招聘的当时我被招聘上了，当时给我们培训的人
Linux自启动设置详解 bijian1013 linux
linux有自己一套完整的启动体系，抓住了linux启动的脉络，linux的启动过程将不再神秘。阅读之前建议先看一下附图。本文中假设inittab中设置的init tree为： /etc/rc.d/rc0.d /etc/rc.d/rc1.d /etc/rc.d/rc2.d /etc/rc.d/rc3.d /etc/rc.d/rc4.d /etc/rc.d/rc5.d /etc
Spring Aop Schema实现 bijian1013 java spring AOP
本例使用的是Spring2.5 1.Aop配置文件spring-aop.xml <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmln
【Gson七】Gson预定义类型适配器 bit1129 gson
Gson提供了丰富的预定义类型适配器，在对象和JSON串之间进行序列化和反序列化时，指定对象和字符串之间的转换方式， DateTypeAdapter public final class DateTypeAdapter extends TypeAdapter<Date> { public static final TypeAdapterFacto
【Spark八十八】Spark Streaming累加器操作（updateStateByKey) bit1129 update
在实时计算的实际应用中，有时除了需要关心一个时间间隔内的数据，有时还可能会对整个实时计算的所有时间间隔内产生的相关数据进行统计。比如：对Nginx的access.log实时监控请求404时，有时除了需要统计某个时间间隔内出现的次数，有时还需要统计一整天出现了多少次404，也就是说404监控横跨多个时间间隔。 Spark Streaming的解决方案是累加器，工作原理是，定义
linux系统下通过shell脚本快速找到哪个进程在写文件 ronin47
一个文件正在被进程写我想查看这个进程文件一直在增大找不到谁在写使用lsof也没找到这个问题挺有普遍性的，解决方法应该很多，这里我给大家提个比较直观的方法。 linux下每个文件都会在某个块设备上存放，当然也都有相应的inode, 那么透过vfs.write我们就可以知道谁在不停的写入特定的设备上的inode。幸运的是systemtap的安装包里带了inodewatch.stp，位
java-两种方法求第一个最长的可重复子串 bylijinnan java 算法
import java.util.Arrays; import java.util.Collections; import java.util.List; public class MaxPrefix { public static void main(String[] args) { String str="abbdabcdabcx";
Netty源码学习-ServerBootstrap启动及事件处理过程 bylijinnan java netty
Netty是采用了Reactor模式的多线程版本，建议先看下面这篇文章了解一下Reactor模式： http://bylijinnan.iteye.com/blog/1992325 Netty的启动及事件处理的流程，基本上是按照上面这篇文章来走的文章里面提到的操作，每一步都能在Netty里面找到对应的代码其中Reactor里面的Acceptor就对应Netty的ServerBo
servelt filter listener 的生命周期 cngolon filter listener servelt 生命周期
1. servlet 当第一次请求一个servlet资源时，servlet容器创建这个servlet实例，并调用他的 init(ServletConfig config)做一些初始化的工作，然后调用它的service方法处理请求。当第二次请求这个servlet资源时，servlet容器就不在创建实例，而是直接调用它的service方法处理请求，也就是说
jmpopups获取input元素值 ctrain JavaScript
jmpopups 获取弹出层form表单首先，我有一个div，里面包含了一个表单，默认是隐藏的，使用jmpopups时，会弹出这个隐藏的div，其实jmpopups是将我们的代码生成一份拷贝。当我直接获取这个form表单中的文本框时，使用方法：$('#form input[name=test1]').val()；这样是获取不到的。我们必须到jmpopups生成的代码中去查找这个值，$(
vi查找替换命令详解 daizj linux 正则表达式替换查找 vim
一、查找查找命令 /pattern<Enter> ：向下查找pattern匹配字符串 ?pattern<Enter>：向上查找pattern匹配字符串使用了查找命令之后，使用如下两个键快速查找： n：按照同一方向继续查找 N：按照反方向查找字符串匹配 pattern是需要匹配的字符串，例如： 1: /abc<En
对网站中的js,css文件进行打包 dcj3sjt126com PHP 打包
一，为什么要用smarty进行打包 apache中也有给js,css这样的静态文件进行打包压缩的模块，但是本文所说的不是以这种方式进行的打包，而是和smarty结合的方式来把网站中的js,css文件进行打包。为什么要进行打包呢，主要目的是为了合理的管理自己的代码。现在有好多网站，你查看一下网站的源码的话，你会发现网站的头部有大量的JS文件和CSS文件，网站的尾部也有可能有大量的J
php Yii: 出现undefined offset 或者 undefined index解决方案 dcj3sjt126com undefined
在开发Yii 时，在程序中定义了如下方式： if($this->menuoption[2] === 'test')，那么在运行程序时会报：undefined offset:2，这样的错误主要是由于php.ini 里的错误等级太高了，在windows下错误等级
linux 文件格式（1） sed工具 eksliang linux linux sed工具 sed工具 linux sed详解
转载请出自出处： http://eksliang.iteye.com/blog/2106082 简介 sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾
Android应用程序获取系统权限 gqdy365 android
引用如何使Android应用程序获取系统权限第一个方法简单点，不过需要在Android系统源码的环境下用make来编译： 1. 在应用程序的AndroidManifest.xml中的manifest节点
HoverTree开发日志之验证码 hvt .net C#asp.net hovertree webform
HoverTree是一个ASP.NET的开源CMS，目前包含文章系统，图库和留言板功能。代码完全开放，文章内容页生成了静态的HTM页面，留言板提供留言审核功能，文章可以发布HTML源代码，图片上传同时生成高品质缩略图。推出之后得到许多网友的支持，再此表示感谢！留言板不断收到许多有益留言，但同时也有不少广告，因此决定在提交留言页面增加验证码功能。ASP.NET验证码在网上找，如果不是很多，就是特别多
JSON API：用 JSON 构建 API 的标准指南中文版 justjavac json
译文地址：https://github.com/justjavac/json-api-zh_CN 如果你和你的团队曾经争论过使用什么方式构建合理 JSON 响应格式，那么 JSON API 就是你的 anti-bikeshedding 武器。通过遵循共同的约定，可以提高开发效率，利用更普遍的工具，可以是你更加专注于开发重点：你的程序。基于 JSON API 的客户端还能够充分利用缓存，
数据结构随记_2 lx.asymmetric 数据结构笔记
第三章栈与队列一．简答题 1. 在一个循环队列中，队首指针指向队首元素的前一个位置。 2.在具有n个单元的循环队列中，队满时共有 n-1 个元素。 3. 向栈中压入元素的操作是先移动栈顶指针&n
Linux下的监控工具dstat 网络接口 linux
1) 工具说明dstat是一个用来替换 vmstat,iostat netstat,nfsstat和ifstat这些命令的工具, 是一个全能系统信息统计工具. 与sysstat相比, dstat拥有一个彩色的界面, 在手动观察性能状况时, 数据比较显眼容易观察; 而且dstat支持即时刷新, 譬如输入dstat 3, 即每三秒收集一次, 但最新的数据都会每秒刷新显示. 和sysstat相同的是,
C 语言初级入门--二维数组和指针 1140566087 二维数组 c/c++指针
/* 二维数组的定义和二维数组元素的引用二维数组的定义：当数组中的每个元素带有两个下标时，称这样的数组为二维数组； (逻辑上把数组看成一个具有行和列的表格或一个矩阵); 语法：类型名数组名[常量表达式1][常量表达式2] 二维数组的引用：引用二维数组元素时必须带有两个下标，引用形式如下：例如： int a[3][4]; 引用：
10点睛Spring4.1-Application Event wiselyman application
10.1 Application Event Spring使用Application Event给bean之间的消息通讯提供了手段应按照如下部分实现bean之间的消息通讯继承ApplicationEvent类实现自己的事件实现继承ApplicationListener接口实现监听事件使用ApplicationContext发布消息