视学算法

「新生手册」：PyTorch分布式训练

点击上方“视学算法”，选择加"星标"或“置顶”

重磅干货，第一时间送达

作者丨花花@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/360405558

编辑丨极市平台

导读

本文重点介绍了PyTorch原生的分布式数据并行(DDP) 及其用法。

0X01 分布式并行训练概述

最常被提起，容易实现且使用最广泛的，莫过于数据并行(Data Parallelism) 技术，其核心思想是将大batch划分为若干小barch分发到不同device并行计算，解决单GPU显存不足的限制。与此同时，当单GPU无法放下整个模型时，我们还需考虑 模型并行(Model / Pipeline Parallelism)。如考虑将模型进行纵向切割，不同的Layers放在不同的device上。或是将某些模块进行横向切割，通过矩阵运算进行加速。当然，还存在一些非并行的技术或者技巧，用于解决训练效率或者训练显存不足等问题。

本文的重点是介绍PyTorch原生的分布式数据并行(DDP) 及其用法，其他的内容，我们后面再聊(如果有机会的话qwq)。
这里我草率地将当前深度学习的大规模分布式训练技术分为如下三类：

Data Parallelism (数据并行)
- Naive：每个worker存储一份model和optimizer，每轮迭代时，将样本分为若干份分发给各个worker，实现并行计算
- ZeRO: Zero Redundancy Optimizer，微软提出的数据并行内存优化技术，核心思想是保持Naive数据并行通信效率的同时，尽可能降低内存占用（https://arxiv.org/abs/1910.02054）
Model/Pipeline Parallelism (模型并行)
- Naive: 纵向切割模型，将不同的layers放到不同的device上，按顺序进行正/反向传播（https://pytorch.org/tutorials/intermediate/model_parallel_tutorial.html）
- GPipe：小批量流水线方式的纵向切割模型并行（https://proceedings.neurips.cc/paper/2019/file/093f65e080a295f8076b1c5722a46aa2-Paper.pdf）
- Megatron-LM：Tensor-slicing方式的模型并行加速（https://github.com/NVIDIA/Megatron-LM）
Non-parallelism approach (非并行技术)
- Gradient Accumulation: 通过梯度累加的方式解决显存不足的问题，常用于模型较大，单卡只能塞下很小的batch的并行训练中（https://www.zhihu.com/question/303070254）
- CPU Offload: 同时利用 CPU 和 GPU 内存来训练大型模型，即存在GPU-CPU-GPU的 transfers操作（https://www.deepspeed.ai/tutorials/zero-offload/）
- etc.：还有很多不一一罗列(如Checkpointing, Memory Efficient Optimizer等)

不过这里我强推一下 DeepSpeed，微软在2020年开源的一个对PyTorch的分布式训练进行优化的库，让训练百亿参数的巨大模型成为可能，其提供的 3D-parallelism (DP+PP+MP)的并行技术组合，能极大程度降低大模型训练的硬件条件以及提高训练的效率

0X02 Pytorch分布式数据并行

将时间拨回2017年，我第一次接触深度学习，早期的TensorFlow使用的是PS(Parameter Server)架构，在结点数量线性增长的情况下，带宽瓶颈格外明显。而随后百度将Ring-Allreduce技术运用到深度学习分布式训练，PyTorch1.0之后香起来的原因也是因为在分布式训练方面做了较大改动，适配多种通信后端，使用RingAllReduce架构。

小提醒 ✊ ，确保你对PyTorch有一定的熟悉程度，此前提下，对如下内容进行学习和了解，基本上就能够handle住大部分的数据并行任务了：

DataParallel 和 DistributedDataParallel 的原理和使用
进程组和 torch.distributed.init_process_group 的原理和使用
集体通信(Collective Communication) 的原理和使用

关于理论的东西，我写了一大堆，最后又全删掉了。原因是我发现已经有足够多的文章介绍 PS/Ring-AllReduce 和 PyTorch DP/DDP 的原理，给出具有代表性的几篇：

PYTORCH DISTRIBUTED OVERVIEW（https://pytorch.org/tutorials/beginner/dist_overview.html）
PyTorch 源码解读之 DP & DDP（https://zhuanlan.zhihu.com/p/343951042）
Bringing HPC Techniques to Deep Learning（https://andrew.gibiansky.com/blog/machine-learning/baidu-allreduce/）

0X03 手把手渐进式实战

那么接下来我们以Step by Step的方式进行实践，你可以直接通过下面的快速索引进行跳转，大部分的解释都包含在代码中，每份代码最后也有使用说明和训练Log记录：

单机单卡 [snsc.py] https://github.com/BIGBALLON/distribuuuu/blob/master/tutorial/snsc.py
单机多卡 (with DataParallel) [snmc_dp.py] https://github.com/BIGBALLON/distribuuuu/blob/master/tutorial/snmc_dp.py
多机多卡 (with DistributedDataParallel)
- torch.distributed.launch [mnmc_ddp_launch.py] https://github.com/BIGBALLON/distribuuuu/blob/master/tutorial/mnmc_ddp_launch.py
- torch.multiprocessing [mnmc_ddp_mp.py] https://github.com/BIGBALLON/distribuuuu/blob/master/tutorial/mnmc_ddp_mp.py
- Slurm Workload Manager [mnmc_ddp_slurm.py] https://github.com/BIGBALLON/distribuuuu/blob/master/tutorial/mnmc_ddp_slurm.py
- ImageNet training example [imagenet.py] https://github.com/BIGBALLON/distribuuuu/blob/master/tutorial/imagenet.py

A. 单机单卡

Single Node Single GPU Card Training, 源码见 snsc.py，后续我们会在此代码上进行修改。简单看一下，单机单卡要做的就是定义网络，定义dataloader，定义loss和optimizer，开训，很简单的几个步骤。

"""(SNSC) Single Node Single GPU Card Training"""import torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transforms
BATCH_SIZE = 256EPOCHS = 5
if __name__ == "__main__":
    # 1. define network    device = "cuda"    net = torchvision.models.resnet18(num_classes=10)    net = net.to(device=device)
    # 2. define dataloader    trainset = torchvision.datasets.CIFAR10(        root="./data",        train=True,        download=True,        transform=transforms.Compose(            [                transforms.RandomCrop(32, padding=4),                transforms.RandomHorizontalFlip(),                transforms.ToTensor(),                transforms.Normalize(                    (0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)                ),            ]        ),    )    train_loader = torch.utils.data.DataLoader(        trainset,        batch_size=BATCH_SIZE,        shuffle=True,        num_workers=4,        pin_memory=True,    )
    # 3. define loss and optimizer    criterion = nn.CrossEntropyLoss()    optimizer = torch.optim.SGD(        net.parameters(),        lr=0.01,        momentum=0.9,        weight_decay=0.0001,        nesterov=True,    )
    print("            =======  Training  ======= \n")
    # 4. start to train    net.train()    for ep in range(1, EPOCHS + 1):        train_loss = correct = total = 0
        for idx, (inputs, targets) in enumerate(train_loader):            inputs, targets = inputs.to(device), targets.to(device)            outputs = net(inputs)
            loss = criterion(outputs, targets)            optimizer.zero_grad()            loss.backward()            optimizer.step()
            train_loss += loss.item()            total += targets.size(0)            correct += torch.eq(outputs.argmax(dim=1), targets).sum().item()
            if (idx + 1) % 50 == 0 or (idx + 1) == len(train_loader):                print(                    "   == step: [{:3}/{}] [{}/{}] | loss: {:.3f} | acc: {:6.3f}%".format(                        idx + 1,                        len(train_loader),                        ep,                        EPOCHS,                        train_loss / (idx + 1),                        100.0 * correct / total,                    )                )
    print("\n            =======  Training Finished  ======= \n")
"""usage:>>> python snsc.py
Files already downloaded and verified            =======  Training  ======= 
   == step: [ 50/196] [1/5] | loss: 1.959 | acc: 28.633%   == step: [100/196] [1/5] | loss: 1.806 | acc: 33.996%   == step: [150/196] [1/5] | loss: 1.718 | acc: 36.987%   == step: [196/196] [1/5] | loss: 1.658 | acc: 39.198%   == step: [ 50/196] [2/5] | loss: 1.393 | acc: 49.578%   == step: [100/196] [2/5] | loss: 1.359 | acc: 50.473%   == step: [150/196] [2/5] | loss: 1.336 | acc: 51.372%   == step: [196/196] [2/5] | loss: 1.317 | acc: 52.200%   == step: [ 50/196] [3/5] | loss: 1.205 | acc: 56.102%   == step: [100/196] [3/5] | loss: 1.185 | acc: 57.254%   == step: [150/196] [3/5] | loss: 1.175 | acc: 57.755%   == step: [196/196] [3/5] | loss: 1.165 | acc: 58.072%   == step: [ 50/196] [4/5] | loss: 1.067 | acc: 60.914%   == step: [100/196] [4/5] | loss: 1.061 | acc: 61.406%   == step: [150/196] [4/5] | loss: 1.058 | acc: 61.643%   == step: [196/196] [4/5] | loss: 1.054 | acc: 62.022%   == step: [ 50/196] [5/5] | loss: 0.988 | acc: 64.852%   == step: [100/196] [5/5] | loss: 0.983 | acc: 64.801%   == step: [150/196] [5/5] | loss: 0.980 | acc: 65.052%   == step: [196/196] [5/5] | loss: 0.977 | acc: 65.076%
            =======  Training Finished  ======= """

B. 单机多卡DP

Single Node Multi-GPU Crads Training (with DataParallel)，源码见 snmc_dp.py, 和 snsc.py 对比一下，DP只需要花费最小的代价，既可以使用多卡进行训练(其实就一行???)，但是因为GIL锁的限制，DP的性能是低于DDP的。

"""(SNMC) Single Node Multi-GPU Crads Training (with DataParallel)Try to compare with smsc.py and find out the differences."""import torchimport torch.nn as nnimport torchvisionimport torchvision.transforms as transforms
BATCH_SIZE = 256EPOCHS = 5
if __name__ == "__main__":
    # 1. define network    device = "cuda"    net = torchvision.models.resnet18(pretrained=False, num_classes=10)    net = net.to(device=device)    # Use single-machine multi-GPU DataParallel,    # you would like to speed up training with the minimum code change.    net = nn.DataParallel(net)
    # 2. define dataloader    trainset = torchvision.datasets.CIFAR10(        root="./data",        train=True,        download=True,        transform=transforms.Compose(            [                transforms.RandomCrop(32, padding=4),                transforms.RandomHorizontalFlip(),                transforms.ToTensor(),                transforms.Normalize(                    (0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)                ),            ]        ),    )    train_loader = torch.utils.data.DataLoader(        trainset,        batch_size=BATCH_SIZE,        shuffle=True,        num_workers=4,        pin_memory=True,    )
    # 3. define loss and optimizer    criterion = nn.CrossEntropyLoss()    optimizer = torch.optim.SGD(        net.parameters(),        lr=0.01,        momentum=0.9,        weight_decay=0.0001,        nesterov=True,    )
    print("            =======  Training  ======= \n")
    # 4. start to train    net.train()    for ep in range(1, EPOCHS + 1):        train_loss = correct = total = 0
        for idx, (inputs, targets) in enumerate(train_loader):            inputs, targets = inputs.to(device), targets.to(device)            outputs = net(inputs)
            loss = criterion(outputs, targets)            optimizer.zero_grad()            loss.backward()            optimizer.step()
            train_loss += loss.item()            total += targets.size(0)            correct += torch.eq(outputs.argmax(dim=1), targets).sum().item()
            if (idx + 1) % 50 == 0 or (idx + 1) == len(train_loader):                print(                    "   == step: [{:3}/{}] [{}/{}] | loss: {:.3f} | acc: {:6.3f}%".format(                        idx + 1,                        len(train_loader),                        ep,                        EPOCHS,                        train_loss / (idx + 1),                        100.0 * correct / total,                    )                )
    print("\n            =======  Training Finished  ======= \n")
"""usage: 2GPUs for training>>> CUDA_VISIBLE_DEVICES=0,1 python snmc_dp.py
Files already downloaded and verified            =======  Training  ======= 
   == step: [ 50/196] [1/5] | loss: 1.992 | acc: 26.633%   == step: [100/196] [1/5] | loss: 1.834 | acc: 32.797%   == step: [150/196] [1/5] | loss: 1.742 | acc: 36.201%   == step: [196/196] [1/5] | loss: 1.680 | acc: 38.578%   == step: [ 50/196] [2/5] | loss: 1.398 | acc: 49.062%   == step: [100/196] [2/5] | loss: 1.380 | acc: 49.953%   == step: [150/196] [2/5] | loss: 1.355 | acc: 50.810%   == step: [196/196] [2/5] | loss: 1.338 | acc: 51.428%   == step: [ 50/196] [3/5] | loss: 1.242 | acc: 55.727%   == step: [100/196] [3/5] | loss: 1.219 | acc: 56.801%   == step: [150/196] [3/5] | loss: 1.200 | acc: 57.195%   == step: [196/196] [3/5] | loss: 1.193 | acc: 57.328%   == step: [ 50/196] [4/5] | loss: 1.105 | acc: 61.102%   == step: [100/196] [4/5] | loss: 1.098 | acc: 61.082%   == step: [150/196] [4/5] | loss: 1.087 | acc: 61.354%   == step: [196/196] [4/5] | loss: 1.086 | acc: 61.426%   == step: [ 50/196] [5/5] | loss: 1.002 | acc: 64.039%   == step: [100/196] [5/5] | loss: 1.006 | acc: 63.977%   == step: [150/196] [5/5] | loss: 1.009 | acc: 63.935%   == step: [196/196] [5/5] | loss: 1.005 | acc: 64.024%
            =======  Training Finished  ======= """

C. 多机多卡DDP

Okay, 下面进入正题，来看一下多机多卡怎么做，虽然上面给出的文章都讲得很明白，但有些概念还是有必要提一下：

进程组的相关概念
- GROUP：进程组，大部分情况下DDP的各个进程是在同一个进程组下
- WORLD_SIZE：总的进程数量 (原则上一个process占用一个GPU是较优的)
- RANK：当前进程的序号，用于进程间通讯，rank = 0 的主机为 master 节点
- LOCAL_RANK：当前进程对应的GPU号

举个栗子：4台机器(每台机器8张卡)进行分布式训练
通过 init_process_group() 对进程组进行初始化
初始化后可以通过 get_world_size() 获取到 world size
在该例中为32，即有32个进程，其编号为0-31<br/>通过 get_rank() 函数可以进行获取在每台机器上，local rank均为0-8，这是 local rank 与 rank 的区别， local rank 会对应到实际的 GPU ID 上
(单机多任务的情况下注意CUDA_VISIBLE_DEVICES的使用
控制不同程序可见的GPU devices)

DDP的基本用法 (代码编写流程)
- 使用 torch.distributed.init_process_group 初始化进程组
- 使用 torch.nn.parallel.DistributedDataParallel 创建 分布式模型
- 使用 torch.utils.data.distributed.DistributedSampler 创建 DataLoader
- 调整其他必要的地方(tensor放到指定device上，S/L checkpoint，指标计算等)
- 使用 torch.distributed.launch / torch.multiprocessing 或 slurm 开始训练
集体通信的使用
- torch.distributed
- NCCL-Woolley
- scaled_all_reduce
- 将各卡的信息进行汇总，分发或平均等操作，需要使用集体通讯操作(如算accuracy或者总loss时候需要用到allreduce)，可参考：
不同启动方式的用法
- torch.distributed.launch：mnmc_ddp_launch.py
- torch.multiprocessing：mnmc_ddp_mp.py
- Slurm Workload Manager：mnmc_ddp_slurm.py

"""(MNMC) Multiple Nodes Multi-GPU Cards Training    with DistributedDataParallel and torch.distributed.launchTry to compare with [snsc.py, snmc_dp.py & mnmc_ddp_mp.py] and find out the differences."""
import os
import torchimport torch.distributed as distimport torch.nn as nnimport torchvisionimport torchvision.transforms as transformsfrom torch.nn.parallel import DistributedDataParallel as DDP
BATCH_SIZE = 256EPOCHS = 5

if __name__ == "__main__":
    # 0. set up distributed device    rank = int(os.environ["RANK"])    local_rank = int(os.environ["LOCAL_RANK"])    torch.cuda.set_device(rank % torch.cuda.device_count())    dist.init_process_group(backend="nccl")    device = torch.device("cuda", local_rank)
    print(f"[init] == local rank: {local_rank}, global rank: {rank} ==")
    # 1. define network    net = torchvision.models.resnet18(pretrained=False, num_classes=10)    net = net.to(device)    # DistributedDataParallel    net = DDP(net, device_ids=[local_rank], output_device=local_rank)
    # 2. define dataloader    trainset = torchvision.datasets.CIFAR10(        root="./data",        train=True,        download=False,        transform=transforms.Compose(            [                transforms.RandomCrop(32, padding=4),                transforms.RandomHorizontalFlip(),                transforms.ToTensor(),                transforms.Normalize(                    (0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)                ),            ]        ),    )    # DistributedSampler    # we test single Machine with 2 GPUs    # so the [batch size] for each process is 256 / 2 = 128    train_sampler = torch.utils.data.distributed.DistributedSampler(        trainset,        shuffle=True,    )    train_loader = torch.utils.data.DataLoader(        trainset,        batch_size=BATCH_SIZE,        num_workers=4,        pin_memory=True,        sampler=train_sampler,    )
    # 3. define loss and optimizer    criterion = nn.CrossEntropyLoss()    optimizer = torch.optim.SGD(        net.parameters(),        lr=0.01 * 2,        momentum=0.9,        weight_decay=0.0001,        nesterov=True,    )
    if rank == 0:        print("            =======  Training  ======= \n")
    # 4. start to train    net.train()    for ep in range(1, EPOCHS + 1):        train_loss = correct = total = 0        # set sampler        train_loader.sampler.set_epoch(ep)
        for idx, (inputs, targets) in enumerate(train_loader):            inputs, targets = inputs.to(device), targets.to(device)            outputs = net(inputs)
            loss = criterion(outputs, targets)            optimizer.zero_grad()            loss.backward()            optimizer.step()
            train_loss += loss.item()            total += targets.size(0)            correct += torch.eq(outputs.argmax(dim=1), targets).sum().item()
            if rank == 0 and ((idx + 1) % 25 == 0 or (idx + 1) == len(train_loader)):                print(                    "   == step: [{:3}/{}] [{}/{}] | loss: {:.3f} | acc: {:6.3f}%".format(                        idx + 1,                        len(train_loader),                        ep,                        EPOCHS,                        train_loss / (idx + 1),                        100.0 * correct / total,                    )                )    if rank == 0:        print("\n            =======  Training Finished  ======= \n")
"""usage:>>> python -m torch.distributed.launch --help
exmaple: 1 node, 4 GPUs per node (4GPUs)>>> python -m torch.distributed.launch \    --nproc_per_node=4 \    --nnodes=1 \    --node_rank=0 \    --master_addr=localhost \    --master_port=22222 \    mnmc_ddp_launch.py
[init] == local rank: 3, global rank: 3 ==[init] == local rank: 1, global rank: 1 ==[init] == local rank: 0, global rank: 0 ==[init] == local rank: 2, global rank: 2 ==            =======  Training  ======= 
   == step: [ 25/49] [0/5] | loss: 1.980 | acc: 27.953%   == step: [ 49/49] [0/5] | loss: 1.806 | acc: 33.816%   == step: [ 25/49] [1/5] | loss: 1.464 | acc: 47.391%   == step: [ 49/49] [1/5] | loss: 1.420 | acc: 48.448%   == step: [ 25/49] [2/5] | loss: 1.300 | acc: 52.469%   == step: [ 49/49] [2/5] | loss: 1.274 | acc: 53.648%   == step: [ 25/49] [3/5] | loss: 1.201 | acc: 56.547%   == step: [ 49/49] [3/5] | loss: 1.185 | acc: 57.360%   == step: [ 25/49] [4/5] | loss: 1.129 | acc: 59.531%   == step: [ 49/49] [4/5] | loss: 1.117 | acc: 59.800%
            =======  Training Finished  =======
exmaple: 1 node, 2tasks, 4 GPUs per task (8GPUs)>>> CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch \    --nproc_per_node=4 \    --nnodes=2 \    --node_rank=0 \    --master_addr="10.198.189.10" \    --master_port=22222 \    mnmc_ddp_launch.py
>>> CUDA_VISIBLE_DEVICES=4,5,6,7 python -m torch.distributed.launch \    --nproc_per_node=4 \    --nnodes=2 \    --node_rank=1 \    --master_addr="10.198.189.10" \    --master_port=22222 \    mnmc_ddp_launch.py
            =======  Training  ======= 
   == step: [ 25/25] [0/5] | loss: 1.932 | acc: 29.088%   == step: [ 25/25] [1/5] | loss: 1.546 | acc: 43.088%   == step: [ 25/25] [2/5] | loss: 1.424 | acc: 48.032%   == step: [ 25/25] [3/5] | loss: 1.335 | acc: 51.440%   == step: [ 25/25] [4/5] | loss: 1.243 | acc: 54.672%
            =======  Training Finished  =======
exmaple: 2 node, 8 GPUs per node (16GPUs)>>> python -m torch.distributed.launch \    --nproc_per_node=8 \    --nnodes=2 \    --node_rank=0 \    --master_addr="10.198.189.10" \    --master_port=22222 \    mnmc_ddp_launch.py
>>> python -m torch.distributed.launch \    --nproc_per_node=8 \    --nnodes=2 \    --node_rank=1 \    --master_addr="10.198.189.10" \    --master_port=22222 \    mnmc_ddp_launch.py
[init] == local rank: 5, global rank: 5 ==[init] == local rank: 3, global rank: 3 ==[init] == local rank: 2, global rank: 2 ==[init] == local rank: 4, global rank: 4 ==[init] == local rank: 0, global rank: 0 ==[init] == local rank: 6, global rank: 6 ==[init] == local rank: 7, global rank: 7 ==[init] == local rank: 1, global rank: 1 ==            =======  Training  ======= 
   == step: [ 13/13] [0/5] | loss: 2.056 | acc: 23.776%   == step: [ 13/13] [1/5] | loss: 1.688 | acc: 36.736%   == step: [ 13/13] [2/5] | loss: 1.508 | acc: 44.544%   == step: [ 13/13] [3/5] | loss: 1.462 | acc: 45.472%   == step: [ 13/13] [4/5] | loss: 1.357 | acc: 49.344%
            =======  Training Finished  ======= """

D. Launch / Slurm 调度方式

这里单独用代码 imagenet.py 讲一下不同的启动方式，更详细的内容请看源码。

我们来看一下这个 setup_distributed 函数：

通过 srun 产生的程序在环境变量中会有 SLURM_JOB_ID，以判断是否为slurm的调度方式
rank 通过 SLURM_PROCID 可以拿到
world size 实际上就是进程数，通过 SLURM_NTASKS 可以拿到
IP地址通过 subprocess.getoutput(f"scontrol show hostname {node_list} | head -n1") 巧妙得到，栗子来源于 MMCV
否则，就使用launch进行调度，直接通过 os.environ["RANK"] 和 os.environ["WORLD_SIZE"] 即可拿到 rank 和 world size

# 此函数可以直接移植到你的程序中，动态获取IP，使用很方便# 默认支持launch 和 srun 两种方式def setup_distributed(backend="nccl", port=None):    """Initialize distributed training environment.    support both slurm and torch.distributed.launch    see torch.distributed.init_process_group() for more details    """    num_gpus = torch.cuda.device_count()
    if "SLURM_JOB_ID" in os.environ:        rank = int(os.environ["SLURM_PROCID"])        world_size = int(os.environ["SLURM_NTASKS"])        node_list = os.environ["SLURM_NODELIST"]        addr = subprocess.getoutput(f"scontrol show hostname {node_list} | head -n1")        # specify master port        if port is not None:            os.environ["MASTER_PORT"] = str(port)        elif "MASTER_PORT" not in os.environ:            os.environ["MASTER_PORT"] = "29500"        if "MASTER_ADDR" not in os.environ:            os.environ["MASTER_ADDR"] = addr        os.environ["WORLD_SIZE"] = str(world_size)        os.environ["LOCAL_RANK"] = str(rank % num_gpus)        os.environ["RANK"] = str(rank)    else:        rank = int(os.environ["RANK"])        world_size = int(os.environ["WORLD_SIZE"])
    torch.cuda.set_device(rank % num_gpus)
    dist.init_process_group(        backend=backend,        world_size=world_size,        rank=rank,    )

那提交任务就可以灵活切换，下面给出32卡使用Slurm调度，以及8卡单结点的Launch调度:

# ======== slurm 调度方式 ========# 32张GPU，4个node，每个node8张卡，8192的batch size，32个进程# see：https://github.com/BIGBALLON/distribuuuu/blob/master/tutorial/imagenet.pyslurm example:     32GPUs (batch size: 8192)    128k / (256*32) -> 157 itertaion>>> srun --partition=openai -n32 --gres=gpu:8 --ntasks-per-node=8 --job-name=slrum_test \    python -u imagenet.py[init] == local rank: 7, global rank: 7 ==[init] == local rank: 1, global rank: 1 ==[init] == local rank: 4, global rank: 4 ==[init] == local rank: 2, global rank: 2 ==[init] == local rank: 6, global rank: 6 ==[init] == local rank: 3, global rank: 3 ==[init] == local rank: 5, global rank: 5 ==[init] == local rank: 4, global rank: 12 ==[init] == local rank: 1, global rank: 25 ==[init] == local rank: 5, global rank: 13 ==[init] == local rank: 6, global rank: 14 ==[init] == local rank: 0, global rank: 8 ==[init] == local rank: 1, global rank: 9 ==[init] == local rank: 2, global rank: 10 ==[init] == local rank: 3, global rank: 11 ==[init] == local rank: 7, global rank: 15 ==[init] == local rank: 5, global rank: 29 ==[init] == local rank: 2, global rank: 26 ==[init] == local rank: 3, global rank: 27 ==[init] == local rank: 0, global rank: 24 ==[init] == local rank: 7, global rank: 31 ==[init] == local rank: 6, global rank: 30 ==[init] == local rank: 4, global rank: 28 ==[init] == local rank: 0, global rank: 16 ==[init] == local rank: 5, global rank: 21 ==[init] == local rank: 7, global rank: 23 ==[init] == local rank: 1, global rank: 17 ==[init] == local rank: 6, global rank: 22 ==[init] == local rank: 3, global rank: 19 ==[init] == local rank: 2, global rank: 18 ==[init] == local rank: 4, global rank: 20 ==[init] == local rank: 0, global rank: 0 ==            =======  Training  =======    == step: [ 40/157] [0/1] | loss: 6.781 | acc:  0.703%   == step: [ 80/157] [0/1] | loss: 6.536 | acc:  1.260%   == step: [120/157] [0/1] | loss: 6.353 | acc:  1.875%   == step: [157/157] [0/1] | loss: 6.207 | acc:  2.465%

# ======== launch 调度方式 ========# nproc_per_node: 每个node的卡数# nnodes: node数量# node_rank：node编号，从0开始# see: https://github.com/BIGBALLON/distribuuuu/blob/master/tutorial/mnmc_ddp_launch.pydistributed.launch example:     8GPUs (batch size: 2048)    128k / (256*8) -> 626 itertaion>>> python -m torch.distributed.launch \    --nproc_per_node=8 \    --nnodes=1 \    --node_rank=0 \    --master_addr=localhost \    --master_port=22222 \    imagenet.py[init] == local rank: 0, global rank: 0 ==[init] == local rank: 2, global rank: 2 ==[init] == local rank: 6, global rank: 6 ==[init] == local rank: 5, global rank: 5 ==[init] == local rank: 7, global rank: 7 ==[init] == local rank: 4, global rank: 4 ==[init] == local rank: 3, global rank: 3 ==[init] == local rank: 1, global rank: 1 ==            =======  Training  =======    == step: [ 40/626] [0/1] | loss: 6.821 | acc:  0.498%   == step: [ 80/626] [0/1] | loss: 6.616 | acc:  0.869%   == step: [120/626] [0/1] | loss: 6.448 | acc:  1.351%   == step: [160/626] [0/1] | loss: 6.294 | acc:  1.868%   == step: [200/626] [0/1] | loss: 6.167 | acc:  2.443%   == step: [240/626] [0/1] | loss: 6.051 | acc:  3.003%   == step: [280/626] [0/1] | loss: 5.952 | acc:  3.457%   == step: [320/626] [0/1] | loss: 5.860 | acc:  3.983%   == step: [360/626] [0/1] | loss: 5.778 | acc:  4.492%   == step: [400/626] [0/1] | loss: 5.700 | acc:  4.960%   == step: [440/626] [0/1] | loss: 5.627 | acc:  5.488%   == step: [480/626] [0/1] | loss: 5.559 | acc:  6.013%   == step: [520/626] [0/1] | loss: 5.495 | acc:  6.520%   == step: [560/626] [0/1] | loss: 5.429 | acc:  7.117%   == step: [600/626] [0/1] | loss: 5.371 | acc:  7.580%   == step: [626/626] [0/1] | loss: 5.332 | acc:  7.907%

0X04 完整框架 Distribuuuu

Distribuuuu 是我闲(没)来(事)无(找)事(事)写的一个完整的纯DDP分类训练框架，足够精简且足够有效率。支持launch和srun两种启动方式，可以作为新手学习和魔改的样板工程。

# 1 node, 8 GPUspython -m torch.distributed.launch \    --nproc_per_node=8 \    --nnodes=1 \    --node_rank=0 \    --master_addr=localhost \    --master_port=29500 \    train_net.py --cfg config/resnet18.yaml# see srun --help # and https://slurm.schedmd.com/ for details
# example: 64 GPUs# batch size = 64 * 128 = 8192# itertaion = 128k / 8192 = 156 # lr = 64 * 0.1 = 6.4
srun --partition=openai-a100 \     -n 64 \     --gres=gpu:8 \     --ntasks-per-node=8 \     --job-name=Distribuuuu \     python -u train_net.py --cfg config/resnet18.yaml \     TRAIN.BATCH_SIZE 128 \     OUT_DIR ./resnet18_8192bs \     OPTIM.BASE_LR 6.4

下面是用 Distribuuuu 做的一些简单的实验，botnet50 是复现了今年比较火的 Transformer+CNN 的文章 Bottleneck Transformers for Visual 的精度，主要是证明这个框架的可用性, resnet18最后小测了 64卡/16384BS 的训练, 精度尚可。另外稍微强调一下SyncBN不要随便乱用，如果单卡Batch已经足够大的情况下不需要开SyncBN。

Distribuuuu benchmark (ImageNet)

如果是出于学习目的，想进行一些魔改和测试，可以试试我的Distribuuuu（https://github.com/BIGBALLON/distribuuuu），因为足够简单很容易改吖，如果你想做research的话推荐用FAIR的 pycls, 有model zoo 而且代码足够优雅。另外，打比赛的话就不建议自己造轮子了，分类可直接魔改 pycls 或 MMClassification, 检测就魔改 MMDetection 和 Detectron2 就完事啦

Reference

PYTORCH DISTRIBUTED OVERVIEW
PyTorch 源码解读之 DP & DDP
Bringing HPC Techniques to Deep Learning
Parameter Servers
Ring-Allreduce：Launching and configuring distributed data parallel applications
PyTorch Distributed Training
Kill PyTorch Distributed Training Processes
NCCL: ACCELERATED MULTI-GPUCOLLECTIVE COMMUNICATIONS
WRITING DISTRIBUTED APPLICATIONS WITH PYTORCH
PyTorch Distributed: Experiences on Accelerating Data Parallel Training
Pytorch多机多卡分布式训练
Launching and configuring distributed data parallel applications

那今天就到这里吧，如果你有问题，用任何方式联系我都阔以，我康到就会解答啦(如果我会的话啦) ✌️ ，另外如果大家感兴趣的话，康康要不要出第二篇(如果有时间的话啦) ✍️

点个在看 paper不断！

你可能感兴趣的:(分布式,深度学习,java,编程语言,大数据)

【C#、C++ 和 Java】实现重力迷宫游戏鱼弦游戏开发 c#c++java 游戏
引言(Introduction)重力迷宫是一种益智游戏，玩家通过旋转整个游戏区域（迷宫），改变重力的方向，使得玩家角色和其他可动物体（如箱子、球）沿着新的重力方向下落。玩家的目标是利用重力到达迷宫的出口。实现重力迷宫需要管理复杂的网格状态（地形和物体），处理旋转输入，并实现根据当前重力方向模拟物理下落的逻辑。技术背景(TechnicalBackground)实现重力迷宫主要涉及以下核心技术概念：游
维基框架发布 1.0.11 至中央仓，深化国产化 DevOps 生态整合维基框架维基框架 spring boot spring cloud mybatis 架构
一、核心事件：维基框架1.0.11正式入驻中央仓库维基框架（Wiki-Framework）作为国产全场景Java企业级开发框架，于7月9日正式发布v1.0.11版本至中央软件仓库（MavenCentral），标志着其正式纳入全球主流开发工具生态。本次发布聚焦安全增强与云原生适配：安全升级：集成OAuth2.1协议，修复CVE-2025-0113等5项高危漏洞，支持国密算法SM4加密通信。云原生支持
基于java的数据可视化的汽车消费分析系统设计与实现的详细项目实例 nantangyuxi Java java 信息可视化汽车人工智能深度学习数据结构大数据
目录基她java她数据可视化她汽车消费分析系统设计她实她她详细项目实例...1项目背景介绍...1项目目标她意义...2数据整合她清洗...2她维度消费分析...2实时数据可视化展示...2用户行为预测她趋势分析...2系统她高可扩展她设计...2提升汽车产业决策效率...2强化用户交互体验...3数据安全她隐私保护...3项目挑战及解决方案...3海量数据处理她她能瓶颈...3她数据源异构整合难
运维技术干货 — 不仅是 Linux 运维最佳实践 python算法小白 Linux
附Java/C/C++/机器学习/算法与数据结构/前端/安卓/Python/程序员必读书籍书单大全：书单导航页（点击右侧极客侠栈即可打开个人博客）：极客侠栈①【Java】学习之路吐血整理技术书从入门到进阶最全50+本（珍藏版)②【算法数据结构+acm】从入门到进阶吐血整理书单50+本（珍藏版)③【数据库】从入门到进阶必读18本技术书籍网盘吐血整理网盘(珍藏版)④【Web前端】从HTML到JS到AJ
基于深度学习的和平精英（吃鸡）内置锁头训练摆烂仙君深度学习人工智能
前言本教程以和平精英为例，主要讲解如何构建深度学习模型对游戏中角色进行头部标注，并控制鼠标对其进行锁定射击，同时围绕其游戏防作弊系统进行算法攻防讲解，该方案对于csgo,cf等游戏也同样适用。请注意，该教程仅供娱乐教学，若本教程评论超过100，将会开源相关代码并对实际的代码部署进行进一步分析。一、和平精英伤害机制分析在《刺激战场》（现为《和平精英》）中，击中头部的伤害远高于身体其他部位，这是由游戏
基于蜣螂算法优化多头注意力机制的卷积神经网络结合双向长短记忆神经网络实现温度预测DBO-CNN-biLSTM-Multihead-Attention附matlab代码 matlab科研助手神经网络算法 cnn
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。个人主页：Matlab科研工作室个人信条：格物致知。更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器电力系统信号处理图像处理路径规划元胞自动机无人机物理应用机器学习内容介绍温度预测在气象学、农业、能源等领域具有重要的应用价值。随着大数据和人工智能技术的快速发
迁移学习让深度学习更容易城市中迷途小书童
摘要：一文读懂迁移学习及其对深度学习发展的影响！深度学习在一些传统方法难以处理的领域有了很大的进展。这种成功是由于改变了传统机器学习的几个出发点，使其在应用于非结构化数据时性能很好。如今深度学习模型可以玩游戏，检测癌症，和人类交谈，自动驾驶。深度学习变得强大的同时也需要很大的代价。进行深度学习需要大量的数据、昂贵的硬件、甚至更昂贵的精英工程人才。在ClouderaFastForward实验室，我们
股票基金量化开源平台对比 Mr.小海开源开源金融
股票基金量化开源平台对比分析报告引言研究背景与意义在金融科技快速发展的背景下，量化交易已成为现代金融市场中投资者追求高效与精准交易的核心工具。通过程序化方式，投资者能够迅速处理海量市场数据，制定并执行复杂交易策略，其高效性、低情绪干扰及策略多样性等优势显著[1]。特别是随着人工智能技术的深化，2025年基于深度学习与机器学习的开源量化工具持续涌现，推动行业向数据驱动转型——量化交易将决策逻辑从经验
开源基金/股票量化平台调研报告 Mr.小海金融
开源基金/股票量化平台调研报告引言调研背景与目的近年来，随着人工智能技术的持续深化，量化交易领域迎来了深刻变革。2025年，基于深度学习和机器学习的开源工具不断涌现，不仅在技术层面实现突破，更在实际应用中展现出强大竞争优势，推动行业创新与升级[1].作为融合数学、统计与计算机技术的科技驱动型金融策略，量化交易通过自动化与数据驱动方法提升投资决策效率与准确性，已成为金融机构与投资者追求超额收益的重要
缓解和防御 IoT 设备中的 DDoS 攻击 hao_wujing 物联网 ddos
大家读完觉得有帮助记得关注和点赞！！！抽象物联网（IoT）在多个领域的快速增长和广泛采用导致了新的安全威胁的出现，包括分布式拒绝服务（DDoS）。这些攻击在世界范围内引起了重大关注，因为它们可能对关键基础设施和服务造成重大破坏。由于安全功能有限，IoT设备容易受到攻击并吸引攻击者，因此很容易成为攻击者的猎物。此外，攻击者可以破坏IoT设备以形成僵尸网络-一个感染了恶意软件的私人计算机网络，并在所有
Python Gradio：快速搭建人脸识别应用 Python编程之道 Python人工智能与大数据 Python编程之道 python 开发语言 ai
PythonGradio：快速搭建人脸识别应用关键词：Python,Gradio,人脸识别,深度学习,计算机视觉,交互式应用,模型部署摘要：本文详细介绍了如何使用Python的Gradio库快速搭建一个交互式的人脸识别应用。我们将从基础概念出发，逐步讲解人脸识别的核心算法原理、Gradio的界面设计方法，并通过完整的项目实战演示如何将深度学习模型部署为可交互的Web应用。文章包含详细的代码实现、数
Java图书管理系统课程设计全程实录拾光分享网
主要实现的功能用户登录，用户注册，用户修改密码图书信息添加，删除，修改，查询(多种查询方式)图书类别添加，删除，修改，查询系统退出，关于我们帮助项目亮点（下载：）全程实录，全程手动敲代码代码通俗易懂，容易上手客服QQ在线答疑适用于新手的课程设计项目常见找错误的方法，Debug模式
C++ Primer Plus 第五版：源代码深度解析与实践贫僧法号止尘
本文还有配套的精品资源，点击获取简介：《C++PrimerPlus第五版》通过源代码的实例展示，系统地介绍了C++编程语言的基础和高级特性。本书内容涵盖了基本语法、控制结构、函数、类和对象、封装、继承与多态、模板、异常处理、STL以及输入/输出流等多个关键知识点，帮助读者在理解理论的同时，通过实践加深对这些概念的应用。1.C++基础语法和高级特性介绍C++是一种静态类型、编译式、通用的编程语言，它
JavaScript设计模式之状态模式 27亿光年中的小小尘埃
什么是状态模式？状态模式是一种非同寻常的优秀模式，它也许是解决某些需求场景的最好方法。虽然状态模式并不是一种简单到一目了然的模式（它往往还会带来代码量的增加），但你一旦明白了状态模式的精髓，以后一定会感谢它带给你的无与伦比的好处。状态模式的关键是区分事物内部的状态，事物内部状态的改变往往会带来事物的行为改变。初识状态模式我们来想象这样一个场景：有一个电灯，电灯上面只有一个开关。当电灯开着的时候，此
Python面向对象编程：类、对象与实例方法的深度解析女码农的重启 python 开发语言
在软件开发领域，面向对象编程（Object-OrientedProgramming，简称OOP）是一种极为重要的编程范式。它以对象为核心，通过封装、继承和多态等特性，让代码的组织和管理更加高效、灵活。Python作为一门高级编程语言，对面向对象编程提供了强大且简洁的支持。本文将深入探讨Python中面向对象编程的核心概念——类、对象和实例方法，帮助读者理解并掌握这些重要知识。一、类的概念与定义类（
Java学习----线程安全容器典孝赢麻崩乐急 java 学习开发语言
线程安全容器是指在多线程环境下能够保证数据一致性和正确性的容器类。当多个线程同时访问容器时，无需额外的同步措施，容器内部已经实现了必要的同步机制，确保所有操作都能原子性地完成。其主要作用为：简化多线程编程：开发者无需手动添加同步代码提高并发性能：相比简单的同步包装器(如synchronizedList等)，线程安全容器通常有更好的并发性能避免数据竞争：防止多线程同时修改导致的数据不一致提供原子性操
2019-11-13过滤器和拦截器的区别江南皮哥厂
1过滤器依赖于servlet，回调机制拦截器依赖于web框架，基于java的反射机制2就是在service或者一个方法前，调用一个方法，或者在方法后，调用一个方法，比如动态代理就是拦截器的简单实现，在调用方法前打印出字符串（或者做其它业务逻辑的操作），也可以在调用方法后打印出字符串3捕获.PNG
基于Socket来构建无界数据流并通过Flink框架进行处理每天五分钟玩转人工智能 Flink技术实战 flink 大数据 Flink 分布式无界数据
本文重点随着大数据技术的不断发展，实时数据流处理已成为企业应对海量数据、实现快速决策的关键技术。ApacheFlink是一个开源的流处理框架，它能够对无界数据流进行高效的、精确的处理。本文将介绍如何通过Socket构建无界数据流，并利用Flink框架进行无界流处理。基于Socket构建无界数据无界数据指的是源源不断产生的数据，这些数据通常来自各种实时数据源，如用户行为日志、传感器数据等。Socke
vue2 面试题及详细答案150道（121 - 130）
《前后端面试题》专栏集合了前后端各个知识模块的面试题，包括html，javascript，css，vue，react，java，Openlayers，leaflet，cesium，mapboxGL，threejs，nodejs，mangoDB，MySQL，Linux…。前后端面试题-专栏总目录文章目录一、本文面试题目录121.Vue2中如何实现组件的动态样式绑定？122.Vue2中如何处理跨域请求
Java 实习模拟面试之信也科技：IO、多线程、集合、MySQL、Redis、HTTP、Linux 常见面试题解析
在本次模拟面试中，我们将模拟一场面向Java实习生岗位的面试，重点围绕Java基础（IO、多线程、集合）、MySQL、Redis、MQ、HTTP协议以及Linux基础等核心知识点。通过模拟面试官提问和候选人的回答方式，帮助你更好地准备技术面试。一、Java基础（IO、多线程、集合）面试官提问：请谈谈你对JavaIO的理解，以及NIO和BIO的区别？候选人回答：JavaIO是Java提供的一套用于处
操作系统精髓与设计原理第六版习题全解莱财一哥
本文还有配套的精品资源，点击获取简介：操作系统作为计算机科学的基础，其核心功能包括管理硬件资源和提供用户服务。《操作系统精髓与设计原理》第六版详细阐述了操作系统的各种核心概念、设计策略和实现技术，并提供了课后习题答案，以帮助读者深入理解并掌握这些知识点。本资料覆盖了进程管理、内存管理、文件系统、设备管理、死锁、安全与保护、分布式系统、实时系统、虚拟化技术和云计算与容器等关键领域。1.操作系统基础知
38、未来展望：C数据库编程的发展趋势与挑战 dog123 C#数据库编程：从入门到精通 C#数据库编程云原生数据库
未来展望：C#数据库编程的发展趋势与挑战1.引言随着信息技术的快速发展，数据库编程已经成为现代软件开发中不可或缺的一部分。C#作为一种强大的编程语言，在数据库编程领域展现出卓越的表现。本文将探讨C#数据库编程的未来发展趋势，分析当前面临的主要挑战，并提出相应的解决方案。通过这些讨论，我们希望能够为开发者提供有价值的见解，帮助他们在未来的项目中更好地应对变化和技术进步。2.数据库编程的新趋势2.1云
排序算法—插入排序（插入、希尔）（动图演示）每天都要进步1 排序算法排序算法算法数据结构
目录十大排序算法分类插入排序算法步骤：动图演示：性能分析：代码实现（Java）：希尔排序算法步骤：动图演示：性能分析：代码实现（Java）：十大排序算法分类本篇分享十大排序算法中的需要进行交换操作的插入排序与希尔排序,其余算法也有介绍噢（努力赶进度中，后续会添加上）插入排序工作原理是通过构建有序序列，对于未排序数据，在已排序序列中从后向前扫描，找到相应位置并插入。插入排序和冒泡排序一样，也有一种优
Python PyV8: 在Python中运行JavaScript的利器莱财一哥
本文还有配套的精品资源，点击获取简介：PythonPyV8是一个在Python环境中执行JavaScript代码的库，基于Google的V8JavaScript引擎，实现Python与JavaScript之间的互操作性。本文将详细讨论PyV8的安装方法，包括通过pip安装和自行编译安装特定版本的步骤，以及如何在Python程序中使用PyV8执行JavaScript代码。1.PythonPyV8库介
Java基础入门（传智）暑期预习笔记（一）7.18 wssgakki Java java
Java的基本语法【修饰符】class类名{程序代码}publicclassHelloword{publicstaticvoidmain(String[]args){System.out.printIn(”你好呀");}注意大小写、排版问题{左大括号里面的第一行代码要有缩进ctrl+shift+F键快速格式化代码一个连续的字符串不能分开在两行中书写即同一个双引号里面的内容不能分两行写。Java中的
html5这什么意思,html5是什么意思？html5和html的区别介绍 wiles super html5这什么意思
一、HTML5是什么？HTML5是HyperTextMarkupLanguage5的缩写，HTML5是超文本标记语言的最新版本，也就是描述网页的代码，html5实际上是三种代码形式，首先是HTML提供结构，其次是层叠样式表(CSS)负责网站的样式和布局，最后是JavaScript是给网站添加动态功能。二、html5和html的区别1、定义上区别HTML5是应用超文本标记语言(HTML)的第五次修改
10、程序员友好的Java语义模块化定义 time3 Java语义模块化定义抽象语法树
程序员友好的Java语义模块化定义1引言Java作为一种广泛应用的编程语言，其语义的准确性和一致性对于开发者至关重要。为了更好地理解Java的语义，并确保其在实际应用中的可靠性，我们需要一种模块化且易于理解的方式来定义Java语义。本文将探讨如何以一种对程序员友好的方式进行Java语义的模块化定义，重点在于Java顺序命令核心的语义，涵盖Java方法体中的语句和表达式。2Java的抽象语法表示Ja
DataWhale 二月组队学习-深入浅出pytorch-Task04 －273.15K DataWhale组队学习学习 pytorch 人工智能
一、自定义损失函数1.损失函数的作用与自定义意义在深度学习中，损失函数（LossFunction）用于衡量模型预测结果与真实标签之间的差异，是模型优化的目标。PyTorch内置了多种常用损失函数（如交叉熵损失nn.CrossEntropyLoss、均方误差nn.MSELoss等）。但在实际任务中，可能需要针对特定问题设计自定义损失函数，例如：处理类别不平衡问题（如加权交叉熵）实现特殊业务需求（如对
Java基础一键通冠位巴萨辛山の翁 java 开发语言学习
以下代码均使用IntelliJIDEA2024.1下运行，代码来源为学习java过程中所写代码。交流学习使用。1-Java入门1.1HellopublicclassHello{/***主函数执行程序的入口点*此函数没有接收任何参数，也没有返回值*它首先打印多次"Hello"，然后调用getCode()方法并打印其返回值*@paramargs命令行参数，本程序中未使用*/publicstaticvo
LangChain4j：Java开发者的AI应用构建利器 | 1. 实战：构建AI对话应用秋秋棠人工智能 java 大数据
LangChain4j：Java开发者的AI应用构建利器目录LangChain4j简介LangChain4jvsSpringAI：JavaAI框架对比实战：构建AI对话应用环境搭建配置大模型核心服务实现深入ChatModel：灵活配置与应用框架选择建议LangChain4j简介LangChain4j是专为Java开发者设计的AI应用开发框架，它提供了开箱即用的API和模块化设计，让开发者能够快速构
xml解析小猪猪08 xml
1、DOM解析的步奏准备工作： 1.创建DocumentBuilderFactory的对象 2.创建DocumentBuilder对象 3.通过DocumentBuilder对象的parse(String fileName)方法解析xml文件 4.通过Document的getElem
每个开发人员都需要了解的一个SQL技巧 brotherlamp linux linux视频 linux教程 linux自学 linux资料
对于数据过滤而言CHECK约束已经算是相当不错了。然而它仍存在一些缺陷，比如说它们是应用到表上面的，但有的时候你可能希望指定一条约束，而它只在特定条件下才生效。使用SQL标准的WITH CHECK OPTION子句就能完成这点，至少Oracle和SQL Server都实现了这个功能。下面是实现方式： CREATE TABLE books ( id &
Quartz——CronTrigger触发器 eksliang quartz CronTrigger
转载请出自出处：http://eksliang.iteye.com/blog/2208295 一.概述 CronTrigger 能够提供比 SimpleTrigger 更有具体实际意义的调度方案，调度规则基于 Cron 表达式，CronTrigger 支持日历相关的重复时间间隔（比如每月第一个周一执行），而不是简单的周期时间间隔。二.Cron表达式介绍 1）Cron表达式规则表 Quartz
Informatica基础 18289753290 Informatica Monitor manager workflow Designer
1. 1）PowerCenter Designer：设计开发环境，定义源及目标数据结构；设计转换规则，生成ETL映射。 2）Workflow Manager：合理地实现复杂的ETL工作流，基于时间，事件的作业调度 3）Workflow Monitor：监控Workflow和Session运行情况，生成日志和报告 4）Repository Manager：
linux下为程序创建启动和关闭的的sh文件，scrapyd为例酷的飞上天空 scrapy
对于一些未提供service管理的程序每次启动和关闭都要加上全部路径，想到可以做一个简单的启动和关闭控制的文件下面以scrapy启动server为例，文件名为run.sh： #端口号，根据此端口号确定PID PORT=6800 #启动命令所在目录 HOME='/home/jmscra/scrapy/' #查询出监听了PORT端口
人--自私与无私永夜-极光
今天上毛概课,老师提出一个问题--人是自私的还是无私的,根源是什么? 从客观的角度来看,人有自私的行为,也有无私的
Ubuntu安装NS-3 环境脚本随便小屋 ubuntu
将附件下载下来之后解压，将解压后的文件ns3environment.sh复制到下载目录下（其实放在哪里都可以，就是为了和我下面的命令相统一）。输入命令： sudo ./ns3environment.sh >>result 这样系统就自动安装ns3的环境，运行的结果在result文件中，如果提示 com
创业的简单感受 aijuans 创业的简单感受
2009年11月9日我进入a公司实习，2012年4月26日，我离开a公司，开始自己的创业之旅。今天是2012年5月30日，我忽然很想谈谈自己创业一个月的感受。当初离开边锋时，我就对自己说：“自己选择的路，就是跪着也要把他走完”，我也做好了心理准备，准备迎接一次次的困难。我这次走出来，不管成败
如何经营自己的独立人脉 aoyouzi 如何经营自己的独立人脉
独立人脉不是父母、亲戚的人脉，而是自己主动投入构造的人脉圈。“放长线，钓大鱼”，先行投入才能产生后续产出。现在几乎做所有的事情都需要人脉。以银行柜员为例，需要拉储户，而其本质就是社会人脉，就是社交！很多人都说，人脉我不行，因为我爸不行、我妈不行、我姨不行、我舅不行……我谁谁谁都不行，怎么能建立人脉？我这里说的人脉，是你的独立人脉。以一个普通的银行柜员
JSP基础百合不是茶 jsp 注释隐式对象
1,JSP语句的声明 <%! 声明 %> 　　声明：这个就是提供java代码声明变量、方法等的场所。表达式 <%= 表达式 %> 　　这个相当于赋值，可以在页面上显示表达式的结果，程序代码段/小型指令　<% 程序代码片段 %> 2,JSP的注释
web.xml之session-config、mime-mapping bijian1013 java web.xml servlet session-config mime-mapping
session-config 1.定义： <session-config> <session-timeout>20</session-timeout> </session-config> 2.作用：用于定义整个WEB站点session的有效期限，单位是分钟。 mime-mapping 1.定义： <mime-m
互联网开放平台（1） Bill_chen 互联网 qq 新浪微博百度腾讯
现在各互联网公司都推出了自己的开放平台供用户创造自己的应用，互联网的开放技术欣欣向荣，自己总结如下： 1.淘宝开放平台(TOP) 网址：http://open.taobao.com/ 依赖淘宝强大的电子商务数据，将淘宝内部业务数据作为API开放出去，同时将外部ISV的应用引入进来。目前TOP的三条主线： TOP访问网站：open.taobao.com ISV后台：my.open.ta
【MongoDB学习笔记九】MongoDB索引 bit1129 mongodb
索引可以在任意列上建立索引索引的构造和使用与传统关系型数据库几乎一样,适用于Oracle的索引优化技巧也适用于Mongodb 使用索引可以加快查询,但同时会降低修改,插入等的性能内嵌文档照样可以建立使用索引测试数据 var p1 = { "name":"Jack", "age&q
JDBC常用API之外的总结白糖_ jdbc
做JAVA的人玩JDBC肯定已经很熟练了，像DriverManager、Connection、ResultSet、Statement这些基本类大家肯定很常用啦，我不赘述那些诸如注册JDBC驱动、创建连接、获取数据集的API了，在这我介绍一些写框架时常用的API，大家共同学习吧。 ResultSetMetaData获取ResultSet对象的元数据信息
apache VelocityEngine使用记录 bozch VelocityEngine
VelocityEngine是一个模板引擎，能够基于模板生成指定的文件代码。使用方法如下： VelocityEngine engine = new VelocityEngine();// 定义模板引擎 Properties properties = new Properties();// 模板引擎属
编程之美-快速找出故障机器 bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; public class TheLostID { /*编程之美假设一个机器仅存储一个标号为ID的记录，假设机器总量在10亿以下且ID是小于10亿的整数，假设每份数据保存两个备份，这样就有两个机器存储了同样的数据。 1.假设在某个时间得到一个数据文件ID的列表，是
关于Java中redirect与forward的区别 chenbowen00 java servlet
在Servlet中两种实现： forward方式：request.getRequestDispatcher(“/somePage.jsp”).forward(request, response); redirect方式：response.sendRedirect(“/somePage.jsp”); forward是服务器内部重定向，程序收到请求后重新定向到另一个程序，客户机并不知
[信号与系统]人体最关键的两个信号节点 comsci 系统
如果把人体看做是一个带生物磁场的导体,那么这个导体有两个很重要的节点,第一个在头部,中医的名称叫做百汇穴, 另外一个节点在腰部,中医的名称叫做命门如果要保护自己的脑部磁场不受到外界有害信号的攻击,最简单的
oracle 存储过程执行权限 daizj oracle 存储过程权限执行者调用者
在数据库系统中存储过程是必不可少的利器，存储过程是预先编译好的为实现一个复杂功能的一段Sql语句集合。它的优点我就不多说了，说一下我碰到的问题吧。我在项目开发的过程中需要用存储过程来实现一个功能，其中涉及到判断一张表是否已经建立，没有建立就由存储过程来建立这张表。 CREATE OR REPLACE PROCEDURE TestProc IS fla
为mysql数据库建立索引 dengkane mysql 性能索引
前些时候，一位颇高级的程序员居然问我什么叫做索引，令我感到十分的惊奇，我想这绝不会是沧海一粟，因为有成千上万的开发者（可能大部分是使用MySQL的）都没有受过有关数据库的正规培训，尽管他们都为客户做过一些开发，但却对如何为数据库建立适当的索引所知较少，因此我起了写一篇相关文章的念头。最普通的情况，是为出现在where子句的字段建一个索引。为方便讲述，我们先建立一个如下的表。
学习C语言常见误区如何看懂一个程序如何掌握一个程序以及几个小题目示例 dcj3sjt126com c 算法
如果看懂一个程序，分三步 1、流程 2、每个语句的功能 3、试数如何学习一些小算法的程序尝试自己去编程解决它，大部分人都自己无法解决如果解决不了就看答案关键是把答案看懂，这个是要花很大的精力，也是我们学习的重点看懂之后尝试自己去修改程序，并且知道修改之后程序的不同输出结果的含义照着答案去敲调试错误
centos6.3安装php5.4报错 dcj3sjt126com centos6
报错内容如下: Resolving Dependencies --> Running transaction check ---> Package php54w.x86_64 0:5.4.38-1.w6 will be installed --> Processing Dependency: php54w-common(x86-64) = 5.4.38-1.w6 for
JSONP请求 flyer0126 jsonp
使用jsonp不能发起POST请求。 It is not possible to make a JSONP POST request. JSONP works by creating a <script> tag that executes Javascript from a different domain; it is not pos
Spring Security（03）——核心类简介 234390216 Authentication
核心类简介目录 1.1 Authentication 1.2 SecurityContextHolder 1.3 AuthenticationManager和AuthenticationProvider 1.3.1 &nb
在CentOS上部署JAVA服务 java--hhf java jdk centos Java服务
本文将介绍如何在CentOS上运行Java Web服务，其中将包括如何搭建JAVA运行环境、如何开启端口号、如何使得服务在命令执行窗口关闭后依旧运行第一步：卸载旧Linux自带的JDK ①查看本机JDK版本 java -version 结果如下 java version "1.6.0"
oracle、sqlserver、mysql常用函数对比[to_char、to_number、to_date] ldzyz007 oracle mysql SQL Server
oracle &n
记Protocol Oriented Programming in Swift of WWDC 2015 ningandjin protocol WWDC 2015 Swift2.0
其实最先朋友让我就这个题目写篇文章的时候，我是拒绝的，因为觉得苹果就是在炒冷饭，把已经流行了数十年的OOP中的“面向接口编程”还拿来讲，看完整个Session之后呢，虽然还是觉得在炒冷饭，但是毕竟还是加了蛋的，有些东西还是值得说说的。通常谈到面向接口编程，其主要作用是把系统设计和具体实现分离开，让系统的每个部分都可以在不影响别的部分的情况下，改变自身的具体实现。接口的设计就反映了系统
搭建 CentOS 6 服务器(15) - Keepalived、HAProxy、LVS rensanning keepalived
（一）Keepalived （1）安装 # cd /usr/local/src # wget http://www.keepalived.org/software/keepalived-1.2.15.tar.gz # tar zxvf keepalived-1.2.15.tar.gz # cd keepalived-1.2.15 # ./configure # make &a
ORACLE数据库SCN和时间的互相转换 tomcat_oracle oracle sql
SCN（System Change Number 简称 SCN）是当Oracle数据库更新后，由DBMS自动维护去累积递增的一个数字，可以理解成ORACLE数据库的时间戳，从ORACLE 10G开始，提供了函数可以实现SCN和时间进行相互转换；　　用途：在进行数据库的还原和利用数据库的闪回功能时，进行SCN和时间的转换就变的非常必要了；　　操作方法：　　1、通过dbms_f
Spring MVC 方法注解拦截器 xp9802 spring mvc
应用场景，在方法级别对本次调用进行鉴权，如api接口中有个用户唯一标示accessToken,对于有accessToken的每次请求可以在方法加一个拦截器，获得本次请求的用户，存放到request或者session域。 python中，之前在python flask中可以使用装饰器来对方法进行预处理，进行权限处理先看一个实例,使用@access_required拦截： ?