神洛华

Accelerate 0.24.0文档二：DeepSpeed集成

文章目录

- 一、 DeepSpeed简介
- 二、DeepSpeed集成（Accelerate 0.24.0）
- - 2.1 DeepSpeed安装
  - 2.2 Accelerate DeepSpeed Plugin
  - - 2.2.1 ZeRO Stage-2
    - 2.2.2 ZeRO Stage-3 with CPU Offload
    - 2.2.3 accelerate launch参数
  - 2.3 DeepSpeed Config File
  - - 2.3.1 ZeRO Stage-2
    - 2.3.2 ZeRO Stage-3 with CPU offload
  - 2.4 优化器和调度器（ DeepSpeed Config File）
  - 2.5 协调DeepSpeed Config File与accelerate config
  - - 2.5.1 配置冲突
    - 2.5.2 使用deepspeed_config_file配置具体参数
    - 2.5.3 命令行配置具体参数
  - 2.6 模型的保存和加载
  - 2.7 DeepSpeed ZeRO Inference
- 三、相关资源

一、 DeepSpeed简介

ZeRO论文:《ZeRO：Memory Optimizations Toward Training Trillion Parameter Models》

ZeRO-Offload论文：《ZeRO-Offload：Democratizing Billion-Scale Model Training.》

NVMe技术论文：《 ZeRO-Infinity: Breaking the GPU Memory Wall for Extreme Scale Deep Learning》

DeepSpeed Github、DeepSpeed 官网

《Hugging Face高效训练技术二：大模型分布式训练策略——ZeRO、FSDP》、《Hugging Face高效训练技术三：huggingface DeepSpeed文档》

ZeRO（Zero Redundancy Optimizer）是一种用于优化大规模深度学习模型训练的技术。它的主要目标是降低训练期间的内存占用、通信开销和计算负载，从而使用户能够训练更大的模型并更高效地利用硬件资源。

ZERO论文首先分析了模型训练中内存主要消耗在两个方面：

model states：模型状态，包括包括优化器参数（例如Adam的动量和方差）、梯度、模型参数
residual states：剩余状态，包括包括激活函数、临时缓冲区、内存碎片

参数解释：

Baseline：未优化的基线

Ψ：模型大小，上图假设模型参数为Ψ=75亿

K：存储优化器状态要消耗的内存倍数，对于混合精度的Adam优化器而言，K=12

$N_d$ ：数据并行度。基于Adam优化器的混合精度训练，数据并行度为Nd=64（即64个GPU）

ZeRO分别使用ZeRO-DP和ZeRO-R来优化model states和residual states。如上图所示，ZeRO-DP包括三个阶段。

ZeRO-Infinity是ZeRO的一个扩展版本，它允许将模型参数存储在CPU内存或NVMe存储上，而不是全部存储在GPU内存中，最终在有限资源下能够训练前所未有规模的模型（在单个NVIDIA DGX-2节点上微调具有1万亿参数的模型），而无需对模型代码进行重构。

NVMe协议是专门为固态硬盘设计的，以满足高性能、低延迟和并发读写的需求。相较于SATA和AHCI，NVMe具有更高的数据传输速率和更低的通信延迟。

DeepSpeed实现了上述ZeRO论文中描述的所有内容。目前，它完全支持以下功能：

优化器状态分区（ZeRO阶段1）
梯度分区（ZeRO阶段2）
参数分区（ZeRO阶段3）
自定义混合精度训练处理
一系列基于快速CUDA扩展的优化器
ZeRO-Offload到CPU和磁盘/NVMe：ZeRO-Infinity（ZeRO的进阶实现）中的功能，它允许将模型参数存储在CPU内存或NVMe存储上，而不是全部存储在GPU内存中
- 包括Optimizer Offload和Param Offload
- 从技术上讲ZeRO可以Offload到任何磁盘，但具有NVME的磁盘才能获得不错的速度。

详细原理可参考ZeRO论文，或者我之前的帖子《Hugging Face高效训练技术二：大模型分布式训练策略——ZeRO、FSDP》

二、DeepSpeed集成（Accelerate 0.24.0）

本章参考《 DeepSpeed（Accelerate）》

有关Accelerate库的使用，可参考我的博客《Accelerate 0.24.0文档一：两万字极速入门》

DeepSpeed ZeRO-2主要仅用于训练，因为推理时不需要优化器和梯度。DeepSpeed ZeRO-3也可用于推断，因为它允许将庞大的模型加载到多个GPU上（参数分区）。

通过2种选项，Accelerate集成了DeepSpeed：

通过在 accelerate config中使用deepspeed config file 集成DeepSpeed功能。您只需提供自定义配置文件或使用我们的模板。这支持DeepSpeed的所有核心功能，并为用户提供了很大的灵活性，用户只需要根据配置做一些更改。
通过deepspeed_plugin集成。这种集成方式支持DeepSpeed的一部分功能，对于其余配置使用默认选项。这种方式无需进行复杂的代码修改，集成更加简便，适用于对DeepSpeed的大多数默认设置满意的用户。

2.1 DeepSpeed安装

无论哪种方式，使用前先安装DeepSpeed，安装方式有两种：pip安装和本地构建。

pip安装

# 两种方式任选其一
pip install deepspeed					# 安装deepspeed库
pip install transformers[deepspeed]		# 通过transformers的extras选项安装

本地构建
pip安装通常会使用默认配置，适合绝大多数用户。如果您需要自定义DeepSpeed的配置，比如修改全局配置文件或在代码中进行相应的配置更改，可以克隆DeepSpeed项目到本地来自定义构建。

git clone https://github.com/microsoft/DeepSpeed/
cd DeepSpeed
rm -rf build		# 移除旧的构建目录
# 针对所需GPU架构进行本地构建：（需替换相应GPU架构）
TORCH_CUDA_ARCH_LIST="8.6" DS_BUILD_CPU_ADAM=1 DS_BUILD_UTILS=1 pip install . \
--global-option="build_ext" --global-option="-j8" --no-cache -v \
--disable-pip-version-check 2>&1 | tee build.log

有关安装部分更详细内容，请查看官方文档。

2.2 Accelerate DeepSpeed Plugin

首先运行accelerate config，这将启动一个配置向导，询问您是否要使用DeepSpeed的配置文件。您应该回答"no"，然后继续回答后续问题，以生成一个基本的DeepSpeed配置（包含一系列默认选项）。

运行以下命令，使用生成的DeepSpeed配置文件（yaml格式）启动训练脚本：

accelerate launch my_script.py --args_to_my_script

下面介绍使用 DeepSpeed Plugin运行 NLP的示例（examples/nlp_example.py）

2.2.1 ZeRO Stage-2

accelerate配置文件：

compute_environment: LOCAL_MACHINE
deepspeed_config:
 gradient_accumulation_steps: 1
 gradient_clipping: 1.0
 offload_optimizer_device: none
 offload_param_device: none
 zero3_init_flag: true
 zero_stage: 2
distributed_type: DEEPSPEED
fsdp_config: {}
machine_rank: 0
main_process_ip: null
main_process_port: null
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 2
use_cpu: false

启动：

accelerate launch examples/nlp_example.py --mixed_precision fp16

2.2.2 ZeRO Stage-3 with CPU Offload

accelerate 配置文件：

compute_environment: LOCAL_MACHINE
deepspeed_config:
  gradient_accumulation_steps: 1
  gradient_clipping: 1.0
  offload_optimizer_device: cpu
  offload_param_device: cpu
  zero3_init_flag: true
  zero3_save_16bit_model: true
  zero_stage: 3
distributed_type: DEEPSPEED
fsdp_config: {}
machine_rank: 0
main_process_ip: null
main_process_port: null
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 2
use_cpu: false

启动：

accelerate launch examples/nlp_example.py --mixed_precision fp16

2.2.3 accelerate launch参数

Accelerate 支持通过CLI进行以下配置：

`zero_stage`: [0] Disabled, [1] optimizer state partitioning, [2] optimizer+gradient state partitioning and [3] optimizer+gradient+parameter partitioning
`gradient_accumulation_steps`: Number of training steps to accumulate gradients before averaging and applying them.
`gradient_clipping`: Enable gradient clipping with value.
`offload_optimizer_device`: [none] Disable optimizer offloading, [cpu] offload optimizer to CPU, [nvme] offload optimizer to NVMe SSD. Only applicable with ZeRO >= Stage-2.
`offload_param_device`: [none] Disable parameter offloading, [cpu] offload parameters to CPU, [nvme] offload parameters to NVMe SSD. Only applicable with ZeRO Stage-3.
`zero3_init_flag`: Decides whether to enable `deepspeed.zero.Init` for constructing massive models. Only applicable with ZeRO Stage-3.
`zero3_save_16bit_model`: Decides whether to save 16-bit model weights when using ZeRO Stage-3.
`mixed_precision`: `no` for FP32 training, `fp16` for FP16 mixed-precision training and `bf16` for BF16 mixed-precision training.

2.3 DeepSpeed Config File

为了能更灵活的配置DeepSpeed功能，推荐使用DeepSpeed config file。运行accelerate config，这将启动一个配置向导，询问您是否要使用DeepSpeed的配置文件。您应该回答"yes"并提供 deepspeed 配置文件的路径，回答完毕后，这将生成一个配置文件来正确设置默认选项。

accelerate launch my_script.py --args_to_my_script

下面介绍如何使用 DeepSpeed 配置文件运行 NLP 示例（examples/by_feature/deepspeed_with_config_support.py ）

2.3.1 ZeRO Stage-2

accelerate 配置文件：

compute_environment: LOCAL_MACHINE
deepspeed_config:
 deepspeed_config_file: /home/ubuntu/accelerate/examples/configs/deepspeed_config_templates/zero_stage2_config.json
 zero3_init_flag: true
distributed_type: DEEPSPEED
fsdp_config: {}
machine_rank: 0
main_process_ip: null
main_process_port: null
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 2
use_cpu: false

zero_stage2_config.json ：

{
    "fp16": {
        "enabled": true,
        "loss_scale": 0,
        "loss_scale_window": 1000,
        "initial_scale_power": 16,
        "hysteresis": 2,
        "min_loss_scale": 1
    },
    "optimizer": {
        "type": "AdamW",
        "params": {
            "lr": "auto",
            "weight_decay": "auto",
            "torch_adam": true,
            "adam_w_mode": true
        }
    },
    "scheduler": {
        "type": "WarmupDecayLR",
        "params": {
            "warmup_min_lr": "auto",
            "warmup_max_lr": "auto",
            "warmup_num_steps": "auto",
            "total_num_steps": "auto"
        }
    },
    "zero_optimization": {
        "stage": 2,
        "allgather_partitions": true,
        "allgather_bucket_size": 2e8,
        "overlap_comm": true,
        "reduce_scatter": true,
        "reduce_bucket_size": "auto",
        "contiguous_gradients": true
    },
    "gradient_accumulation_steps": 1,
    "gradient_clipping": "auto",
    "steps_per_print": 2000,
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto",
    "wall_clock_breakdown": false
}

使用accelerate launch进行启动

accelerate launch examples/by_feature/deepspeed_with_config_support.py \
--config_name "gpt2-large" \
--tokenizer_name "gpt2-large" \
--dataset_name "wikitext" \
--dataset_config_name "wikitext-2-raw-v1" \
--block_size 128 \
--output_dir "./clm/clm_deepspeed_stage2_accelerate" \
--learning_rate 5e-4 \
--per_device_train_batch_size 24 \
--per_device_eval_batch_size 24 \
--num_train_epochs 3 \
--with_tracking \
--report_to "wandb"\

2.3.2 ZeRO Stage-3 with CPU offload

accelerate 配置文件：

compute_environment: LOCAL_MACHINE
deepspeed_config:
 deepspeed_config_file: /home/ubuntu/accelerate/examples/configs/deepspeed_config_templates/zero_stage3_offload_config.json
 zero3_init_flag: true
distributed_type: DEEPSPEED
fsdp_config: {}
machine_rank: 0
main_process_ip: null
main_process_port: null
main_training_function: main
mixed_precision: fp16
num_machines: 1
num_processes: 2
use_cpu: false

zero_stage3_offload_config.json

{
    "fp16": {
        "enabled": true,
        "loss_scale": 0,
        "loss_scale_window": 1000,
        "initial_scale_power": 16,
        "hysteresis": 2,
        "min_loss_scale": 1
    },
    "optimizer": {
        "type": "AdamW",
        "params": {
            "lr": "auto",
            "weight_decay": "auto"
        }
    },
    "scheduler": {
        "type": "WarmupDecayLR",
        "params": {
            "warmup_min_lr": "auto",
            "warmup_max_lr": "auto",
            "warmup_num_steps": "auto",
            "total_num_steps": "auto"
        }
    },
    "zero_optimization": {
        "stage": 3,
        "offload_optimizer": {
            "device": "cpu",
            "pin_memory": true
        },
        "offload_param": {
            "device": "cpu",
            "pin_memory": true
        },
        "overlap_comm": true,
        "contiguous_gradients": true,
        "reduce_bucket_size": "auto",
        "stage3_prefetch_bucket_size": "auto",
        "stage3_param_persistence_threshold": "auto",
        "sub_group_size": 1e9,
        "stage3_max_live_parameters": 1e9,
        "stage3_max_reuse_distance": 1e9,
        "stage3_gather_16bit_weights_on_model_save": "auto"
    },
    "gradient_accumulation_steps": 1,
    "gradient_clipping": "auto",
    "steps_per_print": 2000,
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto",
    "wall_clock_breakdown": false
}

使用accelerate launch进行启动

accelerate launch examples/by_feature/deepspeed_with_config_support.py \
--config_name "gpt2-large" \
--tokenizer_name "gpt2-large" \
--dataset_name "wikitext" \
--dataset_config_name "wikitext-2-raw-v1" \
--block_size 128 \
--output_dir "./clm/clm_deepspeed_stage3_offload_accelerate" \
--learning_rate 5e-4 \
--per_device_train_batch_size 32 \
--per_device_eval_batch_size 32 \
--num_train_epochs 3 \
--with_tracking \
--report_to "wandb"\

2.4 优化器和调度器（ DeepSpeed Config File）

在《Hugging Face高效训练技术三：huggingface DeepSpeed文档（Trainer）》6.2节优化器章节介绍过，当不启用offload_optimizer（优化器卸载）功能时，可以混合使用HF和DS的优化器和迭代器，组合情况如下：（只是不能同时使用deepspeed 优化器和huggingface的调度器）

组合	HF Scheduler	DS Scheduler
HF Optimizer	Yes	Yes
DS Optimizer	No	Yes

DeepSpeed 的主要优化器是 Adam、AdamW、OneBitAdam 和 Lamb。这些已通过 ZeRO 进行了彻底测试，建议使用。但如果您有特殊需求，也可以从 torch 导入其他优化器，详见文档。

本文介绍的是Accelerate集成DeepSpeed 的情况，情况也是类似：

DS Optim + DS Scheduler：当 DeepSpeed 配置文件中同时定义了 optimizer 和 scheduler 的时候，用户需要使用accelerate.utils.DummyOptim 和 accelerate.utils.DummyScheduler 来替换代码中的 PyTorch/自定义优化器和调度器。以下是 examples/by_feature/deepspeed_with_config_support.py 中显示这一情况的代码片段：

from accelerate.utils import DummyOptim, DummyScheduler, set_seed
...
# 如果 config file定义了Optimizer则创建Dummy Optimizer，否则创建Adam Optimizer
optimizer_cls = (
    torch.optim.AdamW
    if accelerator.state.deepspeed_plugin is None
    or "optimizer" not in accelerator.state.deepspeed_plugin.deepspeed_config
    else DummyOptim
)
optimizer = optimizer_cls(optimizer_grouped_parameters, lr=args.learning_rate)

# 如果 config file定义了scheduler则创建Dummy Scheduler，否则创建`args.lr_scheduler_type` Scheduler
if (
    accelerator.state.deepspeed_plugin is None
    or "scheduler" not in accelerator.state.deepspeed_plugin.deepspeed_config
):
    lr_scheduler = get_scheduler(
        name=args.lr_scheduler_type,
        optimizer=optimizer,
        num_warmup_steps=args.num_warmup_steps,
        num_training_steps=args.max_train_steps,
    )
else:
    lr_scheduler = DummyScheduler(
        optimizer, total_num_steps=args.max_train_steps, warmup_num_steps=args.num_warmup_steps
    )
model, optimizer, train_dataloader, eval_dataloader, lr_scheduler = accelerator.prepare(
        model, optimizer, train_dataloader, eval_dataloader, lr_scheduler)
...

Custom Optim + Custom Scheduler：DeepSpeed 配置文件中没有定义optimizer 和 scheduler，则代码保持不变，通过 DeepSpeed Plugin使用集成时就是这种情况。
Custom Optim + DS Scheduler：DeepSpeed 配置文件中仅定义 scheduler的情况，此时，用户必须使用 accelerate.utils.DummyScheduler 替换代码中的 PyTorch/Custom Scheduler。
DS Optim + Custom Scheduler：DeepSpeed 配置文件中仅定义 optimizer 的情况，此时会报错。

上述内容展开来说就是：

用户代码中的优化器，无论是直接实例化的（自定义的）还是通过 Accelerate 封装的，只要是 DeepSpeed Config File中定义了优化器，就会被替换为DummyOptim。
实际的优化过程会由 DeepSpeed 中的 optimizer 处理，为避免与用户代码中的优化器发生冲突，需要用这个 DummyOptim 对象进行替换。DummyOptim 是一个虚拟的优化器对象，不执行任何实际的优化运算，仅作为一个占位符存在，所以不会对模型参数执行优化。
DummyScheduler是虚拟的学习率调度器，其用法一样
Accelerate 不会自动帮用户代码中原有的Optimizer和 Scheduler 替换成 Dummy，需要用户自己手动替换，比如：

import accelerate

# 原优化器
optimizer = torch.optim.Adam(model.parameters())
optimizer = accelerate.DistributedOptimizer(optimizer, name='adam')

from accelerate.utils import DummyOptim

# 使用 DummyOptim 替换 Accelerate 封装的优化器
optimizer = DummyOptim()

另外需要注意，上述示例的DeepSpeed配置文件中的 auto 值，会根据传递给 prepare 方法的模型、数据加载器、虚拟优化器和虚拟调度器自动处理，其余的必须由用户显式指定。

2.5 协调DeepSpeed Config File与accelerate config

2.5.1 配置冲突

在使用 deepspeed_config_file 时，如果某些变量在 accelerate 中也进行了配置，那么这些变量的配置可能会发生冲突或重复，为了避免这种情况，最好将它们全部配置在 deepspeed_config_file 中。以下是可能会产生冲突的变量列表：

gradient_accumulation_steps
gradient_clipping
zero_stage
offload_optimizer_device
offload_param_device
zero3_save_16bit_model
mixed_precision

下面是一个更具体的例子：

Code test.py：

from accelerate import Accelerator
from accelerate.state import AcceleratorState


def main():
    accelerator = Accelerator()
    accelerator.print(f"{AcceleratorState()}")


if __name__ == "__main__":
    main()

accelerate config

command_file: null
commands: null
compute_environment: LOCAL_MACHINE
deepspeed_config:
  gradient_accumulation_steps: 1
  gradient_clipping: 1.0
  offload_optimizer_device: 'cpu'
  offload_param_device: 'cpu'
  zero3_init_flag: true
  zero3_save_16bit_model: true
  zero_stage: 3
  deepspeed_config_file: 'ds_config.json'
distributed_type: DEEPSPEED
downcast_bf16: 'no'
dynamo_backend: 'NO'
fsdp_config: {}
gpu_ids: null
machine_rank: 0
main_process_ip: null
main_process_port: null
main_training_function: main
megatron_lm_config: {}
num_machines: 1
num_processes: 2
rdzv_backend: static
same_network: true
tpu_name: null
tpu_zone: null
use_cpu: false

ds_config.json ：

{
    "bf16": {
        "enabled": true
    },
    "zero_optimization": {
        "stage": 3,
        "stage3_gather_16bit_weights_on_model_save": false,
        "offload_optimizer": {
            "device": "none"
        },
        "offload_param": {
            "device": "none"
        }
    },
    "gradient_clipping": 1.0,
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto",
    "gradient_accumulation_steps": 10,
    "steps_per_print": 2000000
}

此时运行accelerate launch test.py，会产生以下报错：

ValueError: When using `deepspeed_config_file`, the following accelerate config variables will be ignored: 
['gradient_accumulation_steps', 'gradient_clipping', 'zero_stage', 'offload_optimizer_device', 'offload_param_device', 
'zero3_save_16bit_model', 'mixed_precision'].
Please specify them appropriately in the DeepSpeed config file.
If you are using an accelerate config file, remove others config variables mentioned in the above specified list.
The easiest method is to create a new config following the questionnaire via `accelerate config`.
It will only ask for the necessary config variables when using `deepspeed_config_file`.

2.5.2 使用deepspeed_config_file配置具体参数

为了解决这个问题，建议通过运行 accelerate config 来创建一个新的配置文件。此命令将通过一系列问题询问用户，仅在使用 deepspeed_config_file 时要求用户提供必要的配置变量，以确保配置的一致性。

$ accelerate config
-------------------------------------------------------------------------------------------------------------------------------
In which compute environment are you running?
This machine                                                                                                                   
-------------------------------------------------------------------------------------------------------------------------------
Which type of machine are you using?                                                                                           
multi-GPU                                                                                                                      
How many different machines will you use (use more than 1 for multi-node training)? [1]:                                       
Do you wish to optimize your script with torch dynamo?[yes/NO]:                                                                
Do you want to use DeepSpeed? [yes/NO]: yes                                                                                    
Do you want to specify a json file to a DeepSpeed config? [yes/NO]: yes                                                        
Please enter the path to the json DeepSpeed config file: ds_config.json                                                        
Do you want to enable `deepspeed.zero.Init` when using ZeRO Stage-3 for constructing massive models? [yes/NO]: yes
How many GPU(s) should be used for distributed training? [1]:4
accelerate configuration saved at ds_config_sample.yaml

accelerate config：

compute_environment: LOCAL_MACHINE
deepspeed_config:
  deepspeed_config_file: ds_config.json
  zero3_init_flag: true
distributed_type: DEEPSPEED
downcast_bf16: 'no'
dynamo_backend: 'NO'
fsdp_config: {}
machine_rank: 0
main_training_function: main
megatron_lm_config: {}
num_machines: 1
num_processes: 4
rdzv_backend: static
same_network: true
use_cpu: false

此时运行accelerate launch test.py，会输出：

Distributed environment: DEEPSPEED  Backend: nccl
Num processes: 4
Process index: 0
Local process index: 0
Device: cuda:0
Mixed precision type: bf16
ds_config: {'bf16': {'enabled': True}, 'zero_optimization': {'stage': 3, 'stage3_gather_16bit_weights_on_model_save': False, 'offload_optimizer': {'device': 'none'}, 'offload_param': {'device': 'none'}}, 'gradient_clipping': 1.0, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'gradient_accumulation_steps': 10, 'steps_per_print': inf, 'fp16': {'enabled': False}}

2.5.3 命令行配置具体参数

新的ds_config.json文件中，将与DeepSpeed accelerate launch命令相关的参数设置为“auto”

{
    "bf16": {
        "enabled": "auto"
    },
    "zero_optimization": {
        "stage": "auto",
        "stage3_gather_16bit_weights_on_model_save": "auto",
        "offload_optimizer": {
            "device": "auto"
        },
        "offload_param": {
            "device": "auto"
        }
    },
    "gradient_clipping": "auto",
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto",
    "gradient_accumulation_steps": "auto",
    "steps_per_print": 2000000
}

在命令行使用具体参数来启动

accelerate launch test.py 
--mixed_precision="fp16" \
--zero_stage=3 \
--gradient_accumulation_steps=5 \
--gradient_clipping=1.0 \
--offload_param_device="cpu" \
--offload_optimizer_device="nvme" \
--zero3_save_16bit_model="true" \

Distributed environment: DEEPSPEED  Backend: nccl
Num processes: 4
Process index: 0
Local process index: 0
Device: cuda:0
Mixed precision type: fp16
ds_config: {'bf16': {'enabled': False}, 'zero_optimization': {'stage': 3, 'stage3_gather_16bit_weights_on_model_save': True, 'offload_optimizer': {'device': 'nvme'}, 'offload_param': {'device': 'cpu'}}, 'gradient_clipping': 1.0, 'train_batch_size': 'auto', 'train_micro_batch_size_per_gpu': 'auto', 'gradient_accumulation_steps': 5, 'steps_per_print': inf, 'fp16': {'enabled': True, 'auto_cast': True}}

注意：

所有剩余的"auto"值会在accelerator.prepare()调用中处理，也就是由代码逻辑自动确定。例如当gradient_accumulation_steps被设置为"auto"时，通过Accelerator(gradient_accumulation_steps=k)创建加速器对象时传入的 gradient_accumulation_steps参数才会生效
当 DeepSpeed 和 Accelerator 同时设置了 gradient_accumulation_steps 时，DeepSpeed 的配置优先级更高，会覆盖 Accelerator 的配置。

2.6 模型的保存和加载

在 ZeRO Stage-1 和 Stage-2 下，保存和加载模型的方式不变。在 ZeRO Stage-3 下,由于模型权重被分区到多个GPU上，state_dict 只包含空占位符。Stage-3 有两种保存方式：

将完整的16位模型权重保存下来，一会直接用model.load_state_dict(torch.load(pytorch_model.bin))加载。
这种情况需要在DeepSpeed Config file中设置zero_optimization.stage3_gather_16bit_weights_on_model_save 为True，或者在DeepSpeed Plugin中设置zero3_save_16bit_model 为True。注意，这需要在单GPU上合并权重，可能较慢且耗内存，仅在需要时使用。下面是examples/by_feature/deepspeed_with_config_support.py中的示例片段：
```
unwrapped_model = accelerator.unwrap_model(model)  # 解包模型

# Saves the whole/unpartitioned fp16 model when in ZeRO Stage-3 to the output directory if
# `stage3_gather_16bit_weights_on_model_save` is True in DeepSpeed Config file or
# `zero3_save_16bit_model` is True in DeepSpeed Plugin.
# For Zero Stages 1 and 2, models are saved as usual in the output directory.
# The model name saved is `pytorch_model.bin`
unwrapped_model.save_pretrained(
    args.output_dir,
    is_main_process=accelerator.is_main_process,
    save_function=accelerator.save,
    state_dict=accelerator.get_state_dict(model),
)
```
上述代码中，args.output_dir为保存目录，is_main_process表示只在主进程上执行保存，accelerator.save为保存函数，最后通过accelerator.get_state_dict(model)获取模型的状态字典。这样就可以保存下来完整的 16 位权重模型，之后直接加载使用。

32位权重的保存和加载，代码示例来自examples/by_feature/deepspeed_with_config_support.py 。

首先通过model.save_checkpoint()保存检查点。这将在检查点目录下创建分区后的ZeRO模型和优化器，以及zero_to_fp32.py脚本。可以使用该脚本进行脱机合并得到完整的32位权重。

合并脚本简单易用，不需要DeepSpeed的配置文件，还可以在CPU上运行

success = model.save_checkpoint(PATH, ckpt_id, checkpoint_state_dict)
status_msg = "checkpointing: PATH={}, ckpt_id={}".format(PATH, ckpt_id)
if success:
    logging.info(f"Success {status_msg}")
else:
    logging.warning(f"Failure {status_msg}")

$ cd /path/to/checkpoint_dir
$ ./zero_to_fp32.py . pytorch_model.bin
Processing zero checkpoint at global_step1
Detected checkpoint of type zero stage 3, world_size: 2
Saving fp32 state dict to pytorch_model.bin (total_numel=60506624)

如果只需要得到state_dict，可以使用如下代码：

from deepspeed.utils.zero_to_fp32 import get_fp32_state_dict_from_zero_checkpoint

state_dict = get_fp32_state_dict_from_zero_checkpoint(checkpoint_dir)

如果要加载此32位权重进行推理，可以使用如下代码：

from deepspeed.utils.zero_to_fp32 import load_state_dict_from_zero_checkpoint

unwrapped_model = accelerator.unwrap_model(model)
fp32_model = load_state_dict_from_zero_checkpoint(unwrapped_model, checkpoint_dir)

这些操作大约需要原始检查点大小2倍的内存

2.7 DeepSpeed ZeRO Inference

ZeRO Inference 支持 ZeRO stage 3 和 ZeRO-Infinity，它使用与训练相同的 ZeRO 协议，但不使用优化器和学习率调度器，所以只有 ZeRO stage 3 对推理有用。使用时，你只需要按照下面所示准备模型和数据加载器：

model, eval_dataloader = accelerator.prepare(model, eval_dataloader)

注意事项：

不支持 DeepSpeed Pipeline Parallelism：当前的集成不支持 DeepSpeed 的 Pipeline Parallelism（管道并行）。
不支持 mpu：当前集成不支持 mpu，从而限制了在 Megatron-LM 中支持的张量并行性。
不支持多模型：当前集成不支持多个模型。

三、相关资源

Accelerate DeepSpeed API文档《Utilities for DeepSpeed》
DeepSpeed GitHub、DeepSpeed官方教程、DeepSpeed官方API文档
DeepSpeed4Science及其介绍《Announcing the DeepSpeed4Science Initiative: Enabling large-scale scientific discovery through sophisticated AI system technologies》
微软deepspeed相关博客：
- 《ZeRO 和 Fastest BERT：提高 DeepSpeed 深度学习训练的规模和速度》
- 《DeepSpeed 推理模型实现 (MII)》
- 《DeepSpeed ZeRO++: A leap in speed for LLM and chat model training with 4X less communication》

最后，请记住， Accelerate 仅集成了 DeepSpeed，因此如果您在使用 DeepSpeed 过程中遇到任何问题或有任何疑问，请在 DeepSpeed GitHub 上提交问题。

你可能感兴趣的:(LLMs,huggingface,LLM,transformer)

LLM系统性学习完全指南（初学者必看系列） GA琥珀 LLM 学习人工智能语言模型
前言这篇文章将系统性的讲解LLM（LargeLanguageModels,LLM）的知识和应用。我们将从支撑整个领域的数学与机器学习基石出发，逐步剖析自然语言处理（NLP）的经典范式，深入探究引发革命的Transformer架构，并按时间顺序追溯从BERT、GPT-2到GPT-4、Llama及Gemini等里程碑式模型的演进。随后，我们将探讨如何将这些强大的基础模型转化为实用、安全的应用，涵盖对齐
Synergizing RAG and Reasoning: A Systematic Review-RAG与推理能力深度结合-新方向数据分析能量站机器学习人工智能
欢迎关v：数据分析能量站0论文小结一、研究背景与核心问题大语言模型（LLM）在处理复杂任务时面临两大瓶颈：知识局限性：纯LLM存在“知识幻觉”（编造事实）和“领域知识缺口”；推理浅度：传统检索增强生成（RAG）仅通过关键词匹配获取信息，无法处理多跳推理、语义歧义等复杂需求。核心主张：RAG与推理的深度整合（RAG+Reasoning）是突破上述瓶颈的关键，通过“检索提供实时知识，推理赋予逻辑能力”
CPO：对比偏好优化—突破大型语言模型在机器翻译中的性能边界 AI专题精讲强化学习人工智能强化学习 AI技术应用
温馨提示：本篇文章已同步至"AI专题精讲"CPO：对比偏好优化—突破大型语言模型在机器翻译中的性能边界摘要中等规模的大型语言模型（LLMs），如参数量为7B或13B的模型，在机器翻译（MT）任务中展现出良好性能。然而，它们仍未能达到最先进的传统编码器-解码器翻译模型，或是如GPT-4（OpenAI,2023）等更大规模LLM的表现。在本研究中，我们致力于弥合这一性能差距。我们首先评估了在机器翻译任
飞算JavaAI
一、产品简介飞算JavaAI是专为Java开发者打造的智能开发助手，深度适配Java技术栈。通过大语言模型（LLM）实现自然语言到代码的转换，覆盖需求分析、接口设计、表结构设计、业务逻辑生成、代码生成与合并等全流程开发环节。其核心优势在于：全流程自动化：从需求输入到完整工程代码生成，单日可完成传统数周的开发任务。代码质量保障：生成的代码符合阿里巴巴Java开发规范，支持静态代码分析工具自动检测安全
LLM - 通过案例轻松理解MCP、Tool Calling、Agent 小小工匠【LLM大模型】MCP Function Call Agent Tool Calling
文章目录一、MCP是什么？二、MCP解决了哪些痛点？三、什么是ToolCalling？四、对比案例一：ToolCallingvsMCP五、对比案例二：AgentvsAgent+MCP六：使用场景理解Agent→ToolCalling→MCP场景一：智能助手帮你整理工作安排（重构版）Agent的理解与规划ToolCalling的执行流程MCP的幕后支撑场景二：智能电商客服处理订单异常Agent的理解
黄仁勋对话Transformer七子：模型的未来在于数据质量，而非规模强化学习曾小健 #AI商业/产品/投融资前沿 #LLM大语言模型 transformer 深度学习人工智能
黄仁勋对话Transformer七子：模型的未来在于数据质量，而非规模乌鸦智能说2024-03-2216:14在今年的GTC大会上，英伟达CEO黄仁勋邀请了Transformer的七位作者（NikiParmar因故临时未能出席）参与圆桌论坛的讨论，这是Transformer团队首次在公开场合集体亮相。2017年，八位在谷歌工作的AI科学家发表了一篇名为《AttentionIsAllYouNeed》
如何增强LLM（大语言模型）的“置信度”和“自信心” ：LLM的“自信”不是“什么都能答”，而是“该答的答得准，不该答的敢说不”。 ZhangJiQun&MXP 教学 2021 AI python 2024大模型以及算力语言模型人工智能自然语言处理深度学习 transformer 机器学习
如何增强LLM（大语言模型）的“置信度”和“自信心”Pleaseprovideafirmanswer,andforthosewhodon’tknow,pleasereply‘unknown’LLM（大语言模型）的“置信度”（对输出内容的准确性判断）和“自信心”（稳定输出可靠信息的能力），核心逻辑与传统模型相通——让模型在“已知且可靠的知识范围内输出”，同时避免“强行回答陌生问题”。但LLM因生成式
深入解析 vLLM 分布式推理与部署策略
在当今人工智能快速发展的时代，大型语言模型（LLM）的推理和部署面临着诸多挑战，尤其是当模型规模日益庞大时，如何高效地利用硬件资源成为关键问题。vLLM作为一种强大的工具，为分布式推理和部署提供了多种策略，本文将详细探讨其相关技术和应用场景，希望能对您提供有价值的参考。分布式推理策略的选择在开始分布式推理和部署之前，明确何时采用分布式推理以及可选的策略至关重要。1.单GPU推理：如果模型能够在单个
AI应用服务 SUPER5266 人工智能
AI大模型--AI应用，该如何和前端交互，呈现llm模型答复内容呢？向LLM大模型提问后，系统得先识别问题，再从数据网络找信息，接着推理出正确结果，还得防止模型“胡编乱造”（控制模型幻想）。有时多个智能体（agent）要一起处理，结果还得融合。这些步骤都是异步进行的，没法像传统应用接口那样实时出结果。为减少大模型结果延迟、提升用户体验，我们提供以下方案。方案1、轮询后端pedding结果到db或其
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 计算机视觉人工智能机器学习算法深度学习
LLM的表征做减法的是什么，自然语言是一个矩阵，怎么进行减法的有个假设：就是最后一个词语融合了前面词语的信息减法操作主要用于提取模型内部表征中的"诚实性"概念向量。具体来说，这是通过对比诚实和不诚实场景下的模型隐藏状态实现的。importtorchfromtransformersimportAutoModelForCausalLM,AutoTokenizer,AutoConfigimportnum
深度学习图像分类数据集—桃子识别分类 AI街潜水的八角深度学习图像数据集深度学习分类人工智能
该数据集为图像分类数据集，适用于ResNet、VGG等卷积神经网络，SENet、CBAM等注意力机制相关算法，VisionTransformer等Transformer相关算法。数据集信息介绍：桃子识别分类：['B1','M2','R0','S3']训练数据集总共有6637张图片，每个文件夹单独放一种数据各子文件夹图片统计:·B1:1601张图片·M2:1800张图片·R0:1601张图片·S3:
LLM-生成器判别器的实现
总结首先，使用GPT模型获取每个词的生成概率pLLMp_{LLM}pLLM。然后，使用训练好的生成判别器，对每个可能的生成结果进行打分，得到pθ(c∣x1:t)p_\theta(c|x_{1:t})pθ(c∣x1:t)。最后，结合两者的输出，用贝叶斯规则调整每个词的概率，选择调整后的概率最高的词作为输出。通过这样的组合，生成过程可以更好地满足预期需求，如生成符合特定风格或格式的文本。要在使用已经预
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
使用 Ollama 、 DeepSeek和QWEN的模型上下文协议 (MCP) ，使用本地 LLM 教程的 MCP 服务器知识大胖 NVIDIA GPU和大语言模型开发教程服务器运维人工智能 qwen2vl deepseek
简介模型上下文协议：MCP服务器据称是AI领域的下一个重大改变者，它将使AI代理变得比我们想象的更加先进。MCP或模型上下文协议由Anthropic去年发布，它可以帮助LLM连接软件并对其进行控制。但有一个问题大多数MCP服务器都与ClaudeAI兼容，尤其是ClaudeAI桌面应用程序，但它们有自己的限制。有没有办法我们可以使用本地LLM运行MCP服务器？是的，在这个特定的逐步详细教程中，我们将
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
OpenWebUI系列之如何通过docker自动将其更新到OpenWebUI最新版本知识大胖 NVIDIA GPU和大语言模型开发教程 docker llm openwebui
实战需求OpenWebUI是一个可扩展、功能丰富且用户友好的自托管WebUI，旨在完全离线运行。它支持各种LLM运行器，包括Ollama和OpenAI兼容API。如何通过docker自动将其更新到OpenWebUI最新版本？系列文章《OpenWebUI系列之如何通过docker更新到OpenWebUI的最新版本》权重0，本地类、opewebui类《OpenWebUI系列之如何通过docker自动将
AnythingLLM教程系列之 12 AnythingLLM 上的 Ollama 与 MySQL+PostgreSQL 知识大胖 NVIDIA GPU和大语言模型开发教程 mysql postgresql 数据库 anythingllm ollama
简介一款全栈应用程序，可让您将任何文档、资源或内容转换为上下文，任何LLM都可以在聊天期间将其用作参考。此应用程序允许您选择要使用的LLM或矢量数据库，并支持多用户管理和权限。本文将介绍如何在AnythingLLM上将Ollama与MySQL+PostgreSQL连接起来。系列文章如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI应用程序，可以执行RAG、A
AnythingLLM教程系列之 09 AnythingLLM 支持自定义音频转录提供程序知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 anythingllm llm
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
AnythingLLM教程系列之 04 AnythingLLM 允许您以正确的格式导出聊天日志，以构建 GPT-3.5 和 OpenAI 上其他可用模型的微调模型（教程含安装步骤）知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 ai anythinllm llama
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
Ollama平台里最流行的embedding模型： nomic-embed-text 模型介绍和实践 skywalk8163 人工智能 embedding 人工智能服务器
nomic-embed-text模型介绍nomic-embed-text是一个基于SentenceTransformers库的句子嵌入模型，专门用于特征提取和句子相似度计算。该模型在多个任务上表现出色，特别是在分类、检索和聚类任务中。其核心优势在于能够生成高质量的句子嵌入，这些嵌入在语义上非常接近，从而在相似度计算和分类任务中表现优异。之所以选用这个模型，是因为在Ollama网站查找这个模型，发现
LLM 大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战汀、人工智能 LLM技术汇总人工智能自然语言处理 LLM Agent vLLM AI大模型大模型部署
LLM大模型学习必知必会系列(十三)：基于SWIFT的VLLM推理加速与部署实战1.环境准备GPU设备:A10,3090,V100,A100均可.#设置pip全局镜像(加速下载)pipconfigsetglobal.index-urlhttps://mirrors.aliyun.com/pypi/simple/#安装ms-swiftpipinstall'ms-swift[llm]'-U#vllm与
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
思维链革命：让大模型突破“机器思考”的边界 John Song AI 人工智能思维链2.0 CoT 多模态思维链元认知优化
以下是对LilianWeng思维链技术深度解析文章（原文链接）的博客化重构，融合技术本质与应用实践：思维链革命：让大模型突破“机器思考”的边界——解析ChainofThought技术体系与下一代推理架构一、从黑箱到透明思考：CoT的核心突破传统LLM困境：“大模型如同天才自闭症患者——知识渊博却无法展示思考路径”CoT解决方案：#标准CoT提示模板prompt="""问题：小明有5个苹果，吃掉2个
LLamaFactory 微调Qwen-VL-3B时报错TypeError: argument of type ‘NoneType‘ is not iterable 闲云野鹤01 大模型 linux 视觉检测 transformer
LLamaFactory微调Qwen-VL-3B时报错如下：TypeError:argumentoftype'NoneType'isnotiterable修改方式如下所示：进入\src\llamafactory文件夹，打开cli.py文件在文件头添加如下语句fromtransformersimportmodeling_utilsifnothasattr(modeling_utils,"ALL_PA
LLM Agent在多模态任务中的推理机制详解
文章目录一、引言二、多模态LLMAgent的基本架构2.1系统组成2.2工作流程图三、多模态表示与对齐3.1跨模态嵌入空间3.2模态对齐技术四、多模态推理策略4.1基于提示的推理(Prompt-basedReasoning)4.2多模态思维链(CoT)推理4.3多模态工具使用五、实现案例：多模态问答系统5.1系统架构5.2示例应用六、高级多模态推理技术6.1多模态递归推理6.2多模态记忆与检索6.
在mac m1基于llama.cpp运行deepseek
lama.cpp是一个高效的机器学习推理库，目标是在各种硬件上实现LLM推断，保持最小设置和最先进性能。llama.cpp支持1.5位、2位、3位、4位、5位、6位和8位整数量化，通过ARMNEON、Accelerate和Metal支持Apple芯片，使得在MACM1处理器上运行Deepseek大模型成为可能。1下载llama.cppgitclonehttps://github.com/ggerg
开发者关心的那些事圣子足道 ios 游戏编程 apple 支付
我要在app里添加IAP，必须要注册自己的产品标识符（product identifiers）。产品标识符是什么？产品标识符（Product Identifiers）是一串字符串，它用来识别你在应用内贩卖的每件商品。App Store用产品标识符来检索产品信息，标识符只能包含大小写字母（A-Z）、数字（0-9）、下划线（-）、以及圆点(.)。你可以任意排列这些元素，但我们建议你创建标识符时使用
负载均衡器技术Nginx和F5的优缺点对比 bijian1013 nginx F5
对于数据流量过大的网络中，往往单一设备无法承担，需要多台设备进行数据分流，而负载均衡器就是用来将数据分流到多台设备的一个转发器。目前有许多不同的负载均衡技术用以满足不同的应用需求，如软/硬件负载均衡、本地/全局负载均衡、更高
LeetCode[Math] - #9 Palindrome Number Cwind java Algorithm 题解 LeetCode Math
原题链接：#9 Palindrome Number 要求：判断一个整数是否是回文数，不要使用额外的存储空间难度：简单分析：题目限制不允许使用额外的存储空间应指不允许使用O(n)的内存空间，O(1)的内存用于存储中间结果是可以接受的。于是考虑将该整型数反转，然后与原数字进行比较。注：没有看到有关负数是否可以是回文数的明确结论，例如
画图板的基本实现 15700786134 画图板
要实现画图板的基本功能，除了在qq登陆界面中用到的组件和方法外，还需要添加鼠标监听器，和接口实现。首先，需要显示一个JFrame界面： public class DrameFrame extends JFrame { //显示
linux的ps命令被触发 linux
Linux中的ps命令是Process Status的缩写。ps命令用来列出系统中当前运行的那些进程。ps命令列出的是当前那些进程的快照，就是执行ps命令的那个时刻的那些进程，如果想要动态的显示进程信息，就可以使用top命令。要对进程进行监测和控制，首先必须要了解当前进程的情况，也就是需要查看当前进程，而 ps 命令就是最基本同时也是非常强大的进程查看命令。使用该命令可以确定有哪些进程正在运行
Android 音乐播放器下一曲连续跳几首歌肆无忌惮_ android
最近在写安卓音乐播放器的时候遇到个问题。在MediaPlayer播放结束时会回调 player.setOnCompletionListener(new OnCompletionListener() { @Override public void onCompletion(MediaPlayer mp) { mp.reset(); Log.i("H
java导出txt文件的例子知了ing java servlet
代码很简单就一个servlet,如下： package com.eastcom.servlet; import java.io.BufferedOutputStream; import java.io.IOException; import java.net.URLEncoder; import java.sql.Connection; import java.sql.Resu
Scala stack试玩, 提高第三方依赖下载速度矮蛋蛋 scala sbt
原文地址： http://segmentfault.com/a/1190000002894524 sbt下载速度实在是惨不忍睹, 需要做些配置优化下载typesafe离线包, 保存为ivy本地库 wget http://downloads.typesafe.com/typesafe-activator/1.3.4/typesafe-activator-1.3.4.zip 解压r
phantomjs安装(linux，附带环境变量设置) ，以及casperjs安装。 alleni123 linux spider
1. 首先从官网 http://phantomjs.org/下载phantomjs压缩包，解压缩到/root/phantomjs文件夹。 2. 安装依赖 sudo yum install fontconfig freetype libfreetype.so.6 libfontconfig.so.1 libstdc++.so.6 3. 配置环境变量 vi /etc/profil
JAVA IO FileInputStream和FileOutputStream，字节流的打包输出百合不是茶 java核心思想 JAVA IO操作字节流
在程序设计语言中，数据的保存是基本，如果某程序语言不能保存数据那么该语言是不可能存在的，JAVA是当今最流行的面向对象设计语言之一，在保存数据中也有自己独特的一面，字节流和字符流 1，字节流是由字节构成的，字符流是由字符构成的字节流和字符流都是继承的InputStream和OutPutStream ,java中两种最基本的就是字节流和字符流类 FileInputStream
Spring基础实例（依赖注入和控制反转） bijian1013 spring
前提条件：在http://www.springsource.org/download网站上下载Spring框架，并将spring.jar、log4j-1.2.15.jar、commons-logging.jar加载至工程1.武器接口 package com.bijian.spring.base3; public interface Weapon { void kil
HR看重的十大技能 bijian1013 提升能力 HR 成长
一个人掌握何种技能取决于他的兴趣、能力和聪明程度，也取决于他所能支配的资源以及制定的事业目标，拥有过硬技能的人有更多的工作机会。但是，由于经济发展前景不确定，掌握对你的事业有所帮助的技能显得尤为重要。以下是最受雇主欢迎的十种技能。　　一、解决问题的能力　　每天，我们都要在生活和工作中解决一些综合性的问题。那些能够发现问题、解决问题并迅速作出有效决
【Thrift一】Thrift编译安装 bit1129 thrift
什么是Thrift The Apache Thrift software framework, for scalable cross-language services development, combines a software stack with a code generation engine to build services that work efficiently and s
【Avro三】Hadoop MapReduce读写Avro文件 bit1129 mapreduce
Avro是Doug Cutting(此人绝对是神一般的存在）牵头开发的。开发之初就是围绕着完善Hadoop生态系统的数据处理而开展的（使用Avro作为Hadoop MapReduce需要处理数据序列化和反序列化的场景）,因此Hadoop MapReduce集成Avro也就是自然而然的事情。这个例子是一个简单的Hadoop MapReduce读取Avro格式的源文件进行计数统计，然后将计算结果
nginx定制500，502，503，504页面 ronin47 nginx　错误显示
server { listen 80; error_page 500/500.html; error_page 502/502.html; error_page 503/503.html; error_page 504/504.html; location /test {return502;}} 配置很简单，和配
java-1.二叉查找树转为双向链表 bylijinnan 二叉查找树
import java.util.ArrayList; import java.util.List; public class BSTreeToLinkedList { /* 把二元查找树转变成排序的双向链表题目：输入一棵二元查找树，将该二元查找树转换成一个排序的双向链表。要求不能创建任何新的结点，只调整指针的指向。 10 / \ 6 14 / \
Netty源码学习-HTTP-tunnel bylijinnan java netty
Netty关于HTTP tunnel的说明： http://docs.jboss.org/netty/3.2/api/org/jboss/netty/channel/socket/http/package-summary.html#package_description 这个说明有点太简略了一个完整的例子在这里： https://github.com/bylijinnan
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别 coder_xpf jquery json map val()
JSONUtil.serialize(map)和JSON.toJSONString(map)的区别数据库查询出来的map有一个字段为空通过System.out.println()输出 JSONUtil.serialize(map)： {"one":"1","two":"nul
Hibernate缓存总结 cuishikuan 开源 ssh javaweb hibernate缓存三大框架
一、为什么要用Hibernate缓存？ Hibernate是一个持久层框架，经常访问物理数据库。为了降低应用程序对物理数据源访问的频次，从而提高应用程序的运行性能。缓存内的数据是对物理数据源中的数据的复制，应用程序在运行时从缓存读写数据，在特定的时刻或事件会同步缓存和物理数据源的数据。二、Hibernate缓存原理是怎样的？ Hibernate缓存包括两大类：Hib
CentOs6 dalan_123 centos
首先su - 切换到root下面1、首先要先安装GCC GCC-C++ Openssl等以来模块：yum -y install make gcc gcc-c++ kernel-devel m4 ncurses-devel openssl-devel2、再安装ncurses模块yum -y install ncurses-develyum install ncurses-devel3、下载Erang
10款用 jquery 实现滚动条至页面底端自动加载数据效果 dcj3sjt126com JavaScript
无限滚动自动翻页可以说是web2.0时代的一项堪称伟大的技术，它让我们在浏览页面的时候只需要把滚动条拉到网页底部就能自动显示下一页的结果，改变了一直以来只能通过点击下一页来翻页这种常规做法。无限滚动自动翻页技术的鼻祖是微博的先驱：推特(twitter)，后来必应图片搜索、谷歌图片搜索、google reader、箱包批发网等纷纷抄袭了这一项技术，于是靠滚动浏览器滚动条
ImageButton去边框&Button或者ImageButton的背景透明 dcj3sjt126com imagebutton
在ImageButton中载入图片后，很多人会觉得有图片周围的白边会影响到美观，其实解决这个问题有两种方法一种方法是将ImageButton的背景改为所需要的图片。如：android:background="@drawable/XXX" 第二种方法就是将ImageButton背景改为透明，这个方法更常用在XML里； <ImageBut
JSP之c:foreach eksliang jsp forearch
原文出自：http://www.cnblogs.com/draem0507/archive/2012/09/24/2699745.html <c:forEach>标签用于通用数据循环，它有以下属性属性描述是否必须缺省值 items 进行循环的项目否无 begin 开始条件否 0 end 结束条件否集合中的最后一个项目 step 步长否 1
Android实现主动连接蓝牙耳机 gqdy365 android
在Android程序中可以实现自动扫描蓝牙、配对蓝牙、建立数据通道。蓝牙分不同类型，这篇文字只讨论如何与蓝牙耳机连接。大致可以分三步：一、扫描蓝牙设备： 1、注册并监听广播： BluetoothAdapter.ACTION_DISCOVERY_STARTED BluetoothDevice.ACTION_FOUND BluetoothAdapter.ACTION_DIS
android学习轨迹之四：org.json.JSONException: No value for hyz301 json
org.json.JSONException: No value for items 在JSON解析中会遇到一种错误，很常见的错误 06-21 12:19:08.714 2098-2127/com.jikexueyuan.secret I/System.out﹕ Result:{"status":1,"page":1,&
干货分享：从零开始学编程系列汇总 justjavac 编程
程序员总爱重新发明轮子，于是做了要给轮子汇总。从零开始写个编译器吧系列 (知乎专栏) 从零开始写一个简单的操作系统 (伯乐在线) 从零开始写JavaScript框架 (图灵社区) 从零开始写jQuery框架 (蓝色理想 ) 从零开始nodejs系列文章 (粉丝日志) 从零开始编写网络游戏
jquery-autocomplete 使用手册 macroli jquery Ajax 脚本
jquery-autocomplete学习一、用前必备官方网站：http://bassistance.de/jquery-plugins/jquery-plugin-autocomplete/ 当前版本：1.1 需要JQuery版本：1.2.6 二、使用 <script src="./jquery-1.3.2.js" type="text/ja
PLSQL-Developer或者Navicat等工具连接远程oracle数据库的详细配置以及数据库编码的修改超声波 oracle plsql
　　在服务器上将Oracle安装好之后接下来要做的就是通过本地机器来远程连接服务器端的oracle数据库，常用的客户端连接工具就是PLSQL-Developer或者Navicat这些工具了。刚开始也是各种报错，什么TNS:no listener;TNS:lost connection;TNS:target hosts...花了一天的时间终于让PLSQL-Developer和Navicat等这些客户
数据仓库数据模型之：极限存储--历史拉链表 superlxw1234 极限存储数据仓库数据模型拉链历史表
在数据仓库的数据模型设计过程中，经常会遇到这样的需求： 1. 数据量比较大; 2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等; 3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查看某一个用户在过去某一段时间内，更新过几次等等; 4. 变化的比例和频率不是很大，比如，总共有10
10点睛Spring MVC4.1-全局异常处理 wiselyman spring mvc
10.1 全局异常处理使用@ControllerAdvice注解来实现全局异常处理; 使用@ControllerAdvice的属性缩小处理范围 10.2 演示演示控制器 package com.wisely.web; import org.springframework.stereotype.Controller; import org.spring

Accelerate 0.24.0文档 二：DeepSpeed集成