Yuezero_

分布式并行训练（DP、DDP、DeepSpeed）

[pytorch distributed] 01 nn.DataParallel 数据并行初步

数据并行 vs. 模型并行
- 数据并行：模型拷贝（per device），数据 split/chunk（对batch切分）
  - 每个device上都拷贝一份完整模型，每个device分别处理1个batch的一部分(如batch_size=64, 2个device, 每device处理32个样本)
  - 梯度反向传播时，每个设备上的梯度求和(求和才是一个完整batch所有样本的loss)，汇入中心设备/参数服务器（默认gpu0）对模型进行梯度优化。
- 模型并行：数据拷贝（per device），模型 split/chunk（显然是单卡放不下模型的情况下）
DP => DDP
- DP：nn.DataParallel (不推荐)
  - https://pytorch.org/docs/stable/generated/torch.nn.DataParallel.html
- DDP: DistributedDataParallel (推荐)
- Use nn.parallel.DistributedDataParallel instead of multiprocessing or nn.DataParallel and Distributed Data Parallel.

1. 数据并行DP(nn.DataParallel)

预先定义一下Dataset和Model

import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader

class RandomDataset(Dataset):
    def __init__(self, size, length):
        self.len = length
        # 100*5
        self.data = torch.randn(length, size)
    def __getitem__(self, index):
        # (5, )
        return self.data[index]
    def __len__(self):
        # 100
        return self.len

class Model(nn.Module):
    # Our model
    def __init__(self, input_size, output_size):
        # 5 => 2
        super(Model, self).__init__()
        self.fc = nn.Linear(input_size, output_size)
    def forward(self, input):
        output = self.fc(input)
        print("\tIn Model: input size", input.size(),
              "output size", output.size())
        return output


input_size = 5  # 模型输入数据维度(b,n) = (30, 5)
output_size = 2  # 模型输出数据维度(b,n) = (30, 2)

batch_size = 30  # batch size
data_size = 100  # 数据集样本数量

rand_loader = DataLoader(dataset=RandomDataset(input_size, data_size),
                         batch_size=batch_size, 
                         shuffle=True)
# 构造优化器和损失函数
optimizer = optim.SGD(model.parameters(), lr=0.01)
criterion = nn.MSELoss()

# 模拟目标值
target = torch.randn(64, 5)

step1：并行化包裹模型

# Parameters and DataLoaders                    
# (5, 2)
model = Model(input_size, output_size)
if torch.cuda.device_count() > 1:  # 如果不止1张GPU 
	# 构建数据并行模型
	device_ids = [0, 1]  # 使用的设备ID列表
    # 如3张GPU，dim = 0，[30, xxx] -> [15, ...], [15, ...] on 2 GPUs
    model = nn.DataParallel(model, device_ids)  # 并行化，默认使用所有device加载数据

torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)
- model= 指传入的模型
- device_ids=None,
  - 参与训练的 GPU 有哪些，device_ids=gpus，默认None是使用全部device；
- output_device=None
  - 指定中心设备(参数服务器)，用于汇总梯度的 GPU 是哪个，output_device=gpus[0]
- dim=0
  - 从那一维度进行数据切分，默认batch维度
在执行 forward/backward 之前，使用 DataParallel 将 model 复制到 device_ids 指定设备上，进行数据并行处理。
- model.to('cuda:0')
- 不同的是tensor的to(device)是在device上生成一个拷贝，不改变原来cpu上的tensor；而model是直接将原model转移到gpu上。

step2：加载到device0

设置中心设备(参数服务器)，用于反向传播时的梯度汇总，一般指定cuda:0

# 将模型从cpu放在gpu 0上 
device = torch.device('cuda:0' if torch.cuda.is_available() else 'cpu') 
model.to(device)

step3：forward前向传播

模型forward时，将data_loader加载的一个batch的数据进行切分，送入不同device的模型进行计算，再将结果合并输出。

for data in rand_loader:
    # input_var can be on any device, including CPU
    input = data.to(device)
#     input = data
    output = model(input)
    print("Outside: input size", input.size(),
          "output_size", output.size())
"""
	In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
	In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
	Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
"""

step4：反向传播梯度聚合

loss.backward()分别在每个device上计算loss的梯度，average_gradients(model)将梯度聚合到中心设备/参数服务器(cuda:0)上，进行梯度优化

	# 在每个设备上进行前向传播和梯度计算
	loss = criterion(output, target)
	loss.backward()
	
	# 对各个设备上的梯度进行求和
	average_gradients(model)
	
	# 使用原始设备模型进行梯度优化
	optimizer.step()

2. 分布式数据并行DDP(nn.parallel.DistributedDataParallel)

multiple GPUs in a single machine/server/node：单机多卡

分布式数据并行时，模型（model parameters）/优化器（optimizer states）每张卡都会拷贝一份（replicas）
- DDP 始终在卡间维持着模型参数和优化器状态的同步一致性在整个训练过程中；
Data Parallel，一个batch的数据通过 DistributedSampler 切分split 分发到不同的 gpus 上
- 此时虽然模型/optimizer 相同，但因为每个device的数据输入不同，导致 loss 不同，反向传播时计算到的梯度也会不同
- 此时 ddp 通过 ring all-reduce algorithm ，保证每个batch step结束后不同卡间model/optimizer 的同步一致性

如上图所示，Ring all-reduce algorithm
- 首先会将所有的 gpu cards 连成一个 ring环
- 其同步过程，不需要等待所有的卡都计算完一轮梯度，
- 经过这个同步过程之后，所有的卡的 models/optimizers 就都会保持一致的状态；

Ring all-reduce algorithm 计算和同步的几个过程
- 红线：GPUs 分别计算损失（forward）和梯度（backward）
- 蓝线：梯度的聚合到中心device/参数服务器上(gpu0)
- 绿线：（模型/优化器）参数的更新及广播（broadcast）；

其实参数服务器可以是一个GPU0，也可以是CPU，也可以是所有GPU：

但将数据发送到GPU0会成为device通信的瓶颈：

所以采用环形的梯度聚合方式更加高效：

DDP基本概念

world：
- world 表示包含所有进程的组(所有gpu的集合)。
- 每个进程通常对应一个 GPU， world 中的进程可以相互通信，这使得使用分布式数据并行（Distributed Data Parallel, DDP）进行训练成为可能。
world_size（gpu个数/进程个数）：
- world_size 表示分布式训练环境中的总进程数/gpu数。
- 每个进程都会被分配一个唯一的标识符（rank），从 0 到 world_size-1。
rank（进程标识符）：
- rank 是分配给world中每个进程的唯一标识符，用于标识每个进程在分布式训练中的角色。
- local rank是分配个单个node中每个进程的标识符，world中可能有多个node。
node（节点）：
- node 可以理解为一个服务器，代表着物理设备上的一个实体。
- 在多机分布式训练中，每台机器被视为一个节点，节点之间需要进行通信。
- 例如，如果有2 个node/server，每个 node/server/machine 各有4张卡（4 gpus）。total_world_size = 2（节点数） * 4（每个节点的 GPU 数量）= 8， rank 的取值范围为 [0, 1, 2, 3, 4, 5, 6, 7]， local_rank 的取值范围为 [0, 1, 2, 3]，[0, 1, 2, 3] 分别对应着不同的节点上的进程。
All to one：聚合过程（reduce），所有GPU(model和optiminizer状态)汇聚到参数服务器；
one to All：广播过程（broadcast），参数服务器广播到所有GPU；

torchrun

torchrun运行分布式train.py脚本，nproc-per-node设置每个node服务器上的gpu个数(一般是1个服务器)，ddp_gpus_torchrun.py脚本名称，--max_epochs 5 --batch_size 32脚本参数。

!torchrun --nproc-per-node=2 ddp_gpus_torchrun.py --max_epochs 5 --batch_size 32

实现batch_size不变的情况下，对step的切分：
（如单卡情况下，data_len=1024，batch_size=32，则一个gpu的step=1024/32=32）
（多卡情况下2个gpu，data_len=1024，batch_size=32，则每个gpu的step=(1024/32)/2=32/2=16）

step1：导入相关的包

import os
import torch
import torch.nn.functional as F
from torch.utils.data import Dataset, DataLoader

import torch.multiprocessing as mp
from torch.utils.data.distributed import DistributedSampler  # 分发数据
from torch.nn.parallel import DistributedDataParallel as DDP  # 包装model使之数据并行
from torch.distributed import init_process_group, destroy_process_group

step2：ddp_setup函数

这个函数用于设置分布式训练的环境。它调用了init_process_group函数来初始化进程组，使用的通信backend后端是nccl（NVIDIA Collective Communication Library），然后使用torch.cuda.set_device函数，根据环境变量设置当前进程使用的GPU设备。

def ddp_setup():
    """
    Args:
        rank: Unique identifier of each process
        world_size: Total number of processes
    """
    # rank 0 process
#     os.environ["MASTER_ADDR"] = "localhost"
#     os.environ["MASTER_PORT"] = "12355"
    # nccl：NVIDIA Collective Communication Library 
    # 分布式情况下的，gpus 间通信
    init_process_group(backend="nccl")
    torch.cuda.set_device(int(os.environ['LOCAL_RANK']))

step3：Trainer类

这个类定义了一个模型训练的封装器。在初始化方法中，它接收一个模型backend、一个训练数据加载器train_dataloader、一个优化器train_dataloader作为参数，并将模型移动到GPU上，然后使用DistributedDataParallel对模型进行包装，以实现数据并行。(model先放cuda再DDP封装)

_run_batch方法实现了一次批量的训练过程，包括前向传播、计算损失、反向传播和更新参数。_run_epoch方法用于遍历整个训练集进行训练，self.train_dataloader.sampler.set_epoch(epoch)是用于设置数据加载器的epoch，以保证每个GPU在每个epoch开始时加载的数据都是不同的。train方法则用于控制训练的总体流程。

class Trainer:
    def __init__(self, 
                 model: torch.nn.Module, 
                 train_dataloader: DataLoader, 
                 optimizer: torch.optim.Optimizer, 
                 ) -> None:
        self.gpu_id = int(os.environ['LOCAL_RANK'])
        self.model = model.to(self.gpu_id)
        self.train_dataloader = train_dataloader
        self.optimizer = optimizer
        self.model = DDP(model, device_ids=[self.gpu_id])
        
    def _run_batch(self, xs, ys):
        self.optimizer.zero_grad()
        output = self.model(xs)
        loss = F.cross_entropy(output, ys)
        loss.backward()
        self.optimizer.step()
    
    def _run_epoch(self, epoch):
        batch_size = len(next(iter(self.train_dataloader))[0])
        print(f'[GPU: {self.gpu_id}] Epoch: {epoch} | Batchsize: {batch_size} | Steps: {len(self.train_dataloader)}')
        self.train_dataloader.sampler.set_epoch(epoch)
        for xs, ys in self.train_dataloader:
            xs = xs.to(self.gpu_id)
            ys = ys.to(self.gpu_id)
            self._run_batch(xs, ys)
    
    def train(self, max_epoch: int):
        for epoch in range(max_epoch):
            self._run_epoch(epoch)

step4：MyTrainDataset类

这个类定义了一个自定义的训练数据集。在初始化方法中，它接收一个大小参数，并生成一组随机的数据样本。__len__方法返回数据集的大小，__getitem__方法用于获取指定索引处的数据样本。

class MyTrainDataset(Dataset):
    def __init__(self, size):
        self.size = size
        self.data = [(torch.rand(20), torch.rand(1)) for _ in range(size)]

    def __len__(self):
        return self.size
    
    def __getitem__(self, index):
        return self.data[index]

step5：main函数

这个函数是程序的主函数。在函数内部，首先调用了ddp_setup函数来设置分布式训练的环境。

然后创建了一个自定义的训练数据集和相应的数据加载器，以及一个线性模型和一个优化器。DistributedSampler是PyTorch提供的一个分布式采样器，用于确保每个进程加载的数据都是不同的且顺序随机。sampler对象被传入训练数据集的构造函数，可以通过数据加载器（如torch.utils.data.DataLoader）的sampler参数指定。在每个进程中，DistributedSampler会根据进程ID和进程数量，将整个训练数据集划分成多个部分，并为每个进程提供其应加载的数据索引。这样，在分布式训练过程中，每个进程只会加载自己负责的数据部分，避免了数据重复加载。

接下来，创建了一个Trainer对象，并调用其train方法进行模型训练。最后调用destroy_process_group函数销毁进程组。

def main(max_epochs: int, batch_size: int):
    ddp_setup()
    
    train_dataset = MyTrainDataset(2048)
    train_dataloader = DataLoader(train_dataset, 
                              batch_size=batch_size, 
                              pin_memory=True, 
                              shuffle=False, 
                              # batch input: split to each gpus (且没有任何 overlaping samples 各个 gpu 之间)
                              sampler=DistributedSampler(train_dataset))
    model = torch.nn.Linear(20, 1)
    optimzer = torch.optim.SGD(model.parameters(), lr=1e-3)
    
    trainer = Trainer(model=model, optimizer=optimzer, train_dataloader=train_dataloader)
    trainer.train(max_epochs)
    
    destroy_process_group()

step6：解析命令行参数并运行主函数

在这个步骤中，首先使用argparse模块解析命令行参数，包括最大训练周期数max_epochs和批量大小batch_size。然后调用main函数，并将解析后的参数传递给它进行模型训练。

if __name__ == '__main__':
    
    import argparse
    parser = argparse.ArgumentParser(description='simple distributed training job')
    parser.add_argument('--max_epochs', type=int, help='Total epochs to train the model')
    parser.add_argument('--batch_size', default=32, type=int, help='Input batch size on each device (default: 32)')
    args = parser.parse_args()
    
#    world_size = torch.cuda.device_count()
    main(args.max_epochs, args.batch_size)

3. 模型并行

数据并行是切数据（scattering inputs and gathering outputs），模型并行是切模型（shards）；
- 模型并行：单卡放不下一份模型；
- 将一份大模型，不同的层切分到不同的卡上，forward时串行执行；

Huggingface实现

device_map：Huggingface支持自动实现模型并行
- device_map参数的取值["auto", "balanced", "balanced_low_0", "sequential"]
- auto的模型分割优先级:GPU(s) > CPU (RAM) > Disk

如下，如果有两种gpu，device_map="auto"使模型的layers的parameter分别加载到两张gpu上(各一半)：

from transformers import LlamaTokenizer, LlamaForCausalLM, GenerationConfig
model = LlamaForCausalLM.from_pretrained("decapoda-research/llama-7b-hf",
    load_in_8bit=True,
    device_map="auto",
)
for i, para in enumerate(model.named_parameters()):
#     print(f'{i}, {para[0]}\t {para[1].device} \t{para[1].dtype}')
    print(f'{i}, \t {para[1].device} \t{para[1].dtype}')`

to(device)实现

pytorch模拟模型并行原理：分别用to(device)，将不同的层加载到不同的gpu上，forward时将parameter也加载到对应gpu。

import torch
import torch.nn as nn
import torch.optim as optim

class ToyModel(nn.Module):
    def __init__(self):
        super(ToyModel, self).__init__()
        self.net1 = torch.nn.Linear(10000, 10).to('cuda:0')
        self.relu = torch.nn.ReLU()
        self.net2 = torch.nn.Linear(10, 5).to('cuda:1')

    def forward(self, x):
        # 卡间串行执行
        x = self.net1(x.to('cuda:0')))
        x = self.net2(self.relu(x.to('cuda:1'))
        return x

进行一个batch的train：每个batch_size=20样本，5分类

model = ToyModel()
loss_fn = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.001)

optimizer.zero_grad()
outputs = model(torch.randn(20, 10000))
labels = torch.randn(20, 5).to('cuda:1')
loss_fn(outputs, labels).backward()
optimizer.step()

4. Deepspeed

DeepSpeed：炼丹小白居家旅行必备【神器】

技术栈

术语：其实和前面DDP的概念一样。

Train的数据4部分组成：model模型参数、backward的梯度gradient、optimizer优化器参数、forward的数据tensor

Deepspeed、ZeRO技术方案：分发Partitioning(按gpu数量N等分数据)、卸载Offload(不用的数据放入CPU)、模型并行Pipeline(模型参数按层切分到不同gpu上)

step1：deepspeed初始化

# init distributed
deepspeed.init_distributed()

加载参数local_rank

def parse_arguments():
    import argparse
    parser = argparse.ArgumentParser(description='deepspeed training script.')
    parser.add_argument('--local_rank', type=int, default=-1,
                        help='local rank passed from distributed launcher')
    # Include DeepSpeed configuration arguments
    parser = deepspeed.add_config_arguments(parser)
    args = parser.parse_args()
    return args

step2：deepspeed封装模型和数据集

deepspeed.initialize()封装model和dataset，相当于将模型和数据集交给deepspeed进行托管，engine就是deepspeed封装后的model，其他返回值同样都是deepspeed封装过的。(其中optimizer和lr_scheduler 后面是用不到的)，我们只需要模型engine和数据加载器training_dataloader。

还要传入一个deepspeed的配置文件deepspeed_config。

# init model
model = MyClassifier(3, 100, ch_multi=128)
# init dataset
ds = MyDataset((3, 512, 512), 100, sample_count=int(1e6))

# init engine
engine, optimizer, training_dataloader, lr_scheduler = deepspeed.initialize(
    args=args,
    model=model,
    model_parameters=model.parameters(),
    training_data=ds,
    config=deepspeed_config,
)
# load checkpoint
engine.load_checkpoint("./data/checkpoints/MyClassifier/")

step3：训练

在使用DeepSpeed进行分布式训练时，通常不需要手动调用optimizer.zero_grad()来清零梯度。DeepSpeed会自动处理梯度累积和梯度清零的操作，无需手动调用zero_grad()。

当使用DeepSpeed进行分布式训练时，一般会在engine.backward(loss)之后调用engine.step()来执行梯度更新操作。在engine.step()中，DeepSpeed会执行优化器的step()方法来更新模型参数，并在必要的时候自动清零梯度，以便进行下一轮的反向传播。

engine.train()
    for step, (data, label) in enumerate(training_dataloader):
        step += 1
        data= data.to(device=engine.device, dtype=torch.float16)  # x
        label = label.to(device=engine.device, dtype=torch.long).reshape(-1)  # y
		
		# 不需要梯度清零optimizer.zero_grad()
        outputs = engine(data)  # forward
        loss = F.cross_entropy(outputs, label )
        engine.backward(loss)
        engine.step()

单机节点node多卡gpu运行

deepspeed \
    --launcher_args "source ${PWD}/setup_env.sh" \
    --hostfile hostfile \
    deepspeed_script.py \
    --deepspeed \
    --deepspeed_config "$PWD/deepspeed_config.json"

deepspeed_config.json

{
    "train_micro_batch_size_per_gpu": 1,
    "gradient_accumulation_steps": 1,
    "optimizer": {
        "type": "Adam",
        "params": {
            "lr": 0.001,
            "betas": [
                0.8,
                0.999
            ],
            "eps": 1e-08,
            "weight_decay": 3e-07
        }
    },
    "scheduler": {
        "type": "WarmupLR",
        "params": {
            "warmup_min_lr": 0,
            "warmup_max_lr": 0.001,
            "warmup_num_steps": 1000
        }
    },
    "activation_checkpointing": {
        "partition_activations": true,
        "cpu_checkpointing": true,
        "contiguous_memory_optimization": false,
        "number_checkpoints": null,
        "synchronize_checkpoint_boundary": false,
        "profile": true
    },
    "fp16": {
        "enabled": true,
        "auto_cast": false,
        "loss_scale": 0,
        "initial_scale_power": 16,
        "loss_scale_window": 1000,
        "hysteresis": 2,
        "consecutive_hysteresis": false,
        "min_loss_scale": 1
    },
    "zero_optimization": {
        "stage": 3,
        "offload_param": {
            "device": "cpu",
            "pin_memory": true
        },
        "offload_optimizer": {
            "device": "cpu",
            "pin_memory": true
        },
        "contiguous_gradients": true,
        "overlap_comm": true
    }
}

你可能感兴趣的:(Pytorch学习,分布式)

分布式生成 ID 策略的演进和最佳实践，含springBoot 实现（Java版本）
一、背景在单体架构中，ID通常使用数据库自增或UUID即可满足需求。但在微服务、分布式环境中，这些方式存在性能瓶颈、重复冲突、时序不全等问题。因此，分布式ID生成策略应运而生，用于确保在高并发、跨节点、异地部署的系统中，生成全局唯一、趋势递增、高性能的ID。二、演进历程单机自增ID（如数据库自增）Java原生UUID工具类生成（如雪花算法、KeyUtil等）中间件分布式协调（如Zookeeper、
GaussDB 权限管理：从 RBAC 到精细化控制的技术实践如清风一般 gaussdb
GaussDB权限管理：从RBAC到精细化控制的技术实践一、引言在分布式数据库环境中，权限管理是保障数据安全和合规性的核心环节。GaussDB（开源版及云服务版）提供了一套完整的权限管理体系，支持基于角色的访问控制（RBAC）、细粒度权限分配和动态审计等功能。本文将深入解析GaussDB的权限管理模型、操作方法及实战技巧。二、GaussDB权限管理模型核心对象与层级GaussDB的权限管理围绕以下
SIGMOD论文解读｜在自下而上优化中添加布隆过滤器 Gauss松鼠会技术交流数据库 gaussdb database
6月22日至27日，2025ACMSIGMOD/PODS国际学术会议在德国柏林举行。25日，华为多伦多分布式调度和数据引擎实验室主任工程师TimothyZeyl受邀出席，就入选的《IncludingBloomFiltersinBottom-upOptimization》论文进行了解读该论文创新性地首次提出了在自下而上的优化器的基于成本的优化过程中添加布隆过滤器（BloomFilter）的技术。该技
Docker快速部署Hive服务长路 ㅤ 运维 Docker配置 Hive环境大数据远程调试
文章目录前言Docker快速配置hive环境资料获取前言博主介绍：✌目前全网粉丝4W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)CSDN搜索：长路视频平台：b站-Coder长路Docker快速配置hive环境Ap
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
Linux部署MinIO与Spring Boot整合实战指南 luoqinqin linux spring boot 运维
一、MinIO简介与核心概念MinIO是一款高性能的分布式对象存储服务，兼容AmazonS3API，适用于存储图片、文档等非结构化数据。核心术语：Bucket：存储对象的容器（类似文件夹）Object：存储的基本单元（文件+元数据）AccessKey/SecretKey：身份验证凭证二、Linux环境MinIO部署1.单节点安装#下载二进制文件wgethttps://dl.min.io/serve
Spring Cloud Config（微服务配置中心详解）白仑色 Spring系列微服务微服务架构配置中心 SpringCloud
关键词：SpringCloudConfig、配置中心、远程仓库、动态刷新、加密解密✅摘要在微服务架构中，随着服务数量的增加，统一管理各服务的配置信息变得尤为重要。传统的本地配置文件方式难以满足多环境、多实例、集中化的需求。SpringCloudConfig是SpringCloud提供的一个分布式配置中心解决方案，支持将配置信息集中存储在Git、SVN或本地文件系统中，并提供给各个微服务动态获取和更
鸿蒙分布式开发实战指南：让设备协同像操作本地一样简单 harmonyos
摘要在如今设备高度互联的时代，一个用户往往会同时使用手机、平板、电视、手表等多个设备。鸿蒙系统基于“分布式能力”，让多个设备协同工作变得更简单，比如手机控制电视播放、手表调节空调，甚至多设备之间自动分工协作。这篇文章就带你从开发者角度出发，手把手了解鸿蒙分布式能力的实现方式。引言：为什么要用鸿蒙的分布式能力？随着物联网的发展，单设备运行逻辑已经难以满足日常复杂场景。鸿蒙系统设计了独特的分布式架构，
想要了解大模型，看懂这一篇就够了！大模型工作流程及核心参数介绍！ Gq.xxu qwen3 vllm transforms 大语言模型部署深度学习人工智能
若想深入探究大模型核心参数的效果与作用，就务必先弄清大模型的工作流程，明确核心参数在流程各阶段的效能与功能，知晓其具体含义。一，大模型的工作流程大模型运行时的工作原理可以概括为输入处理→特征提取→模型推理→结果生成四个核心阶段，整个过程融合了深度学习架构、自然语言处理技术以及分布式计算能力。从用户输入到大模型输出，整个工作的处理流程如下：输入文本→分词→嵌入+位置编码→Transformer多层处
SpringBoot EhCache 缓存一只帆記 Java SpringBoot spring boot 缓存后端
一、EhCache核心原理层级存储堆内缓存（Heap）：高速访问，受JVM内存限制堆外缓存（Off-Heap）：突破JVM堆大小限制（直接内存）磁盘存储（Disk）：持久化超大缓存集群存储（RMI/JGroups）：分布式节点同步（需企业版）数据过期策略LRU（最近最少使用）LFU（最不经常使用）FIFO（先进先出）基于创建/访问时间的TTL（生存时间）缓存工作流程是否方法调用缓存是否存在?返回缓
二进制部署Kubernetes1.32.4最新版本高可用集群及附加组件 Nova_CaoFc 容器云技术专栏 kubernetes 容器云原生
一、前言在云原生技术席卷全球的今天，Kubernetes（K8s）已成为容器编排领域的事实标准。当大家都习惯了kubeadm、kubeasz等自动化工具一键部署的便利时，选择通过二进制方式手动搭建K8s集群更像是一场"知其然亦知其所以然"的深度修行。这种方式将带您穿透抽象层，直面etcd的分布式存储机制、kube-apiserver的RESTful接口设计、kubelet与CRI的交互细节，以及各
鸿蒙操作系统核心特性解析：从分布式架构到高效开发的全景技术图谱
摘要近年来，随着物联网（IoT）、智能家居、智慧办公等领域的发展，传统的移动操作系统在多设备协同和资源共享方面越来越吃力。华为推出的鸿蒙操作系统（HarmonyOS）正是在这样的背景下诞生的。相比于iOS和Android，鸿蒙以“分布式操作系统”理念为核心，实现了跨设备协同、高效通信与统一开发的新生态，为开发者和用户都带来了新的体验。引言传统的移动操作系统大多聚焦在单一终端设备上，比如Androi
零基础上手鸿蒙开发：用ArkTS打造你的第一个HarmonyOS应用 harmonyos
摘要随着HarmonyOS的不断发展，越来越多开发者开始关注这套以分布式能力为核心的国产操作系统。不同于传统Android开发，HarmonyOS引入了更现代的Stage模型以及更高效的声明式UI语言——ArkTS，让应用开发更灵活、更统一。本文将带你从零开始构建一个完整的鸿蒙应用，从环境配置、页面开发到交互实现，逐步掌握入门技能。引言：鸿蒙开发为啥值得学？从2019年首次发布到现在，Harmon
Apache SeaTunnel × Hive 深度集成指南：原理、配置与实践数据库
在大数据处理的复杂生态中，数据的高效流转与整合是实现数据价值的关键。ApacheSeaTunnel作为一款高性能、分布式、易扩展的数据集成框架，能够快速实现海量数据的实时采集、转换和加载；而ApacheHive作为经典的数据仓库工具，为结构化数据的存储、查询和分析提供了坚实的基础。将ApacheSeaTunnel与Hive进行集成，能够充分发挥两者的优势，构建起高效的数据处理链路，满足企业多样化的
操作系统领域的新宠儿：鸿蒙应用深度剖析操作系统内核探秘操作系统内核揭秘 harmonyos 华为 ai
操作系统领域的新宠儿：鸿蒙应用深度剖析关键词：鸿蒙操作系统、微内核架构、分布式软总线、ArkUI框架、DevEcoStudio、跨设备开发、全场景生态摘要：本文深度剖析华为鸿蒙操作系统的核心技术架构与应用开发体系，从微内核设计、分布式协同技术、UI框架创新到全场景开发工具链展开分析。通过数学模型解析分布式一致性算法，结合Python代码演示核心调度逻辑，并以实战案例演示跨设备应用开发流程。探讨鸿蒙
鸿蒙分布式开发实战指南：让设备协同像操作本地一样简单前端世界 harmonyos harmonyos 分布式华为
摘要在如今设备高度互联的时代，一个用户往往会同时使用手机、平板、电视、手表等多个设备。鸿蒙系统基于“分布式能力”，让多个设备协同工作变得更简单，比如手机控制电视播放、手表调节空调，甚至多设备之间自动分工协作。这篇文章就带你从开发者角度出发，手把手了解鸿蒙分布式能力的实现方式。引言：为什么要用鸿蒙的分布式能力？随着物联网的发展，单设备运行逻辑已经难以满足日常复杂场景。鸿蒙系统设计了独特的分布式架构，
Elasticsearch MacJerry elasticsearch 大数据搜索引擎
学习目标[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BGW4RqWM-1635414988340)(es.assets/Snipaste_2020-07-06_13-03-45.png)]Elasticsearch简介与安装什么是Elasticsearch？ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基
分库分表之实战-sharding-JDBC水平分库+水平分表配置实战软件编程在线接单（需要可私）分库分表后端 java 数据库 mysql 分布式
大家好，我是工藤学编程一个正在努力学习的小博主，期待你的关注实战代码系列最新文章C++实现图书管理系统（QtC++GUI界面版）SpringBoot实战系列【SpringBoot实战系列】Sharding-Jdbc实现分库分表到分布式ID生成器Snowflake自定义wrokId实战环境搭建大集合环境搭建大集合(持续更新）分库分表分库分表之实战-sharding-JDBC广播表前情摘要：1、数据库
【量化系统实战】深入解析：大规模数据管理与分布式计算，打造你的量化“超级工厂” Natsume1710 python github 开发语言算法大数据数据仓库
前言随着量化策略的不断演进，以及对高频数据、另类数据（新闻、社交媒体、卫星图像等）需求的日益增长，许多朋友可能都会遇到一个棘手的问题：当数据量达到TB甚至PB级别，复杂的因子计算和超大规模回测在单机上变得举步维艰，系统效率严重受限。本文将作为量化系统构建系列的进阶篇，聚焦于大规模数据管理（BigDataManagement）和分布式计算（DistributedComputing）。我们将详细阐述如
多级缓存如何应用 t梧桐树t 缓存
什么是多级缓存提到多级缓存，很多人第一时间想到通过Guava本地缓存+Redis分布式缓存组成的二级缓存。其实，多级缓存可并不只是这两层，在一些场景中，可能有很多层。下面以一个电商的秒杀场景举例，说一说一个多级缓存的真实应用场景。clientCNDNginxGuavaRedis客户端缓存首先，离用户最近的一定是客户端了，比如我们使用的手机、电脑等，在手机上的APP以及电脑的浏览器，都是可以支持做缓
vue-scrollto实现页面组件锚点定位长路 ㅤ 前端 vue.js 前端 javascript
文章目录前言背景操作指南安装及配置步骤vue组件中使用参考文章前言博主介绍：✌目前全网粉丝3W+，csdn博客专家、Java领域优质创作者，博客之星、阿里云平台优质作者、专注于Java后端技术领域。涵盖技术内容：Java后端、大数据、算法、分布式微服务、中间件、前端、运维等。博主所有博客文件目录索引：博客目录索引(持续更新)视频平台：b站-Coder长路背景vue中在hash模式下，页面的动态渲染
seata 的使用初步 RR1335 微服务 SEATA 事务处理 seata 分布式事务 TC TM RM
Seata是一款开源的分布式事务解决方案，致力于在微服务架构下提供高性能和简单易用的分布式事务服务。在Seata开源之前，其内部版本在阿里系内部一直扮演着应用架构层数据一致性的中间件角色，帮助经济体平稳的度过历年的双11，对上层业务进行了有力的技术支撑。经过多年沉淀与积累，其商业化产品先后在阿里云、金融云上售卖。2019.1为了打造更加完善的技术生态和普惠技术成果，Seata正式宣布对外开源，未来
RocketMQ-on-DLedge自动容灾切换集群搭建学亮编程手记后台编程 rocketmq
DledgerDledger快速搭建前言DLedger是一套基于Raft协议的分布式日志存储组件，部署RocketMQ时可以根据需要选择使用DLeger来替换原生的副本存储机制。本文档主要介绍如何快速构建和部署基于DLedger的可以自动容灾切换的RocketMQ集群。1.源码构建构建分为两个部分，需要先构建DLedger，然后构建RocketMQ。1.1构建DLedger$gitclonehtt
谢飞机的Java高级开发面试：从Spring Boot到分布式架构的蜕变之旅
面试现场：谢飞机的求职奇遇记"请坐，谢先生。我看你简历上写了'精通Lombok'？"面试官推了推金丝眼镜。谢飞机一愣："啊...这个..."突然掏出手机，"您看我GitHub开源项目里用了@SneakyThrows，异常处理特别优雅！"面试官嘴角微扬："那说说SpringBoot自动装配原理？""这简单！"谢飞机来了精神，"就是通过@SpringBootApplication组合注解，结合SPI机
Redis 分布式锁详解 wcy0310 redis redis 分布式
Redis分布式锁的实现方法Redis分布式锁是一种利用Redis实现跨进程、跨服务器的互斥锁机制，常用于解决分布式系统中的并发控制问题。以下是几种常见的实现方式及其关键细节。基于SETNX和EXPIRE的实现使用SETNX（SETifNoteXists）命令尝试设置一个键，如果键不存在则设置成功，返回1；否则返回0。结合EXPIRE设置锁的超时时间，避免死锁。SETNXlock_keyuniqu
微服务分布式配置中心详解
一、分布式配置中心概述在微服务架构中，随着服务数量的增多和复杂度的提升，配置管理变得至关重要。分布式配置中心应运而生，它专门用于管理微服务架构中的配置文件。以支持Go语言的viper为例，配置文件管理涵盖了增加、修改、删除配置项等操作，同时要实现配置项在测试、开发和生产环境的隔离。不同环境的配置可能存在差异，例如数据库连接地址、日志级别等，因此需要对这些配置进行有效的管理和区分。二、本地文件配置的
特别放送：关于一个无法修复的系统级Bug 杨小扩 bug 程序人生
大家好，我是阿威。熟悉我的朋友都知道，我的博客基本只聊三件事：代码、架构和偶尔的职业生涯吐槽。但今天，我想破个例。起因是上周熬夜排查一个线上问题，一个分布式系统，流量洪峰一来，某个下游服务就雪崩。查了半天日志，发现系统把警报全发给了那些调用量只有个位数的用户API，说它们“行为异常，导致系统延迟”。而真正的根源，是一个拥有无限重试和最高优先级的内部服务，像个失控的while(true)循环，把整个
spring boot项目配置使用minion
一.Minio概述Minio是一款开源的高性能对象存储服务，兼容AmazonS3API，适用于私有云、混合云及边缘计算场景。它采用分布式架构设计，支持水平扩展，提供数据加密、版本控制、生命周期管理等企业级功能，适用于存储非结构化数据（如图片、视频、日志等）。核心特性S3兼容：完全兼容AmazonS3API，现有S3工具可直接对接。高性能：基于Golang编写，优化了并发和吞吐量，适合高负载场景。分
构建高效分布式系统：bRPC组合Channels与HTTP/H2访问指南 Jay Kay brpc c++http 网络协议网络 brpc
构建高效分布式系统：bRPC组合Channels与HTTP/H2访问指南引言在现代分布式系统中，下游服务访问的复杂性日益增加。bRPC通过组合Channels和HTTP/H2访问优化，提供了解决多层级RPC调用、负载均衡和协议兼容性问题的完整方案。本文将深入解析两大核心功能，助力开发者构建高性能服务。一、组合Channels：复杂访问模式的优雅抽象1.核心价值统一接口：同步/异步调用、超时控制、取
【弃】Selenium官方文档中文版元圆源
【找到官方中文文档，无须个人翻译，可用作参考相关链接】Seleniumg浏览器自动化项目Selenium浏览器自动化项目Selenium是一个涵盖了了一些列工具和库的总体项目，这些工具和库允许和支持网站浏览器的自动化。它提供了模拟用户和浏览器交互的扩展，一个扩展浏览器配置的分布式服务器，以及用于实现W3C(WorldWideWebConsotium万维网联盟)WebDriver规范的基础结构，该规
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不