canmoumou

【分布式】大模型分布式训练入门与实践 - 04

大模型分布式训练

数据并行-Distributed Data Parallel
- 1.1 背景
- 1.2 PyTorch DDP
- - 1） DDP训练流程
  - 2）DistributedSampler
  - 3）DataLoader: Parallelizing data loading
  - 4）Data-parallel（DP）
  - 5）DDP原理解析
- 2 模型并行Model Parallel
- - 1）tensor parallel
  - 2） Pipeline parallel
参考

数据并行-Distributed Data Parallel

1.1 背景

数据并行（Distributed Data Parallel）是一种用于加快深度学习模型训练速度的技术。在过去，训练大型模型往往受限于单卡训练的瓶颈，尤其是当处理大规模数据集时。数据并行通过在多个处理单元上同时训练模型，并通过增加BatchSize来提高并行度，有效地减少了训练时间。这种技术在加快深度学习模型训练速度的同时，还提高了模型处理大规模数据集的能力，为解决现实世界中的复杂问题提供了强有力的支持。

1.2 PyTorch DDP

1） DDP训练流程

这里我们通过一段代码过一下DDP的训练流

import torch
import torchvision
import argparse

# Step 1: import distributed
import torch.distributed as dist
parser = argparse.ArgumentParser()

# Step 2: torch.distributed.launchlocal_rank
parser.add_argument("--local_rank", default=-1)
FLAGS = parser.parse_args()
local_rank = FLAGS.local_rank
torch.cuda.set_device(local_rank)

# Step 3: DDP backend
dist.init_process_group(backend='nccl') # ncclgloompi
train_dataset = torchvision.datasets.CIFAR10(root='./data', train=True)

# Step 4: DistributedSamplerDataLoaderbatch_sizebatch_sizebatch_sizebatch_size)
train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset)
train_loader = torch.utils.data.DataLoader(my_trainset, batch_size=batch_size, sampler=train_sampler)
device = torch.device("cuda", local_rank)
model = nn.Linear(batch_size*32*32, 10).to(device)

# Step 5: DDP wrapper model
model = DDP(model, device_ids=[local_rank], output_device=local_rank)
loss_fn = nn.MSELoss()
optimizer = optim.SGD(model.parameters(), lr=0.001)

for epoch in range(num_epochs):
 # Step 6: sampler epoch and shuffle
 train_loader.sampler.set_epoch(epoch)
 for step, (input, label) in enumerate(train_loader):
 	optimizer.zero_grad()
 	input, label = input.to(device), label.to(device)
	output = model(input) 
	loss = loss_fn(output, label)
	loss.backward()
	optimizer.step()

运行测试一下

## Bash
# 5torch.distributed.launchDDP
# main.pylocal_rank":local_rank"
python -m torch.distributed.launch --nproc_per_node 4 main.py

2）DistributedSampler

Worldsize: num Hosts x num GPUs per host (= 2x3 = 6)
每个进程都知道本端的进程序号（local rank）和节点序号（host number），可以根据这一点计算全局序号（global rank）
global rank = local rank + num GPUs per host x host number

在distributed.py的源码中：

# DistributedSampler
def __iter__(self):
	# deterministically shuffle based on epoch
	g = torch.Generator()
	g.manual_seed(self.epoch)
	indices = torch.randperm(len(self.dataset), generator=g).tolist()
	
	# add extra samples to make it evenly divisible
	indices += indices[: self.total_size - len(indices))]
	assert len(indices) == self.total_size
	
	# subsample
	indices = indices(self.rank:self.total_size:self.num_replicas]
	assert len(indeices) == self.num_samples
	print("len_indices {0}".format(len(indices)))
	return iter(indices)

由于每次epoch我们都会随机shuffle数据集，

不同进程之间要怎么保持shuffle后数据集的一致性?
每次epoch怎么保证取到的数据集顺序不一样呢？

原理很简单，就是给不同进程分配数据集的不重叠、不交叉部分。

DistributedSampler使用set_epoch方法当前epoch作为随机数种子，保证每个epoch的随机数种子不一样，从而使得不同epoch下有不同的shuffle结果。

3）DataLoader: Parallelizing data loading

Dataloader在每个batch的加载过程如下：

从磁盘加载数据到主机（host）。
将数据从可页内存（pageable memory）转移到主机上的固定内存（pinnedmemory）
将数据从固定内存传输到GPU。
在GPU上运行前向（forward）和反向（backward）传递过程。

当设置多个num_workers时，多个进程同时加载数据，通过预取（prefetch）减少了IO带来的影响。

4）Data-parallel（DP）

model = torch.nn.DataParallel(model)

在旧版pytorch1.0之前使用DP实现数据并行。整个过程如图，没有主GPU。

从硬盘加载数据到host端页锁定内存（Page-locked Memory）。用多个工作进程实现数据并行加载。
把minibatch数据从页锁定内存（Page-locked Memory）并行转移到每个GPU上。不需要广播数据。每个GPU都拥有一个独立的模型拷贝，所以也不需要广播模型。
每个GPU进行前向计算，输出结果（Output）
计算loss，计算反向梯度。并利用allreduce并行计算梯度
更新模型参数。因为每个GPU在一开始就有独立的模型拷贝，而且梯度已经全部完成更新，也不需要模型同步。

在DP模式中，总共只有一个进程，所以存在很多缺点：

冗余的数据拷贝：master GPU拿到数据后需要分发给其他GPU
在forward之前其他GPU需要做一次模型拷贝：这是由于模型参数是在master GPU上更新的，所以要每次forward将更新好的参数同步给其他GPU
存在不必需要的output gather
不均衡的GPU利用率：master GPU占用率很高，CPU要完成数据分发，gather output，loss计算，梯度聚合以及参数更新等。

与DP相比，DDP流程明显就少了很多：

每个GPU基于DistributedSampler load自己的那份数据，而不像DP那样由master GPU load，然后分发给其他GPU
master GPU不需要在做额外的那些冗余工作，GPU利用率是均衡的。通过allreduce完成梯度更新后，获得所有GPU的梯度，然后由同步后的梯度更新参数，保证参数一致性。不像DP那样master GPU完成梯度计算和参数更新，然后再同步给其他GPU

5）DDP原理解析

在使用分布式数据并行（DDP）时，我们需要处理的是模型的参数以及梯度。
DDP的核心在于同步各进程间的参数变化量，而不是直接同步参数本身。因此，确保各进程的模型状态一致性变得至关重要。模型的状态主要由模型的权重参数以及梯度组成。
也就是要关注模型的状态一致性，同时需要一个简单的逻辑构成。

Parameter和buffer

在PyTorch中，所有的模型都会继承module类。可以说，一个模型就是由一系列module组合而成的。要了解模型，就必须从module下手。
module的基本要素分为两种：1. 状态 2. 钩子（hooks）

当一个模型的网络结构被定义后，其状态就是由parameter和buffer的迭代组合表示的。当我们保存模型，调用model.state_dict()的时候，我们同时会得到模型的parameter和buffer

也就是说，在DDP中，如果我们要在不同进程中维持相同的状态，我们不光要传递parameter的梯度，也要传递buffer。事实上，DDP就是这么做的。当每次网络传播开始前，其都会把master节点上的buffer广播给其他节点，维持状态的统一。

同时再利用钩子（hooks），提供插入接口。
主程序提供的这样的钩子定义，用户实现钩子函数，而这个函数会在实际运行中插入执行。
这个在tf和早期的mxnet中经常见到，就不做赘述。

通过这一系列定义和工具，我们可以完成对模型状态的统一，也可以利用钩子函数来实现整个逻辑结构。

具体实现

第一步初始化：

操作	具体实现
准备环境 init_process_group	如果进程数量不足（小于worldsize），进程会一直等待。
DDP初始化model=DDP(model)	parameter和buffer从master节点传到其他节点，使得所有进程状态一致（这一步过后不可修改模型的任何参数）。
	然后根据指定的size进行分组，每一组称为一个bucket（默认25M为一组）。
	最后创建reducer管理器，给每个parameter注册平均的hook

正式训练：

操作	具体实现
1. 采样数据	从dataloader得到一个batch的数据，用于当前计算（for input, lable in dataloader）； DistributedSampler会使各个进程之间的数据不重复。
2.forward	同步各进程状态（即各进程之间的buffer和parameters。
	执行forward过程
	（可选）当DDP参数find_unused_parameter为true时，其会在forward结束时，启动一个回溯，标记出所有没被用到的parameter，提前把这些设定为ready。但这个配置默认是关闭的，会影响速度
3.backward	reducer外面：各个进程各自开始从后往前反向计算梯度，即最后面的参数反而是最先得到梯度的。
	reducer外面：当某个parameter的梯度计算好了的时候，其之前注册的grad hook就会被触发，在bucket里把这个parameter的状态标记为ready。
	reducer里面：当某个bucket的所有parameter都是ready状态时，reducer会开始对这个bucket的所有parameter都开始一个异步的allreduce梯度平均操作。
4.优化器optimizer应用gradient，更新参数	这一部分为了保证各个进程参数一直，需要确保optimizer的初始状态和每次step()时的梯度相同。这个在model初始化时就会做，因此optimeizer的初始化必须放在DDP模型创建后。如果是自己实现的optimizer，则需要自己利用接口来保证更新时的一致性。

2 模型并行Model Parallel

背景：数据并行下分布式训练的显存占用
早在AlexNet诞生之时就有模型并行了。
已知训练时占用显存的只有4个部分，parameters，gradients，activation和optimizer states
parameter、gradients和optimizer_states所占的显存训练全程都会存在，activation则只占用前向阶段。
由于大模型的parameters和buffer动则上百G，所以现在的模型并行，是为了保证有限显存情况下，Transformer结构大模型的训练和推理。

1）tensor parallel

tensor parallel是把层的权重（即tensor）切分到不同的 tensor parallel process group所在的rank上。
以Megatron FFN为例：

def forward(self, hidden_states):
	 # [b,s, h]->[b, s, 4h/tp]
	 intermediate_parallel = self.dense_h_to_4h(hidden_states) # ColumnParallel
	 intermediate_parallel = F.Gelu(intermediate_parallel + bias_parallel)
	 #[b, s, 4h/tp]->[b, s, h]
	 output = self.dense_4h_to_h(intermediate_parallel) # RowParallelLinear
	 return output

column parallel（纵向切分）
在这里插入图片描述

def forward(self, input_):
	 # Set up backprop all-reduce. h4h/pgpu
	 identityall-reducef
	 input_parallel = copy_to_tensor_model_parallel_region(input_) 
	 bias = self.bias if not self.skip_bias_add else None 
	 # X * A_i^T = (b, s, h) * (h, 4h/tp) = (b, s, 4h/tp)
	 output_parallel = F.linear(input_parallel, self.weight, bias) 
	 return output_parallel

row parallel（横向）

def forward(self, input_):
	 # Matrix multiply. X_i=(b, s, 4h/tp) * A_i^T=(4h/tp, h) -> (b, s, h)
	 output_parallel = F.linear(input_, self.weight) 
	 # All-reduce across all the partitionsg.
	 output_ = reduce_from_tensor_model_parallel_region(output_parallel) 
	 if not self.skip_bias_add:
	 output = output_ + self.bias if self.bias is not None else output_ 
	 else:
	 output = output_
	 return output

疑问：为什么第1个linear层是列切而不是行切？
如果第一个linear层使用行切，relu或者bert中的gelu都是非线性函数，那么我们无法先执行这个非线性函数，然后再相加，即gelu(X1A1)+gelu(X2A2) != gelu(X1A1+X2A2）。所以满足等价性，需要在gelu之前加一个allreduce同步一下，这种做法性能不是最优的。

2） Pipeline parallel

pipeline parallel是把整个模型的层数切分到不同的 pipeline parallel process group所在的rank上，每个pipeline stage拿到的层是不同的，如下图：

这样做的话，大部分GPU都处在一个等待状态，所以利用率并不高。
假设有K个GPU，每个mini-batch切分成M个micro-batches，Bubble率为
$K - 1/ M + K - 1$

GPipe的论文中提到当M大于四倍K的时候，基本上Bubble就可以忽略不计了（还有一部分原因是在计算梯度的时候，作者在前面的层提前计算了activation，而不用等到后面层的梯度计算完，这样能一定程度上实现并行）。

G-pipe

可以看到，G-pipe将1个mini-batch切分成多个micro-batch（上图是8），前向时每个micro-batch从device1流向device4，反向时在device4上算出梯度后并更新device4对应层的参数，然后将梯度send给device3，device3做梯度计算和参数更新后传给device2，以此类推直至device1参数更新完后，第一个mini-batch就结束了。

在G-pipe里，micro-batch切的数量越多，pipeline bubble就越少，但会带来很高的显存占用，因为每份micro-batch都要存储activation为反向计算梯度使用。

为了缓解显存问题，NV提出了1F1B（one forward one backward）方法。

与G-pipe不同，1F1B在每算完一个micro-batch的前向后就会立即算反向，反向完成后就可以释放该micro-batch对应的activation。
在step中间稳定阶段，形成1前向1反向的形式，该阶段每个device上只需要保存1份micro-batch的激活。相比于G-pipe要保存micro-batch数量的激活值，无论是显存占用还是pipeline bubble率均减少了很多。
Interleaved 1F1B
为了进一步降低Bubble率，Megatron-LM的第二篇论文里面在PipeDream的基础上做了进一步改进。

interleaved-1F1B在 device 数量不变的情况下，对micro-batch进一步切分，分出了更多的 pipeline stage（称为virtual pipeline stage），以更多的通信量，换取pipeline bubble比率降低。

那么它是怎么解决计算负载不均衡呢？假设网络共16层（编号 0-15），4个Device，前述 G-pipe 和 1F1B是分成 4 个stage，按编号 0-3 层放 Device1，4-7层放 Device2 以此类推。

interleaved-1F1B则是按virtual_pipeline_stage 概念减小切分粒度，以 virtual_pipeline_stage=2 为例，将 0-1 层放 Device1、2-3 层放在 Device2，…，6-7 层放到 Device4，8-9 层继续放在 Device1，
10-11 层放在 Device2，…，14-15 层放在 Device4。

不过如果本身在PipeDream里面每个设备就只执行一层网络的话，就没有办法进一步通过Interleaved 1F1B进行优化了。

Megatron-LM 1F1B核心代码

def forward_backward_pipelining_without_interleaving(...):
 for i in range(num_microbatches_remaining):
 	output_tensor = forward_step(...)
 	if forward_only:
 		p2p_communication.send_forward(output_tensor, timers)
 	else:
 		output_tensor_grad = p2p_communication.send_forward_recv_backward(output_tensor, timers)
 
 	# Add input_tensor and output_tensor to end of list, then pop from the
 	# start of the list for backward pass.
 	input_tensors.append(input_tensor)
 	output_tensors.append(output_tensor)
 
 	if forward_only:
 		if not last_iteration:
 			input_tensor = p2p_communication.recv_forward(timers)
 		else:
 			input_tensor, output_tensor = input_tensors.pop(0), output_tensors.pop(0)
 			input_tensor_grad = backward_step(...)
 			if last_iteration:
 				input_tensor = None
 				p2p_communication.send_backward(input_tensor_grad, timers)
 			else:
 				input_tensor = p2p_communication.send_backward_recv_forward(input_tensor_grad, timers)

参考

How PyTorch implements DataParallel?
PyTorch2 doc：DATAPARALLEL
PyTorch distributed: experiences on accelerating data parallel training
GPU-内存拷贝
https://arxiv.org/pdf/2001.08361.pdf
https://www.usenix.org/conference/osdi20/presentation/jiang

pytorch基础 nn.embedding yuweififi pytorch 人工智能 nlp
nn.Embedding是PyTorch中的一个模块，用于创建嵌入层（embeddinglayer），它将离散的索引（例如词汇表中的单词索引）映射为固定大小的稠密向量。这是许多NLP模型（包括Transformer）中的基本组件。示例用法：importtorchimporttorch.nnasnn#定义一个嵌入层vocab_size=10000#词汇表大小embedding_dim=512#嵌入向
pytorch基础-layernormal 与 batchnormal yuweififi pytorch 人工智能 python
nn.LayerNorm（层归一化）和nn.BatchNorm（批量归一化）是深度学习中常用的两种归一化方法，都有助于提高模型的训练效率和稳定性，但它们在归一化维度、应用场景、计算方式等方面存在明显区别，以下为你详细介绍：1、归一化维度nn.LayerNorm：对单个样本的特征维度进行归一化。无论输入数据的形状如何，它会计算每个样本在特征维度上的均值和方差，然后进行归一化。例如，对于一个形状为(b
通过TensorFlow实现简单深度学习模型（2） yyc_audio 人工智能深度学习 python 机器学习
前文我们已经实现了对每批数据的训练，下面继续实现一轮完整的训练。完整的训练循环一轮训练就是对训练数据的每个批量都重复上述训练步骤，而完整的训练循环就是重复多轮训练。deffit(model,images,labels,epochs,batch_size=128):forepoch_counterinrange(epochs):print(f"Epoch{epoch_counter}")batch_
Pytorch使用手册—使用TACOTRON2进行文本到语音转换（专题二十四） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
一、概述本教程展示了如何使用torchaudio中的预训练Tacotron2构建文本到语音的管道。文本到语音的管道流程如下：文本预处理首先，输入的文本被编码为一系列符号。在本教程中，我们将使用英语字符和音标作为符号。谱图生成从编码后的文本中生成谱图。我们使用Tacotron2模型来完成这一步。3.时域转换最后一步是将谱图转换为波形。从谱图生成语音的过程也称为Vocder（声码器）。在本教程中，我们
Pytorch使用手册--将 PyTorch 模型导出为 ONNX（专题二十六） AI专题精讲 Pytorch入门到精通 pytorch 人工智能 python
注意截至PyTorch2.1，ONNX导出器有两个版本。torch.onnx.dynamo_export是最新的（仍处于测试阶段）导出器，基于PyTorch2.0发布的TorchDynamo技术。torch.onnx.export基于TorchScript后端，自PyTorch1.2.0起可用。一、torch.onnx.dynamo_export使用在60分钟入门中，我们有机会从高层次上了解PyT
Transformer 代码剖析2 - 模型训练（pytorch实现） lczdyx Transformer代码剖析 transformer pytorch 深度学习人工智能 python
一、模型初始化模块参考：项目代码1.1参数统计函数defcount_parameters(model):returnsum(p.numel()forpinmodel.parameters()ifp.requires_grad)遍历模型参数筛选可训练参数统计参数数量返回总数技术解析：numel()方法计算张量元素总数requires_grad筛选需要梯度更新的参数统计结果反映模型复杂度，典型Tran
Stable diffusion 3.5本地运行环境配置记录寸先生的牛马庄园扩散模型 stable diffusion
1.环境配置创建虚环境condacreate-nsd3.5python=3.10Pytorch(>2.0)condainstallpytorch==2.2.2torchvision==0.17.2torchaudio==2.2.2pytorch-cuda=12.1-cpytorch-cnvidiaJupyter能使用Anaconda虚环境condainstallipykernelpython-mi
阿里巴巴DIN模型原理与Python实现 eso1983 python 开发语言算法推荐算法
阿里巴巴的DeepInterestNetwork(DIN)是一种用于点击率预测（CTR）的深度学习模型，特别针对电商场景中用户兴趣多样化和动态变化的特性设计。其核心思想是通过注意力机制动态捕捉用户历史行为中与当前候选商品相关的兴趣。1.DIN模型原理1.核心问题传统推荐模型（如Embedding+MLP）将用户历史行为视为固定长度的向量，忽略了用户兴趣的多样性。例如，用户历史行为中可能包含多个互不
PyTorch使用常见异常和解决办法汇总东哥说AI 机器学习与深度学习实战 PyTorch 异常解决办法
文章目录1.使用conda安装PyTorch后同时在Jupyter导入失败Nomodulenamed'torch'2.PyTorch使用张量时报错expectedscalartypeDoublebutfoundFloat3.PyTorch创建Embedding时报错IndexError:indexoutofrangeinself1.使用conda安装PyTorch后同时在Jupyter导入失败No
Spark技术系列（一）：初识Apache Spark——大数据处理的统一分析引擎数据大包哥 #Spark 大数据
Spark技术系列（一）：初识ApacheSpark——大数据处理的统一分析引擎1.背景与核心价值1.1大数据时代的技术演进MapReduce的局限性：磁盘迭代计算、中间结果落盘导致的性能瓶颈Spark诞生背景：UCBerkeleyAMPLab实验室为解决复杂迭代计算需求研发（2010年开源）技术定位：基于内存的通用分布式计算框架（支持批处理、流计算、机器学习、图计算等）1.2Spark内置模块S
pytorch基础-比较矩阵是否相等 yuweififi pytorch 人工智能
1、使用NumPy库NumPy是Python中用于科学计算的常用库，它提供了array_equal和allclose函数来判断矩阵是否相等。array_equal用于精确比较，allclose用于考虑一定误差范围的近似比较，适合浮点数矩阵。importnumpyasnp#创建示例矩阵matrix_a=np.array([[1,2,3],[4,5,6]])matrix_b=np.array([[1,
RPC 服务分组：优化分布式系统架构的关键策略与代码实践阿贾克斯的黎明 qt 开发语言
目录RPC服务分组：优化分布式系统架构的关键策略与代码实践一、RPC服务分组的概念与作用二、实现RPC服务分组的步骤与代码示例（一）项目结构规划（二）编写proto文件（三）生成代码（四）编写服务逻辑（五）配置服务（六）启动服务组（七）服务调用在构建复杂的分布式系统时，RPC服务分组是一种有效的管理和组织方式，有助于提高系统的可维护性和扩展性。本文将详细介绍RPC服务分组的概念、作用，并通过实际步
RabbitMQ系列（零）概要 yyueshen RabbitMQ rabbitmq 分布式消息队列
一、消息队列总览1.什么是消息队列？消息队列（MessageQueue）是一种异步通信机制，允许分布式系统中的服务通过生产-消费模型传递数据。其核心价值在于：解耦性：生产者与消费者无需同时在线或直接交互削峰填谷：应对流量突发场景，避免系统过载（如秒杀系统请求缓冲）可靠性：通过持久化、重试机制保障消息不丢失2.典型应用场景场景实现原理案例服务异步化耗时操作异步执行（如日志记录）用户注册后异步发送通知
python使用kafka原理详解_Python操作Kafka原理及使用详解形象顧問Aking
Python操作Kafka原理及使用详解一、什么是KafkaKafka是一个分布式流处理系统，流处理系统使它可以像消息队列一样publish或者subscribe消息，分布式提供了容错性，并发处理消息的机制二、Kafka的基本概念kafka运行在集群上，集群包含一个或多个服务器。kafka把消息存在topic中，每一条消息包含键值(key)，值(value)和时间戳(timestamp)。kafk
Spring Boot 集成 Kafka m0_74823471 面试学习路线阿里巴巴 spring boot kafka linq
在现代软件开发中，分布式系统和微服务架构越来越受到关注。为了实现系统之间的异步通信和解耦，消息队列成为了一种重要的技术手段。Kafka作为一种高性能、分布式的消息队列系统，被广泛应用于各种场景。而SpringBoot作为一种流行的Java开发框架，提供了便捷的方式来构建应用程序。本文将介绍如何在SpringBoot项目中集成Kafka，包括Kafka的基本概念、SpringBoot集成Kafka的
月之暗面改进并开源了 Muon 优化算法，对行业有哪些影响？互联网之路. 知识点开源算法
互联网各领域资料分享专区(不定期更新)：Sheet正文月之暗面团队改进并开源的Muon优化算法在深度学习和大模型训练领域引发了广泛关注，其核心创新在于显著降低算力需求（相比AdamW减少48%的FLOPs）并提升训练效率，同时通过开源推动技术生态的共建。1.显著降低大模型训练成本，推动技术普惠算力需求锐减：Muon通过引入权重衰减和一致的RMS更新，解决了原始Muon在大规模训练中的稳定性问题，使
Spring Boot 动态配置数据源全解析 ♢.＊ spring boot 后端 java
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！引言在企业级应用开发中，单一数据源往往
深入解析：如何编写 Mapper 文件 ♢.＊ oracle 数据库 mybatis
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！在软件开发尤其是涉及数据库交互的项目中
Spring Boot 中 @Transactional 注解全面解析 ♢.＊ spring boot 数据库 sql
亲爱的小伙伴们，在求知的漫漫旅途中，若你对深度学习的奥秘、Java与Python的奇妙世界，亦或是读研论文的撰写攻略有所探寻，那不妨给我一个小小的关注吧。我会精心筹备，在未来的日子里不定期地为大家呈上这些领域的知识宝藏与实用经验分享。每一个点赞，都如同春日里的一缕阳光，给予我满满的动力与温暖，让我们在学习成长的道路上相伴而行，共同进步✨。期待你的关注与点赞哟！引言在企业级应用开发中，数据的一致性和
鸿蒙HarmonyOS应用开发 | 仓颉在 HarmonyOS 开发中的应用与创新实战一键难忘 harmonyos 华为分布式操作系统仓颉鸿蒙开发
鸿蒙HarmonyOS应用开发|仓颉在HarmonyOS开发中的应用与创新实战一、引言HarmonyOS作为一款面向全场景的分布式操作系统，为开发者提供了丰富的开发工具和技术。其中，仓颉作为HarmonyOS的自研编程语言，具有独特的优势和潜力。本文将深入探讨仓颉在HarmonyOS开发中的应用与创新。二、仓颉语言的特点（一）简洁高效的语法仓颉的语法简洁明了，易于学习和使用。它采用了现代化的编程风
利用 Azure Cosmos DB 和 MongoDB vCore 进行向量搜索示例 vaidfl 数据库 azure mongodb python
技术背景介绍AzureCosmosDB是一个全球分布式的多模型数据库服务，以其高性能和自动缩放能力而闻名。特别是对于支持OpenAIChatGPT这样的高需求应用程序，CosmosDB提供了单毫秒级的响应时间。对于开发者来说，AzureCosmosDB提供了一种与MongoDB兼容的服务，即MongoDBvCore，这使得熟悉MongoDB的开发者可以无缝地迁移和使用他们的经验与工具。在现代应用中
大模型替代程序猿？不可能，绝对不可能！进化路线来了来！！！ XiaoDuofCSDN 算法 leetcode 职场和发展 java 分布式深度学习神经网络
大模型后端开发面试指南：技术体系构建与实践路线一、背景说明随着大模型（LLM）技术进入工业化落地阶段，行业对大模型后端开发工程师的需求呈现爆发式增长。该岗位要求候选人不仅需要掌握传统分布式系统开发能力，还需深入理解大模型特有的计算范式。本文针对零基础转型场景，提供体系化的能力建设方案。二、核心目标建立大模型后端开发技术认知图谱构建可验证的工程项目实践体系形成持续跟踪技术演进的方法论三、持续关注的核
分享---rpc运维事故处理 XiaoDuofCSDN rpc 运维网络协议
事故案例03-QserverRPC调用大量失败一、事故背景Queryserver是内部的核心服务，负责处理数据查询请求并支持分布式缓存功能。为优化缓存一致性，新增了分布式锁逻辑：在查询请求命中缓存时需先获取分布式锁（基于Tair实现），若未获取成功则等待1秒后重试。此功能上线后，在特定异常场景下（如SQL执行失败）触发了线程池资源耗尽，最终导致RPC请求被拒绝，引发服务故障。二、事故影响（一）业务
使用GitPython和GitLoader进行版本控制与文档加载 vaidfl python
技术背景介绍Git是一种分布式版本控制系统，用于跟踪文件集的更改，通常用于程序员协作开发软件源代码。Git的特点包括支持分支和合并、轻量级、快速操作以及强大的社区支持等。在Python开发中，我们可以使用GitPython库来操作和管理Git仓库。此外，借助GitLoader，我们可以轻松地从Git仓库加载文档，以便在各种应用中使用。核心原理解析GitPython是一个Python库，它允许你通过
深度学习模型优化与医疗诊断应用突破智能计算研究中心其他
内容概要近年来，深度学习技术的迭代演进正在重塑医疗诊断领域的实践范式。随着PyTorch与TensorFlow等开源框架的持续优化，模型开发效率显著提升，为医疗场景下的复杂数据处理提供了技术基座。当前研究聚焦于迁移学习与模型压缩算法的协同创新，通过复用预训练模型的泛化能力与降低计算负载，有效解决了医疗数据样本稀缺与硬件资源受限的痛点问题。与此同时，自适应学习机制通过动态调整网络参数更新策略，在病理
跨框架模型演进与行业应用路径智能计算研究中心其他
内容概要在人工智能技术持续迭代的背景下，模型框架的演进与行业应用的深度融合已成为推动产业智能化升级的核心驱动力。本文系统性梳理TensorFlow、PyTorch、MXNet等主流框架的技术发展脉络，重点分析其从通用计算架构向多模态、轻量化方向的转型路径。同时，针对模型优化技术领域，深入探讨迁移学习、超参数调优及模型压缩等方法的创新突破，揭示其在降低计算资源消耗、提升推理效率方面的关键作用。在行业
金融风控与医疗影像算法创新前沿智能计算研究中心其他
内容概要在金融风控与医疗影像交叉领域，算法创新正推动两大行业的技术范式变革。联邦学习算法通过分布式数据协作机制，在保证隐私安全的前提下，显著提升金融风险预测模型的泛化能力。医疗影像诊断领域则依托三维卷积神经网络（3D-CNN）架构，实现了对CT、MRI等多模态影像的精准病灶分割，诊断准确率较传统方法提升23.6%。值得关注的是，可解释性算法（如LIME和SHAP）的深度应用，使两类场景中的模型决策
ZeRO分布式训练策略 AIGC_ZY 大模型分布式
ZeRO分布式训练策略详解一、核心设计原理ZeRO（ZeroRedundancyOptimizer）是微软提出的分布式训练优化框架，与传统数据并行方法不同，ZeRO通过将模型的参数、梯度和优化器状态分散到多个设备上，从而实现内存和计算资源的高效利用。ZeRO通过三级分片策略消除内存冗余，实现超大规模模型训练。其核心演进路线分为三个阶段：1.1ZeRO-1：优化器状态分片分片对象：优化器参数（如Ad
今天是我们的节日 1024 程序员节，码动未来，改变世界的神秘力量！程序员程序员节
今天是我们的节日1024程序员节，码动未来，改变世界的神秘力量！博主小程序体验|博主公众号分享在这个充满科技感的时代，有这样一群人，他们用一行行代码编织着未来的梦想，用智慧和创造力改变着世界的模样。今天，10月24日，程序员节，让我们一起走进这群神秘的“代码魔法师”的世界。程序员，他们是数字世界的建筑师。当我们在手机上轻松滑动，浏览各种信息；当我们在电脑前畅快地玩游戏、办公；当我们享受着各种便捷的
Redis分布式存储案例面试题哎呀哎呀诶 Redis redis 分布式数据库
问：1~2亿条数据需要缓存，请问如何设计这个存储案例？答：单机单台肯定是不可能的，肯定是分布式存储。问：用redis如何落地？答：1、哈希取余分区（小厂回答）2、一致性哈希算法分区（中厂回答）3、哈希槽分区（大厂回答，推荐回答）1、哈希取余分区2亿条记录就是2亿个(k,v)，我们单机不行必须要分布式多机，假设有3台机器构成一个集群，用户每次读写操作都是根据公式：hash(key)%N个机器台数，计
mondb入手木zi_鸣 mongodb
windows 启动mongodb 编写bat文件， mongod --dbpath D:\software\MongoDBDATA mongod --help 查询各种配置配置在mongob 打开批处理，即可启动，27017原生端口，shell操作监控端口扩展28017，web端操作端口启动配置文件配置，数据更灵活
大型高并发高负载网站的系统架构 bijian1013 高并发负载均衡
扩展Web应用程序一.概念简单的来说，如果一个系统可扩展，那么你可以通过扩展来提供系统的性能。这代表着系统能够容纳更高的负载、更大的数据集，并且系统是可维护的。扩展和语言、某项具体的技术都是无关的。扩展可以分为两种： 1.
DISPLAY变量和xhost(原创) czmmiao display
DISPLAY 在Linux/Unix类操作系统上, DISPLAY用来设置将图形显示到何处. 直接登陆图形界面或者登陆命令行界面后使用startx启动图形, DISPLAY环境变量将自动设置为:0:0, 此时可以打开终端, 输出图形程序的名称(比如xclock)来启动程序, 图形将显示在本地窗口上, 在终端上输入printenv查看当前环境变量, 输出结果中有如下内容:DISPLAY=:0.0
获取B/S客户端IP 周凡杨 java 编程 jsp Web 浏览器
最近想写个B/S架构的聊天系统，因为以前做过C/S架构的QQ聊天系统，所以对于Socket通信编程只是一个巩固。对于C/S架构的聊天系统，由于存在客户端Java应用，所以直接在代码中获取客户端的IP，应用的方法为： String ip = InetAddress.getLocalHost().getHostAddress(); 然而对于WEB
浅谈类和对象朱辉辉33 编程
类是对一类事物的总称，对象是描述一个物体的特征，类是对象的抽象。简单来说，类是抽象的，不占用内存，对象是具体的，占用存储空间。类是由属性和方法构成的，基本格式是public class 类名{ //定义属性 private/public 数据类型属性名； //定义方法 publ
android activity与viewpager+fragment的生命周期问题肆无忌惮_ viewpager
有一个Activity里面是ViewPager，ViewPager里面放了两个Fragment。第一次进入这个Activity。开启了服务，并在onResume方法中绑定服务后，对Service进行了一定的初始化，其中调用了Fragment中的一个属性。 super.onResume(); bindService(intent, conn, BIND_AUTO_CREATE);
base64Encode对图片进行编码 843977358 base64 图片 encoder
/** * 对图片进行base64encoder编码 * * @author mrZhang * @param path * @return */ public static String encodeImage(String path) { BASE64Encoder encoder = null; byte[] b = null; I
Request Header简介 aigo servlet
当一个客户端(通常是浏览器)向Web服务器发送一个请求是，它要发送一个请求的命令行，一般是GET或POST命令，当发送POST命令时，它还必须向服务器发送一个叫“Content-Length”的请求头(Request Header) 用以指明请求数据的长度，除了Content-Length之外，它还可以向服务器发送其它一些Headers，如：
HttpClient4.3 创建SSL协议的HttpClient对象 alleni123 httpclient 爬虫 ssl
public class HttpClientUtils { public static CloseableHttpClient createSSLClientDefault(CookieStore cookies){ SSLContext sslContext=null; try { sslContext=new SSLContextBuilder().l
java取反 -右移-左移-无符号右移的探讨百合不是茶位运算符位移
取反：在二进制中第一位，1表示符数，0表示正数 byte a = -1; 原码：10000001 反码：11111110 补码：11111111 //异或: 00000000 byte b = -2; 原码：10000010 反码：11111101 补码：11111110 //异或: 00000001
java多线程join的作用与用法 bijian1013 java 多线程
对于JAVA的join，JDK 是这样说的：join public final void join （long millis ）throws InterruptedException Waits at most millis milliseconds for this thread to die. A timeout of 0 means t
Java发送http请求(get 与post方法请求) bijian1013 java spring
PostRequest.java package com.bijian.study; import java.io.BufferedReader; import java.io.DataOutputStream; import java.io.IOException; import java.io.InputStreamReader; import java.net.HttpURL
【Struts2二】struts.xml中package下的action配置项默认值 bit1129 struts.xml
在第一部份，定义了struts.xml文件，如下所示： <!DOCTYPE struts PUBLIC "-//Apache Software Foundation//DTD Struts Configuration 2.3//EN" "http://struts.apache.org/dtds/struts
【Kafka十三】Kafka Simple Consumer bit1129 simple
代码中关于Host和Port是割裂开的，这会导致单机环境下的伪分布式Kafka集群环境下，这个例子没法运行。实际情况是需要将host和port绑定到一起， package kafka.examples.lowlevel; import kafka.api.FetchRequest; import kafka.api.FetchRequestBuilder; impo
nodejs学习api ronin47 nodejs api
NodeJS基础什么是NodeJS JS是脚本语言，脚本语言都需要一个解析器才能运行。对于写在HTML页面里的JS，浏览器充当了解析器的角色。而对于需要独立运行的JS，NodeJS就是一个解析器。每一种解析器都是一个运行环境，不但允许JS定义各种数据结构，进行各种计算，还允许JS使用运行环境提供的内置对象和方法做一些事情。例如运行在浏览器中的JS的用途是操作DOM，浏览器就提供了docum
java-64.寻找第N个丑数 bylijinnan java
public class UglyNumber { /** * 64.查找第N个丑数具体思路可参考 [url] http://zhedahht.blog.163.com/blog/static/2541117420094245366965/[/url] * 题目：我们把只包含因子 2、3和5的数称作丑数（Ugly Number）。例如6、8都是丑数，但14
二维数组（矩阵）对角线输出 bylijinnan 二维数组
/** 二维数组对角线输出两个方向例如对于数组： { 1, 2, 3, 4 }, { 5, 6, 7, 8 }, { 9, 10, 11, 12 }, { 13, 14, 15, 16 }, slash方向输出： 1 5 2 9 6 3 13 10 7 4 14 11 8 15 12 16 backslash输出： 4 3
[JWFD开源工作流设计]工作流跳跃模式开发关键点(今日更新) comsci 工作流
既然是做开源软件的,我们的宗旨就是给大家分享设计和代码,那么现在我就用很简单扼要的语言来透露这个跳跃模式的设计原理大家如果用过JWFD的ARC-自动运行控制器,或者看过代码,应该知道在ARC算法模块中有一个函数叫做SAN(),这个函数就是ARC的核心控制器,要实现跳跃模式,在SAN函数中一定要对LN链表数据结构进行操作,首先写一段代码,把
redis常见使用 cuityang redis 常见使用
redis 通常被认为是一个数据结构服务器，主要是因为其有着丰富的数据结构 strings、map、 list、sets、 sorted sets 引入jar包 jedis-2.1.0.jar (本文下方提供下载) package redistest; import redis.clients.jedis.Jedis; public class Listtest
配置多个redis dalan_123 redis
配置多个redis客户端 <?xml version="1.0" encoding="UTF-8"?><beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi=&quo
attrib命令 dcj3sjt126com attr
attrib指令用于修改文件的属性.文件的常见属性有:只读.存档.隐藏和系统. 只读属性是指文件只可以做读的操作.不能对文件进行写的操作.就是文件的写保护. 存档属性是用来标记文件改动的.即在上一次备份后文件有所改动.一些备份软件在备份的时候会只去备份带有存档属性的文件.
Yii使用公共函数 dcj3sjt126com yii
在网站项目中，没必要把公用的函数写成一个工具类，有时候面向过程其实更方便。在入口文件index.php里添加 require_once('protected/function.php'); 即可对其引用，成为公用的函数集合。 function.php如下： <?php /** * This is the shortcut to D
linux 系统资源的查看（free、uname、uptime、netstat） eksliang netstat linux uname linux uptime linux free
linux 系统资源的查看转载请出自出处：http://eksliang.iteye.com/blog/2167081 http://eksliang.iteye.com 一、free查看内存的使用情况语法如下： free [-b][-k][-m][-g] [-t] 参数含义 -b:直接输入free时，显示的单位是kb我们可以使用b(bytes),m
JAVA的位操作符 greemranqq 位运算 JAVA位移 <<>>>
最近几种进制，加上各种位操作符，发现都比较模糊，不能完全掌握，这里就再熟悉熟悉。 1.按位操作符：按位操作符是用来操作基本数据类型中的单个bit,即二进制位，会对两个参数执行布尔代数运算，获得结果。与（&）运算： 1&1 = 1, 1&0 = 0, 0&0 &
Web前段学习网站 ihuning Web
Web前段学习网站菜鸟学习：http://www.w3cschool.cc/ JQuery中文网：http://www.jquerycn.cn/ 内存溢出：http://outofmemory.cn/#csdn.blog http://www.icoolxue.com/ http://www.jikexue
强强联合：FluxBB 作者加盟 Flarum justjavac r
原文：FluxBB Joins Forces With Flarum作者：Toby Zerner译文：强强联合：FluxBB 作者加盟 Flarum译者：justjavac FluxBB 是一个快速、轻量级论坛软件，它的开发者是一名德国的 PHP 天才 Franz Liedke。FluxBB 的下一个版本(2.0)将被完全重写，并已经开发了一段时间。FluxBB 看起来非常有前途的，
java统计在线人数（session存储信息的） macroli java Web
这篇日志是我写的第三次了前两次都发布失败！郁闷极了！由于在web开发中常常用到这一部分所以在此记录一下，呵呵，就到备忘录了！我对于登录信息时使用session存储的，所以我这里是通过实现HttpSessionAttributeListener这个接口完成的。 1、实现接口类，在web.xml文件中配置监听类，从而可以使该类完成其工作。 public class Ses
bootstrp carousel初体验快速构建图片播放 qiaolevip 每天进步一点点学习永无止境 bootstrap 纵观千象
img{ border: 1px solid white; box-shadow: 2px 2px 12px #333; _width: expression(this.width > 600 ? "600px" : this.width + "px"); _height: expression(this.width &
SparkSQL读取HBase数据，通过自定义外部数据源 superlxw1234 spark sparksql sparksql读取hbase sparksql外部数据源
关键字：SparkSQL读取HBase、SparkSQL自定义外部数据源前面文章介绍了SparSQL通过Hive操作HBase表。 SparkSQL从1.2开始支持自定义外部数据源(External DataSource)，这样就可以通过API接口来实现自己的外部数据源。这里基于Spark1.4.0，简单介绍SparkSQL自定义外部数据源，访
Spring Boot 1.3.0.M1发布 wiselyman spring boot
Spring Boot 1.3.0.M1于6.12日发布，现在可以从Spring milestone repository下载。这个版本是基于Spring Framework 4.2.0.RC1,并在Spring Boot 1.2之上提供了大量的新特性improvements and new features。主要包含以下： 1.提供一个新的sprin