#苦行僧

LLM 分布式训练框架 | DeepSpeed与Accelerate

简单记录下根据网上资料（如Reference中所列）所学到的一些知识，这里主要介绍的是deepspeed分布式训练框架相关概念。

小日记：今天太舒服了，早上跑了6km，晚上吃了养生菌菇火锅~

文章目录

1、Accelerate和deepspeed的联系
2、基本概念
3、通信策略
4、Zero（ZeRO-Stage3、ZeRO-Offload）
- 4.1、ZeRO中不同stage的区别
- 4.2、ZeRO-Offload
5、deepspeed中的混合精度
6、gradient checkpoint
7、DeepSpeed的推理优化
8、deepspeed搭配transformers库使用
Reference

1、Accelerate和deepspeed的联系

Accelerate是PyTorch官方提供的分布式训练工具，而deepspeed是由Microsoft提供的分布式训练工具。
最主要的区别在于支持的模型规模不同，deepspeed支持更大规模的模型。 deepspeed还提供了更多的优化策略和工具，例如ZeRO和Offload等。
Accelerate更加稳定和易于使用，适合中小规模的训练任务。
⭐注意：在这里插入代码片Accelerate只支持nvlink，而T4，3090这类显卡是PIX ，检测方式：nvidia-smi topo -m。【我用3090ti跑这个项目：LLaMA-Factory，就跑不了会报错，我怀疑就是这个问题。用deepspeed是ok的】

我更推荐用deepspeed，deepspeed方便了我们在机器有限的情况下来训练、微调大模型，同时它也有很多优秀的性能优化。
目前主流的训练LLM的方式： PyTorch + GPU + DeepSpeed + LLM训练框架
优势：

存储效率：DeepSpeed提供了一种Zero的新型解决方案来减少训练显存的占用，它与传统的数据并行不同，它将模型状态和梯度进行分区来节省大量的显存；
可扩展性：DeepSpeed支持高效的数据并行、模型并行、pipeline并行以及它们的组合，这里也称3D并行；
易用性：在训练阶段，只需要修改几行代码就可以使pytorch模型使用DeepSpeed。

2、基本概念

在分布式计算环境中，有几个非常基础的概念需要理解：

节点编号（node_rank:）：分配给系统中每个节点的唯一标识符，用于区分不同计算机之间的通信。
全局进程编号（rank）：分配给整个系统中的每个进程的唯一标识符，用于区分不同进程之间的通信。
局部进程编号（local_rank）：分配给单个节点内的每个进程的唯一标识符，用于区分同一节点内的不同进程之间的通信。
全局总进程数（word_size）：在整个系统中运行的所有进程的总数，用于确定可以并行完成多少工作以及需要完成任务所需的资源数量。
主节点（master_ip+master_port）：在分布式计算环境中，主节点负责协调所有其他节点和进程的工作，为了确定主节点，我们需要知道它的IP地址和端口号。主节点还负责监控系统状态、处理任务分配和结果汇总等任务，因此是整个系统的关键部分。

3、通信策略

deepspeed 还提供了 mpi、gloo 和 nccl 等通信策略，可以根据具体情况进行选择和配置。

mpi 是一种跨节点通信库，常用于 CPU 集群上的分布式训练；
gloo 是一种高性能的分布式训练框架，支持 CPU 和 GPU 上的分布式训练；
nccl 是 NVIDIA 提供的 GPU 专用通信库，被广泛应用于 GPU 上的分布式训练。

在使用 DeepSpeed 进行分布式训练时，可以根据具体情况选择合适的通信库。通常情况下，如果是在 CPU 集群上进行分布式训练，可以选择 mpi 和 gloo；如果是在 GPU 上进行分布式训练，可以选择 nccl。

4、Zero（ZeRO-Stage3、ZeRO-Offload）

在DeepSpeed下，ZeRO训练支持了完整的ZeRO Stages1, 2和3，以及支持将优化器状态、梯度和模型参数从GPU显存下沉到CPU内存或者硬盘上，实现不同程度的显存节省，以便训练更大的模型。

ZeRO（Zero Redundancy Optimizer）是一种用于大规模训练优化的技术，主要是用来减少内存占用。在大规模训练中，内存占用可以分为 Model States 和 Activation两部分 (Activation估计是前向传播时保存下来的各神经元的激活值吧，因为反向传播时计算梯度需要用到) ，而 ZeRO 主要是为了解决 Model States 的内存占用问题。

ZeRO 将模型参数分成了三个部分：Optimizer States、Gradient 和 Model Parameter。

Optimizer States 是 Optimizer 在进行梯度更新时所需要用到的数据，例如 SGD 中的 Momentum。
Gradient 是在反向传播后所产生的梯度信息，其决定了参数的更新方向。
Model Parameter 则是模型参数，也就是我们在整个过程中通过数据“学习”的信息。

4.1、ZeRO中不同stage的区别

ZeRO-0：禁用所有类型的分片，仅使用 DeepSpeed 作为 DDP (Distributed Data Parallel)
ZeRO-1：把优化器状态(optimizer states)分片到每个数据并行的工作进程(每个GPU)下；
ZeRO-2：把优化器状态(optimizer states) + 梯度(gradients) 分片到每个数据并行的工作进程(每个GPU)下；
ZeRO-3：把优化器状态(optimizer states) + 梯度(gradients) + 模型参数(parameters) 分片到每个数据并行的工作进程(每个GPU)下。内存减少与数据并行度呈线性关系。例如，在64个GPU（Nd=64）之间进行拆分将产生64倍的内存缩减。通信量有50%的适度增长。
ZeRO-Infinity是ZeRO-3的拓展。允许通过使用 NVMe 固态硬盘扩展 GPU 和 CPU 内存来训练大型模型。ZeRO-Infinity 需要启用 ZeRO-3。

⭐ ZeRO-Stage3在deepspeed中通过zero_optimization.stage=0/1/2/3 设置，ZeRO-Offload通过zero_optimization.offload_optimizer.device设置。
⭐ 备注：优化器状态一般包含FP32 Gradient、FP32 Variance、FP32 Momentum、FP32 Parameters。梯度和模型参数一般会用FP16就够了，所以占用大头一般是优化器相关的。
所以根据实际硬件资源，选择适合Stage策略即可。如果遇到要跑更大的模型，比如想在3090 24GB下跑13B模型，可能Stage3也OOM跑不起来，此时可以开启Optimizer Offload和Param Offload即可跑起来，但相应的性能会受影响。

4.2、ZeRO-Offload

ZeRO-Offload： offload指将数据、梯度、优化器状态等下沉到CPU内存或硬盘上。

Optimizer Offload: 在Stage2的基础上，把梯度和优化器状态下沉到CPU内存或硬盘。
Param Offload: 在Stage3的基础上，把模型参数下沉到CPU内存或硬盘上。

5、deepspeed中的混合精度

混合精度训练是指在训练过程中同时使用FP16（半精度浮点数）和FP32（单精度浮点数）两种精度的技术。使用FP16可以大大减少内存占用，从而可以训练更大规模的模型。但是，由于FP16的精度较低，训练过程中可能会出现梯度消失和模型不稳定的问题。因此，需要使用一些技术来解决这些问题，例如动态精度缩放（Dynamic Loss Scaling）和混合精度优化器（Mixed Precision Optimizer）等。

deepspeed提供了混合精度训练的支持，可以通过在配置文件中设置"fp16.enabled": true来启用混合精度训练。在训练过程中，deepspeed会自动将一部分操作转换为FP16格式，并根据需要动态调整精度缩放因子，从而保证训练的稳定性和精度。
⭐ 在使用混合精度训练时，需要注意一些问题，例如梯度裁剪（Gradient Clipping）和学习率调整（Learning Rate Schedule）等。梯度裁剪可以防止梯度爆炸，学习率调整可以帮助模型更好地收敛。因此，在设置混合精度训练时，需要根据具体情况进行选择和配置。

BF16和FP16都是混合精度训练中使用的浮点数表示格式。

BF16是一种Brain Floating Point格式，由英特尔提出，可以提供更好的数值稳定性和更高的精度，但需要更多的存储空间。在混合精度训练中，BF16可以作为一种精度更高的替代品，用于一些关键的计算操作，例如梯度累加和权重更新等。使用BF16和FP16一样可以提高模型的训练速度和精度，并减少内存占用。
在 DeepSpeed 中，可以通过在配置文件中设置 "bf16.enabled": true 来启用 BF16 混合精度训练。这将会将一部分操作转换为 BF16 格式，并根据需要动态调整精度缩放因子，从而提高模型的训练速度和精度，并减少内存占用。

6、gradient checkpoint

大型模型在静态和动态方面都很耗资源。首先，它们很难适配 GPU，而且哪怕你把它们放到了设备上，也很难训练，因为批处理大小被迫限制的太小而无法收敛。所以用gradient checkpoint相当于时间换空间。

gradient checkpoint的意思是在反向传播时重新计算深度神经网络的中间值（而通常情况是在前向传播时存储的)。这个策略是用时间（重新计算这些值两次的时间成本）来换空间（提前存储这些值的内存成本）。

具体工作原理是从计算图中省略一些激活值（由前向传播产生，其中这里的”一些“是指可以只省略模型中的部分激活值，折中时间和空间，即前向传播的时候存一个节点释放一个节点，空的那个等需要用的时候再backword的时候重新计算）。这减少了计算图使用的内存，降低了总体内存压力（并允许在处理过程中使用更大的批次大小）。
pytorch中对应的函数与实现原理：PyTorch 通过 torch.utils.checkpoint.checkpoint 和 torch.utils.checkpoint.checkpoint_sequential 提供梯度检查点，根据官方文档的 notes，它实现了以下功能，在前向传播时，PyTorch 将保存模型中的每个函数的输入元组。在反向传播过程中，对于每个函数，输入元组和函数的组合以实时的方式重新计算，插入到每个需要它的函数的梯度公式中，然后丢弃（显存中只保存输入数据和函数）。网络计算开销大致相当于每个样本通过模型前向传播开销的两倍。

❓注：神经网络使用的总内存基本上是两个部分的总和，包括静态内存和动态内存：

静态内存：尽管 PyTorch 模型中内置了一些固定开销，但总的来说几乎完全由模型权重决定。而如今，在生产中使用的现代深度学习模型的总参数在100万到10亿之间。作为参考，一个带 16GB GPU 内存的 NVIDIA T4 的实际限制大约在1-1.5亿个参数之间。
动态内存：在训练模式下，每次通过神经网络的前向传播都为网络中的每个神经元计算一个激活值，这个值随后被存储在所谓的计算图中。必须为批次中的每个单个训练样本存储一个值，因此数量会迅速的累积起来。总成本取决于模型大小和批处理大小，并设置适用于您的GPU内存的最大批处理大小的限制。一开始存储激活的原因是，在反向传播期间计算梯度时需要用到激活。

7、DeepSpeed的推理优化

除了训练优化，deepspeed还可以推理优化。
如下图，红色虚线框是以该单位为优化Kernel，对应的数字是优化的效率倍数。

8、deepspeed搭配transformers库使用

下面只是简单举例讲讲大致用法，更多使用讲解请参考参考文献[4]

pip install deepspeed

例如我们可以在transformers的trainer中加入args时，在args里将定义好deepsped的config文件路径传入：
ds_config.json的配置根据实际情况定义，如以下一个ZeRO-2的例子：

{
    "train_batch_size": "auto",
    "train_micro_batch_size_per_gpu": "auto",
    "gradient_accumulation_steps": "auto",
    "gradient_clipping": "auto",
    "zero_allow_untested_optimizer": true,
    "fp16": {
      "enabled": "auto",
      "loss_scale": 0,
      "initial_scale_power": 16,
      "loss_scale_window": 1000,
      "hysteresis": 2,
      "min_loss_scale": 1
    },  
    "zero_optimization": {
      "stage": 2,
      "allgather_partitions": true,
      "allgather_bucket_size": 5e8,
      "reduce_scatter": true,
      "reduce_bucket_size": 5e8,
      "overlap_comm": false,
      "contiguous_gradients": true
    }
  }

train_bash.py如下：

from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    DataCollatorForSeq2Seq,
    TrainingArguments,
    Trainer
)
from peft import (
    LoraConfig,
    TaskType,
    get_peft_model,
    get_peft_model_state_dict,
    set_peft_model_state_dict
)

# 设置训练参数
deepspeed_config = "./ds_config.json" # deepspeed配置文件
training_args = TrainingArguments(
	...
    deepspeed=deepspeed_config, # deepspeed配置文件的位置
)



model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, torch_dtype=torch.float16, device_map=device_map)
# LoRA训练配置，转换模型
lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    inference_mode=False,
    r=LORA_R, # LoRA中低秩近似的秩
    lora_alpha=LORA_ALPHA, # 见上文中的低秩矩阵缩放超参数
    lora_dropout=LORA_DROPOUT, # LoRA层的dropout
)
# 
model = get_peft_model(model, lora_config)
model.config.use_cache = False
old_state_dict = model.state_dict
model.state_dict = (
    lambda self, *_, **__: get_peft_model_state_dict(self, old_state_dict())
).__get__(model, type(model))
# 打印模型中的可训练参数
model.print_trainable_parameters()

# 模型训练
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["validation"],
    data_collator=collate_fn,
    compute_metrics=compute_metrics,
)
trainer.train()

单机多卡跑：
【多机多卡跑应该还有加一些指令，具体参考参考文献[2]】

deepspeed --num_gpus 2 --master_port=9901 ./train_bash.py \
    --deepspeed ds_config.json \
    ... # the arguments of train_bash.py

Reference

[1] deepspeed github: https://github.com/microsoft/DeepSpeed
[2] deepspeed官网：https://www.deepspeed.ai/
[3] deepspeed官方文档：https://deepspeed.readthedocs.io/en/latest/index.html
[4] transformers与deepspeed的集成使用教程：https://huggingface.co/docs/transformers/main/zh/main_classes/deepspeed
[5] 大模型训练之框架篇
[6] 用ZeRO训练大模型原理解析及参数含义解释

设计模式概述-24种设计模式和七大设计原则 SongYuxinZzz Java基础 java
六大设计原则1、开闭原则（OpenClosePrinciple）定义：一个软件实体如类、模块和函数应该对扩展开放，对修改关闭。问题由来：在软件的生命周期内，因为变化、升级和维护等原因需要对软件原有代码进行修改时，可能会给旧代码中引入错误，也可能会使我们不得不对整个功能进行重构，并且需要原有代码经过重新测试。解决方案：当软件需要变化时，尽量通过扩展软件实体的行为来实现变化，而不是通过修改已有的代码来
从 UUID 到 UUIDv7：唯一标识符的演进俞凡 DeepNoMind 后端
本文主要介绍UUID从v1到v8的演进历程，特别详细解读了最新的UUIDv7和UUIDv8，介绍了UUID在分布式系统和数据库索引中的应用和优势。原文：FromUUIDtoUUIDv7andBeyond:TheEvolutionofUniqueIdentifiers0190dffef1ad726bd83fab761dd389c6你在数据库或系统中见过这样一串数字吗？它很可能就是UUID。这并不是一
Ubuntu上如何优雅下载huggingface上某个gguf模型文件晨欣 ubuntu linux 运维
OS:Ubuntu22.04LTS需求：下载GorillaOpenfunctionsV2Q2GGUF模型到本地https://huggingface.co/gorilla-llm/gorilla-openfunctions-v2-gguf/blob/main/gorilla-openfunctions-v2-q2_K.gguf方法：使用wget命令wgethttps://huggingface.c
GGUF 大模型文件格式香菜烤面包 AI 系统与算法部署语言模型
1.基础原理GGUF简介当前的大模型的参数规模较大，数以千亿的参数导致了它们的预训练结果文件都在几十GB甚至是几百GB，这不仅导致其使用成本很高，在不同平台进行交换也非常困难。因此，大模型预训练结果文件的保存格式对于模型的使用和生态的发展来说极其重要。大语言模型的开发通常使用PyTorch等框架，其预训练结果通常也会保存为相应的二进制格式，如pt后缀的文件通常就是PyTorch框架保存的二进制预训
Linux系统python虚拟环境及HanLP部署段智华
在Linux系统中运行HanLP，要安装部署一个Python的虚拟环境，实现Python2与Python3的版本共存，Python虚拟环境与JavaJVM虚拟机的共存，HanLP是面向生产环境的多语种NLP工具包，HanLp的标记是一只蝴蝶，蝴蝶象征着蝴蝶效应、非线性与混沌理论——虽然微小，但足以改变世界！（《自然语言处理入门》图书作者何晗）Linuxopenssl、libssl-dev等模块安装
ollama把huggingface下载下来的模型转换为gguf abments 人工智能语言模型
说明ollama导入从huggingface下载下来的模型在ollama的说明文档中有详细的介绍,大家可以按照文档说明进行操作。importing-pytorch–safetensors。既然官方已经给出了明确的操作步骤，那么我写这篇博客的意义又是什么呢？主要有两个目的：1.我的操作可能更适合中国宝宝体质2.方便后期自己查看要求建议使用conda管理python环境建议使用linux或mac环境，
万字长文解读生成式AI参考架构俞凡 DeepNoMind 程序人生
本文介绍了构建端到端生产级GenAI应用的参考架构模型，涵盖了从UI/UX设计到多代理系统的各个方面，涉及AI模型的准备、调优、服务以及治理等关键环节。原文:TheGenAIReferenceArchitecture本文将介绍构建端到端GenAI应用的主要架构构件和蓝图，以便为生产做好准备，并且提出了几个在实施和设计基于LLM的应用时需要注意的关键事项。在目标架构中选择GenAI组件的AI成熟度：
论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）墨绿色的摆渡人文章论文阅读
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning（二）文章概括摘要：2.方法2.3.DeepSeek-R1：冷启动强化学习2.3.1.冷启动2.3.2.面向推理的强化学习2.3.3.拒绝采样与监督微调2.3.4.面向所有场景的强化学习2.4.蒸馏：赋予小模型推理能力文章概括引用：@article{g
pytorch小记（七）：pytorch中的保存/加载模型操作墨绿色的摆渡人 python pytorch小记 pytorch 人工智能 python
pytorch小记（七）：pytorch中的保存/加载模型操作1.加载模型参数(`state_dict`)1.1保存模型参数1.2加载模型参数1.3常见变种1.3.1指定加载设备1.3.2非严格加载（跳过部分层）1.3.3打印加载的参数2.加载整个模型2.1保存整个模型2.2加载整个模型2.3注意事项3.总结4.加载模型的完整代码示例4.1保存和加载参数4.2保存和加载整个模型4.3加载到不同设备
书生浦语第五期晴斋1216 语言模型
基础作业完成以下任务，并将实现过程记录截图：配置lmdeploy运行环境下载internlm-chat-1.8b模型以命令行方式与模型对话视频链接文档链接基础知识学习模型部署在软件工程中，部署通常指的是将开发完毕的软件投入使用的过程。在人工智能领域，模型部署是实现深度学习算法落地应用的关键步骤。简单来说，模型部署就是将训练好的深度学习模型在特定环境中运行的过程。目前大模型部署面临的挑战计算量巨大内
LLM模型部署经验分享 lewis_kai 阿里云语言模型
LLM模型部署经验分享作者：大连理工大学李凯首先，你需要选择一个合适的部署平台，这可以是本地服务器、云服务提供商（如AWS、Azure、GoogleCloud等）、边缘设备或者特定的部署服务（如HuggingFaceHub）。在这里我使用的是魔搭平台的云服务器。然后下载你要部署的模型，这里下载的是通义千问。下载并部署玩模型后，我们还可以对模型转换和优化，该文会介绍基于OpenVINO的模型量化实践
开源大模型（LLM）下载 baidu_20834545 语言模型
由于huggingface等国外网址无法访问或限制等问题，下载不了或下载速度慢。可以尝试从modespace（魔搭社区）下载。1、找到对应的模型文件，比如Meta-Llama-3-8B，然后找到下载入口2、点击模型下载，有2种下载方式，这里我们通过git下载（注意由于模型文件一般都比较大，直接使用gitclone下载时会有问题，超大文件下载后数据会缺失。可通过gitlfsclone命令）3、打开l
斯坦福吴恩达-深度学习和机器学习全套视频+课件！ Alexquyun 人工智能机器学习深度学习 python
这些课程专为已有一定基础（基本的编程知识，熟悉Python、对机器学习有基本了解），想要尝试进入人工智能领域的计算机专业人士准备。介绍显示：“深度学习是科技业最热门的技能之一，本课程将帮你掌握深度学习。”学生将可以学习到深度学习的基础，学会构建神经网络，并用在包括吴恩达本人在内的多位业界顶尖专家指导下创建自己的机器学习项目。DeepLearningSpecialization对卷积神经网络(CNN
vscode和pycharm对比 hack（卧龙） vscode pycharm ide
现在vscode和pycharm两个编辑器到底哪个好其实这两个的话各有所长vscode这个比较轻量化，启动快速，插件丰富，基本所以神级插件都有，但是调试比较麻烦对于小白来说有一定的难度但这个用起来是非常舒服的pycharm挺重的，有点大但是更专业，插件没那么多，但很多功能都自带，专业版要付费
大规模分布式存储（1）-- 概念、挑战和分类叹了口丶气 HDFS全方位实战分布式分类数据库
随着数据的激增，我们已经进入到了一个数据时代，无论是云计算，大数据还是互联网公司的各种应用，其后台存储平台的目标都是要构建低成本、高性能、可扩展、易用的分布式存储系统。相比传统的分布式存储系统，互联网公司的分布式存储系统具有两个特点：规模大和成本低。本文主要介绍一下什么是大规模分布式存储系统，以及分布式存储系统有哪些类别。一、分布式存储的概念1.1大规模分布式存储系统的定义大规模分布式存储系统的定
数据结构【时间复杂度、空间复杂度--1】北方留意尘数据结构 c语言后端数据结构算法
目录数据结构前言1.算法的复杂度2.时间复杂度2.1时间复杂度的概念2.2大O的渐进表示法2.3时间复杂度存在最好、平均和最坏情况2.4常见时间复杂度计算举例3.空间复杂度注意：时间累积（一去不复返），空间不累计（可重复利用）4.常见时间复杂度以及复杂度oj练习数据结构前言什么是数据结构？数据结构(DataStructure)是计算机存储、组织数据的方式，指相互之间存在一种或多种特定关系的数据元素
Python从0到100（四十九）：数据库设计及Django ORM使用是Dream呀 python 数据库 django
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学习学习和学业的先行者！欢迎大家订阅专栏：零基础学Python：Python从0到100最新
【deepseek】本地部署DeepSeek R1模型：使用Ollama打造个人AI助手大表哥汽车人人工智能大语言模型学习笔记人工智能 deepseek
一、简介DeepSeekR1是一个强大的开源语言模型，通过Ollama可以轻松实现本地部署。本文将详细介绍如何在本地部署和使用DeepSeekR1模型，并结合PageAssist插件实现更便捷的AI交互体验。二、环境准备硬件要求GPU显存要求：7B模型：8-12GB显存14B模型：12GB以上显存32B模型：建议16GB以上显存建议使用NVIDIA显卡SSD硬盘空间：建议预留50GB以上软件要求安
《大规模分布式存储系统：原理解析与架构实战》读书笔记 weixin_36908057 存储存储系统
《大规模分布式存储系统：原理解析与架构实战》读书笔记1、事务满足ACID特性2、单机存储引擎：哈希存储引擎和B树存储引擎和LSM存储引擎。存储系统的数据模型：文件模型、关系模型和键值模型。3、分布式系统：数据分布、复制、一致性、容错。数据分布的方式：哈希分布和顺序分布。将数据分散到多台机器之后，需要保证多台机器之间的负载均衡。衡量负载涉及的因素有很多，如cpu,内存。负载均衡需要执行数据迁移操作。
Deepseek又开源了颠覆性的新模型Janus-Pro AI生成曾小健人工智能
Deepseek又开源了颠覆性的新模型Janus-ProDeepseek真的是一点都不休息啊，除夕还发模型刚刚推出并开源了Janus-Pro，作为之前Janus的全面升级版，这次它不仅参数从1B扩展到7B而且在多模态理解与生成能力上实现飞跃，还大幅提升了图像生成的稳定性和细节表现！先介绍一下Janus架构☝️Janus是为了解决多模态AI领域的一个根本性矛盾：“理解”与“生成”任务对视觉表征的需求
kakfa-消息不丢失华东算法王（原聪明的小孩子 facebook twitter 机器学习新浪微博微信公众平台
Kafka作为一个分布式流处理平台，设计时就高度关注消息的可靠性和不丢失，确保在分布式环境下即使发生故障，消息也不会丢失。Kafka的消息不丢失主要依赖以下几个机制：1.消息持久化Kafka保证消息在磁盘上的持久化，即使在系统崩溃的情况下，消息仍然可以恢复。这一机制是Kafka消息不丢失的基础。•写入日志文件：每个Kafka分区都将消息按顺序追加到磁盘上的日志文件中（logsegment）。这种顺
探索2025年最流行的移动端前端框架程序猿000001号前端框架
探索2025年最流行的移动端前端框架正文：在当今快速发展的移动互联网时代，选择合适的前端框架对于开发高效、响应迅速的移动应用至关重要。以下是一些目前非常流行且备受开发者青睐的移动端前端UI框架。VantVant是一个轻量、可靠的移动端Vue组件库，适用于各种业务场景。它提供了丰富的组件和良好的文档支持，是许多电商应用的首选。ElementPlusElementPlus是基于Vue3的桌面端组件库，
大规模分布式存储系统：原理解析与架构实战克终杂文
《大规模分布式存储系统：原理解析与架构实战》是分布式系统领域的经典著作，由阿里巴巴高级技术专家“阿里日照”（OceanBase核心开发人员）撰写，阳振坤、章文嵩、杨卫华、汪源、余锋（褚霸）、赖春波等来自阿里、新浪、网易和百度的资深技术专家联袂推荐。理论方面，不仅讲解了大规模分布式存储系统的核心技术和基本原理，而且对谷歌、亚马逊、微软和阿里巴巴等国际型大互联网公司的大规模分布式存储系统进行了分析；实
DeepSeek-Coder-V2:引领代码智能的新篇章雷颖忱Fergal
DeepSeek-Coder-V2:引领代码智能的新篇章DeepSeek-Coder-V2-Instruct项目地址:https://gitcode.com/hf_mirrors/ai-gitcode/DeepSeek-Coder-V2-Instruct在当今快速发展的技术领域，持续关注模型的最新发展和趋势显得尤为重要。本文旨在探讨DeepSeek-Coder-V2这一开源代码语言模型的最新进展，
2024年大模型发展回顾与展望（上） Alsey_ 大模型发展回顾与展望人工智能
不觉间，ChatGPT已经诞生两年了。两年前，当大模型仍是一个相对陌生的概念，难以想象，今天它已经成为办公必备工具，席卷了各个行业，深刻改变着我们的工作方式。OpenAI引领大模型发展大模型的崛起可以追溯到几年前，最初的突破源自参数规模的增长。2018年，OpenAI发布了GPT-1，这款模型的参数量虽然只有1.17亿，但为后续的大模型奠定了基础。随着技术的进步，2019年OpenAI发布了GPT
DeepSeek-V3模型：软件测试智能化的新篇章与挑战霍格沃兹测试开发学社测试人社区测试开发软件测试人工智能
在这个技术日新月异的时代，人工智能（AI）的每一次革新都在悄然改变着我们的生活和工作方式。最近，DeepSeekAI公司推出的DeepSeek-V3模型，凭借其卓越的文本处理能力、高效的推理速度以及多任务处理能力，为软件测试行业带来了一场前所未有的智能化变革。今天，我们就来深入探讨一下DeepSeek-V3在软件测试中的应用以及它所面临的挑战。智能化测试的新篇章DeepSeek-V3模型在软件测试
微服务架构设计基础之立方体模型 weixin_34349320 后端前端系统架构 ViewUI
背景对于现在的微服务架构的应用来说，对大量并发的及时响应是一项制胜能力。据用户行为分析平台统计，随行付的某一款APP产品每日请求就达到上千万次用户请求、加解密服务3000万次/日等等。这些微服务每时每刻在处理如此高强度的请求，对数据层的应对能力要求极高。如果我们把对速度的需求放在复杂的分布式数据架构背景下，是很难想象如何让应用应对如此巨大的数据访问量的。但很幸运，我们有方法做到。即立方体模型。立方
自定义数据集使用scikit-learn中的包实现线性回归方法对其进行拟合辞落山 scikit-learn 线性回归 python
1.引言简要介绍线性回归模型及其在机器学习中的应用。2.创建自定义数据集通过生成一个简单的自定义数据集来模拟问题。可以使用numpy生成数据。importnumpyasnpimportmatplotlib.pyplotasplt#生成自定义数据np.random.seed(42)X=2*np.random.rand(100,1)y=4+3*X+np.random.randn(100,1)3.使用s
TensorFlow 简介九月十九 tensorflow 人工智能 python
TensorFlow是一个开源的机器学习框架，由Google开发。它提供了一个强大的工具集，用于构建和训练各种机器学习模型。TensorFlow的基本概念和使用场景包括：1.张量（Tensor）：TensorFlow中的核心数据结构是张量，它是一个多维数组，可以表示标量、向量、矩阵等。2.计算图（Graph）：TensorFlow使用计算图来表示机器学习模型的计算过程。计算图由一系列的操作节点和数
SQLAlchemy 呀儿呦丶 Python #SQLAlchemy 数据库 python mysql
1.介绍SQLAlchemy以其对象关系映射器（ORM）而闻名，它是一个提供数据映射器模式的可选组件，其中类可以以开放式、多种方式映射到数据库——允许对象模型和数据库模式在一个从一开始就干净地解耦。简单来讲只需要用python的语法来操作对象，就能被自动映射为sql语句。sqlalchemy第三方orm框架（对象关系映射）,可以单独使用。底层依附于pymysql2.安装pipinstallsqla
LeetCode[Math] - #66 Plus One Cwind java LeetCode 题解 Algorithm Math
原题链接：#66 Plus One 要求：给定一个用数字数组表示的非负整数，如num1 = {1, 2, 3, 9}, num2 = {9, 9}等，给这个数加上1。注意： 1. 数字的较高位存在数组的头上，即num1表示数字1239 2. 每一位（数组中的每个元素）的取值范围为0~9 难度：简单分析：题目比较简单，只须从数组
JQuery中$.ajax()方法参数详解 AILIKES JavaScript jsonp jquery Ajax json
url: 要求为String类型的参数，（默认为当前页地址）发送请求的地址。 type: 要求为String类型的参数，请求方式（post或get）默认为get。注意其他http请求方法，例如put和 delete也可以使用，但仅部分浏览器支持。 timeout: 要求为Number类型的参数，设置请求超时时间（毫秒）。此设置将覆盖$.ajaxSetup()方法的全局
JConsole & JVisualVM远程监视Webphere服务器JVM Kai_Ge JVisualVM JConsole Webphere
JConsole是JDK里自带的一个工具，可以监测Java程序运行时所有对象的申请、释放等动作，将内存管理的所有信息进行统计、分析、可视化。我们可以根据这些信息判断程序是否有内存泄漏问题。　　使用JConsole工具来分析WAS的JVM问题，需要进行相关的配置。　　首先我们看WAS服务器端的配置. 　　1、登录was控制台https://10.4.119.18
自定义annotation 120153216 annotation
Java annotation 自定义注释@interface的用法一、什么是注释说起注释，得先提一提什么是元数据(metadata)。所谓元数据就是数据的数据。也就是说，元数据是描述数据的。就象数据表中的字段一样，每个字段描述了这个字段下的数据的含义。而J2SE5.0中提供的注释就是java源代码的元数据，也就是说注释是描述java源
CentOS 5/6.X 使用 EPEL YUM源 2002wmj centos
CentOS 6.X 安装使用EPEL YUM源1. 查看操作系统版本[root@node1 ~]# uname -a Linux node1.test.com 2.6.32-358.el6.x86_64 #1 SMP Fri Feb 22 00:31:26 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux [root@node1 ~]#
在SQLSERVER中查找缺失和无用的索引SQL 357029540 SQL Server
--缺失的索引 SELECT avg_total_user_cost * avg_user_impact * ( user_scans + user_seeks ) AS PossibleImprovement , last_user_seek ,
Spring3 MVC 笔记（二） —json+rest优化 7454103 Spring3 MVC
接上次的 spring mvc 注解的一些详细信息！其实也是一些个人的学习笔记呵呵！
替换“\”的时候报错Unexpected internal error near index 1 \ ^ adminjun java “\替换”
发现还是有些东西没有刻子脑子里,,过段时间就没什么概念了,所以贴出来...以免再忘... 在拆分字符串时遇到通过 \ 来拆分，可是用所以想通过转义 \\ 来拆分的时候会报异常 public class Main { /*
POJ 1035 Spell checker(哈希表) aijuans 暴力求解--哈希表
/* 题意：输入字典，然后输入单词，判断字典中是否出现过该单词，或者是否进行删除、添加、替换操作，如果是，则输出对应的字典中的单词要求按照输入时候的排名输出题解：建立两个哈希表。一个存储字典和输入字典中单词的排名，一个进行最后输出的判重 */ #include <iostream> //#define using namespace std; const int HASH =
通过原型实现javascript Array的去重、最大值和最小值 ayaoxinchao JavaScript array prototype
用原型函数（prototype）可以定义一些很方便的自定义函数，实现各种自定义功能。本次主要是实现了Array的去重、获取最大值和最小值。实现代码如下： <script type="text/javascript"> Array.prototype.unique = function() { var a = {}; var le
UIWebView实现https双向认证请求 bewithme UIWebView https Objective-C
什么是HTTPS双向认证我已在先前的博文 ASIHTTPRequest实现https双向认证请求中有讲述，不理解的读者可以先复习一下。本文是用UIWebView来实现对需要客户端证书验证的服务请求，网上有些文章中有涉及到此内容，但都只言片语，没有讲完全，更没有完整的代码，让人困扰不已。但是此知
NoSQL数据库之Redis数据库管理(Redis高级应用之事务处理、持久化操作、pub_sub、虚拟内存) bijian1013 redis 数据库 NoSQL
3.事务处理 Redis对事务的支持目前不比较简单。Redis只能保证一个client发起的事务中的命令可以连续的执行，而中间不会插入其他client的命令。当一个client在一个连接中发出multi命令时，这个连接会进入一个事务上下文，该连接后续的命令不会立即执行，而是先放到一个队列中，当执行exec命令时，redis会顺序的执行队列中
各数据库分页sql备忘 bingyingao oracle sql 分页
ORACLE 下面这个效率很低 SELECT * FROM ( SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_FS_RETURN order by id desc) A ) WHERE RN <20; 下面这个效率很高 SELECT A.*, ROWNUM RN FROM (SELECT * FROM IPAY_RCD_
【Scala七】Scala核心一：函数 bit1129 scala
1. 如果函数体只有一行代码，则可以不用写{},比如 def print(x: Int) = println(x) 一行上的多条语句用分号隔开，则只有第一句属于方法体，例如 def printWithValue(x: Int) : String= println(x); "ABC" 上面的代码报错，因为，printWithValue的方法
了解GHC的factorial编译过程 bookjovi haskell
GHC相对其他主流语言的编译器或解释器还是比较复杂的，一部分原因是haskell本身的设计就不易于实现compiler，如lazy特性，static typed，类型推导等。关于GHC的内部实现有篇文章说的挺好，这里，文中在RTS一节中详细说了haskell的concurrent实现，里面提到了green thread，如果熟悉Go语言的话就会发现，ghc的concurrent实现和Go有点类
Java-Collections Framework学习与总结-LinkedHashMap BrokenDreams LinkedHashMap
前面总结了java.util.HashMap，了解了其内部由散列表实现，每个桶内是一个单向链表。那有没有双向链表的实现呢？双向链表的实现会具备什么特性呢？来看一下HashMap的一个子类——java.util.LinkedHashMap。
读《研磨设计模式》-代码笔记-抽象工厂模式-Abstract Factory bylijinnan abstract
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * Abstract Factory Pattern * 抽象工厂模式的目的是： * 通过在抽象工厂里面定义一组产品接口，方便地切换“产品簇” * 这些接口是相关或者相依赖的
压暗面部高光 cherishLC PS
方法一、压暗高光&重新着色当皮肤很油又使用闪光灯时，很容易在面部形成高光区域。下面讲一下我今天处理高光区域的心得：皮肤可以分为纹理和色彩两个属性。其中纹理主要由亮度通道（Lab模式的L通道）决定，色彩则由a、b通道确定。处理思路为在保持高光区域纹理的情况下，对高光区域着色。具体步骤为：降低高光区域的整体的亮度，再进行着色。如果想简化步骤，可以只进行着色（参看下面的步骤1
Java VisualVM监控远程JVM crabdave visualvm
Java VisualVM监控远程JVM JDK1.6开始自带的VisualVM就是不错的监控工具. 这个工具就在JAVA_HOME\bin\目录下的jvisualvm.exe, 双击这个文件就能看到界面通过JMX连接远程机器, 需要经过下面的配置: 1. 修改远程机器JDK配置文件 (我这里远程机器是linux).
Saiku去掉登录模块 daizj saiku 登录 olap BI
1、修改applicationContext-saiku-webapp.xml <security:intercept-url pattern="/rest/**" access="IS_AUTHENTICATED_ANONYMOUSLY" /> <security:intercept-url pattern=&qu
浅析 Flex中的Focus dsjt html Flex Flash
关键字：focus、 setFocus、 IFocusManager、KeyboardEvent 焦点、设置焦点、获得焦点、键盘事件一、无焦点的困扰——组件监听不到键盘事件原因：只有获得焦点的组件（确切说是InteractiveObject）才能监听到键盘事件的目标阶段；键盘事件（flash.events.KeyboardEvent）参与冒泡阶段，所以焦点组件的父项（以及它爸
Yii全局函数使用 dcj3sjt126com yii
由于YII致力于完美的整合第三方库，它并没有定义任何全局函数。yii中的每一个应用都需要全类别和对象范围。例如，Yii::app()->user;Yii::app()->params['name'];等等。我们可以自行设定全局函数，使得代码看起来更加简洁易用。(原文地址) 我们可以保存在globals.php在protected目录下。然后，在入口脚本index.php的，我们包括在
设计模式之单例模式二（解决无序写入的问题） come_for_dream 单例模式 volatile 乱序执行双重检验锁
在上篇文章中我们使用了双重检验锁的方式避免懒汉式单例模式下由于多线程造成的实例被多次创建的问题，但是因为由于JVM为了使得处理器内部的运算单元能充分利用，处理器可能会对输入代码进行乱序执行（Out Of Order Execute）优化，处理器会在计算之后将乱序执行的结果进行重组，保证该
程序员从初级到高级的蜕变 gcq511120594 框架工作 PHP android html5
软件开发是一个奇怪的行业，市场远远供不应求。这是一个已经存在多年的问题，而且随着时间的流逝，愈演愈烈。我们严重缺乏能够满足需求的人才。这个行业相当年轻。大多数软件项目是失败的。几乎所有的项目都会超出预算。我们解决问题的最佳指导方针可以归结为——“用一些通用方法去解决问题，当然这些方法常常不管用，于是，唯一能做的就是不断地尝试，逐个看看是否奏效”。现在我们把淫浸代码时间超过3年的开发人员称为
Reverse Linked List hcx2013 list
Reverse a singly linked list. /** * Definition for singly-linked list. * public class ListNode { * int val; * ListNode next; * ListNode(int x) { val = x; } * } */ p
Spring4.1新特性——数据库集成测试 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
C# Ajax上传图片同时生成微缩图(附Demo) liyonghui160com
1.Ajax无刷新上传图片,详情请阅我的这篇文章。（jquery + c# ashx） 2.C#位图处理 System.Drawing。 3.最新demo支持IE7,IE8,Fir
Java list三种遍历方法性能比较 pda158 java
从c/c++语言转向java开发，学习java语言list遍历的三种方法，顺便测试各种遍历方法的性能，测试方法为在ArrayList中插入1千万条记录，然后遍历ArrayList，发现了一个奇怪的现象，测试代码例如以下： package com.hisense.tiger.list; import java.util.ArrayList; import java.util.Iterator;
300个涵盖IT各方面的免费资源（上）——商业与市场篇 shoothao seo 商业与市场 IT资源免费资源
A.网站模板+logo+服务器主机+发票生成 HTML5 UP:响应式的HTML5和CSS3网站模板。 Bootswatch:免费的Bootstrap主题。 Templated:收集了845个免费的CSS和HTML5网站模板。 Wordpress.org|Wordpress.com:可免费创建你的新网站。 Strikingly:关注领域中免费无限的移动优
localStorage、sessionStorage uule localStorage
W3School 例子 HTML5 提供了两种在客户端存储数据的新方法： localStorage - 没有时间限制的数据存储 sessionStorage - 针对一个 session 的数据存储之前，这些都是由 cookie 完成的。但是 cookie 不适合大量数据的存储，因为它们由每个对服务器的请求来传递，这使得 cookie 速度很慢而且效率也不