远洋之帆

RLHF文本生成图模型

背景

语言大模型有RLHF技术点，是否图生成也需要RLHF。要回答这个问题其实首先需要回答的问题有三个：

1.RLHF到底是个什么技术

2.为什么需要用RLHF技术，在语言大模型用RLHF模型解决什么问题点

3.图在什么情况下需要用到RLHF技术点

RLHF技术是什么呢，对一件事情的认识首先古人的方法就是名副其实，也就是说需要先看他是怎么定义这件事的，然后根据定义深入挖掘它背后的真实意图。回到RLHF，先看看英文全拼是RLHF: Reinforcement Learning from Human Feedback，通过人类的反馈来做强化学习。有两个关键词：人类反馈、强化学习；先看动词强化学习，为什么要强化学习呢，并且定于事通过人类反馈。强化学习一般情况就是为了解决复杂的数学模型求解的问题，也就是说强化学习其实是一种求解的技术（当然基于这个求解技术衍生出很多应用），并且解决的问题很复杂。为什么复杂呢？往往就是一个问题有太多种的可能，给定的条件或者说求解的约束又不明确，导致这个问题很难给出一个精准的解，甚至都不一定能给出一个解的范围或者趋势。

通过强化学习为什么就能解决这个问题，或者说有可能有机会解决这个问题呢？上面大概提到了问题复杂是怎么来的：1.给的信息不够2.问题可能解空间很多3.给的信号不容易表示成有效信息（耦合，或者信号特征弱）。其实归结起来就是信息不足以支撑解空间复杂度，强化学习的做法就是：通过多次实验和试探逐步积累足够信息；等到实验和试探次数足够积累到信息足以支撑解空间复杂度，问题就可以求解了，至少是积累更多信息解会更准确。

那为什么又要人类反馈呢，原因很简单：盲目的试探代价太高，如果有个裁判或者上帝可以帮忙开开天眼指指路，减少试探的代价那么这个求解速度可以大幅提升，准确率也可以大幅提升；所以这就是为什么需要人类反馈的原因。当然引申到大语言模型还有一个原因：很多问题的解并不是客观绝对的，还是跟人的主观价值观有关系的，这样的解其实就是一种特解，既然是特解那最好办法就是让人来构建约束，但这种约束往往人类不一定能抽象成数学模型，所以最简单办法就是通过人类反馈通过反馈数据来构建随机抽样来求解。

所以大家可以再看看OpenAI是用RLHF技术来解决大语言模型什么问题，就很清楚为什么了：

1.认知偏差：歧视、种族言论

2.文案多样性

3.生成有害或事实不准的文字

图生成是否需要RLHF，图好不好看也是很主观一件事情，并且图也存在信息不足导致的幻画（坏手坏脚），以及一些审美偏差不符合主流要求情况，所以图肯定也是需要RLHF能力的。

图文一致性：生成的图像未能准确描述所有的数字、属性和⽂字提⽰中描述的对象关系。
肢体问题：生成的图像呈现了扭曲、不完整、重复或者异常的肢体部位（例如：四肢等），这一问题在人类或动物中均可能出现。
审美问题：生成的图像偏离⼈类对审美⻛格的平均或主流偏好。
有害与偏⻅内容：生成的图像具有有害、暴⼒、性相关、存在歧视、⾮法或引起⼼理不适的内容。

技术点

前面介绍了什么是RLHF，以及很多概念层面的东西。这部分主要从图的RLHF实现技术来讲解，包括了每个部分数学公式、实践。

实现思路

给定prompt让模型生成多张图，人根据prompt对生成的多张图排序。模型通过学习人类的打分排序，学习人类的评判指标得到一个判别哪对哪不对的上帝模型。

利用上面学习到的判别模型，对要训练的模型做参数调整：

1.模型根据输入prompt生成图

2.判别模型把生成的图和基准图比较好坏

3.利用判别模型的排序打分作为loss调整生成模型参数

RM模型

LOSS讲解

原理

pairwise learn2rank loss，给定文本+图embbeding输入blip模型+MLP给每个图文对做相似度打分，把对单个图文对打好分的排序图list计算pairwiseloss，通过pairwiseloss来优化blip+mlp打分模型，让模型打分更准确。

模型结构：BLIP（ViT-L作为图像编码器的，12层Transformer作为文本编码器）+ MLP（打分器）

训练方法：对于同一个prompt对应的k张图片，根据其排序结果得到pairs，每个pair中有相对更受偏好和不受偏好的两张图片。ImageReward训练所用的目标函数如下，其中T表示prompt，x表示生成的图片。

训练技巧：

训练时，BLIP的参数全都固定或者全都不固定都不能达到满意的准确率；事实上，我们发现固定70%的Transformer层是最有效的；
训练对超参数很敏感，我们通过搜索超参数发现1e-5的学习率和64的batch大小最合适。

代码讲解

def forward(self, batch_data):

    # encode data
    if opts.rank_pair:
        batch_data = self.encode_pair(batch_data)
    else:
        batch_data = self.encode_data(batch_data)

        # forward
    emb_better, emb_worse = batch_data['emb_better'], batch_data['emb_worse']
    #对better位置的图文计算打分
    reward_better = self.mlp(emb_better)
    #对worse位置的图文计算打分
    reward_worse = self.mlp(emb_worse)
    #把better位置、worse位置的图文对打分拼接输出，方便后面做pairwiseloss计算
    reward = torch.concat((reward_better, reward_worse), dim=1)

    return reward

#把输入的图文对encode
def encode_pair(self, batch_data):
    text_ids, text_mask, img_better, img_worse = batch_data['text_ids'], batch_data['text_mask'], batch_data['img_better'], batch_data['img_worse']
    text_ids = text_ids.view(text_ids.shape[0], -1).to(self.device) # [batch_size, seq_len]
    text_mask = text_mask.view(text_mask.shape[0], -1).to(self.device) # [batch_size, seq_len]
    img_better = img_better.to(self.device) # [batch_size, C, H, W]
    img_worse = img_worse.to(self.device) # [batch_size, C, H, W]

    # encode better emb
    image_embeds_better = self.blip.visual_encoder(img_better)
    image_atts_better = torch.ones(image_embeds_better.size()[:-1], dtype=torch.long).to(self.device)
    emb_better = self.blip.text_encoder(text_ids,
                                        attention_mask = text_mask,
                                        encoder_hidden_states = image_embeds_better,
                                        encoder_attention_mask = image_atts_better,
                                        return_dict = True,
                                       ).last_hidden_state # [batch_size, seq_len, feature_dim]
    emb_better = emb_better[:, -1, :].float()

    # encode worse emb
    image_embeds_worse = self.blip.visual_encoder(img_worse)
    image_atts_worse = torch.ones(image_embeds_worse.size()[:-1], dtype=torch.long).to(self.device)
    emb_worse = self.blip.text_encoder(text_ids,
                                       attention_mask = text_mask,
                                       encoder_hidden_states = image_embeds_worse,
                                       encoder_attention_mask = image_atts_worse,
                                       return_dict = True,
                                      ).last_hidden_state
    emb_worse = emb_worse[:, -1, :].float()

    # get batch data
    batch_data = {
        'emb_better': emb_better,
        'emb_worse': emb_worse,
    }

    return batch_data

#pairwise loss
def loss_func(reward):
    """
    计算损失函数

    Args:
        reward (torch.Tensor): 一个形状为 (batch_size, 2) 的张量，其中第一列为正样本，第二列为负样本

    Returns:
        loss (torch.Tensor): 损失函数的值
        loss_list (torch.Tensor): 损失函数的梯度
        acc (torch.Tensor): 正样本的准确率
    """

    # 创建一个形状为 (batch_size,) 的全零张量，并将其移动到指定设备上
    target = torch.zeros(reward.shape[0], dtype=torch.long).to(reward.device)

    # 计算交叉熵损失函数
    loss_list = F.cross_entropy(reward, target, reduction='none')

    # 计算平均损失函数
    loss = torch.mean(loss_list)

    # 计算正样本的准确率
    reward_diff = reward[:, 0] - reward[:, 1]
    acc = torch.mean((reward_diff > 0).clone().detach().float())

    return loss, loss_list, acc

数据构建

训练代码

# 首先要从 dataset 下载数据
from datasets import load_dataset

# 加载 8K 集合数据集
dataset = load_dataset("THUDM/ImageRewardDB", "8k")

# 将数据集转换成指定格式
dict_item = {}
dict_item['clip_text'] = clip.tokenize(item["prompt"], truncate=True)
dict_item['text_ids'] = text_input.input_ids
dict_item['text_mask'] = text_input.attention_mask
if labels[id_l] < labels[id_r]:
    dict_item['img_better'] = img_set[id_l]
    dict_item['img_worse'] = img_set[id_r]
elif labels[id_l] > labels[id_r]:
    dict_item['img_better'] = img_set[id_r]
    dict_item['img_worse'] = img_set[id_l]

# 运行脚本以训练模型
bash scripts/train_one_node.sh

结果验证

import os
import torch
import ImageReward as RM

if __name__ == "__main__":
    prompt = "a painting of an ocean with clouds and birds, day time, low depth field effect"
    img_prefix = "assets/images"
    generations = [f"{pic_id}.webp" for pic_id in range(1, 5)]
    img_list = [os.path.join(img_prefix, img) for img in generations]
    model = RM.load("ImageReward-v1.0") #把这个模型换成你自己训练出来的模型地址
    with torch.no_grad():
        ranking, rewards = model.inference_rank(prompt, img_list)
        # Print the result
        print("\nPreference predictions:\n")
        print(f"ranking = {ranking}")
        print(f"rewards = {rewards}")
        for index in range(len(img_list)):
            score = model.score(prompt, img_list[index])
            print(f"{generations[index]:>16s}: {score:.2f}")

# 或者用下面的这个验证也行，输入的生成文本，需要打分的图路径
import ImageReward as RM
model = RM.load("ImageReward-v1.0")

rewards = model.score("", ["", "", ...])

RLHF模型

LOSS讲解

通过观察去噪步骤中的ImageReward分数，我们得出了一个有趣的发现（参见上图左）。对于一个降噪过程，例如降噪步数为40步时，在降噪过程中途直接预测中间降噪结果对应的原图：

当t ≤ 15：ImageReward得分和最终结果的一致性很低；
当15 ≤ t ≤ 30：高质量生成结果的ImageReward得分开始脱颖而出，但总体上我们仍然无法根据目前的ImageReward分数清楚地判断所有生成结果的最终质量；
当t ≥ 30:不同生成结果对应的ImageReward分数的已经可以区分。

根据观察，我们得出结论，经过30步去噪（总步数为40步），而不需要到最后一步降噪，ImageReward分数可以作为改进LDM的可靠反馈。因此，我们提出了一种直接微调LDM的算法。算法流程可见上图右。将RM的分数视为人类的偏好损失，将梯度反向传播到去噪过程中随机挑选的后一步t（在我们的例子中t取值范围为30~40）。随机选择t而不是使用最后一步的原因是，如果只保留最后一个去噪步骤的梯度，训练被证明是非常不稳定的，结果是不好的。在实践中，为了避免快速过拟合和稳定微调，我们对ReFL Loss进行重新加权，并用Pre-training Loss进行正则化。

原理

loss包括两个阶段：

1.第一阶段在

2.第二阶段是在每张图的30-40步

代码讲解

for epoch in range(first_epoch, args.num_train_epochs):
    self.unet.train()
    train_loss = 0.0
    for step, batch in enumerate(self.train_dataloader):
        # Skip steps until we reach the resumed step
        if args.resume_from_checkpoint and epoch == first_epoch and step < resume_step:
            if step % args.gradient_accumulation_steps == 0:
                progress_bar.update(1)
            continue

        with self.accelerator.accumulate(self.unet):
            encoder_hidden_states = self.text_encoder(batch["input_ids"])[0]
            latents = torch.randn((args.train_batch_size, 4, 64, 64), device=self.accelerator.device)

            self.noise_scheduler.set_timesteps(40, device=self.accelerator.device)
            timesteps = self.noise_scheduler.timesteps
            #在30-40步之间随机选择一步出来作为模型优化
            mid_timestep = random.randint(30, 39)

            #在mid_timestep之前的不计算loss
            for i, t in enumerate(timesteps[:mid_timestep]):
                with torch.no_grad():
                    latent_model_input = latents
                    latent_model_input = self.noise_scheduler.scale_model_input(latent_model_input, t)
                    noise_pred = self.unet(
                        latent_model_input,
                        t,
                        encoder_hidden_states=encoder_hidden_states,
                    ).sample
                    latents = self.noise_scheduler.step(noise_pred, t, latents).prev_sample
            #mid_timestep把生成的图和参照图排序大分，计算loss优化sd模型
            #这样做的好处有点类似LLM模型里面预测和实际数据KL约束生成图不要离原始模型太大，但是又需要微细调整参数
            latent_model_input = latents
            latent_model_input = self.noise_scheduler.scale_model_input(latent_model_input, mid_timestep)
            noise_pred = self.unet(
                latent_model_input,
                mid_timestep,
                encoder_hidden_states=encoder_hidden_states,
            ).sample
            pred_original_sample = self.noise_scheduler.step(noise_pred, t, latents).pred_original_sample.to(self.weight_dtype)

            pred_original_sample = 1 / self.vae.config.scaling_factor * pred_original_sample
            image = self.vae.decode(pred_original_sample.to(self.weight_dtype)).sample
            image = (image / 2 + 0.5).clamp(0, 1)

            # image encode
            def _transform():
                return Compose([
                    Resize(224, interpolation=BICUBIC),
                    CenterCrop(224),
                    Normalize((0.48145466, 0.4578275, 0.40821073), (0.26862954, 0.26130258, 0.27577711)),
                ])

            rm_preprocess = _transform()
            image = rm_preprocess(image).to(self.accelerator.device)

            rewards = self.reward_model.score_gard(batch["rm_input_ids"], batch["rm_attention_mask"], image)
            loss = F.relu(-rewards+2)
            loss = loss.mean() * args.grad_scale

            # Gather the losses across all processes for logging (if we use distributed training).
            avg_loss = self.accelerator.gather(loss.repeat(args.train_batch_size)).mean()
            train_loss += avg_loss.item() / args.gradient_accumulation_steps

            # Backpropagate
            self.accelerator.backward(loss)
            if self.accelerator.sync_gradients:
                self.accelerator.clip_grad_norm_(self.unet.parameters(), args.max_grad_norm)
            self.optimizer.step()
            self.lr_scheduler.step()
            self.optimizer.zero_grad()

数据构建

图文对，训练时候也是输入文本，利用参照sd模型生成图，然后把生成图和参照图做rm排序求loss，通过loss调整模型的参数，调整的其实也是unet模型预测噪声的能力。

训练代码

from ImageReward import ReFL

if __name__ == "__main__":
    args = ReFL.parse_args()
    trainer = ReFL.Trainer("CompVis/stable-diffusion-v1-4", "data/refl_data.json", args=args)
    trainer.train(args=args)

accelerate launch --multi_gpu --mixed_precision=fp16 --num_processes=2  refl.py \
  --use_ema \
  --resolution=512 --center_crop --random_flip \
  --train_batch_size=2 \
  --gradient_accumulation_steps=4 \
  --gradient_checkpointing \
  --max_train_steps=3000 \
  --learning_rate=1e-05 \
  --max_grad_norm=1 \
  --lr_scheduler="constant" --lr_warmup_steps=0 \
  --output_dir="checkpoint/refl" \
  --grad_scale 0.001 \
  --checkpointing_steps 100
 #2块A40 10000条数据5个epoch 大概10个小时训练可以完成

结果验证

#加载训练好的模型参数
from transformers import CLIPTextModel, CLIPTokenizer
from diffusers import AutoencoderKL, DDPMScheduler, StableDiffusionPipeline, UNet2DConditionModel
vae = AutoencoderKL.from_pretrained("/root/autodl-tmp/ImageReward/checkpoint/refl", subfolder="vae", revision=False)
unet = UNet2DConditionModel.from_pretrained(
            "/root/autodl-tmp/ImageReward/checkpoint/refl/checkpoint-3000", subfolder="unet_ema", revision=True
        )
text_encoder = CLIPTextModel.from_pretrained(
            "/root/autodl-tmp/ImageReward/checkpoint/refl", subfolder="text_encoder", revision=False
        )
pipeline = StableDiffusionPipeline.from_pretrained(
                "/root/autodl-tmp/ImageReward/checkpoint/refl",
                text_encoder=text_encoder,
                vae=vae,
                unet=unet,
                revision=True,
            )
pipe = pipeline.to(device)

prompt = "a painting of a girl walking in a hallway and suddenly finds a giant sunflower on the floor blocking her way."
image = pipe(prompt).images[0]  
    
image.save("astronaut_rides_horse3.png")

#下面验证方式是直接把训练好的unet把老的模型unet参数换掉
import torch
from diffusers import StableDiffusionPipeline

device = "cuda"

model_id = "/root/autodl-tmp/ImageReward/checkpoint/refl"
pipe = StableDiffusionPipeline.from_pretrained(model_id, torch_dtype=torch.float16)
pipe = pipe.to(device)

prompt = "a painting of a girl walking in a hallway and suddenly finds a giant sunflower on the floor blocking her way."
image = pipe(prompt).images[0]  
    
image.save("astronaut_rides_horse1.png")

左边是没有rlhf模型生成图，生成图对细粒度文本理解不够；右边是经过1万张图rlhf模型效果，图对细粒度意图理解较好。

小结

1.用作者的观点和视角解释了为什么需要rlhf，以及rlhf能解决什么大语言模型问题

2.结合image的rlhf模型来讲解了一种图片的rlhf做法

3.对图片rlhf中两个比较重要的环节loss和代码实现做了较详细介绍

4.用10000张人排序图多了训练，对比了经过rlhf和未经过rlhf模型的效果

神经网络模型压缩&实例教程—非结构化剪枝程序先锋《python深度学习》笔记神经网络剪枝深度学习
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）3.1随机剪枝weight3.2L1范数剪枝bias4.总结最先进的深度学习技术依赖于难以部署的过度参数化模型。相反，已知生物神经网络使用高效的稀疏连接。为了在不牺牲准确性的情况下减少内存、电池和硬件消耗，通过减少模型中的参数数量来确定压缩模型的最佳技术是很重要的。这反过来又允许您在设备上部署轻量级模型，并通过设备上的私
深度学习模型压缩：非结构化剪枝与结构化剪枝的定义与对比从零开始学习人工智能深度学习剪枝人工智能
****在深度学习中，模型压缩是优化模型性能、降低存储和计算成本的重要技术之一。其中，剪枝（Pruning）是最常用的方法之一。根据剪枝的粒度和目标，剪枝可以分为非结构化剪枝（UnstructuredPruning）和结构化剪枝（StructuredPruning）。本文将详细介绍这两种剪枝方法的定义，并通过对比帮助读者更好地理解它们的差异。1.非结构化剪枝（UnstructuredPruning
STM32智能小车的设计与实现 a1666137 stm32 嵌入式硬件单片机
一、引言随着科技的飞速发展，智能小车作为一种集机械、电子、计算机、传感器、人工智能等技术于一体的新型交通工具，已经广泛应用于科研、教育、娱乐等多个领域。STM32作为一款高性能、低功耗的微控制器，凭借其强大的功能和灵活的编程方式，成为智能小车设计的首选平台。本文将对基于STM32的智能小车的设计与实现进行详细介绍。二、智能小车系统概述基于STM32的智能小车系统主要由STM32微控制器、电机驱动模
深入理解AI编程的上下文窗口限制及解决方案：巧妙利用提示词 SuperMale-zxq AI编程——程序员的进阶之路 c++python java AI编程人工智能
深入理解AI编程的上下文窗口限制及解决方案：巧妙利用提示词当AI模型遇到记忆瓶颈想象一下这个场景：一位开发者正在使用AI助手编写一个复杂的应用程序。他详细描述了需求，AI生成了初步代码框架。但当他要求AI继续完善某个模块时，AI却似乎"忘记"了之前讨论的关键细节，甚至生成了与项目需求不符的代码。这不是偶然现象，而是当前所有大型语言模型（LLMs）面临的共同挑战——上下文窗口限制。在过去两年指导数百
从Manus爆红到OpenAI反击：AI Agent技术架构与实战解析大F的智能小课大模型理论和实战 DeepSeek技术解析和实战人工智能架构
大家好，我是大F，深耕AI算法十余年，互联网大厂技术岗。知行合一，不写水文，喜欢可关注，分享AI算法干货、技术心得。欢迎关注《大模型理论和实战》、《DeepSeek技术解析和实战》，一起探索技术的无限可能！1.引：一夜爆红的Manus与OpenAI的反击2025年3月6日凌晨，中国团队Monica推出的通用人工智能代理产品Manus横空出世。这款被称作"Agent界的DeepSeek时刻"的产品，
量子神经网络（Quantum Neural Network）：结合量子计算的 AI 新探索盼达思文体科创人工智能和深度学习量子计算人工智能神经网络
一、引言在当今科技飞速发展的时代，人工智能（AI）和量子计算成为了两个备受关注的领域。量子神经网络（QuantumNeuralNetwork，QNN）作为这两个领域的交叉点，正吸引着越来越多的研究兴趣。QNN试图将量子计算的强大能力与传统神经网络的学习能力相结合，为解决复杂的人工智能问题提供新的思路和方法。二、量子计算基础（一）量子比特（Qubit）量子比特是量子计算的基本信息单位，与传统的比特不
AI 革命再提速：从 Manus 封停到 OpenAI 开源，技术竞赛与伦理博弈下的产业变局 zhz5214 AI 人工智能开源智能体 ai AI编程 AI写作
2025年3月，人工智能领域迎来戏剧性转折。继DeepSeek以开源策略搅动市场后，新兴AI公司Manus的官方X账号因涉嫌关联加密货币诈骗被平台封禁，引发轩然大波。而在封禁事件发酵不到一周，OpenAI连夜发布AgentSDK与ResponsesAPI，以开源姿态强势回应。这场技术竞赛与伦理博弈交织的产业变局，正将AI革命推向新的临界点。一、技术突围与平台博弈：Manus事件的双重隐喻Manus
从剪枝到知识蒸馏：深度学习模型压缩与加速的多重策略一键难忘剪枝深度学习算法知识蒸馏
本文收录于专栏：精通AI实战千例专栏合集https://blog.csdn.net/weixin_52908342/category_11863492.html从基础到实践，深入学习。无论你是初学者还是经验丰富的老手，对于本专栏案例和项目实践都有参考学习意义。每一个案例都附带关键代码，详细讲解供大家学习，希望可以帮到大家。正在不断更新中文章目录从剪枝到知识蒸馏：深度学习模型压缩与加速的多重策略1.
PyTorch 模型剪枝实例教程一、非结构化剪枝小风_ 模型压缩与加速 pytorch pytorch 深度学习人工智能
目录1.导包&定义一个简单的网络2.获取网络需要剪枝的模块3.模块剪枝（核心）4.总结目前大部分最先进的（SOTA）深度学习技术虽然效果好，但由于其模型参数量和计算量过高，难以用于实际部署。而众所周知，生物神经网络使用高效的稀疏连接（生物大脑神经网络balabala啥的都是稀疏连接的），考虑到这一点，为了减少内存、容量和硬件消耗，同时又不牺牲模型预测的精度，在设备上部署轻量级模型，并通过私有的设备
优化深度学习模型：PyTorch中的模型剪枝技术详解代码之光_1980 深度学习 pytorch 剪枝
标题：优化深度学习模型：PyTorch中的模型剪枝技术详解在深度学习领域，模型剪枝是一种提高模型效率和性能的技术。通过剪枝，我们可以去除模型中的冗余权重，从而减少模型的复杂度和提高运算速度，同时保持或甚至提升模型的准确率。本文将详细介绍如何在PyTorch框架中实现模型剪枝，并提供相应的代码示例。1.模型剪枝的基本概念模型剪枝主要分为两种类型：结构化剪枝和非结构化剪枝。结构化剪枝通常指的是剪除整个
Dropout: 一种减少神经网络过拟合的技术冰蓝蓝自然语言处理神经网络人工智能深度学习
在深度学习中，过拟合是一个常见的问题，尤其是在模型复杂度较高或训练数据较少的情况下。过拟合意味着模型在训练数据上表现得很好，但在未见过的数据上表现不佳，即泛化能力差。为了解决这个问题，研究者们提出了多种正则化技术，其中之一就是Dropout。什么是Dropout？Dropout是一种正则化技术，由Hinton和他的学生在2012年提出。它通过在训练过程中随机“丢弃”（即暂时移除）网络中的一些神经元
模型保存与加载：PyTorch中的实践指南冰蓝蓝自然语言处理 pytorch 人工智能 python
在深度学习项目中，模型的保存和加载是一个至关重要的步骤。它不仅有助于在训练过程中保存进度，还可以在训练完成后部署模型。PyTorch提供了灵活的方式来保存和加载模型，本文将详细介绍这些方法。模型保存在PyTorch中，有两种主要的模型保存方法：保存整个模型和仅保存模型参数。保存整个模型保存整个模型意味着保存模型的结构和参数。这种方法简单直接，但文件体积较大，且依赖于模型的具体实现。importto
深度学习中的注意力机制：解锁智能模型的新视角冰蓝蓝深度学习深度学习人工智能
在人工智能的快速发展中，深度学习模型已经成为了处理复杂数据和任务的主力军。然而，随着数据量的激增和任务的复杂化，传统的深度学习模型面临着效率和性能的双重挑战。在这样的背景下，注意力机制（AttentionMechanism）应运而生，它不仅提升了模型的处理能力，还为深度学习领域带来了新的研究视角。什么是注意力机制？注意力机制是一种受人类视觉注意力启发的技术，它允许模型在处理大量信息时，能够动态地聚
torch.unsqueeze：灵活调整张量维度的利器冰蓝蓝 transformer transformer 深度学习
在深度学习框架PyTorch中，张量（Tensor）是最基本的数据结构，它类似于NumPy中的数组，但可以在GPU上运行。在日常的深度学习编程中，我们经常需要调整张量的维度以适应不同的操作和层。torch.unsqueeze函数就是PyTorch提供的一个非常有用的工具，用于在指定位置增加张量的维度。本文将详细介绍torch.unsqueeze的用法和一些实际应用场景。什么是torch.unsqu
机器学习Pandas_learn3 XW-ABAP 机器学习 pandas
frompandasimportDataFrameimportnumpypaints={"车名":["奥迪Q5L","哈弗H6","奔驰GLC"],"最低报价":[numpy.nan,9.80,numpy.nan],"最高报价":[49.80,23.10,58.78]}goods_in=DataFrame(paints,index=[1,2,3])print(goods_in)goods_in_n
如何使用MATLAB进行高效的GPU加速深度学习模型训练？百态老人 matlab 深度学习开发语言
要使用MATLAB进行高效的GPU加速深度学习模型训练，可以遵循以下步骤和策略：选择合适的GPU硬件：首先，确保您的计算机配备有支持CUDA的NVIDIAGPU，并且其计算能力至少为3.0或以上。可以通过gpuDevice命令检查GPU是否具备加速功能。安装必要的工具箱：确保安装了MATLAB的DeepLearningToolbox和ParallelComputingToolbox，这些工具箱提供
【技术解密】本地部署 DeepSeek-V3：完整指南海棠AI实验室 “智元启示录“-AI发展的深度思考与未来展望人工智能深度学习 DeepSeek
目录引言运行环境需求下载与安装推理部署总结参考资源引言随着人工智能的快速发展，开源大模型正逐步改变着技术生态。DeepSeek-V3作为最新的开源大模型之一，不仅提供了强大的推理能力，同时也支持本地部署，使开发者可以灵活地进行自定义优化。本文将详细介绍如何在本地部署DeepSeek-V3，涵盖系统要求、安装步骤、模型转换及不同推理框架的应用。1.运行环境需求1.1硬件要求✅NVIDIAGPU（支持
人工智能伦理与可持续发展 CarlowZJ 人工智能
前言人工智能（AI）技术正在深刻地改变我们的生活和工作方式。从自动驾驶汽车到智能医疗系统，从个性化推荐到自动化决策，AI的应用无处不在。然而，随着技术的快速发展，其伦理和社会影响也引发了广泛的关注。人工智能伦理不仅涉及技术本身的公平性、透明性和安全性，还涉及到更广泛的社会、经济和环境影响。本文将探讨人工智能伦理的核心问题，并从可持续发展的角度提出应对策略。一、人工智能伦理的核心问题1.1数据隐私与
Matlab GPU加速技术算法工程师y matlab 开发语言
1.GPU加速简介（1）为什么使用GPU加速？CPU擅长处理逻辑复杂的串行任务，而GPU拥有数千个流处理器，专为并行计算设计。对于大规模矩阵运算、深度学习训练或科学计算等任务，GPU加速可将计算速度提升数十至数百倍。（2）Matlab的GPU支持功能依赖：需安装ParallelComputingToolbox（并行计算工具箱）。硬件要求：支持CUDA的NVIDIAGPU（如Tesla、GeForc
pytorch中的DataLoader 朋也透william pytorch 人工智能 python
在PyTorch中，DataLoader是一个工具类，用于高效地加载数据并准备数据输入到模型中。它支持数据的批量加载、随机打乱、并行加载和迭代操作，是训练深度学习模型的关键组件之一。1.基本功能DataLoader的主要职责是从数据集中提取样本，并根据设置返回一个批次的数据。它与Dataset类结合使用：Dataset：定义数据集的来源、结构以及如何获取单个数据样本。DataLoader：负责从D
机器学习中输入输出Tokens的概念详解爱吃土豆的程序员机器学习基础机器学习人工智能 Tokens
随着深度学习技术的快速发展，大语言模型（LargeLanguageModels,LLMs）已经成为自然语言处理（NLP）领域的一个热点研究方向。这些模型不仅能够生成高质量的文本，还能在多种任务中展现出卓越的表现，比如机器翻译、问答系统、文本摘要等。在大语言模型的工作流程中，Tokens的概念扮演着至关重要的角色。本文将详细介绍大语言模型如何使用Tokens，以及如何计算Tokens的数量。什么是T
【GPT入门】第24课 langfuse介绍 *星星之火* 大模型 gpt
【GPT入门】第24课langfuse介绍1.langfuse概念与作用2.代码3.页面效果4.设计模式1.装饰器模式2.上下文管理模式1.langfuse概念与作用Langfuse是一款专为大规模语言模型（LLM）应用开发设计的开源平台。其作用主要包括以下几个方面：提升开发效率：通过消除LLM应用构建与运维的复杂性，让开发者、运维团队及产品经理能更专注于核心开发与迭代优化，减少在监控与优化方面的
【深度学习基础】第二十四课：softmax函数的导数 x-jeff 深度学习基础深度学习人工智能
【深度学习基础】系列博客为学习Coursera上吴恩达深度学习课程所做的课程笔记。1.softmax函数softmax函数详解。2.softmax函数的导数假设神经网络输出层的激活函数为softmax函数，用以解决多分类问题。在反向传播时，就需要计算softmax函数的导数，这也就是本文着重介绍的内容。我们只需关注输出层即可，其余层和之前介绍的二分类模型一样，不再赘述。我们先考虑只有一个样本的情况
AI如何创作音乐及其案例 alankuo 人工智能
AI创作音乐主要有以下几种方式：基于深度学习的生成模型深度神经网络：通过大量的音乐数据训练，让AI学习音乐的结构、旋律、和声、节奏等特征。如Transformer架构，其注意力机制可捕捉跨小节的旋律关联性，能生成具有长期依赖性的音乐序列。生成对抗网络（GAN）：包含生成器和判别器，生成器负责生成音乐样本，判别器判断生成的音乐是否真实。两者相互对抗、不断优化，使生成器生成更逼真的音乐。变分自编码器（
LLM-PowerHouse: 一站式大型语言模型定制训练与推理指南 Nifc666 语言模型人工智能自然语言处理 whisper langchain gpt 开源软件
LLM-PowerHouse:解锁大型语言模型的潜力在人工智能和自然语言处理领域,大型语言模型(LargeLanguageModels,LLMs)正在掀起一场革命。随着GPT、BERT等模型的出现,LLMs展现出了惊人的能力,可以执行各种复杂的语言任务。然而,如何有效地训练和使用这些强大的模型仍然是一个挑战。针对这一需求,GitHub上的LLM-PowerHouse项目应运而生,为开发者、研究人员
【sklearn 01】人工智能概述 @金色海岸人工智能 sklearn python
一、人工智能，机器学习，深度学习人工智能指由人类制造出的具有智能的机器。这是一个非常大的范围，长远目标是让机器实现人工智能，但目前我们仍处在非常初始的阶段，甚至不能称为智能机器学习是指通过数据训练出能完成一定功能的模型，是实现人工智能的手段之一，也是目前最主流的人工智能实现方法深度学习则是机器学习的分支，超过8层的神经网络模型就叫深度学习，深度即层数。深度学习目前在语音、图像等领域取得很好的效果
【人工智能】【Python】在Scikit-Learn中使用决策树算法（ID3和CART） SmallBambooCode 机器学习人工智能 python 算法 scikit-learn 决策树机器学习 ai
importnumpyasnpimportmatplotlib.pyplotaspltfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.treeimportDecisionTreeClassifier,plot_tree#加载数据集iris=load_iri
MultiCodeBench:首个涵盖 12 个特定软件应用领域和 15 种编程语言的代码生成基准测试数据集
2024-12-25,由中山大学、西安交通大学、重庆大学共同创建的MultiCodeBench，填补了特定应用领域代码生成性能评估的空白，为开发者选择适合的LLM提供了实践洞见。一、研究背景：随着大型语言模型（LLMs）在代码生成任务中展现出卓越性能，越来越多的AI编程助手被集成到实际的软件开发环境中，显著提升了开发效率。然而，现有的代码生成基准测试主要集中在通用场景，对于LLMs在特定应用领域的
差异中寻找共识：浅析中美欧AIGC服务商的标识义务人工智能
2025年1月7日，西藏日喀则地震中一张被广泛传播的图片“被压在废墟下的小男孩”被证明是AI合成图片，[1]这随即引发了社会对于人工智能生成物（ArtificialIntelligenceGeneratedContent，以下简称“AIGC”）的广泛讨论。随着AI大模型生成逼真图像、音频与视频的能力日益增强，人类作品与AIGC之间的界限愈发模糊。如不加以管控，则会产生“真相侵蚀”（TruthDec
迷雾渐开：美国AIGC可版权性剖析及案例梳理人工智能
当地时间2025年1月29日，美国版权局（U.S.CopyrightOffice,USCO）发布了版权和人工智能相关法律和政策报告的第二部分——《版权和人工智能：可版权性》（以下简称“《USCO可版权性报告》”）[1]，旨在探讨人工智能生成内容（AIGC）的可版权性问题。该报告明确指出，美国版权局认为现有的版权法足以解决AIGC问题，因此无需制定新的立法。具体而言，该报告在此前美国版权局于2023
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

RLHF文本生成图模型

背景

技术点

实现思路

RM模型

LOSS讲解

原理

代码讲解

数据构建

训练代码

RLHF模型

LOSS讲解

原理

代码讲解

数据构建

训练代码

小结

你可能感兴趣的:(人工智能,AIGC,机器学习,深度学习,语言模型)