Remixa

InstructGPT高效实践——【DeepSpeed-Chat】源码详解(2/3)：Supervised Finetuning、Reward Model Finetuning

前言
1 phase-1: Supervised Finetuning
- 1.1 训练数据样例
- 1.2 训练过程
- 1.3 关键代码详解
- - 1.3.1 基座模型结构
  - 1.3.2 LoRA结构及其正向传播
  - 1.3.3 phase1的指标评估
- 1.4 实例测试
- 1.5 相关拓展
- - 1.5.1 多轮对话性能
  - 1.5.2 本阶段训练更倾向过拟合
- 1.6 版块相关问题
2 phase-2: Reward Model Finetuning
- 2.1 训练数据样例
- 2.2 训练过程
- 2.3关键代码详解
- - 2.3.1 RM具体结构
  - 2.3.2 DataCollator及RM所需输入形式
  - 2.3.3 RM的正向传播及成对排序损失
  - 2.3.4 phase2的指标评估
- 2.4 实例测试
- 2.5 相关拓展
- - 2.5.1 对话奖励聚合设计
- 2.6 板块相关问题
后续

前言

本篇为上中下三篇章的【中篇】，接续自【上篇】。主要针对三阶段训练中第一阶段、第二阶段较为重要的部分源码进行详解。
尽管官方的上手文档均是以sh文件为例进行演示，且源码中确实也提供了便捷的sh文件供直接使用，但我仍建议通过各阶段的main.py文件（applications/DeepSpeed-Chat/training/step*/main.py）来运行训练，大致原因有二：其一是因为官方预设的sh文件调用了applications/DeepSpeed-Chat/train.py，其中对模型选型等参数进行了严格的限制，虽然提高了代码安全性，但对于以学习为目的的探索来说失去了一定的灵活性（见下方代码块），直接通过main.py进行传参即可实现绕过限制、使用更轻量的模型进行训练；其二是因为main.py中的传参相对更接近底层，更有助于深入理解代码。
因此各阶段的解析我都将在其main.py文件的基础上进行。

# applications/DeepSpeed-Chat/train.py
parser.add_argument(
        "--actor-model",
        # actor模型只能选用“facebook/opt”系列的1.3b~66b
        # 但即使是1.3b也仍对设备显存有一定的要求
        # 对于使用较弱设备进行学习的用户不是很友好
        type=lambda x: x.replace("facebook/opt-", ""),
        default="1.3b",
        choices=("1.3b", "6.7b", "13b", "66b"),
        help="Which facebook/opt-* model to use for Actor (step 1)",
    )

1 phase-1: Supervised Finetuning

1.1 训练数据样例

数据格式名称	说明	样例
chosen_sentence	人类偏好的完整对话，由prompt衔接偏好应答chosen得到，适用于phase1和phase2。	“Human: Please tell me about Microsoft in a few sentence? Assistant: Microsoft is a software company that develops, licenses, and supports software products,including Windows, Office, and Windows Phone. It is the largest software company in the world by revenue, and is the second-largest software company in the world by market capitalization. Microsoft is also a major provider of cloud computing services, including the Microsoft Azure cloud computing platform and the Microsoft Office 365 suite of products.”

模型将基于自回归语言建模任务对形如上述样例的数据进行训练，最后将得到具备更佳对话能力的模型SFT/ref(Supervised Fine-Tuning)。
更多的数据格式可见【上篇】的“1.2.1 数据格式基本概念”。

1.2 训练过程

在此简单讲述UML时序图的元素含义：
- 箭头表示信息传递：实线表示调用，虚线表示返回；
- alt表示假设分支，其后方“[]”中的内容表示“条件”；
- loop表示循环；
- 淡蓝色区域即为高亮部分。

applications/DeepSpeed-Chat/training/step1_supervised_finetuning/main.py

main1.py utils.py model_utils.py lora.py data_utils.py transformers load_hf_tokenizer() 1 tokenizer 2 create_hf_model() 3 model 4 convert_linear_layer_to_lora() 5 model 6 only_optimize_lora_parameters() 7 model 8 alt [only_optimize_lora] alt [lora_dim > 0] create_prompt_dataset() 9 train_dataset, eval_dataset 10 train_dataloader, eval_dataloader 11 DeepSpeedEngine: model, opt, lrs 12 evaluation() 13 perplexity 14 model.forward() 15 LinearLayer_LoRA.forward() 16 output 17 alt [lora_dim > 0] loss 18 backward() 19 step() 20 loop [step] evaluation() 21 perplexity 22 save model 23 loop [epoch] main1.py utils.py model_utils.py lora.py data_utils.py transformers

phase1的大致训练过程如UML时序图所示（“括号序号”与UML时序图的“圈序号”对应）：

载入tokenizer(1-2)；
载入基座模型（目前仅支持部分CausalLM模型）(3-4)；
根据是否设置lora_dim（LoRA的低秩维度）判断是否启用LoRA技术，如果启用，则将基座模型结构进行LoRA改造（具体可见后续详述），并返回改造后的模型(5-6)；
判断是否启用“仅更新LoRA参数”，如果启用，则对其余结构参数进行冻结处理，并返回冻结处理后的模型(7-8)；
获取Dataset（具体流程可见【上篇】）(9-10)；
实例化DataLoader(11)；
使用DeepSpeed的优化技术DeepSpeedEngine包裹模型等对象(12)；
开始正式训练前首先进行指标评估，选用的指标为困惑度perplexity(13-14)；
开始训练，epoch循环：
1. step循环：
  1. 正向传播得到loss(15-18)，如果模型启用了LoRA技术，则正向传播还需要经过LoRA结构(16-17)；
  2. 反向传播计算梯度(19)；
  3. 更新模型参数（其中所涉及的梯度累计gradient_accumulation_steps将由DeepSpeedEngine自动进行管理，无需过度关注）(20)；
2. 经过1个epoch的训练后进行指标评估(21-22)；
3. 保存模型(23)。

1.3 关键代码详解

上述过程存在几个值得关注的地方（即文字描述加粗、UML时序图高亮的部分）：

基座模型的基本结构，主要是观察其所使用的输出头类型，基本就能知道该阶段使用了什么样的模型进行训练；
启用LoRA技术进行结构改造的细节及其正向传播过程；
关于phase1的指标评估方式。

以下将对相关部分的源码进行讲解。

1.3.1 基座模型结构

从基座模型的载入类可以大致知晓模型的结构，可见下方代码块。此处使用了transformers.AutoModelForCausalLM.from_pretrained()来进行模型构建，因此第一阶段的SFT（ref）模型将会是一个因果语言模型/自回归语言模型（CausalLM），其所需要训练的任务自然就是自回归语言建模，即
$\prod_{t=1}^{T} p(x_t|x_{p(x)=t=1∏Tp(xt∣x<t)$

# applications/DeepSpeed-Chat/training/step1_supervised_finetuning/main.py
"""
模型调用create_hf_model方法进行构建,
参数指定有AutoModelForCausalLM
"""
model = create_hf_model(AutoModelForCausalLM, ···)

# applications/DeepSpeed-Chat/training/utils/model/model_utils.py                        
def create_hf_model(model_class, ···):
	···
	"""model_class=AutoModelForCausalLM"""
	model = model_class.from_pretrained(
	            model_name_or_path,
	            from_tf=bool(".ckpt" in model_name_or_path),
	            config=model_config)
    ···

1.3.2 LoRA结构及其正向传播

LoRA技术的大致思路如下图所示：

在关键的参数层中加入旁路；
原参数冻结不变，训练时优化旁路参数；
原路输出 $W x$ 和旁路输出 $B A x$ 的加和即为最终输出 $h = W x + B A x$ 。

LoRA结构定义
而DeepSpeed-Chat的实现基本与上述思路一致，当设置LoRA的低秩维度lora_dim（如lora_dim=128）时，即认为启用了LoRA训练，则将原始模型中名称含有“deoder.layers.”且为线性层修改为LoRA层，具体操作为：

将原始结构的weight参数冻结；
新引入了2个线性层lora_right_weight和lora_left_weight，可实现先降维至lora_dim再升维回原维度；
LoRA层主要实现了两分支通路，一条分支为已被冻结weight参数的原始结构、另一条分支为新引入的降维再升维线性层组。

# applications/DeepSpeed-Chat/training/step1_supervised_finetuning/main.py
# 判断是否启用LoRA模式
if args.lora_dim > 0:
"""
如果启用，则对名称中含有“decoder.layers.”且为线性层的结构部分引入LoRA旁路（实现先降维后升维的2个线性层），
这类结构基本都是attention、信息交互用的inner线性层，
这类结构的Weight参数将被冻结，转而优化LoRA旁路的参数。
"""
    args.lora_module_name = "decoder.layers."
    model = convert_linear_layer_to_lora(model, args.lora_module_name,
                                         args.lora_dim)

# applications/DeepSpeed-Chat/training/utils/module/lora.py
def convert_linear_layer_to_lora(model,
                                 part_module_name,
                                 lora_dim=0,
                                 lora_scaling=1,
                                 lora_droppout=0):
    """
	将名称中带有"decoder.layers."的线性层转换为lora层
	"""
	"""取出模型中参数名含有decoder.layers.的线性层"""
    repalce_name = []
    for name, module in model.named_modules():
        if isinstance(module, nn.Linear) and part_module_name in name:
            repalce_name.append(name)
    for name in repalce_name:
    	"""recursive_getattr实现了从model中根据属性名取出对应原始结构"""
        module = recursive_getattr(model, name)
        """纳入原始结构的参数，实例化lora层"""
        tmp = LinearLayer_LoRA(
            module.weight, lora_dim, lora_scaling, lora_droppout,
            module.bias).to(module.weight.device).to(module.weight.dtype)
        """recursive_getattr实现了将model对应属性的结构换成lora层实例"""
        recursive_setattr(model, name, tmp)
    return model
    
# applications/DeepSpeed-Chat/training/utils/module/lora.py
class LinearLayer_LoRA(nn.Module):
	"""具体的lora层"""
	def __init__(...):
		...
		"""此处的weight和bias即为原始结构中的参数"""
		self.weight = weight
		self.bias = bias
		···
		"""冻结weight部分的参数"""
		self.weight.requires_grad = False
		···
		self.lora_right_weight = nn.Parameter(torch.zeros(columns, lora_dim))
	    self.lora_left_weight = nn.Parameter(torch.zeros(lora_dim, rows))
	    ···
	    """初始化LoRA线性层的参数"""
	    self.reset_parameters()
    def reset_parameters(self):
    	"""初始化LoRA线性层的参数"""
    	# 降维矩阵使用kaiming均匀分布初始化，
    	# 服从均匀分布U(-\sqrt{1/in_feature}, +\sqrt{1/in_feature})
    	# 与LoRA原始定义所用的(0,\sigma^2)正态分布初始化不同
        nn.init.kaiming_uniform_(self.lora_right_weight, a=math.sqrt(5))
        # 升维矩阵使用全0初始化
        nn.init.zeros_(self.lora_left_weight)
    def forward(self, input):
    	"""LoRA的正向传播"""
    	···
    	else:
	    	return F.linear(input, self.weight, self.bias) 
	    			+ (self.lora_dropout(input) @ self.lora_right_weight @ self.lora_left_weight) * self.lora_scaling

经过LoRA改造后，原始基座模型（此处的基座模型为“facebook/opt-125m”）的结构如下所示，可见模型中除了输出头部分的线性层基本都被改成了LoRA结构，因此模型在进行正向传播时也将流经LinearLayer_LoRA(nn.Module)中所定义的forward()方法（见上方代码块forward()部分）。

OPTForCausalLM(
  (model): OPTModel(
    (decoder): OPTDecoder(
      (embed_tokens): Embedding(50272, 768, padding_idx=1)
      (embed_positions): OPTLearnedPositionalEmbedding(2050, 768)
      (final_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (layers): ModuleList(
        (0-11): 12 x OPTDecoderLayer(
          (self_attn): OPTAttention(
            (k_proj): LinearLayer_LoRA(
              (lora_dropout): Identity()
            )
            (v_proj): LinearLayer_LoRA(
              (lora_dropout): Identity()
            )
            (q_proj): LinearLayer_LoRA(
              (lora_dropout): Identity()
            )
            (out_proj): LinearLayer_LoRA(
              (lora_dropout): Identity()
            )
          )
          (activation_fn): ReLU()
          (self_attn_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
          (fc1): LinearLayer_LoRA(
            (lora_dropout): Identity()
          )
          (fc2): LinearLayer_LoRA(
            (lora_dropout): Identity()
          )
          (final_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        )
      )
    )
  )
  (lm_head): Linear(in_features=768, out_features=50272, bias=False)
)

LoRA正向传播
常规部分的正向传播由transformers所定义，而LoRA部分的正向传播则由LinearLayer_LoRA(nn.Module)的forward()所定义（可见下方代码块），即“LoRA层的两条分支结果进行加和”。在代码中体现为F.linear(input, self.weight, self.bias) + (self.lora_dropout(input) @ self.lora_right_weight @ self.lora_left_weight) * self.lora_scaling，加号左侧为原结构支路，加号右侧为新增支路，self.lora_right_weight和self.lora_left_weight分别为两个新引入线性层的参数。

# applications/DeepSpeed-Chat/training/utils/module/lora.py
class LinearLayer_LoRA(nn.Module):
	"""具体的lora层"""
	···
    def forward(self, input):
    	"""LoRA的正向传播"""
    	···
    	else:
	    	return F.linear(
	                input, self.weight,
	                self.bias) + (self.lora_dropout(input) @ self.lora_right_weight
	                              @ self.lora_left_weight) * self.lora_scaling

1.3.3 phase1的指标评估

DeepSpeed-Chat选择了困惑度perplexity作为phase1训练期间的评估指标。需要注意的是，perplexity不是绝对的评估准则，甚至有可能perplexity评估结果与实际情况并不一致（即，perplexity已经处于较低水平，但模型的实际生成能力却仍然堪忧），这点DeepSpeed-Chat团队也有做出过说明。

Supervised fine-tuning (SFT) has indeed made significant progress in the field of large language models (LLMs). However, unexpected behaviors such as repeating content generation and inconsistency between perplexity (PPL) scores and generation capabilities can still occur.

但无论如何，源码中phase1定义的evaluation是基于perplexity来进行的，我们仍有必要具体了解其实现过程。

困惑度perplexity是一种度量语言模型性能的指标，它衡量了训练好的模型对测试数据的拟合程度，对于输出句子的每个token，都可以得到其输出的置信概率值，将这些值相乘并取其几何平均数的倒数即可计算得到困惑度perplexity，使用公式表达更为简洁：
$(\prod_{t=1}^{T} p_t)^{-\frac{1}{T}}$
其中，输出的句子共有 $T$ 个token，第 $t$ 个token的置信概率值为 $p_t$ 。

而CausalLM模型的训练过程通常采用对数似然损失来进行优化，其输出的损失公式如下：
$-\frac{1}{T} \sum_{t=1}^{T}\log{p_t}$
其中，输出的句子共有 $T$ 个token，第 $t$ 个token的置信概率值为 $p_t$ 。

因此perplexity与CausalLM的loss之间实际存在如下关系：
$\exp(loss)$

相关源码的perplexity计算也是基于上述公式得到的：先是将验证数据输入至模型，得到模型loss输出，然后通过perplexity与loss之间的指数关系计算得到perplexity。

    def evaluation(model, eval_dataloader):
        """
        以困惑度perplexity为评估指标进行验证
        """
        model.eval()
        losses = 0
        for step, batch in enumerate(eval_dataloader):
            """
            batch: 由input_ids、attention_mask、labels共3个部分组成的dict。
            其中每个部分的shape均为(bs, max_seq_len)
            """
            batch = to_device(batch, device)
            with torch.no_grad():
                outputs = model(**batch)
            """Causal LM 的损失函数为交叉熵损失"""
            loss = outputs.loss
            losses += loss.float()
        losses = losses / (step + 1)
        try:
            """困惑度perplexity通常可以通过exp(CELoss)计算得到"""
            perplexity = torch.exp(losses)
        except OverflowError:
            perplexity = float("inf")
        try:
        	"""
        	- get_all_reduce_mean中调用了torch.distributed.all_reduce(perplexity, op=torch.distributed.ReduceOp.SUM)
        	- 对所有进程、或者说GPU（因为通常情况下就是单个进程控制单个GPU）中的perplexity进行求和
        	- 然后再除以全局进程数torch.distributed.get_world_size()得到平均的perplexity结果
        	"""
            perplexity = get_all_reduce_mean(perplexity).item()
        except:
            pass
        return perplexity

1.4 实例测试

“实例测试”与“指标评估”并不是完全相同的概念，实例测试是选择具体的数据实例输入进模型中，人工观察其输出结果，而非使用具体指标对结果进行评估。实例测试实际上更体现了正向传播到解码、再到返回具体文本的过程。例如我对模型输入了一句prompt文本，那么整个实例测试流将会返回给我一份answer文本，我将以主观视角来感知这个answer的优劣程度，而不是采用具体的指标来进行评估。
待完善…

1.5 相关拓展

1.5.1 多轮对话性能

倘若想要使得模型通过具备更好的多轮对话的性能，除了需要考虑其“潜力”（就目前技术来说，模型支持的最大序列长度即为“潜力”，不可否认未来是否会出现新的长文本拓展技术）外，其多轮对话性能表现仍主要与本阶段的训练数据有关，还需要为本阶段加入更多的多轮对话数据，因此需要明确的是，用于本阶段的训练数据并不只局限于单轮对话，同样可以使用多轮对话内容进行训练，多轮对话无非只是具有更长的prompt而已，单轮对话与多轮对话的数据样例可见下表。

单轮或多轮	样例
单轮prompt	"Human: Please tell me about Microsoft in a few sentence? Assistant: "
多轮prompt	“Human: I’m buying a new video game console for the first time since in a decade, but I forget their setups. What do I need in addition to a Playstation 5 in order to play the console? Assistant: You need to buy a Playstation 5 first. Then you’ll also need a TV with HDMI input. It’s possible that HDMI to HDMI cables will also work, but it’s more likely that you’ll need a physical HDMI cord. You also might want to buy an extra power adapter, since the ones that come with new Playstation 5’s are quite short. Are you looking to play on a PC or any other system? That might affect what other hardware you need to buy. Human: Playstation 5’s cables aren’t short, but that’s good information. Can any television with an HDMI input play PS5? Assistant:”
单轮chosen_sentence	“Human: Please tell me about Microsoft in a few sentence? Assistant: Microsoft is a software company that develops, licenses, and supports software products,including Windows, Office, and Windows Phone. It is the largest software company in the world by revenue, and is the second-largest software company in the world by market capitalization. Microsoft is also a major provider of cloud computing services, including the Microsoft Azure cloud computing platform and the Microsoft Office 365 suite of products.”
多轮chosen_setence	“Human: I’m buying a new video game console for the first time since in a decade, but I forget their setups. What do I need in addition to a Playstation 5 in order to play the console? Assistant: You need to buy a Playstation 5 first. Then you’ll also need a TV with HDMI input. It’s possible that HDMI to HDMI cables will also work, but it’s more likely that you’ll need a physical HDMI cord. You also might want to buy an extra power adapter, since the ones that come with new Playstation 5’s are quite short. Are you looking to play on a PC or any other system? That might affect what other hardware you need to buy. Human: Playstation 5’s cables aren’t short, but that’s good information. Can any television with an HDMI input play PS5? Assistant: So you’ve got a Playstation 5 and a TV that you’re going to connect together with an HDMI cable, and you want to know if that’s going to work? It’s definitely possible for the two to work together, and you might need an additional power adapter if your TV only came with a shorter adapter. However, it may be difficult to determine if it will work for sure. This is one area where troubleshooting and making educated guesses may be necessary. You should still be able to easily use your console, but it may be necessary to troubleshoot first.”

1.5.2 本阶段训练更倾向过拟合

DeepSpeed-Chat团队称，根据InstructGPT的建议，本阶段的训练结果应适当倾向于过拟合（可以考虑更多的epoch），以此获得更好的对话能力。DeepSpeed-Chat团队还发现这个设计尤其对诸如opt-1.3B这类较小的模型微调特别有效。

From InstructGPT work, it is recommended to train the model for overfitting (aka longer epochs) for better human-preferred answers. Through our exploration, we have found this to be particularly helpful for smaller model finetuning, such as OPT-1.3B.

1.6 版块相关问题

暂无

2 phase-2: Reward Model Finetuning

2.1 训练数据样例

数据格式名称	说明	样例
chosen_sentence	人类偏好的完整对话，由prompt衔接偏好应答chosen得到，适用于phase1和phase2。	“Human: Please tell me about Microsoft in a few sentence? Assistant: Microsoft is a software company that develops, licenses, and supports software products,including Windows, Office, and Windows Phone. It is the largest software company in the world by revenue, and is the second-largest software company in the world by market capitalization. Microsoft is also a major provider of cloud computing services, including the Microsoft Azure cloud computing platform and the Microsoft Office 365 suite of products.”
reject_sentence	人类排斥的完整对话，由prompt衔接排斥应答rejected得到，适用于phase2。	“Human: Please tell me about Microsoft in a few sentence? Assistant: I’m not sure what you mean.”

模型将基于排序损失对形如上述样例的数据对进行训练，最后将得到具备类人评分能力的RM(Reward Model)。
更多的数据格式可见【上篇】的“1.2.1 数据格式基本概念”。

2.2 训练过程

在此简单讲述UML时序图的元素含义：
- 箭头表示信息传递：实线表示调用，虚线表示返回；
- alt表示假设分支，其后方“[]”中的内容表示“条件”；
- loop表示循环；
- 淡蓝色区域即为高亮部分。

main2.py utils.py model_utils.py reward_model.py lora.py data_utils.py transformers load_hf_tokenizer() 1 tokenizer 2 create_critic_model() 3 create_hf_model() 4 critic_model 5 RewardModel() 6 critic_model 7 rm_model(critic_model) 8 convert_linear_layer_to_lora() 9 model 10 only_optimize_lora_parameters() 11 model 12 alt [only_optimize_lora] alt [lora_dim > 0] create_prompt_dataset() 13 train_dataset, eval_dataset 14 DataCollatorReward() 15 data_collator 16 train_dataloader, eval_dataloader 17 DeepSpeedEngine: rm_model, opt, lrs 18 evaluation_reward() 19 reward_score, acc 20 critic_model.forward() 21 rwtranrsformer.forward() 22 LinearLayer_LoRA.forward() 23 output 24 alt [lora_dim > 0] output 25 loss 26 backward() 27 step() 28 loop [step] evaluation_reward() 29 reward_score, acc 30 save model 31 loop [epoch] main2.py utils.py model_utils.py reward_model.py lora.py data_utils.py transformers

phase2的大致训练过程如UML时序图所示（“括号序号”与UML时序图的“圈序号”对应）：

载入tokenizer(1-2);
载入模型（rm_model），其中涉及一定的结构更改(3-8)；
根据是否设置lora_dim（LoRA的低秩维度）判断是否启用LoRA技术，如果启用，则将基座模型结构进行LoRA改造（具体可见后续详述），并返回改造后的模型(9-10)；
判断是否启用“仅更新LoRA参数”，如果启用，则对其余结构参数进行冻结处理，并返回冻结处理后的模型(11-12)；
获取Dataset（具体流程可见【上篇】）(13-14)；
实例化DataCollator，用于进一步对加载的数据进行整理(15-16)；
实例化DataLoader(17)；
使用DeepSpeed的优化技术DeepSpeedEngine包裹rm_model等对象(18)；
开始正式训练前首先进行指标评估，选用的指标为排序结果的准确率accuracy(19-20)；
10.开始训练，epoch循环：
1. step循环：
  1. 正向传播得到loss(21-26)，如果模型启用了LoRA技术，则正向传播还需要经过LoRA结构(23-24)；
  2. 反向传播计算梯度(27)；
  3. 更新模型参数（其中所涉及的梯度累计gradient_accumulation_steps将由DeepSpeedEngine自动进行管理，无需过度关注）(28)；
2. 经过1个epoch的训练后进行指标评估(29-30)；
3. 保存模型(31)。

2.3关键代码详解

上述过程存在几个值得关注的地方（即文字描述加粗、UML时序图高亮的部分）：

rm_model(RM)的具体结构；
phase2的数据整理器DataCollatorReward所实现的操作，通过这部分可以了解rm_model所需的输入形式；
关于phase2的指标评估方式；
rm_model的正向传播过程。

2.3.1 RM具体结构

首先使用transformers的AutoModel类来读取指定模型的主干网络（不直接定义有输出头的网络结构），然后引入一个可实现从hidden_size降维至1的线性层，该线性层将作为主干网络的输出头，为输入序列的每个位置输出1个评分。

# applications/DeepSpeed-Chat/training/step2_reward_model_finetuning/main.py
"""
rm_model调用了create_critic_model进行载入
默认情况下rm_model是不启用dropout的
"""
rm_model = create_critic_model(···)

# applications/DeepSpeed-Chat/training/utils/model/model_utils.py
def create_critic_model(···):
    """此处的模型读取方法用的是“AutoModel”，因此此处critic_model只有主干部分"""
    critic_model = create_hf_model(AutoModel, ···)
    """
    critic_model传入RewardModel，将额外得到线性层输出头，
    因此此处的critic_model结构为“v_head + 主干部分”
	"""
    critic_model = RewardModel(critic_model, ···)
    ...
    return critic_model

# applications/DeepSpeed-Chat/training/utils/model/reward_model.py
class RewardModel(nn.Module):
    """
    将读取得到的model的结构修改为适用于RewardModel的形式，
    总的来说即是使用载入的主干网络进行特征提取，
    其所提取的特征（最后层的各位置输出特征hidden_states）将被传入线性层，输出得到1个数值，
    该数值即为分值，因此max_seq_len维度的每个位置均会得到1个分值
    """
    def __init__(self, base_model, ...):
        super().__init__()
		···
        if hasattr(self.config, "word_embed_proj_dim"):
        	"""
			OPT系列模型的word_embed_proj_dim为embedding层的输出维度，
			通常在transformer模型中也就等于 hidden_size，
			v_head将基于主干网络的输出特征 hidden_state 进行分值预测，共输出max_seq_len个分值
			"""
            self.v_head = nn.Linear(self.config.word_embed_proj_dim,
                                    1,
                                    bias=False)
        ···
        """base_model即为主干网络，因此RM最终由1个主干网络和1个线性层构成"""
        self.rwtranrsformer = base_model

RM的模型结构基本如下所示（此处的基座模型为“facebook/opt-125m”），由主干网络rwtransformer及输出头v_head组成：

RewardModel(
  (v_head): Linear(in_features=768, out_features=1, bias=False)
  (rwtranrsformer): OPTModel(
    (decoder): OPTDecoder(
      (embed_tokens): Embedding(50272, 768, padding_idx=1)
      (embed_positions): OPTLearnedPositionalEmbedding(2050, 768)
      (final_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
      (layers): ModuleList(
        (0-11): 12 x OPTDecoderLayer(
          (self_attn): OPTAttention(
            (k_proj): Linear(in_features=768, out_features=768, bias=True)
            (v_proj): Linear(in_features=768, out_features=768, bias=True)
            (q_proj): Linear(in_features=768, out_features=768, bias=True)
            (out_proj): Linear(in_features=768, out_features=768, bias=True)
          )
          (activation_fn): ReLU()
          (self_attn_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
          (fc1): Linear(in_features=768, out_features=3072, bias=True)
          (fc2): Linear(in_features=3072, out_features=768, bias=True)
          (final_layer_norm): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        )
      )
    )
  )
)

2.3.2 DataCollator及RM所需输入形式

phase2使用的数据整理器data_collator为DataCollatorReward()，本阶段取出的单个样本example实际上是一个chosen-rejected数据对（见下方代码块），即1个大小为batch_size的batch取出了batch_size个数据对，data_collator将把数据对拆成chosen_sentence和reject_sentence（example一分为二），因此实际上1个batch真正输入模型的数据量大小应当为“batch_size * 2”。

# applications/DeepSpeed-Chat/training/step2_reward_model_finetuning/main.py
"""phase2使用的data_collator为DataCollatorReward()"""
data_collator = DataCollatorReward()

# applications/DeepSpeed-Chat/training/utils/data/data_utils.py
class DataCollatorReward:
    def __call__(self, data):
        """
        对dataloader取到的数据 data 进一步整理，将数据整理成batch输入形式
        入参 data 的具体样式可见下个代码块
        """
        batch = {}
        """f为data中的1个tuple，tuple的第0个元素和第2个元素
        分别为chosen_sentence和reject_sentence的input_ids"""
        batch["input_ids"] = torch.cat([f[0] for f in data] + 
        							   [f[2] for f in data],
                                       dim=0)
        """f为data中的1个tuple，tuple的第1个元素和第3个元素
        分别为chosen_sentence和reject_sentence的attention_mask"""
        batch["attention_mask"] = torch.cat([f[1] for f in data] +
                                            [f[3] for f in data],
                                            dim=0)
        """batch的具体样式可见下个代码块"""
        return batch

输入的data为一个batch的数据列表，其中的 每个元素 为一对chosen-rejected数据：
	(
	 chosen_sentence_input_ids, 
	 chosen_sentence_attention_mask,
	 reject_sentence_input_ids,
	 reject_sentence_attention_mask
	)

每组数据的第0个元素和第2个元素为input_ids，第1个元素和第3个元素为attention_mask。

输出的batch为字典：{“input_ids”: tensor([...]), "attention_mask": tensor([...])}
并且字典值中chosen位于前半部分，rejected位于后半部分：
	{
	"input_ids": [
				  chosen_sentence_1_input_ids,
				  chosen_sentence_2_input_ids,
				  ...,
				  reject_sentence_1_input_ids,
				  reject_sentence_2_input_ids,
				  ...
				 ]
	"attention_mask": [
					   chosen_sentence_1_attention_mask,
					   chosen_sentence_2_attention_mask,
					   ...,
					   reject_sentence_1_attention_mask,
					   reject_sentence_2_attention_mask,
					   ...
					  ]
		
	}
后续输入模型后，直接将数据切分出前半部分和后半部分进行并列，即可获得对应的chosen-rejected数据对。

2.3.3 RM的正向传播及成对排序损失

RM的正向传播过程不算复杂，总的来说就是：

数据经过主干网络得到shape为(bs*2, max_seq_len, hidden_size)的最后层输出特征hidden_states；
然后将输出特征送入线性层v_head得到shape为(bs*2, max_seq_len)的评分rewards。

较为复杂的部分实际上是“成对排序损失的计算”以及“评分聚合设计”。

成对排序损失（Pairwise Ranking Loss）
$loss(\theta) = E_{(x, y_c, y_r) \sim{D}} [-log(\sigma(r_\theta(x, y_c) - r_\theta(x, y_r)))]$
其中， $r_\theta$ 为RM， $x$ 为prompt， $y_c$ 为chosen， $y_r$ 为rejected， $x, y_c)$ 和 $x, y_r)$ 则分别为chosen_sentence和reject_sentence。
该损失函数的目的在于最大化“chosen/好的/排序靠前的”和“rejected/坏的/排序靠后的”的差值，由此促使 $r_\theta$ 学习到相应的排序模式。
DeepSpeed-Chat在实现这部分时， $r_\theta(x,y_c)$ 和 $r_\theta(x,y_r)$ 分别选择了chosen_sentence和reject_sentence两者answer的对齐部分，通过文字叙述略显抽象，查看下方的代码块有助于你理解这个概念：

max_seq_len为10，pad_token_id为0，
有同属同个prompt的chosen_sentence和reject_sentence:
prompt: [11, 22, 33]
chosen_sentence: [11, 22, 33, 44, 55, 66, 0, 0, 0, 0]
reject_sentence: [11, 22, 33, 40, 50, 0, 0, 0, 0, 0]

“两者answer的对齐部分”即为“非prompt部分也非padding部分、但长度要对齐”：
chosen_truncated: [44, 55, 66]
reject_truncated: [40, 50, 0]

chosen_sentence的answer比较长，所以reject_sentence在取相应部分时要取至与chosen部分等长为止；
reject_sentence的answer较长时同理。

为了取到上述提及的“对齐部分”，代码进行了较为晦涩抽象的取index操作，但只要理解其最终目的是为了取到chosen_sentence和reject_sentence对齐部分的reward，来进行损失计算即可。

对话奖励设计
尽管使用的是“对齐部分”的reward来计算成对排序损失，但RM模型对一个对话的预测评分实际上取的是该对话文本最后一个有效token（通常会是“结束标记”）的reward，下方代码块提供了一个简单例子说明了这个情况。

pad_token_id = 0
conversation = [11, 22, 33, 44, 55, 66, 0, 0, 0, 0]
conversation_rewards = [2.01, 0.23, 2.89, 0.66, 0.33, 2.25, 0.36, 0.99, 1.32, 1.62]
token_id为66的token作为该对话的最后1个有效token，
其对应的reward“2.25”将被用于表示整个对话的reward。

整体代码如下所示：

# applications/DeepSpeed-Chat/training/utils/model/reward_model.py
class RewardModel(nn.Module):
	def __init__(self, ···):
		···
	···
	def forward(self, input_ids=None, ···):
		"""获得主干网络的输出的特征"""
		transformer_outputs = self.rwtranrsformer(···)
		"""
		取最后一层的输出特征
		hidden_states.shape: (bs*2, max_seq_len, hidden_size)
		"""
		hidden_states = transformer_outputs[0]
		"""
		将特征送入全连接层得到分数回归值
		rewards.shape: (bs*2, max_seq_len)
		"""
		rewards = self.v_head(hidden_states).squeeze(-1)
		"""先前提及过，实际的bs应该是输入bs的一半"""
		bs = input_ids.shape[0] // 2
		"""区分出chosen和reject"""
		chosen_ids = input_ids[:bs]
		rejected_ids = input_ids[bs:]
		chosen_rewards = rewards[:bs]
		rejected_rewards = rewards[bs:]
		
		loss = 0
        for i in range(bs):
            """
            取出同组chosen和rejected的token_id和分值reward
            chosen_id.shape: (max_seq_len, )
            """
            chosen_id = chosen_ids[i]
            rejected_id = rejected_ids[i]
            chosen_reward = chosen_rewards[i]
            rejected_reward = rejected_rewards[i]
            
			"""
			下方本应有各种取index相关的操作，
			基于源码解读的可读性考量，且这些部分只是逻辑形式上的弯弯绕绕，与相关原理并不存在直接关系，
			所以我选择暂且将它们忽略。
			"""
			
			"""
			c_ind为chosen_sentence的answer后的第一个pad_token的index
			例如pad_token_id=0，sentence[11,22,33,44,55,66,0,0,0,0]，c_ind即为第一个pad_token的index=6。
			"""
            c_ind = ···
            """r_ind同理，为reject_sentence的answer后的第一个pad_token的index"""
            r_ind = ···
            """end_ind则为两者的较大者"""
            end_ind = max(c_ind, r_ind)
                # 取chosen和rejected第一个不同的地方的index，可以理解为“response中两个回答自由发挥的第1个token的index”
            """divergence_ind为chosen_sentence和reject_sentence两者answer的第1个token的index"""
            divergence_ind = ···

            """
            以chosen_sentence和reject_sentence最先不同的地方为起始、生成结束的地方为终止，取两者在这个片段的对应分值
            这部分其实就是上个代码块提及的“对齐部分”
            """
            c_truncated_reward = chosen_reward[divergence_ind:end_ind]
            r_truncated_reward = rejected_reward[divergence_ind:end_ind]
            """
            (c_truncated_reward - r_truncated_reward).shape: (truncated_seq_len,)
            计算损失时使用了rank loss的形式，并且是对chosen和rejected“对齐片段”进行计算的
            """
            loss += -torch.log(
                torch.sigmoid(c_truncated_reward - r_truncated_reward)).mean()
		
        loss = loss / bs
        
        """取代表结束的pad token所在位置的前一个位置（可以理解为的最后一个有效token的位置）的分值作为参考分值"""
            chosen_mean_scores.append(
                chosen_reward[c_ind - 1])  #use the end score for reference
            rejected_mean_scores.append(rejected_reward[r_ind - 1])
        chosen_mean_scores = torch.stack(chosen_mean_scores)
        rejected_mean_scores = torch.stack(rejected_mean_scores)
        
        """返回损失和参考分值"""
        return {
            "loss": loss,
            "chosen_mean_scores": chosen_mean_scores,
            "rejected_mean_scores": rejected_mean_scores,
        }
   ···

2.3.4 phase2的指标评估

DeepSpeed-Chat在phase2中使用的评估指标为排序正确的accuracy，主要过程为：

将数对chosen-rejected数据对（过程中被data_collator拆分为chosen_sentence和reject_sentence）输入RM中进行推理，得到各个sentence的分值；
将同属一个prompt的chosen_sentence得分与reject_sentence得分进行比较，当chosen_sentence得分大于reject_sentence得分时，即为“正确预测”，否则为“错误预测”；
统计正确预测的结果，计算accuracy作为评估指标。
此外评估过程中还将统计平均的chosen_sentence分值“scores”供参考。

def evaluation_reward(model, eval_dataloader):
    model.eval()
    """统计预测（赋分）正确的结果
    即 chosen_reward > rejected_reward 的结果数"""
    correct_predictions = 0
    """统计预测总数"""
    total_predictions = 0
    scores = 0
    for step, batch in enumerate(eval_dataloader):
        batch = to_device(batch, device)
        with torch.no_grad():
            """outputs: {'loss':tensor(), 
            			'chosen_mean_scores':tensor(bs,), 
            			'rejected_mean_scores':tensor(bs,)}"""
            outputs = model(**batch)

        """chosen.shape: (bs,)"""
        chosen = outputs["chosen_mean_scores"]
        """rejected.shape: (bs,)"""
        rejected = outputs["rejected_mean_scores"]
        """"赋分正确"即为chosen分值大于rejected分值"""
        correct_predictions += (chosen > rejected).sum()
        total_predictions += chosen.shape[0]
        """累加每个step的平均chosen分值"""
        scores += outputs["chosen_mean_scores"].mean().float()
        if step == 99:  # For faster evaluation and debugging
            break
    """计算acc指标"""
    acc = correct_predictions / total_predictions
    """计算当前step的平均chosen分值"""
    scores = scores / (step + 1)
    try:
        """多进程结果求和求平均"""
        acc = get_all_reduce_mean(acc).item()
        scores = get_all_reduce_mean(scores).item()
    except:
        pass
    return scores, acc

2.4 实例测试

“实例测试”与“指标评估”并不是完全相同的概念，实例测试是选择具体的数据实例输入进模型中，人工观察其输出结果，而非使用具体指标对结果进行评估。
待完善…

2.5 相关拓展

2.5.1 对话奖励聚合设计

在DeepSpeed-Chat的实现中，RM模型对一个对话的预测评分实际上取的是该对话文本最后一个token的reward，当然此处并不是只能采用这种方式对对话进行评分，这是一个开放性的策略设计，只是DeepSpeed-Chat团队采取了这样的实现，用户当然也可以自己制定评分的处理策略，比如answer部分的平均reward、序列reward再接全连接层得到聚合rewad等等。

In our implementation, we use either the end token of the sequence or the first padding token as the aggregated score and compare them. Others may also use the average score for the entire answer as an alternative.

2.6 板块相关问题

暂无

后续

RLHF阶段的训练具体内容可见【下篇】。

你可能感兴趣的:(人工智能,自然语言处理,chatgpt,nlp,深度学习)

统一认证、限流、Mock 一网打尽！用 APISIX/Kong 让低代码平台更清爽网罗开发实战源码前端 kong 低代码
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
nlp遇到的问题
1.AttributeError:'CodeGenTokenizer'objecthasnoattribute'encoder'pipinstalltransformers==4.33.22.ImportError:Using`low_cpu_mem_usage=True`ora`device_map`requiresAccelerate:`pipinstallaccelerate`pipinst
当语言模型”思考”时，它真的在推理吗？ qq_502428990 语言模型人工智能自然语言处理
最近，每当我看到ChatGPT一步步”推导”数学题，或是Claude条理分明地分析哲学问题时，总忍不住想起图灵测试那个古老的命题：我们是否又一次被表象迷惑了？这些看似严谨的推理过程，到底是一场精妙的模仿秀，还是真正智能的曙光？1.被误解的”思考者”走进任何科技论坛，你都能看到人们对GPT-4解题过程的惊叹：”看这一步一步的推导，它简直像人类一样在思考！”但作为一个长期观察语言模型的研究者，我不得不
学习三维动画心得 2501_92205961 开发语言青少年编程
在大二学年的三维动画设计学习进程中，我围绕3dsMax和Blender两大核心软件展开深入钻研，并在此基础上探索技术应用与创新。不仅熟练掌握了基础操作，还深入到代码编写与复杂技术问题解决领域，逐步构建起系统的三维动画设计知识与技能体系，以下是详细的学习总结。一、3dsMax的深度学习与技术实践（一）高级建模与脚本优化在3dsMax的学习中，基础建模掌握后，我开始挑战高级建模技术。利用NURBS建模
AI对话导出工具 (AI Chat Exporter)——支持 ChatGPT, Grok 和 Gemini 平台 ALGORITHM LOL 人工智能 chatgpt
AI对话导出工具(AIChatExporter)轻松将AI对话导出为标准Markdown格式支持ChatGPT,Grok和Gemini平台相关代码已开源至Github欢迎Star✨功能特点多平台支持：同时支持ChatGPT,Grok和Gemini三大AI平台完整内容保留：精确导出所有对话内容，包括代码块、数学公式、链接和格式化文本标准Markdown格式：输出符合标准的Markdown格式，确保最
生成式AI技术对未来知识生产模式的颠覆性影响：跨学科案例分析德宿人工智能
引言随着人工智能技术的迅猛发展，生成式AI作为一种革命性技术正在深刻地改变人类知识生产和学术研究的范式。生成式AI不仅能够创建原创内容，还能模拟人类思维过程，处理和生成大量数据，从而在各个学科领域展现出广阔的应用前景。本研究报告旨在深入探讨生成式AI技术对未来知识生产模式的颠覆性影响，通过对比传统学术研究与AI辅助研究的范式差异，并选取医学、法学、文学、经济学和艺术学等五个典型领域进行深度案例分析
ChatGPT驱动的跨学科研究灵感挖掘指南学境思源AcademicIdeas 学境思源 AI写作 ChatGPT chatgpt
跨学科研究已成为解决复杂问题的重要手段。学境思源，无论是人工智能与心理学的结合，一键生成论文初稿！还是生态学与经济学的融合，越来越多的研究者正试图打破学科界限，探索全新问题域。但问题是：acaids.com。我们如何高效发现这些跨学科交叉点？使用传统方式，像文献综述、领域专家访谈或大型头脑风暴虽有效，但耗时，且受限于已有认知。今天为大家分享一种高效、智能、可复制的方法——利用ChatGPT进行跨学
大模型本地部署，拥有属于自己的ChatGpt 小妖同学学AI chatgpt
ChatGpt以其强大的信息整合和对话能力惊艳了全球，在自然语言处理上面表现出了惊人的能力。不管用于文案撰写还是程序辅助开发都大大提高了我们的工作效率，但是其使用有一定的门槛，让我们大多数人都望而却步，今天我们利用ollama实现本地大模型的步骤，让我们轻松拥有自己的人工智能。Ollama作为一个轻量级的工具，可以帮助用户在本地运行这些大型语言模型，无需持续依赖云服务，既保护了数据隐私，又能减少网
PPT 要你好看（全彩）又是一个装逼的
分享一下我老师大神的人工智能教程！零基础，通俗易懂！http://blog.csdn.net/jiangjunshow也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！PPT,要你好看（全彩）杨臻编著ISBN978-7-121-14725-82011年11月出版定价：49.90元16开264页宣传语：般若黑洞▪百万点击之升华16位知名PPT高手联袂热议内容简介此刻呈现在你面前的
Spring AI 结合 MCP MySQL 实现对话式数据库查询没刮胡子软件开发技术实战专栏人工智能AI Spring 数据库 spring 人工智能 spring-ai mcp-server mysql
在现代应用开发中，将人工智能与数据库查询结合可以创造更自然、更智能的用户交互方式。下面我将详细介绍如何使用SpringAI框架结合MCP（可能指MySQL连接池或相关组件）实现对话中的数据库查询功能。什么是SpringAI和MCPMySQLSpringAI框架概述SpringAI是基于Spring生态的人工智能集成框架，它提供了：与大型语言模型(LLM)的集成能力对话管理和自然语言处理功能业务逻辑
MiniMax - M1：开源大模型的革命性突破
开源大模型MiniMax-M1研究报告一、引言在人工智能技术飞速发展的当下，大模型领域的竞争愈发激烈。开源大模型以其开放性、可定制性和社区协作的优势，逐渐成为推动人工智能技术进步的重要力量。MiniMax-M1作为全球首个开源大规模混合架构的推理模型，一经发布便引起了广泛关注。它在长上下文处理、推理效率和成本控制等方面展现出了卓越的性能，为人工智能的发展带来了新的思路和方向。本文将对MiniMax
信息抽取领域关键Benchmark方法：分类体系
信息抽取领域关键Benchmark方法：分类体系摘要信息抽取（InformationExtraction,IE）作为自然语言处理的核心任务之一，旨在从非结构化文本中识别并结构化关键信息（如实体、关系、事件等），广泛应用于知识图谱构建、智能问答和数据分析等领域。近年来，随着深度学习技术的快速发展，信息抽取方法在性能和应用范围上取得了显著进步，但同时也面临着任务多样性、跨领域泛化性以及低资源场景下的适
基于级联深度学习算法在双参数MRI中检测前列腺病变的评估| 文献速递-AI辅助的放射影像疾病诊断有Li 人工智能深度学习算法
Title题目EvaluationofaCascadedDeepLearning–basedAlgorithmforProstateLesionDetectionatBiparametricMRI基于级联深度学习算法在双参数MRI中检测前列腺病变的评估Background背景MultiparametricMRI(mpMRI)improvesprostatecancer(PCa)detectionc
深度学习使用Pytorch训练模型步骤 vvvdg 深度学习 pytorch 人工智能
训练模型是机器学习和深度学习中的核心过程，旨在通过大量数据学习模型参数，以便模型能够对新的、未见过的数据做出准确的预测。训练模型通常包括以下几个步骤：1.数据准备：收集和处理数据，包括清洗、标准化和归一化。将数据分为训练集、验证集和测试集。2.定义模型：选择模型架构，例如决策树、神经网络等。初始化模型参数（权重和偏置）。3.选择损失函数：根据任务类型（如分类、回归）选择合适的损失函数。4.选择优化
深度学习中Embedding原理讲解 zhishidi ai笔记深度学习 embedding 人工智能
我们用最直白的方式来理解深度学习中Embedding（嵌入）的概念。核心思想一句话：Embedding就是把一些复杂、离散的东西（比如文字、类别、ID）转换成计算机更容易理解和计算的“数字密码”，这些“数字密码”能代表这个东西的本质特征或含义。为什么需要Embedding？想象一下，你要教计算机认识“苹果”和“橙子”：原始表示（不好用）：你告诉计算机：“苹果”的编号是1，“橙子”的编号是2。问题来
基于人工智能的图表生成器警世龙开发记录人工智能自然语言处理
基于人工智能的图表生成器软件需求分析本项目旨在开发一个基于Web的图表生成工具，利用人工智能技术将自然语言描述转换为专业的流程图、时序图等可视化图表。具体需求如下：支持用户输入自然语言描述来生成图表。提供实时预览功能，让用户能够即时看到生成的图表。允许用户对生成的Mermaid代码进行编辑。支持图表的缩放和平移操作。提供代码保存和图片导出功能。具备快捷键支持，提高用户操作效率。技术选型前端HTML
Edge-TTS在广电系统中的语音合成技术的创新应用
Edge-TTS在广电系统中的语音合成技术的创新应用作者：本人是一名县级融媒体中心的工程师，多年来一直坚持学习、提升自己。喜欢Python编程、人工智能、网络安全等多领域的技术。摘要随着人工智能技术的快速发展，文字转语音(Text-to-Speech,TTS)系统已成为多种应用的重要组成部分，尤其在广播电视领域。本文介绍了一种基于Edge-TTS大模型的文字转语音工具，该工具结合了现代文本处理和语
掌握编程：数字时代的必备技能 afsdfewasdf AI编程
编程在现代社会的必要性学习编程在当今数字化时代具有显著优势。随着科技发展，编程技能已成为许多行业的基础需求，从软件开发到数据分析，甚至传统行业也在逐步依赖技术解决方案。掌握编程能力可以提升个人竞争力，开拓职业机会。就业市场需求旺盛技术岗位如软件工程师、数据科学家、人工智能专家等持续增长。非技术岗位如市场营销、金融分析也要求基础编程知识处理自动化任务或数据分析。掌握编程技能能显著提高薪资水平和职业发
Python助力自动驾驶：深度学习模型优化全攻略 Echo_Wish Python！实战！python 自动驾驶深度学习
Python助力自动驾驶：深度学习模型优化全攻略说起自动驾驶，大家第一反应往往是“高精地图”“传感器融合”“路径规划”等等，背后真正的“大脑”其实是各式各样的深度学习模型。它们负责感知环境、识别路况、预测行为，甚至实时做出决策。可是，跑在车上的这些模型不仅要精准，还得轻量、实时、稳定，这可不是简单的“丢GPU就能解决”的问题。今天，咱们就从Python开发者的视角，聊聊自动驾驶里深度学习模型的优化
TensorFlow：开启智能时代的引擎科技林总 DeepSeek学AI 人工智能
想象一下，计算机能看懂病历、汽车能自动驾驶、机器能创作艺术——这一切的核心，正是深度学习的力量。而推动这场革命的引擎之一，就是今天的主角：**TensorFlow**。---###**一、背景：为什么需要TensorFlow？1.**深度学习的爆发**-传统编程无法解决图像识别、自然语言处理等复杂问题。-神经网络需要高效工具处理海量数据和计算。2.**Google的答案**-2015年开源Tens
深度剖析AI人工智能在自动驾驶中的系统优化 AI云原生与云计算技术学院人工智能自动驾驶机器学习 ai
深度剖析AI人工智能在自动驾驶中的系统优化关键词：AI人工智能、自动驾驶、系统优化、传感器融合、决策算法摘要：本文深入探讨了AI人工智能在自动驾驶系统中的优化问题。从自动驾驶的背景入手，详细解释了相关核心概念，如传感器、决策算法等。阐述了这些核心概念之间的关系，介绍了核心算法原理和具体操作步骤，还通过数学模型和公式进行了理论支持。给出了项目实战案例，分析了实际应用场景，推荐了相关工具和资源，最后探
AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安 | 不摸鱼的独立开发者日报（第36期）不摸鱼_ 不摸鱼的独立开发者日报人工智能科技产品经理 microsoft 个人开发游戏
✍️说明日报相关信息：网站：https://daily.nomoyu.com/RSS：https://daily.nomoyu.com/rss/rss.xml欢迎一起沟通交流AI教父Hinton：别太相信科技领袖们的公开说辞，他们私下对AI的看法会让你不安“人工智能教父”GeoffreyHinton在访谈中表示，他对自己毕生的工作成果表示深切忧虑，并致力于警告世界AI带来的巨大风险，他的主要观点如
22种创新思路！今年必将是特征选择爆发的一年小唯啊小唯人工智能注意力机制特征选择
2025深度学习发论文&模型涨点之——特征选择特征选择是机器学习和数据挖掘领域中一个非常重要的步骤。它指的是从原始特征集合中挑选出对目标变量有较强预测能力的特征子集。在实际的数据集中，往往包含众多特征，但并非所有特征都对模型的性能有正面影响。例如在房价预测任务中，原始特征可能包括房屋的面积、房间数量、所在小区、周边配套设施等众多内容。通过特征选择，可以剔除一些无关的或者冗余的特征，比如可能存在的重
openai-go v1.6.0版本详解：新增功能与优化全面解析福大大架构师每日一题文心一言vschatgpt golang easyui 开发语言
一、前言openai-go作为OpenAI官方提供的Go语言客户端库，一直备受广大Go语言开发者关注和喜爱。随着人工智能技术的飞速发展，openai-go的迭代速度也在不断加快。最近，openai-go发布了v1.6.0版本，该版本带来了多项新功能和优化，进一步提升了API的灵活性和开发者体验。本文将基于官方发布的完整更新日志，深入解析v1.6.0版本的新增功能、改进细节及实际应用，帮助读者全面掌
从 “啃书焦虑” 到 “项目通关”：NLP 学习的破局之道木旭林晖自然语言处理学习人工智能
嘿，你好。在CSDN上潜水这么久，我总能看到很多像你我当年一样，怀揣着NLP大厂梦的同学。我猜，你的收藏夹里一定塞满了“NLP必读清单”，书架上可能还放着那本厚得像砖头一样的《统计学习方法》或者“龙书”。每天深夜，你可能都在跟一个又一个复杂的数学公式死磕。什么最大熵模型、什么CRF（条件随机场）的推导……你觉得自己离“精通”越来越近，但心里却越来越慌。为什么慌？因为你打开招聘软件，看到JD（职位描
Deepseek：多轮对话与上下文拼接 chilavert318 熬之滴水穿石 ai
今天的内容，应该很好理解。我们先从场景切入来理解。首先，你回想一下，有没有遇到过这样的情况：和朋友聊天时，聊了一会儿，突然朋友说起之前的某个话题，你却有点反应不过来，得努力回忆之前说了啥。人工智能之所以“智能”，因为它就不可能这么健忘。在和Deepseek聊天，在多轮对话中，Deepseek就像一个记忆力超强的小伙伴，能清楚记得你们聊过的每一个重要细节，让对话一直顺顺畅畅。这背后呀，藏着Deeps
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。努力毕业的小土博^_^ 深度学习学习笔记深度学习学习笔记人工智能机器学习
【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。文章目录【深度学习|学习笔记】什么是正则化？如何理解正则化？L0、L1、L2正则化的起源、发展、原理、应用和对比详解，附代码。前言一、什么是正则化？为什么需要它？✅
MCP 与 AI 任务分解：如何让 AI 高效执行复杂任务？ Echo_Wish Python 进阶人工智能
MCP与AI任务分解：如何让AI高效执行复杂任务？在人工智能应用中，任务分解（TaskDecomposition）是一个绕不开的话题。无论是自动驾驶、智能客服，还是代码生成，AI都需要将复杂问题拆解成可执行的小任务，逐步完成目标。而在AI领域，MCP（Multi-StepCognitiveProcessing，多步认知处理）是一种前沿技术，旨在提升AI的任务分解能力，使其能够更精准、高效地执行复杂
AIGC领域Prompt工程：原理、方法与行业应用 AI天才研究院 ChatGPT 计算 AI大模型应用入门实战与进阶 AIGC prompt ai
AIGC领域Prompt工程：原理、方法与行业应用关键词：Prompt工程、大语言模型（LLM）、提示设计、少样本学习、AIGC应用、思维链（CoT）、提示优化摘要：随着AIGC（人工智能生成内容）技术的爆发式发展，大语言模型（如GPT-4、LLaMA、通义千问）的性能已达到前所未有的高度。然而，模型的强大能力能否被充分释放，很大程度上依赖于"提示（Prompt）"的设计质量。本文系统解析Prom
Promptify：简化NLP任务的高效工具箱金斐茉
Promptify：简化NLP任务的高效工具箱PromptifyPromptEngineering|PromptVersioning|UseGPTorotherpromptbasedmodelstogetstructuredoutput.JoinourdiscordforPrompt-Engineering,LLMsandotherlatestresearch项目地址:https://gitcod
[黑洞与暗粒子]没有光的世界 comsci
无论是相对论还是其它现代物理学,都显然有个缺陷,那就是必须有光才能够计算但是,我相信,在我们的世界和宇宙平面中,肯定存在没有光的世界.... 那么,在没有光的世界,光子和其它粒子的规律无法被应用和考察,那么以光速为核心的 &nbs
jQuery Lazy Load 图片延迟加载 aijuans jquery
基于 jQuery 的图片延迟加载插件，在用户滚动页面到图片之后才进行加载。对于有较多的图片的网页，使用图片延迟加载，能有效的提高页面加载速度。版本： jQuery v1.4.4+ jQuery Lazy Load v1.7.2 注意事项：需要真正实现图片延迟加载，必须将真实图片地址写在 data-original 属性中。若 src
使用Jodd的优点 Kai_Ge jodd
1. 简化和统一 controller ，抛弃 extends SimpleFormController ，统一使用 implements Controller 的方式。 2. 简化 JSP 页面的 bind, 不需要一个字段一个字段的绑定。 3. 对 bean 没有任何要求，可以使用任意的 bean 做为 formBean。使用方法简介
jpa Query转hibernate Query 120153216 Hibernate
public List<Map> getMapList(String hql, Map map) { org.hibernate.Query jpaQuery = entityManager.createQuery(hql); if (null != map) { for (String parameter : map.keySet()) { jp
Django_Python3添加MySQL/MariaDB支持 2002wmj mariaDB
现状首先，[email protected] 中默认的引擎为 django.db.backends.mysql 。但是在Python3中如果这样写的话，会发现 django.db.backends.mysql 依赖 MySQLdb[5] ，而 MySQLdb 又不兼容 Python3 于是要找一种新的方式来继续使用MySQL。 MySQL官方的方案首先据MySQL文档[3]说，自从MySQL
在SQLSERVER中查找消耗IO最多的SQL 357029540 SQL Server
返回做IO数目最多的50条语句以及它们的执行计划。 select top 50 (total_logical_reads/execution_count) as avg_logical_reads, (total_logical_writes/execution_count) as avg_logical_writes, (tot
spring UnChecked 异常官方定义！ 7454103 spring
如果你接触过spring的事物管理！那么你必须明白 spring的非捕获异常！即 unchecked 异常！因为 spring 默认这类异常事物自动回滚！！ public static boolean isCheckedException(Throwable ex) { return !(ex instanceof RuntimeExcep
mongoDB 入门指南、示例 adminjun java mongodb 操作
一、准备工作 1、下载mongoDB 下载地址：http://www.mongodb.org/downloads 选择合适你的版本相关文档：http://www.mongodb.org/display/DOCS/Tutorial 2、安装mongoDB A、不解压模式：将下载下来的mongoDB-xxx.zip打开，找到bin目录，运行mongod.exe就可以启动服务，默
CUDA 5 Release Candidate Now Available aijuans CUDA
The CUDA 5 Release Candidate is now available at http://developer.nvidia.com/<wbr></wbr>cuda/cuda-pre-production. Now applicable to a broader set of algorithms, CUDA 5 has advanced fe
Essential Studio for WinRT网格控件测评 Axiba JavaScript html5
Essential Studio for WinRT界面控件包含了商业平板应用程序开发中所需的所有控件，如市场上运行速度最快的grid 和chart、地图、RDL报表查看器、丰富的文本查看器及图表等等。同时，该控件还包含了一组独特的库，用于从WinRT应用程序中生成Excel、Word以及PDF格式的文件。此文将对其另外一个强大的控件——网格控件进行专门的测评详述。网格控件功能 1、
java 获取windows系统安装的证书或证书链 bewithme windows
有时需要获取windows系统安装的证书或证书链，比如说你要通过证书来创建java的密钥库。有关证书链的解释可以查看此处。 public static void main(String[] args) { SunMSCAPI providerMSCAPI = new SunMSCAPI(); S
NoSQL数据库之Redis数据库管理(set类型和zset类型) bijian1013 redis 数据库 NoSQL
4.sets类型 Set是集合，它是string类型的无序集合。set是通过hash table实现的，添加、删除和查找的复杂度都是O(1)。对集合我们可以取并集、交集、差集。通过这些操作我们可以实现sns中的好友推荐和blog的tag功能。 sadd：向名称为key的set中添加元
异常捕获何时用Exception，何时用Throwable bingyingao
用Exception的情况 try { //可能发生空指针、数组溢出等异常 } catch (Exception e) {
【Kafka四】Kakfa伪分布式安装 bit1129 kafka
在http://bit1129.iteye.com/blog/2174791一文中，实现了单Kafka服务器的安装，在Kafka中，每个Kafka服务器称为一个broker。本文简单介绍下，在单机环境下Kafka的伪分布式安装和测试验证 1. 安装步骤 Kafka伪分布式安装的思路跟Zookeeper的伪分布式安装思路完全一样，不过比Zookeeper稍微简单些(不
Project Euler bookjovi haskell
Project Euler是个数学问题求解网站，网站设计的很有意思，有很多problem，在未提交正确答案前不能查看problem的overview，也不能查看关于problem的discussion thread，只能看到现在problem已经被多少人解决了，人数越多往往代表问题越容易。看看problem 1吧： Add all the natural num
Java-Collections Framework学习与总结-ArrayDeque BrokenDreams Collections
表、栈和队列是三种基本的数据结构，前面总结的ArrayList和LinkedList可以作为任意一种数据结构来使用，当然由于实现方式的不同，操作的效率也会不同。这篇要看一下java.util.ArrayDeque。从命名上看
读《研磨设计模式》-代码笔记-装饰模式-Decorator bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.io.BufferedOutputStream; import java.io.DataOutputStream; import java.io.FileOutputStream; import java.io.Fi
Maven学习(一) chenyu19891124 Maven私服
学习一门技术和工具总得花费一段时间，5月底6月初自己学习了一些工具，maven+Hudson+nexus的搭建，对于maven以前只是听说，顺便再自己的电脑上搭建了一个maven环境，但是完全不了解maven这一强大的构建工具，还有ant也是一个构建工具，但ant就没有maven那么的简单方便，其实简单点说maven是一个运用命令行就能完成构建，测试，打包，发布一系列功
[原创]JWFD工作流引擎设计----节点匹配搜索算法(用于初步解决条件异步汇聚问题) 补充 comsci 算法工作 PHP 搜索引擎嵌入式
本文主要介绍在JWFD工作流引擎设计中遇到的一个实际问题的解决方案，请参考我的博文"带条件选择的并行汇聚路由问题"中图例A2描述的情况(http://comsci.iteye.com/blog/339756),我现在把我对图例A2的一个解决方案公布出来，请大家多指点节点匹配搜索算法(用于解决标准对称流程图条件汇聚点运行控制参数的算法) 需要解决的问题：已知分支
Linux中用shell获取昨天、明天或多天前的日期 daizj linux shell 上几年昨天获取上几个月
在Linux中可以通过date命令获取昨天、明天、上个月、下个月、上一年和下一年 # 获取昨天 date -d 'yesterday' # 或 date -d 'last day' # 获取明天 date -d 'tomorrow' # 或 date -d 'next day' # 获取上个月 date -d 'last month' #
我所理解的云计算 dongwei_6688 云计算
在刚开始接触到一个概念时，人们往往都会去探寻这个概念的含义，以达到对其有一个感性的认知，在Wikipedia上关于“云计算”是这么定义的，它说： Cloud computing is a phrase used to describe a variety of computing co
YII CMenu配置 dcj3sjt126com yii
Adding id and class names to CMenu We use the id and htmlOptions to accomplish this. Watch. //in your view $this->widget('zii.widgets.CMenu', array( 'id'=>'myMenu', 'items'=>$this-&g
设计模式之静态代理与动态代理 come_for_dream 设计模式
静态代理与动态代理代理模式是java开发中用到的相对比较多的设计模式，其中的思想就是主业务和相关业务分离。所谓的代理设计就是指由一个代理主题来操作真实主题，真实主题执行具体的业务操作，而代理主题负责其他相关业务的处理。比如我们在进行删除操作的时候需要检验一下用户是否登陆，我们可以删除看成主业务，而把检验用户是否登陆看成其相关业务
【转】理解Javascript 系列 gcc2ge JavaScript
理解Javascript_13_执行模型详解摘要: 在《理解Javascript_12_执行模型浅析》一文中,我们初步的了解了执行上下文与作用域的概念，那么这一篇将深入分析执行上下文的构建过程，了解执行上下文、函数对象、作用域三者之间的关系。函数执行环境简单的代码:当调用say方法时，第一步是创建其执行环境，在创建执行环境的过程中，会按照定义的先后顺序完成一系列操作:1.首先会创建一个
Subsets II hcx2013 set
Given a collection of integers that might contain duplicates, nums, return all possible subsets. Note: Elements in a subset must be in non-descending order. The solution set must not conta
Spring4.1新特性——Spring缓存框架增强 jinnianshilongnian spring4
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
shell嵌套expect执行命令 liyonghui160com
一直都想把expect的操作写到bash脚本里,这样就不用我再写两个脚本来执行了,搞了一下午终于有点小成就,给大家看看吧. 系统:centos 5.x 1.先安装expect yum -y install expect 2.脚本内容: cat auto_svn.sh #!/bin/bash
Linux实用命令整理 pda158 linux
0. 基本命令　　linux 基本命令整理　　1. 压缩解压　　tar -zcvf a.tar.gz a #把a压缩成a.tar.gz 　　tar -zxvf a.tar.gz #把a.tar.gz解压成a 　　2. vim小结　　2.1 vim替换　　:m,ns/word_1/word_2/gc
独立开发人员通向成功的29个小贴士 shoothao 独立开发
概述：本文收集了关于独立开发人员通向成功需要注意的一些东西,对于具体的每个贴士的注解有兴趣的朋友可以查看下面标注的原文地址。明白你从事独立开发的原因和目的。保持坚持制定计划的好习惯。万事开头难，第一份订单是关键。培养多元化业务技能。提供卓越的服务和品质。谨小慎微。营销是必备技能。学会组织，有条理的工作才是最有效率的。 “独立
JAVA中堆栈和内存分配原理 uule java
1、栈、堆 1.寄存器：最快的存储区, 由编译器根据需求进行分配,我们在程序中无法控制.2. 栈：存放基本类型的变量数据和对象的引用，但对象本身不存放在栈中，而是存放在堆（new 出来的对象）或者常量池中（字符串常量对象存放在常量池中。）3. 堆：存放所有new出来的对象。4. 静态域：存放静态成员（static定义的）5. 常量池：存放字符串常量和基本类型常量（public static f