PaperWeekly

想训练ChatGPT？得先弄明白Reward Model怎么训（附源码）

©作者 | 潘柯宇

研究方向 | 内容理解、信息抽取

随着最近 ChatGPT 的大火，越来越多人开始关注其中用到的 RLHF（Reinforcement Learning from Human Feedback）这一核心思想。

使用强化学习（而非监督学习）的方式更新语言模型，最大的优势是在于能够使得「模型更加自由的探索更新方向，从而突破监督学习的性能天花板」。

关于为什么使用 RL 技术能够达到更好的效果，可以参考下面这个视频中的例子（6:30 秒处）：

在今天这篇文章中，我们将通过一个示例来完成利用「强化学习」更新「语言模型」的任务。

任务描述：利用RL训练一个好评生成器

我们设定一个任务目标：学习一个「好评生成器」。

模型接收一段 prompt，例如：刚收到货，感觉

随即，让模型将这段话补全，例如：有点不符合预期，货物很差

prompt: 刚收到货，感觉

output 1: 刚收到货，感觉 有 点 不 符 合 预 期 ，不 好
output 2: 刚收到货，感觉 挺 无 奈 的 送 货 速 度 不 太 行
..

在初始状态下，模型将没有任何偏好的生成答案，这意味着有可能生成一些差评（如上述例子）。

现在，我们将利用强化学习（PPO）的方式来对生成模型进行「好评生成」的训练。

每当模型生成一个句子，我们就给出一个相应的得分（reward），用于表征该条生成评论是否是「正向好评」，如下所示：

output 1: 刚收到货，感觉有 点 不 符 合 预 期 ，不 好                -> 0.2 分
output 2: 刚收到货，感觉有 挺 无 奈 的 送 货 速 度 不 太 行          -> 0.1 分
output 3: 刚收到货，感觉有 些 惊 喜 于 货 物 质 量                  -> 0.9 分
...

随即，我们利用打出的 reward 对生成模型进行迭代。

整个流程如下图所示：

▲ 基于 RL 的 LM 更新流程

引入判别模型代替人工打分

如果依靠人工为每一个输出打分，这将是一个非常漫长的过程。

如果我们能找到一个判别模型：接收一个句子作为输入，输出这个句子是好评的概率。

那么我们就可以直接利用这个判别模型的输出作为生成句子的 reward。

因此，我们引入另一个「情绪识别模型」来模拟人工给出的分数。

「情绪识别模型」我们选用 transformers 中内置的 sentiment-analysis pipeline 来实现。

https://huggingface.co/uer/roberta-base-finetuned-jd-binary-chinese

该模型基于网络评论数据集训练，能够对句子进行「正向、负向」的情绪判别，如下所示：

▲ 「情绪识别」模型

我们利用该「情感识别模型」的判别结果（0.0~1.0）作为 GPT 生成模型的 reward，以指导 GPT 模型通过强化学习（PPO）算法进行迭代更新。

训练流程详解

2.1 生成采样（Rollout）

生成采样阶段的目的是为了让当前模型生成一些采样结果。

▲ 生成采样示意图

为了保证生成句子的多样性，我们设定了一个 prompt 池，模型会从中随机选择一个 prompt 来进行答案生成：

# prompt池
prompts = [
    '刚收到货，感觉',
    '这部电影很',
    '说实话，真的很',
    '这次购物总的来说体验很'
]
...

for _ in range(config['batch_size']):
        random_prompt = random.choice(prompts)                                  # 随机选择一个prompt
        tokens = gpt2_tokenizer.encode(random_prompt)
        batch['tokens'].append(tokens)
        batch['query'].append(random_prompt)
query_tensors = [torch.tensor(t).long().to(device) for t in batch["tokens"]]
...

for i in range(config['batch_size']):
    gen_len = config['gen_len']
    response = gpt2_model.generate(query_tensors[i].unsqueeze(dim=0),           # 利用当前选择的prompt生成句子
                                   max_new_tokens=gen_len, **gen_kwargs)
    response_tensors.append(response.squeeze()[-gen_len:])

这一步之后，我们将获得一堆模型的生成结果：

[
    '刚收到货，感觉 很 一 般',
    '这部电影很 俗 而 且 很 无 趣',
    '这次购物总的来说体验很 烂 不 是 我 想 要 的',
    ...
]

2.2 Reward 评估（Evaluation）

在获得了模型生成结果后，我们就可以利用「情感识别模型」进行打分了。

# 情绪识别模型初始化
senti_tokenizer = AutoTokenizer.from_pretrained('uer/roberta-base-finetuned-jd-binary-chinese')
senti_model = AutoModelForSequenceClassification.from_pretrained('uer/roberta-base-finetuned-jd-binary-chinese')
sentiment_pipe = pipeline('sentiment-analysis', model=senti_model, tokenizer=senti_tokenizer, device=pipe_device)
...


texts = [q + r for q,r in zip(batch['query'], batch['response'])]           # 将 prompt 和生成的 response 做拼接
pipe_outputs = sentiment_pipe(texts)                                        # 计算正向/负向情感得分

▲ Reward 评估示意图

执行上述代码后，得到每个句子的 reward 得分：

[
    0.4,
    0.3,
    0.3,
    ...
]

2.3 模型迭代（Optimization）

模型迭代阶段我们会利用 PPO 进行模型参数的更新，更新代码只用一行：

ppo_trainer.step(query_tensors, response_tensors, rewards)          # PPO Update

▲ 模型迭代示意图

PPO 在更新时一共会计算 2 个 loss：pg_loss、value_loss：

loss_p, loss_v, train_stats  = self.loss(logprobs, values, rewards, query, response, model_input)
loss = loss_p + loss_v
self.optimizer.zero_grad()
loss.backward()
self.optimizer.step()
...

pg_loss

pg_loss 是 PPO 中 actor 的 loss 函数，其通过 discount reward 和 importance ratio 来计算当前 step 的 reward 应该是多少：

其中，importance ratio 是指产生同样的 token，在 active actor model 和 reference actor model 下的概率比值，这也是 PPO 模型中的 Importance Sampling 系数。

for t in reversed(range(gen_len)):
    nextvalues = values[:, t + 1] if t < gen_len - 1 else 0.0
    delta = rewards[:, t] + self.ppo_params['gamma'] * nextvalues - values[:, t]          # 优势函数：r + Vnext - V
    lastgaelam = delta + self.ppo_params['gamma'] * self.ppo_params['lam'] * lastgaelam   # GAE, 用于平衡 bias 和 variance
    advantages_reversed.append(lastgaelam)
    advantages = torch.stack(advantages_reversed[::-1]).transpose(0, 1)

logits, _, vpred = self.model(model_input)                                  # 跑一遍模型，得到句子中每个token被选择的概率
logprob = logprobs_from_logits(logits[:,:-1,:], model_input[:, 1:])         # 将概率取log对数
ratio = torch.exp(logprob - old_logprobs)                                   # log相减，等同于概率相除
pg_losses = -advantages * ratio

value_loss

value_loss 是 PPO 中 critic 的 loss 函数，其目的在于评判每一个 token 被生成后的 value 是多少。

这是因为在 PPO 中需要有一个 critic 网络，为了实现这个效果，我们需要对 GPT 模型进行改造。

我们在 GPT 中加入一个 Value Head，用于将 hidden_size 向量映射到一个 1 维的 value 向量：

class GPT2HeadWithValueModel(GPT2PreTrainedModel):
    """The GPT2HeadWithValueModel class implements a GPT2 language model with a secondary, scalar head."""
    def __init__(self, config):
        super().__init__(config)
        config.num_labels = 1
        self.transformer = GPT2Model(config)
        self.lm_head = nn.Linear(config.n_embd, config.vocab_size, bias=False)
        self.v_head = ValueHead(config)                                       # 添加 Value Head
        self.init_weights()
    ...

class ValueHead(nn.Module):
    """The ValueHead class implements a head for GPT2 that returns a scalar for each output token."""

    def __init__(self, config):
        super().__init__()
        self.summary = nn.Linear(config.hidden_size, 1)                        # (hidden_size -> 1)
    ...

value_loss 就应该等于 Value Head 产生的预测值 v_pred 和真实值 r + v_next 之间的差值：

returns = advantages + values                      # r + v_next - v + v => r + v_next
logits, _, vpred = self.model(model_input)         # 跑一遍语言模型，得到每个 token 的 v_pred
vf_losses1 = (vpred - returns) ** 2                # MSE

实验结果

训练曲线图如下所示，可以看到随着训练推进，模型的 reward 由最早的0.68 -> 0.85 左右：

▲ 训练曲线图

在模型刚开始训练的时候，GPT 会生成一些比较随机的答案，此时的平均 reward 也不会很高，会生成一些「负面」情绪的评论（如下所示）：

▲ 训练初期模型的生成结果

随着训练，GPT 会慢慢学会偏向「正面」的情绪评论（如下所示）：

▲ 训练后期模型的生成结果

完整源码在这里：

https://github.com/HarderThenHarder/transformers_tasks/tree/main/RLHF

Reward Model

在上面的内容中，我们已经讲解了如何将强化学习（Reinforcement Learning）和语言模型（Language Model）做结合。

但是，示例中我们是使用一个现成的「情绪识别模型」来作为奖励模型（Reward Model）。

在 ChatGPT 中，奖励模型是通过人工标注的「排序序列」来进行训练的，如下图所示：

▲ InstructGPT Reward Model 训练流程

这是什么意思呢？

如上图所示，ChatGPT 并不是直接让人工去标注每一句话的真实得分是多少（尽管模型最终要预测的就是每句话的得分），而是让人去对 4 句话按照好坏程度进行「排序」。

通过这个「排序序列」，模型将会学习如何为每一个句子进行打分。

听起来很绕对吧？既然最终目的是训练一个句子打分模型，为什么不让人直接打分，而是去标排序序列呢？

今天我们就来好好聊一聊这个非常巧妙的思想。

视频讲解在这里：

「标注排序序列」替代「直接打分」

大家在曾经考语文的时候，都写过作文吧？

而作文的分数也成为了整个语文考试中不确定性最大的环节。因为「打分」这个行为的主观性太强，同一篇作文不同的老师可能会打出不同的分数。

为了统一打分标准，通常在阅卷的时候都会制定一系列的规则，例如：主题明确，语句通顺，句子优美等。但，即便如此，不同老师对「主题明确」和「句子优美」也有着不同的看法。这就导致我们很难统一所有老师的看法，使得不同人在看到同一篇作文时打出相同的分数。

而标注员在给 ChatGPT 进行标注的时候，就可以看做有很多个「老师」在给模型写的作文「打分」。因此我们可以看出，直接给生成文本进行打分是一件非常难统一的事情。如果对于同样的生成答案，有的标注员打 5 分，但有的标注员打 3 分，模型在学习的时候就很难明确这句话究竟是好还是不好。

既然打「绝对分数」很难统一，那我们转换成一个「相对排序」的任务是不是就容易许多呢？

举例来讲，假设今天模型生成了 2 句话：

1. 香蕉是一种黄色的水果，通常长在树上，是猴子非常喜爱的水果。
2. 香蕉很酸，富含矿物质元素。

如果让作业员去打分，可能不同人打出来不同的分：

但如果我们只让标注员对这两个答案进行好坏排序，就能得到统一的结果：

▲ 「绝对分数」难以统一

▲ 「相对排序」容易统一

不难看出，用「相对任务」替代「绝对任务」能够更方便标注员打出统一的标注结果。

那么，「统一」的问题解决了，我们怎么通过「排序序列」来教会模型「打分」呢？

Rank Loss —— 通过排序序列学会打分

假定现在有一个排好的序列：A > B > C >D。

我们需要训练一个打分模型，模型给四句话打出来的分要满足 r(A) > r(B) > r(C) > r(D)。

那么，我们可以使用下面这个损失函数：

其中，yw 代表排序排在 yl 的所有句子。

用上述例子（A > B > C > D）来讲，loss 应该等于：

loss = r(A) - r(B) + r(A) - r(C) + r(A) - r(D) + r(B) - r(C) + ... + r(C) - r(D)
loss = -loss

为了更好的归一化差值，我们对每两项差值都过一个 sigmoid 函数将值拉到 0 ~ 1 之间。可以看到，loss 的值等于排序列表中所有「排在前面项的reward」减去「排在后面项的reward」的和。

而我们希望模型能够「最大化」这个「好句子得分」和「坏句子得分」差值，而梯度下降是做的「最小化」操作。因此，我们需要对 loss 取负数，就能实现「最大化差值」的效果了。

更详细的解释可以参考下面这个视频中（14:55 秒）的例子：

实验结果

这一小节中，我们将尝试通过「排序序列」来学习一个「打分模型」。首先我们会先准备一份数据集，每一行是一个排序序列（用 \t 符号隔开）。排在越前面的越偏「正向情绪」，排在越后面越「负向情绪」。

1.买过很多箱这个苹果了，一如既往的好，汁多味甜～    2.名不副实。 3.拿过来居然屏幕有划痕，顿时就不开心了    4.什么手机啊！一台充电很慢，信号不好！退了！又买一台竟然是次品。
1.一直用沙宣的洗发露！是正品！去屑止痒润发护发面面俱到！    2.觉得比外买的稀，好似加了水的    3.非常非常不满意，垃圾。   4.什么垃圾衣服，买来一星期不到口袋全拖线，最差的一次购物
...

我们期望通过这个序列训练一个 Reward 模型，当句子越偏「正向情绪」时，模型给出的 Reward 越高。在 backbone 上，我们选用 ERNIE 作为基准模型，将模型的 pooler_output 接一层 linear layer 以得到一维的 reward：

class RewardModel(nn.Module):

    def __init__(self, encoder):
        """
        init func.

        Args:
            encoder (transformers.AutoModel): backbone, 默认使用 ernie 3.0
        """
        super().__init__()
        self.encoder = encoder
        self.reward_layer = nn.Linear(768, 1)            # reward layer 用于映射到 1 维 reward

    def forward(
        self,
        input_ids: torch.tensor,
        token_type_ids: torch.tensor,
        attention_mask=None,
        pos_ids=None,
    ) -> torch.tensor:
        """
        forward 函数，返回每句话的得分值。

        Args:
            input_ids (torch.tensor): (batch, seq_len)
            token_type_ids (torch.tensor): (batch, seq_len)
            attention_mask (torch.tensor): (batch, seq_len)
            pos_ids (torch.tensor): (batch, seq_len)

        Returns:
            reward: (batch, 1)
        """
        pooler_output = self.encoder(
            input_ids=input_ids,
            token_type_ids=token_type_ids,
            position_ids=pos_ids,
            attention_mask=attention_mask,
        )["pooler_output"]                              # (batch, hidden_size)
        reward = self.reward_layer(pooler_output)       # (batch, 1)
        return reward

计算 rank_loss 函数如下，因为样本里的句子已经默认按从高到低得分排好，因此我们只需要遍历的求前后项的得分差值加起来即可：

def compute_rank_list_loss(rank_rewards_list: List[List[torch.tensor]], device='cpu') -> torch.Tensor:
    """
    通过给定的有序（从高到低）的ranklist的reward列表，计算rank loss。
    所有排序高的句子的得分减去排序低的句子的得分差的总和，并取负。

    Args:
        rank_rewards_list (torch.tensor): 有序（从高到低）排序句子的reward列表，e.g. -> 
                                        [
                                            [torch.tensor([0.3588]), torch.tensor([0.2481]), ...],
                                            [torch.tensor([0.5343]), torch.tensor([0.2442]), ...],
                                            ...
                                        ]
        device (str): 使用设备

    Returns:
        loss (torch.tensor): tensor([0.4891], grad_fn=)
    """
    if type(rank_rewards_list) != list:
        raise TypeError(f'@param rank_rewards expected "list", received {type(rank_rewards)}.')

    loss, add_count = torch.tensor([0]).to(device), 0
    for rank_rewards in rank_rewards_list:
        for i in range(len(rank_rewards)-1):                                   # 遍历所有前项-后项的得分差
            for j in range(i+1, len(rank_rewards)):
                diff = F.sigmoid(rank_rewards[i] - rank_rewards[j])            # sigmoid到0~1之间
                loss = loss + diff
                add_count += 1
    loss = loss / add_count
    return -loss

最终训练结果如下：

...
global step 10, epoch: 1, loss: -0.51766, speed: 0.21 step/s
global step 20, epoch: 1, loss: -0.55865, speed: 0.22 step/s
global step 30, epoch: 1, loss: -0.60930, speed: 0.21 step/s
global step 40, epoch: 1, loss: -0.65024, speed: 0.21 step/s
global step 50, epoch: 1, loss: -0.67781, speed: 0.22 step/s
Evaluation acc: 0.50000
best F1 performence has been updated: 0.00000 --> 0.50000
global step 60, epoch: 1, loss: -0.69296, speed: 0.20 step/s
global step 70, epoch: 1, loss: -0.70710, speed: 0.20 step/s
...

▲ loss、acc 曲线图

我们输入两个评论句子：

texts = [
 '买过很多箱这个苹果了，一如既往的好，汁多味甜～',
 '一台充电很慢，信号不好！退了！又买一台竟然是次品。。服了。。'
]

>>> tensor([[10.6989], [-9.2695]], grad_fn=)

可以看到「正向评论」得到了 10.6 分，而「负向评论」得到了 -9.26 分。

标注平台

在 InstructGPT 中是利用对语言模型（LM）的输出进行排序得到排序对从而训练 Reward Model。如果想获得实现论文中类似的数据，在该项目中我们也提供了标注平台，可标注 rank_list 数据：

▲ Rank List 标注平台（详情可参考源码仓库）

好啦，以上就是 Reward Model 的全部内容，感谢观看。

完整源码在这里：

https://github.com/HarderThenHarder/transformers_tasks/tree/main/RLHF

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

你可能感兴趣的:(想训练ChatGPT？得先弄明白Reward Model怎么训（附源码）)

如何监控Linux服务器资源使用情况骗鬼 linux 服务器运维
---好的方法很多，我们先掌握一种---【背景】在做性能验证时（其他情况通用），需要监控服务器资源的使用情况，例如cpu,内存等信息我们就可以简单通过shell脚本后台运行，持续监控需要监控的资源情况【上代码】看官们，请根据实际使用情况，调整监控内容（如下代码只有cpu,内存），for循环次数等信息（或者调整为while循环）1.在自己的目录下创建文件：touchmy_shell.sh2.编写的s
59.Prism的按钮事件绑定和数据绑定军训猫猫头 ui c#wpf 开发语言
前置准备包括：安装Prism，DataContext=newViewModel();，让类继承internalclassViewModel:BindableBase关于按钮绑定步骤首先前台命令的绑定需要用CommandCommand="{BindingMyCommand}"然后后台事件绑定需要三个内容在类的构造函数进行初始化MyCommand=newDelegateCommand(ExecuteM
python 爬虫如何爬取动态生成的网页内容骗鬼 python 爬虫开发语言
---好的方法很多，我们先掌握一种---【背景】对于静态页面，我们通常可以通过python的request.get()库获取到页面的信息，但是对于动态生成的网页信息来说，我们通过request.get()获取不到。【方法】我们可以通过python第三方库selenium来配合实现信息获取采取方案：python+request+selenium+BeautifulSoup我们拿纵横中文网的小说采集举
redis缓存和springboot缓存包冲突怎么办酷爱码 java技术教程 spring boot 后端 java
如果Redis缓存与SpringBoot缓存包发生冲突，可以采取以下几种解决方案：排除SpringBoot缓存包：在pom.xml文件中排除SpringBoot的缓存依赖，以避免与Redis缓存冲突。例如：org.springframework.bootspring-boot-starter-cacheorg.springframework.bootspring-boot-starter-data
61.异步编程1 C#例子 WPF例子军训猫猫头 c#wpf 开发语言
和普通的任务绑定不太相同的部分如下：publicMainWindowViewModel(){FetchUserInfoCommand=newRelayCommand(async(param)=>awaitFetchUserInfoAsync());}privateasyncTaskFetchUserInfoAsync(){//模拟异步操作，比如网络请求awaitTask.Delay(2000);/
python3.7.4怎么安装pycryptodome_python3.6 安装第三方库 pyCryptodome 实现AES加密 weixin_39799646
起因前端日子写完的Python入库脚本，通过直接读取配置文件的内容(包含了数据库的ip，数据库的用户名，数据库的密码)，因为配置文件中的数据库密码是明文显示的，所以不太安全，由此对其进行加密。编码之路编程环境Python3.6第三方库–pyCryptodome第三方库的介绍及下载1.在之前的AES加密中，python2或者3.4采用的是pyCyrpto这个模块，但是昨天废了好大劲去安装它都是失败，
rust怎么连接oracle,railcar: Railcar 是 Oracle 发布的基于Rust的OCI运行时规范实现 weixin_39963523 rust怎么连接oracle
railcar-rustimplementationoftheoci-runtimespecWhatisrailcar?railcarisarustimplementationoftheopencontainersinitiative'sruntimespec.Itissimilartothereferenceimplementationrunc,butitisimplementedcomplet
A Survey on Large Language Model Acceleration based on KV Cache Management UnknownBody LLM Daily Survey Paper LLM Inference 语言模型人工智能自然语言处理
本文是LLM系列文章，针对《ASurveyonLargeLanguageModelAccelerationbasedonKVCacheManagement》的翻译。基于KV缓存管理的大型语言模型加速研究综述摘要1引言2前言3分类4token级优化5模型级优化6系统级优化7文本和多模态数据集8结论摘要大型语言模型（LLM）因其理解上下文和执行逻辑推理的能力，彻底改变了自然语言处理、计算机视觉和多模态
Android OkHttp使用和源码详解 2401_85729264 android okhttp
本文使用的OkHttp的版本为3.14.2,不是不会接入高版本，主要是4.0.x版本已经全部由java替换到了Kotlin，Kotlin不太熟怕理解错了，误导人民群众。dependencies{//本文使用implementation‘com.squareup.okio:okio:1.15.0’implementation‘com.squareup.okhttp3:okhttp:3.14.2’//
【贪心算法】在有盾牌的情况下能通过每轮伤害的最小值（亚马逊笔试题） CAFE～BABE 贪心算法算法
思路：采用贪心算法，先计算出来所有的伤害值，然后再计算每轮在使用盾牌的情况下能减少伤害的最大值，最后用总的伤害值减去能减少的最大值就是最少的总伤害值publicstaticlonggetMinimumValue(Listpower,intarmor){longtotalDamage=0;intmaxReduction=0;for(intp:power){totalDamage+=p;//护甲在该轮
揭秘C语言中的堆：构建与管理艺术就爱学编程新星杯 c语言数据结构
大家好，这里是小编的博客频道小编的博客：就爱学编程很高兴在CSDN这个大家庭与大家相识，希望能在这里与大家共同进步，共同收获更好的自己！！！本文目录正文一、堆的基本概念二、堆的存储表示三、堆的基本操作1.插入元素（Insert）2.删除最大/最小值（ExtractMax/Min）3.构建堆（BuildHeap）四、源码（1）heap.h（2）heap.c（3）Test.c五、堆的应用1.优先队列2
在搭载苹果M芯片的 Mac 上重新安装 macOS 时收到个性化错误怎么办？ *橙子 Mac软件教程技巧相关问题解答教程
在重新安装时，您可能会收到一条信息，提示在准备更新期间出现了错误。如果您抹掉了搭载AppleM1芯片的Mac，您可能无法通过macOS恢复功能重新安装macOS。系统可能会显示信息“准备更新时出错。未能个性化软件更新。请再试一次。”请使用以下任一解决方案来重新安装macOS。使用AppleConfigurator如果您备有以下工具，则可以通过修复或恢复Mac的固件来解决这个问题：另一台装有macO
Llama大型语言模型原理详解摆烂大大王 llama llama 语言模型人工智能
Llama大型语言模型是一种基于深度学习的自然语言处理模型，它在文本生成、问答、摘要等多种NLP任务中展现出强大的性能。本文将详细解析Llama模型的原理，包括其结构、训练过程以及工作机制，帮助读者深入理解这一先进的模型。一、模型结构Llama模型采用了一种基于Transformer的架构，这是一种由多个自注意力机制和前馈神经网络组成的深度神经网络结构。Transformer架构通过自注意力机制捕
利用ChatGPT阅读文献：指南与技巧摆烂大大王 chatgpt MathorCup数学建模 chatgpt 论文阅读人工智能学习
阅读文献对于学术研究和深度学习至关重要。ChatGPT作为一款高级人工智能聊天机器人，可以帮助用户更高效地阅读和理解文献。以下是如何利用ChatGPT阅读文献的一些指南和技巧。1.文献检索在你阅读文献之前，首先需要找到相关文献。可以使用如下命令让ChatGPT帮助你进行文献检索：/findpapers关键词或主题例如，如果你需要寻找关于人工智能在医疗领域应用的文献，可以输入：/findpapers
Java基础入门day55 zpz2001 java hive 开发语言
day55过滤器简介过滤器filter，是处于客户端与服务器端目标资源之间的一道过滤技术技术作用执行地位在servlet之前，客户发送请求时，会先经过Filter，再到达目标Servlet中。相应时，会根据执行流程再次反向执行Filter可以解决多个Servlet共性代码的冗余问题编写新增一个类，实现Filter接口编写其生命周期方法再doFilter当中实现过滤方法packagecom.saas
BT-Basic编程系列--4--字符串操作可可南木 BT-Basic 开发语言
BT-Basic编程系列–4–字符串操作文章目录BT-Basic编程系列--4--字符串操作4.1确定字符串的长度4.2截取字符串4.3修改字符串内容总结4.1确定字符串的长度怎么确定字符串的长度，这里要用到len这个函数，用法和Python中一样。A$="ABCEDFG"printlen(A$)运行结果：74.2截取字符串通俗地讲就是我们可以截取字符串中想要的那一部分内空，这个在判断时比较常用。
Rollup：专注类库和框架打包时解之 JS专区 Rollup Rollup打包大前端 Javascript
文章内容输出来源：拉勾大前端高薪训练营-概述-也是一款ESModules打包器-也可以将项目中的一些散落的细小模块打包为整块代码-rollup与webpack作用类似-rollup更为小巧，仅仅是一款ESM打包器-rollup中并不支持类似HMR这种高级特性-rollup并不是要与webpack全面竞争-目标是提供一个充分利用ESM各项特性的高效打包器-快速上手-准备代码-src/message.
基于Transformer的多通道肌电信号序列分类咖啡百怪 transformer 深度学习人工智能
表面肌电信号(sEMG)为十分重要的人体感官信号，不同的动作和状态对应不同的肌电信号，利用肌电信号的表征能力，我们可以实现对NAO机器人的控制。本项目基于Transformer实现对表面肌电信号的分类，数据使用excel进行保存，使用Pytorch架构建立模型并训练，利用基于Paramiko库的SSH连接来实现对NAO机器人的远程控制。在这里贴上该项目的github仓库连接，大家用得到的可以点个星
Pix2PixHD代码小白解读（4）——networks.py 咖啡百怪 Pix2PixHD代码解读深度学习 python 机器学习
上一期：Pix2PixHD代码小白解读（3）——Pix2PixHD_model.pyhttps://blog.csdn.net/qq_73991479/article/details/134762097networks.py文件集中展现了Pix2PixHD模型的主要内容，（在阅读该代码之前，我们最好要了解论文的内容）包含了GlobalGenerator，LocalHancer以及MutiDiscr
Pix2PixHD代码小白注释(1)——train.py 咖啡百怪 Pix2PixHD代码解读深度学习机器学习人工智能 python
关于fp16AMP自动混合精度训练，见下文：AMP自动混合精度训练https://blog.csdn.net/ytusdc/article/details/122152244importtimeimportosimportnumpyasnpimporttorchfromtorch.autogradimportVariablefromcollectionsimportOrderedDictfroms
PyTorch 快速入门無量空所深度学习机器学习 pytorch 开源
我们将通过一个简单的示例，快速了解如何使用PyTorch进行机器学习任务。PyTorch是一个开源的机器学习库，它提供了丰富的工具和库，帮助我们轻松地构建、训练和测试神经网络模型。以下是本教程的主要内容：一、数据处理PyTorch提供了两个基本的数据处理工具：torch.utils.data.DataLoader和torch.utils.data.Dataset。Dataset用于存储样本及其对应
vue2源码npm i时报错（sh: rollup: command not found）想不到耶 vue2 npm 前端 vue
在对vue2.6.14版本的源码安装出现警告（WARN）：[email protected]:Thismodulehasbeendeprecatedandisnolongermaintained.Pleaseuse@rollup/plugin-buble.翻译：[email protected]：此模块已被弃用，不再维护。
WPF学习记录之MVVM（一）数据绑定一个新的不能再新的开发者 wpf microsoft
这个是我自己的学习记录，大佬们不喜勿喷，刚接触这个圈子一个月，为了给跟我一样的新手分享一下都能怎么实现数据绑定，互相参考，所以选择公开记录。数据绑定弄清楚之后非常的简单，我这个练习绑定的数据选择在DataGrid里面绑定，一开始感觉DataGrid很麻烦，之后感觉幸亏选择了DataGrid。一、首先需要实现DataContext的绑定，要在MainWindow.xaml.cs的窗口构造器里面，将D
关于如何转换MarkDown文本并在Html内进行显示 Singe.Chen HTML html 前端
今天遇到一个问题，从ChatGpt的API获取的文本格式为MarkDown，在HTML上使用textarea控件显示的时候就只是文字格式，并没有对MarkDown格式进行处理，今天就分享一下如何在Html上进行MarkDown格式文本的显示1.创建一个HTML页面，包括textarea和一个用于显示Markdown内容的div：TextareatoMarkdown2.将文本输入到div控件的.in
WPF开发技巧：在WPF的DataGrid中实现动态增加列并刷新表格 Singe.Chen #WPF wpf
1.VM代码usingPrism.Mvvm;usingSystem;usingSystem.Collections.Generic;usingSystem.Collections.ObjectModel;usingSystem.Linq;usingSystem.Text;usingSystem.Threading.Tasks;usingSystem.Windows.Input;usingNewto
ESP32-S3模组上跑通esp32-camera（38）蓝天居士 ESP32-S3 ESP32-S3 camera sensor OV5640
接前一篇文章：ESP32-S3模组上跑通esp32-camera（37）一、OV5640初始化2.相机初始化及图像传感器配置上一回继续对reset函数的后一段代码进行解析。为了便于理解和回顾，再次贴出reset函数源码，在components\esp32-camera\sensors\ov5640.c中，如下：staticintreset(sensor_t*sensor){//dump_regs(
docker desktop compose文件叫我八吧 docker 容器运维
我整理的一些关于【Docker】的项目学习资料（附讲解～～）和大家一起分享、学习一下：https://d.51cto.com/f2PFnNDockerDesktop与Compose文件使用指南Docker是现代应用程序开发和部署的重要工具。它能够将应用及其所有依赖打包到一个轻量级的、可移植的容器中。DockerDesktop是Docker的图形界面客户端，提供了一个简化的用户体验，使得你可以更方便
linux 开源oa系统,linux版64位免费OA办公系统4.17 大柚子蛇精病 linux 开源oa系统
安装包为海钛瑞OA办公自动化系统Linux平台免费版，目前可以在centos7或以上版本安装。先安装好Firebird(可以这里下载http://www.hitai.com/oa/download/download31.html),记下数据库管理员(SYSDBA)密码，默认密码为masterkey,请修改。安装步骤如下：1.下载本安装包2.解压缩tar-xzvfgooffice64_4.17.ta
PennyLane: 探索量子计算的新里程戴艺音
PennyLane:探索量子计算的新里程项目地址:https://gitcode.com/gh_mirrors/pe/pennylane项目简介是一个开源软件框架，专注于混合量子和经典计算。由PennyLaneAI团队开发，该项目提供了一个直观且灵活的方式来设计、训练和优化涉及量子硬件的机器学习模型。其目标是让研究人员和开发者能够轻松地在本地或云端的量子计算机上进行实验。技术分析PennyLane
软键盘显示/交互问题大渔歌_ Android android
日常开发会经常遇到软键盘覆盖界面布局的问题,比如:我有一个fragment,中心布局了EditText,正常情况是,当点击这个EditText的时候,输入法会弹出来,但是输入控件会覆盖掉EditText,看不到输入的内容,这种应该怎么处理呢这个问题通常是因为当软键盘弹出时，EditText被遮挡导致无法看到输入的内容。解决这个问题的方法有几种，常见的方式是调整布局的行为，让输入法弹出时，布局可以自
SAX解析xml文件小猪猪08 xml
1.创建SAXParserFactory实例 2.通过SAXParserFactory对象获取SAXParser实例 3.创建一个类SAXParserHander继续DefaultHandler，并且实例化这个类 4.SAXParser实例的parse来获取文件 public static void main(String[] args) { //
为什么mysql里的ibdata1文件不断的增长？ brotherlamp linux linux运维 linux资料 linux视频 linux运维自学
我们在 Percona 支持栏目经常收到关于 MySQL 的 ibdata1 文件的这个问题。当监控服务器发送一个关于 MySQL 服务器存储的报警时，恐慌就开始了 —— 就是说磁盘快要满了。一番调查后你意识到大多数地盘空间被 InnoDB 的共享表空间 ibdata1 使用。而你已经启用了 innodbfileper_table，所以问题是： ibdata1存了什么？当你启用了 i
Quartz-quartz.properties配置 eksliang quartz
其实Quartz JAR文件的org.quartz包下就包含了一个quartz.properties属性配置文件并提供了默认设置。如果需要调整默认配置，可以在类路径下建立一个新的quartz.properties，它将自动被Quartz加载并覆盖默认的设置。下面是这些默认值的解释 #-----集群的配置 org.quartz.scheduler.instanceName =
informatica session的使用 18289753290 workflow session log Informatica
如果希望workflow存储最近20次的log，在session里的Config Object设置，log options做配置，save session log :sessions run ;savesessio log for these runs:20 session下面的source 里面有个tracing
Scrapy抓取网页时出现CRC check failed 0x471e6e9a != 0x7c07b839L的错误酷的飞上天空 scrapy
Scrapy版本0.14.4 出现问题现象： ERROR: Error downloading <GET http://xxxxx CRC check failed 解决方法 1.设置网络请求时的header中的属性'Accept-Encoding': '*;q=0' 明确表示不支持任何形式的压缩格式，避免程序的解压
java Swing小集锦永夜-极光 java swing
1.关闭窗体弹出确认对话框 1.1 this.setDefaultCloseOperation (JFrame.DO_NOTHING_ON_CLOSE); 1.2 this.addWindowListener ( new WindowAdapter () { public void windo
强制删除.svn文件夹随便小屋 java
在windows上，从别处复制的项目中可能带有.svn文件夹，手动删除太麻烦，并且每个文件夹下都有。所以写了个程序进行删除。因为.svn文件夹在windows上是只读的，所以用File中的delete()和deleteOnExist()方法都不能将其删除，所以只能采用windows命令方式进行删除
GET和POST有什么区别？及为什么网上的多数答案都是错的。 aijuans get post
如果有人问你，GET和POST，有什么区别？你会如何回答？我的经历前几天有人问我这个问题。我说GET是用于获取数据的，POST，一般用于将数据发给服务器之用。这个答案好像并不是他想要的。于是他继续追问有没有别的区别？我说这就是个名字而已，如果服务器支持，他完全可以把G
谈谈新浪微博背后的那些算法 aoyouzi 谈谈新浪微博背后的那些算法
本文对微博中常见的问题的对应算法进行了简单的介绍，在实际应用中的算法比介绍的要复杂的多。当然，本文覆盖的主题并不全，比如好友推荐、热点跟踪等就没有涉及到。但古人云“窥一斑而见全豹”，希望本文的介绍能帮助大家更好的理解微博这样的社交网络应用。微博是一个很多人都在用的社交应用。天天刷微博的人每天都会进行着这样几个操作：原创、转发、回复、阅读、关注、@等。其中，前四个是针对短博文，最后的关注和@则针
Connection reset 连接被重置的解决方法百合不是茶 java 字符流连接被重置
流是java的核心部分,,昨天在做android服务器连接服务器的时候出了问题,就将代码放到java中执行,结果还是一样连接被重置被重置的代码如下; 客户端代码; package 通信软件服务器; import java.io.BufferedWriter; import java.io.OutputStream; import java.io.O
web.xml配置详解之filter bijian1013 java web.xml filter
一.定义 <filter> <filter-name>encodingfilter</filter-name> <filter-class>com.my.app.EncodingFilter</filter-class> <init-param> <param-name>encoding<
Heritrix Bill_chen 多线程 xml 算法制造配置管理
作为纯Java语言开发的、功能强大的网络爬虫Heritrix，其功能极其强大，且扩展性良好，深受热爱搜索技术的盆友们的喜爱，但它配置较为复杂，且源码不好理解，最近又使劲看了下，结合自己的学习和理解，跟大家分享Heritrix的点点滴滴。 Heritrix的下载（http://sourceforge.net/projects/archive-crawler/）安装、配置，就不罗嗦了，可以自己找找资
【Zookeeper】FAQ bit1129 zookeeper
1.脱离IDE，运行简单的Java客户端程序 #ZkClient是简单的Zookeeper~$ java -cp "./:zookeeper-3.4.6.jar:./lib/*" ZKClient 1. Zookeeper是的Watcher回调是同步操作，需要添加异步处理的代码 2. 如果Zookeeper集群跨越多个机房，那么Leader/
The user specified as a definer ('aaa'@'localhost') does not exist 白糖_ localhost
今天遇到一个客户BUG，当前的jdbc连接用户是root，然后部分删除操作都会报下面这个错误：The user specified as a definer ('aaa'@'localhost') does not exist 最后找原因发现删除操作做了触发器，而触发器里面有这样一句 /*!50017 DEFINER = ''aaa@'localhost' */ 原来最初
javascript中showModelDialog刷新父页面 bozch JavaScript 刷新父页面 showModalDialog
在页面中使用showModalDialog打开模式子页面窗口的时候，如果想在子页面中操作父页面中的某个节点，可以通过如下的进行： window.showModalDialog('url',self,‘status...’); // 首先中间参数使用self 在子页面使用w
编程之美-买书折扣 bylijinnan 编程之美
import java.util.Arrays; public class BookDiscount { /**编程之美买书折扣书上的贪心算法的分析很有意思，我看了半天看不懂，结果作者说，贪心算法在这个问题上是不适用的。。下面用动态规划实现。哈利波特这本书一共有五卷，每卷都是8欧元，如果读者一次购买不同的两卷可扣除5%的折扣，三卷10%，四卷20%，五卷
关于struts2.3.4项目跨站执行脚本以及远程执行漏洞修复概要 chenbowen00 struts WEB安全
因为近期负责的几个银行系统软件，需要交付客户，因此客户专门请了安全公司对系统进行了安全评测，结果发现了诸如跨站执行脚本，远程执行漏洞以及弱口令等问题。下面记录下本次解决的过程以便后续 1、首先从最简单的开始处理，服务器的弱口令问题，首先根据安全工具提供的测试描述中发现应用服务器中存在一个匿名用户，默认是不需要密码的，经过分析发现服务器使用了FTP协议，而使用ftp协议默认会产生一个匿名用
[电力与暖气]煤炭燃烧与电力加温 comsci
在宇宙中,用贝塔射线观测地球某个部分,看上去,好像一个个马蜂窝,又像珊瑚礁一样,原来是某个国家的采煤区..... 不过,这个采煤区的煤炭看来是要用完了.....那么依赖将起燃烧并取暖的城市,在极度严寒的季节中...该怎么办呢? &nbs
oracle O7_DICTIONARY_ACCESSIBILITY参数 daizj oracle
O7_DICTIONARY_ACCESSIBILITY参数控制对数据字典的访问.设置为true,如果用户被授予了如select any table等any table权限,用户即使不是dba或sysdba用户也可以访问数据字典.在9i及以上版本默认为false,8i及以前版本默认为true.如果设置为true就可能会带来安全上的一些问题.这也就为什么O7_DICTIONARY_ACCESSIBIL
比较全面的MySQL优化参考 dengkane mysql
本文整理了一些MySQL的通用优化方法，做个简单的总结分享，旨在帮助那些没有专职MySQL DBA的企业做好基本的优化工作，至于具体的SQL优化，大部分通过加适当的索引即可达到效果，更复杂的就需要具体分析了，可以参考本站的一些优化案例或者联系我，下方有我的联系方式。这是上篇。 1、硬件层相关优化 1.1、CPU相关在服务器的BIOS设置中，可
C语言homework2，有一个逆序打印数字的小算法 dcj3sjt126com c
#h1# 0、完成课堂例子 1、将一个四位数逆序打印 1234 ==> 4321 实现方法一： # include <stdio.h> int main(void) { int i = 1234; int one = i%10; int two = i / 10 % 10; int three = i / 100 % 10;
apacheBench对网站进行压力测试 dcj3sjt126com apachebench
ab 的全称是 ApacheBench ，是 Apache 附带的一个小工具，专门用于 HTTP Server 的 benchmark testing ，可以同时模拟多个并发请求。前段时间看到公司的开发人员也在用它作一些测试，看起来也不错，很简单，也很容易使用，所以今天花一点时间看了一下。通过下面的一个简单的例子和注释，相信大家可以更容易理解这个工具的使用。
2种办法让HashMap线程安全 flyfoxs java jdk jni
多线程之--2种办法让HashMap线程安全多线程之--synchronized 和reentrantlock的优缺点多线程之--2种JAVA乐观锁的比较( NonfairSync VS. FairSync) HashMap不是线程安全的,往往在写程序时需要通过一些方法来回避.其实JDK原生的提供了2种方法让HashMap支持线程安全.
Spring Security（04）——认证简介 234390216 Spring Security 认证过程
认证简介目录 1.1 认证过程 1.2 Web应用的认证过程 1.2.1 ExceptionTranslationFilter 1.2.2 在request之间共享SecurityContext 1
Java 位运算 Javahuhui java 位运算
// 左移( << ) 低位补0 // 0000 0000 0000 0000 0000 0000 0000 0110 然后左移2位后，低位补0： // 0000 0000 0000 0000 0000 0000 0001 1000 System.out.println(6 << 2);// 运行结果是24 // 右移( >> ) 高位补"
mysql免安装版配置 ldzyz007 mysql
1、my-small.ini是为了小型数据库而设计的。不应该把这个模型用于含有一些常用项目的数据库。 2、my-medium.ini是为中等规模的数据库而设计的。如果你正在企业中使用RHEL,可能会比这个操作系统的最小RAM需求(256MB)明显多得多的物理内存。由此可见，如果有那么多RAM内存可以使用，自然可以在同一台机器上运行其它服务。 3、my-large.ini是为专用于一个SQL数据
MFC和ado数据库使用时遇到的问题你不认识的休道人 sql C++mfc
=================================================================== 第一个 =================================================================== try{ CString sql; sql.Format("select * from p
表单重复提交Double Submits rensanning double
可能发生的场景： *多次点击提交按钮 *刷新页面 *点击浏览器回退按钮 *直接访问收藏夹中的地址 *重复发送HTTP请求（Ajax）（1）点击按钮后disable该按钮一会儿，这样能避免急躁的用户频繁点击按钮。这种方法确实有些粗暴，友好一点的可以把按钮的文字变一下做个提示，比如Bootstrap的做法： http://getbootstrap.co
Java String 十大常见问题 tomcat_oracle java 正则表达式
　1.字符串比较，使用“==”还是equals()? 　　"=="判断两个引用的是不是同一个内存地址(同一个物理对象)。　　equals()判断两个字符串的值是否相等。　　除非你想判断两个string引用是否同一个对象，否则应该总是使用equals()方法。　　如果你了解字符串的驻留(String Interning)则会更好地理解这个问题。　　
SpringMVC 登陆拦截器实现登陆控制 xp9802 springMVC
思路，先登陆后，将登陆信息存储在session中，然后通过拦截器，对系统中的页面和资源进行访问拦截，同时对于登陆本身相关的页面和资源不拦截。实现方法： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23