community_301

ChatGPT 中的人类反馈强化学习 (RLHF) 实战

1 前言
在当今数字化的时代，ChatGPT 的火热程度不断升级。ChatGPT 可以处理复杂的语言任务，从而解放人力资源，提高工作效率，减少成本。ChatGPT 的先进技术和广泛应用，使得它成为了当今最炙手可热的人工智能技术之一。无论是企业、学术机构，还是科技爱好者，都对 ChatGPT 的应用前景充满期待。

在这样的背景之下，CSDN AI 团队也想对 ChatGPT 进行简单的复现。根据ChatGPT官方博客可知，ChatGPT的训练方法与 InstructGPT 的训练方法基本一致 (如图1所示)，只是使用的数据集不一样。故在训练方法上，我们主要参考 InstructGPT 进行复现，基础模型使用的是 RWKV，拆分后共包含以下四个阶段：

(1) 语言模型预训练 (Language Model Pre-training)；
(2) 有监督指令微调 (Supervised Fine-Tuning, SFT)；
(3) 奖励模型的训练 (Reward Modeling, RM);
(4) 使用近端策略优化算法进行强化学习 (Proximal Policy Optimization, PPO).

第 (1)、(2) 阶段的 Pre-training 和 SFT 由 @zxm2015 完成，可参考文章大语言模型浅探一。本文主要介绍第 (3)、(4) 阶段的内容，即人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF)。

图1 InstructGPT 模型的训练过程

2 人类反馈强化学习 (RLHF)
人类反馈强化学习 (RLHF) 是 ChatGPT 中一种用于改善其回答效果的算法。它是一种基于强化学习的方法，通过结合人类反馈来优化 ChatGPT 的回答。

在 RLHF 中，ChatGPT 学习通过和人类用户的交互来提高其回答的质量。当 ChatGPT 生成一个回答时，它会将回答展示给用户并请求用户的反馈。用户可以对回答进行评分，比如“好”、“不错”、“一般”、“差”等。ChatGPT 会将用户的反馈作为奖励或惩罚信号，以此来更新自己的模型，以更好地满足用户的需求。

RLHF 可分为两个部分。第一部分是奖励模型，人类反馈主要就体现在这个地方；第二部分采用近端策略优化算法的强化学习阶段，基于奖励模型的反馈来优化模型，最终得到满足人类偏好的语言模型。下面将对这两个部分进行详细的说明。
2.1 奖励模型 (RM)
在 RLHF 之前，语言模型已经进行了 SFT (后续称该模型为 SFT Model)，而奖励模型的任务主要是对 SFT Model 的回复进行打分，打分越高表示回答效果越好。训练好奖励模型之后，就可以用于下一阶段的 PPO 进行强化学习的调优，奖励模型是 PPO 中的一个子部分，用于 PPO 训练时提供奖励信号。

(1) 模型的输入输出
模型的输入是用户提问 (Prompt) 和 SFT Model 回复 (Response) 的 pair 对，输出是一个奖励得分，如下图所示：

图2 RM 的输入和输出

(2) 数据集的构建
这个阶段主要是通过人工标注训练数据，来训练 RM，人类反馈就体现在这个地方。在 Prompts 数据集中随机抽取问题，对于每个问题，生成 K 个不同的回答。人类标注者对这些结果综合考虑（例如：相关性、富含信息性、有害信息等诸多标准）给出排名顺序。

按照上述奖励模型的输入输出描述，构建数据集时应该是人工对进行打分，但实际上对多个回答进行打分比较困难，得分是连续的，这会降低标注的速度。此外，我们其实关注的是多个选项之间哪个更好，哪个更差。所以标注的时候对多个选项进行排序就可以了，最后基于排序后的回答，构建数据集，选用合适的损失函数即可。

通常情况下，人类进行排序任务，当选项为 4-9 个 (即 K∈{4, 5, 6, 7, 8, 9}) 时速度最快且效果最准确，此处我们设定 K=4。最终一个 Prompt 我们就可以得到 C(4, 2)=6 条训练样本。

具体而言，假设我们选定了一个问题 x，接着使用 SFT Model 生成了 4 个回答 {y1, y2, y3, y4}，人类标注者进行排序后为 y4 > y3 > y1 > y2}，则得到的训练样本如下所示，左边的得分要高于右边：

(, )
(, )
(, )
(, )
(, )
(, )

(3) 损失函数
根据上面构建的数据集可知，我们没有连续的得分目标去训练奖励模型，但是有正负例样本对，所以损失函数如下所示，该损失函数需要最小化：

其中，r(x,y) 为输入到 RM 模型的得分，θ 是 RM 的参数，yw 和 yl 是输入为 x 时，SFT Model 生成的不同回答，其中人工标注时 yw > yl.

# loss function
def loss_function(prefer_reward, alter_reward):
    return -torch.mean(torch.log(torch.sigmoid(prefer_reward - alter_reward)))

(4) 核心代码
RM 的网络结构相比于 SFT Model，并不需要做太大的改动，输入后，直接取最后一个 token 的 embedding，在其后面接一个线性层计算奖励得分即可

a) 线性层：

# reward 得分计算
self.pred_reward = nn.Linear(dim, 1, bias=False)

b) forword 函数

    def forward(
        self,
        x,
        mask = None,
        prompt_mask = None,
        prompt_lengths = None
    ):

        # prompt_mask 和 prompt_lengths 只能二选一
        assert not (exists(prompt_mask) and exists(prompt_lengths))

        # derive prompt mask from prompt lengths
        if exists(prompt_lengths):
            batch, seq_len = x.shape
            arange = torch.arange(seq_len, device=x.device)
            prompt_mask = repeat(arange, 'n -> b n', b = batch) < rearrange(prompt_lengths, 'b -> b 1')

        # reward model should have an understanding of which section is prompt, and which section is response
        # 根据 prompt_mask 中 token 的 True 和 False，从 prompt_embed 或 response_embed 中取值
        # 如果为 True，则从 prompt_embed 中选，否则从 response_embed 中选
        prompt_response_mask_embed = torch.stack([
            self.prompt_embed,
            self.response_embed,
            self.padding_embed
        ]).to(prompt_mask.device)
        extra_embed = None
        if exists(prompt_mask):
            extra_embed = prompt_response_mask_embed[prompt_mask]            

        # 获得最后一个 token 的 embedding
        last_token_embeds = self.rwkv(
            x,
            extra_embed=extra_embed,
            rm_train=True
        )[:, -1, :]

        # 计算奖励
        reward = self.pred_reward(last_token_embeds)
        reward = reward.squeeze(-1)

        return reward

c) train_forward 函数

    def train_forward(self, x_p, x_a, m_p, m_a):
        # 因为前向传播的时候，需要过两次模型。所以反馈的时候需要冻结其中一次的参数
        # 不然梯度会被计算两次，在包含 deepspeed 框架下会报错
        # 报错信息：Gradient computed twice for this partition.

        with torch.enable_grad():
            prefer_reward = self.forward(x_p, prompt_mask=m_p)
        with torch.no_grad():
            alter_reward = self.forward(x_a, prompt_mask=m_a)

        return prefer_reward, alter_reward

2.2 近端策略优化算法 (PPO)
近端策略优化算法（Proximal Policy Optimization, PPO）是一种深度强化学习算法，其目标是学习一个能够最大化长期累积回报的策略。

图3 PPO 训练架构详细版本

(1) PPO算法包含以下几个主要部分：

a) 策略网络 (Policy Network)
用于学习并输出给定状态下不同行动的概率分布。它通常是一个神经网络，可以根据环境的反馈进行更新。对应图3中的 Actor，使用 SFT Model 进行初始化，在 PPO 中需要参与训练。
b) 价值网络 (Value Network)
用于预测给定状态的预期回报值。它通常也是一个神经网络，它的输出可以用来计算优势函数，从而帮助更新策略网络。对应图3中的 Critic，使用 RM 进行初始化，在 PPO 中需要参与训练。
c) 奖励模型
对应图3中的 Reward Model，是 2.1 节中训练得到的模型，在 PPO 中不参与训练，只提供奖励信号，用于 PPO 的训练。
d) SFT Model
对应图3中的 Supervised Fine-Tune Model，用于更新策略网络，以使其能够产生更好的策略。通过限制每次更新的幅度，从而确保更新后的策略与原始策略之间的差异不会太大。该部分可以参与训练，也可以不参与，当参与训练时，PPO 被称为 PPO-ptx。
e) 经验采样
用于收集与环境交互的经验数据，以供策略网络和价值网络的更新使用。在PPO算法中，经验采样通常采用基于行动价值估计的策略。对应图3中顶部的 Prompts -> Actor -> Response 流程。

图4 PPO 训练架构简化版本

(2)损失函数

a) actor loss (也称为 policy loss, 是最终要使用模型的 loss)

其中，πRL 是 actor，πSFT 是已经训练好的 SFT Model。损失函数的第1项和第2项是核心部分，第3项是可选项。该损失函数需要最大化。具体如下：
- 第一项：这一项是奖励模型 RM 奖励得分，奖励需要最大化；
- 第二项：这一项被用于惩罚 RL 策略在每个训练批次中生成大幅偏离初始模型，以确保模型输出合理连贯的文本。如果去掉这一惩罚项可能导致模型在优化中生成乱码文本来愚弄奖励模型提供高奖励值；
- 第三项：这一项是预训练梯度 (可选项)，传统的 PPO 中一般不包含该项，InstructGPT 中加入这一项是为了避免 RLHF 导致大模型在公开的 NLP 评测任务上效果下降。加入该项之后被命名为 PPO-ptx。
b) critic loss (也称为 value loss)
使用的是 clipped_value_loss。

(3)核心代码
a) training_step

    def training_step(self, batch, batch_idx, optimizer_idx):
        sequences, \
        prompt_masks, \
        masks, \
        old_action_probs, \
        old_log_probs, \
        rewards, \
        old_values = batch

        # PPO training
        action_masks = ~prompt_masks & masks

        action_logits, values = self.actor_critic(
            sequences,
            mask = action_masks
        )

        action_logits = shift(action_logits, shift=1, dim=-2) # need to shift along sequence dimension by 1, since actions start from the last prompt (state) token
        action_len = old_log_probs.shape[-1]

        action_probs = action_logits.softmax(dim = -1)
        action_log_probs = log_prob(action_probs, sequences)
        action_log_probs = action_log_probs[:, -action_len:]

        # calculate entropies, taking into account which part of the sequence is actually an action

        entropies = masked_entropy(action_probs, mask = action_masks)

        # calculate kl div between old action probs and new ones, taking into account which part of the sequence is action or not

        kl_div_loss = 0.

        if self.args.kl_div_loss_weight > 0:
            kl_div_loss = masked_kl_div(action_probs, old_action_probs, mask = action_masks) * self.args.kl_div_loss_weight

        # handle non-pooled values

        normalize_kwargs = dict()

        if old_values.ndim == 2:
            old_values, values = map(lambda t: shift(t, shift = 1, dim = -2), (old_values, values))

            old_values = old_values[:, -action_len:]
            values = values[:, -action_len:]
            rewards = rearrange(rewards, 'b -> b 1')
            normalize_kwargs = dict(dim = -1, mask = action_masks[:, -action_len:])

        if values.ndim < rewards.ndim:
            values = rearrange(values, '... -> ... 1')

        # calculate clipped surrogate objective, classic PPO loss

        ratios = (action_log_probs - old_log_probs).exp()
        advantages = masked_normalize(rewards - old_values, **normalize_kwargs)

        if advantages.ndim == 1:
            advantages = rearrange(advantages, 'b -> b 1')

        surr1 = ratios * advantages
        surr2 = ratios.clamp(1 - self.args.eps_clip, 1 + self.args.eps_clip) * advantages
        policy_loss = - torch.min(surr1, surr2) - self.args.beta_s * entropies

        # actor loss (也称为 policy loss, 是最终要使用模型的 loss)
        if optimizer_idx == 0:
            actor_loss = policy_loss.mean() + kl_div_loss
            return actor_loss

        # critic loss (也称为 value loss)
        # update value network separate from policy network
        if optimizer_idx == 1:
            critic_loss = clipped_value_loss(values, rewards, old_values, self.args.value_clip)
            critic_loss = critic_loss.mean()
            return critic_loss

b) gen_experience_dataset

    def gen_experience_dataset(self):
        ''' 通过与 environment 交互产生训练数据
        '''
        
        device = self.device

        time_cnt = 0
        for eps in tqdm(range(self.args.num_episodes), desc = 'episodes'):
            for timestep in range(self.args.max_timesteps):
                time_cnt += 1

                # select a bunch of random states (prompts)
                # and get the action (sampled sequence from rwkv as well as the action probs)
                # also calculate the reward using reward model and store
                # 随机挑选一条 prompt
                rand_prompt_index = randrange(0, len(self.prompts))
                state = self.prompts[rand_prompt_index]

                # remove padding from state
                state_mask = state != self.args.pad_value
                state = state[state_mask]

                # get predicted sequence
                # 与 environment 进行交互，其中返回的：
                #   action 是 response，
                #   sequence 是 prompt + response， 
                (
                    actions,
                    sequence,
                    mask,
                    prompt_mask,
                    action_logits,
                    value
                ) = self.actor_critic.generate(
                    rearrange(state, 'n -> 1 n'),
                    max_seq_len = self.args.ctx_len,
                    return_values = True
                )
                action_logits = shift(action_logits, shift = 1, dim = -2) # need to shift along sequence dimension by 1, since actions start from the last prompt (state) token

                action_prob = action_logits.softmax(dim = -1)

                action_len = actions.shape[-1]
                action_log_prob = log_prob(action_prob, sequence)
                action_log_prob = action_log_prob[:, -action_len:]

                actions = rearrange(actions, '1 ... -> ...')

                # get reward as given by supervised trained reward model
                sequence = torch.cat((state, actions), dim = 0)

                prompt_length = len(state)
                prompt_mask = torch.arange(sequence.shape[-1], device = device) < prompt_length

                sequence = rearrange(sequence, 'n -> 1 n')
                prompt_mask = rearrange(prompt_mask, 'n -> 1 n')
                mask = rearrange(mask, 'n -> 1 n') if exists(mask) else torch.ones(sequence.shape, dtype = torch.bool, device = device)

                reward = self.reward_model(
                    sequence,
                    prompt_mask = prompt_mask,
                    mask = mask,
                    sample = True
                )

                self.sequence_batch.append(sequence)
                self.prompt_mask_batch.append(prompt_mask)
                self.mask_batch.append(mask)
                self.action_prob_batch.append(action_prob)
                self.action_log_prob_batch.append(action_log_prob)
                self.reward_batch.append(reward)
                self.value_batch.append(value)

                if time_cnt % self.args.update_timesteps == 0:
                    train_data = zip(
                        self.sequence_batch, self.prompt_mask_batch, self.mask_batch, 
                        self.action_prob_batch, self.action_log_prob_batch, self.reward_batch, 
                        self.value_batch
                    )

                    for _sequence, _prompt_mask, _mask, _action_prob, _action_log_prob, _reward, _value in train_data:
                        yield _sequence, _prompt_mask, _mask, _action_prob, _action_log_prob, _reward, _value

                    self.sequence_batch.clear()
                    self.prompt_mask_batch.clear()
                    self.mask_batch.clear()
                    self.action_prob_batch.clear()
                    self.action_log_prob_batch.clear()
                    self.reward_batch.clear()
                    self.value_batch.clear()

3 总结
RLHF 可以根据用户反馈不断学习和优化对话，从而提高对话的质量和效果。但是由于算力资源的限制，我们只是简单调试并拉通了 RLHF 的训练流程，暂未在实际的数据集上训练模型。如若有纰漏指出，还请指正，感谢！
4 参考
[1] InstructGPT
[2] ChatGPT 背后的“功臣”——RLHF 技术详解
[3] ColossalAI
[4] PaLM-rlhf-pytorch
[5] Promixal Policy Optimization with PyTorch
[6] How ChatGPT Works Part 2: The Reward Model

core-v-verif系列之cva6 cva6.py (5) CDerL core-v-verif
cva6.pycva6.py文件是一个用于CORE-VCVA6项目的RISC-V随机指令生成器的回归测试脚本。它负责设置、编译和运行RISC-V指令集模拟器（ISS）和RTL模拟器的测试。以下是主要功能及其作用：SeedGen类：生成测试迭代的伪随机种子。get_generator_cmd：根据提供的模拟器和配置文件设置编译和模拟指令生成器的命令。parse_iss_yaml：解析ISS的YAML
【新生必会】30个较难Python脚本，建议收藏。 .Boss. 信息可视化 python 人工智能算法开发语言机器学习
本篇较难，建议优先学习上篇；20个硬核Python脚本-CSDN博客接上篇文章，对于Pyhon的学习，上篇学习的结束相信大家对于Pyhon有了一定的理解和经验，学习完上篇文章之后再研究研究剩下的30个脚本你将会有所成就！加油！目录21、数据库连接-SQLite22、图像处理-Pillow23、图形界面-Tkinter24、文本生成-Faker25、加密和解密-cryptography26、Sock
python import 另一个文件夹下的类 zhousenshan python新赛道 python django
在Python开发中，有时我们需要将不同文件夹中的模块或类相互导入，以实现代码的复用和组织。对于刚入行的小白来说，这可能会让人感到有些困惑。本文将帮助你了解如何在Python中导入另一个文件夹下的类，并为你提供详细的步骤与代码示例。python类与对象的详细用法_python撖寡情-CSDN博客导入类的流程为了解决这个问题，我们可以将导入的过程分为以下几个步骤：步骤描述1确认项目结构，了解不同文件
PyTorch 生态概览：为什么选择动态计算图框架？小诸葛IT课堂 pytorch 人工智能 python
一、PyTorch的核心价值PyTorch作为深度学习框架的后起之秀，通过动态计算图技术革新了传统的静态图模式。其核心优势体现在：动态灵活性：代码即模型，支持即时调试Python原生支持：无缝衔接Python生态高效的GPU加速：通过CUDA实现透明的硬件加速活跃的社区生态：GitHub贡献者超1.8万人，日均更新100+次二、动态计算图VS静态计算图对比#动态计算图示例（PyTorch）impo
LeetCode34. 在排序数组中查找元素的第一个和最后一个位置 - Java & Go - 二分查找改进暴风星云裂之我裂开了 LeetCode题解 leetcode java golang 二分查找
文章目录LeetCode34.在排序数组中查找元素的第一个和最后一个位置解法11算法2Java3Go解法21算法2Java3GoLeetCode34.在排序数组中查找元素的第一个和最后一个位置LeetCode34.在排序数组中查找元素的第一个和最后一个位置解法11算法算法1.两次二分查找2.第一次二分查找计算mid=(left+right)>>1;，每次mid都偏向左边，可以保证找到的是第一个大于
python requests库详解_Python Requests库详解 momo呀耶 python requests库详解
Requests是用Python语言编写，基于urllib，采用Apache2Licensed开源协议的HTTP库。它比urllib更加方便，可以节约我们大量的工作，完全满足HTTP测试需求。一句话--Python实现的简单易用的HTTP库安装Requestspip3isntallrequestsrequest实例引入importrequestsresponse=requests.get('htt
3.0 二分查找算法：二分查找算法简介熊峰峰 #1.每日练习算法数据结构 c++二分查找
二分查找算法简介一、算法定义二、算法原理三、示例分析四、C++实现五、关键注意事项六、适用场景与局限性七、二分查找的三大模板1.朴素的二分模板2.查找左边界的二分模板3.查找右边界的二分模板4.关键对比与总结一、算法定义二分查找（BinarySearch）是一种在有序数组中快速查找目标元素的算法。其核心思想是通过分治策略不断缩小搜索范围，时间复杂度为O(logn)，效率远高于线性查找（O(n)）。
全栈网络安全-渗透测试-2 始终奔跑在路上网络安全 web安全安全网络安全
web架构&常规化&站库分离&前后端分离1.常规化原理：常规化是指源码和数据都部署在同一服务器上。特点：优势：搭建便捷，自定义程度高。劣势：安全性较低，因为数据库和代码在同一服务器上，容易被攻击。适用场景：适合小型项目或个人开发，对安全性要求不高的场景。2.站库分离原理：源码和数据库分别部署在不同的服务器上。特点：优势：提高了安全性，因为数据库被单独存放，攻击者即使获取了服务器权限，也难以直接访问
学习pytorch 阿什么名字不会重复呢学习 pytorch 人工智能
学习PyTorch是一个很好的选择，尤其是如果你对深度学习和机器学习感兴趣。以下是一个详细的学习计划，可以帮助你系统地掌握PyTorch的基本概念和应用。学习计划概览学习周期：8周（每周约4-5小时）目标：掌握PyTorch基础，能够实现简单的深度学习模型。第1周：基础知识目标：了解深度学习的基础知识，掌握Python和NumPy基础。任务：学习Python基础（数据类型、控制流、函数、类）。资源
【Leetcode刷题随笔】34 在排序数组中查找元素的第一个和最后一个位置 Poor_DayDreamer leetcode数组篇 leetcode 算法职场和发展
1.题目描述：给你一个按照非递减顺序排列的整数数组nums和一个目标值target，请你找出给定目标值在数组中的开始位置和结束位置。如果数组中不存在目标值target，则返回[-1,-1]。题目要求设计时间复杂度为0（logn）的算法来实现。原题链接：34。2.解题思路复杂度为0（logn）的算法，大家比较熟知的就是二分查找算法，二分查找对于寻找数组中的目标元素也是比较高效，因此这题优先考虑二分查
单目3d重建DUSt3R 笔记 AI算法网奇 3D视觉人工智能
目录DUSt3R三维重建报错RecursionError:maximumrecursiondepthexceededincomparison报错numpy.core.multiarrayfailedtoimport报错Numpyisnotavailable解决升级版mast3r速度变慢修改了参数设置脚本：测试效果操作技巧DUSt3R三维重建git地址：GitHub-naver/dust3r:DUS
Manus：全球首款通用AI Agent的技术解析与未来展望努力改掉拖延症的小白大模型人工智能语言模型
2025年3月6日，AI行业迎来了具有历史意义的一天——Monica.im正式发布全球首款通用型AI智能体产品Manus。这一突破不仅刷新了GAIA基准测试的SOTA记录，更以“数字代理人”的定位重新定义了人机交互的边界。从处理15份简历的高效筛选，到跨国购房的智能决策；从股票趋势的深度分析，到个性化旅行手册的自动生成，Manus展现出超越传统工具的“类人思维”能力，标志着AI从被动响应向主动执行
回文串(C语言) IC 见路不走
#include#includeintmain(){chara[256];//字符可控范围inti;//gets(a);scanf("%s",&a);//输入字符intn=strlen(a)-1;//字符串的实际长度for(i=0;i=n)//i>=n的意思在于跳出之前,已经运行完毕,符合要求printf("Y");elseprintf("N");return0;}有很多博客写这很多的程序,我的建
【机器学习-基础知识】统计和贝叶斯推断人类发明了工具 ML&DL学习分享机器学习概率论人工智能
1.概率论基本概念回顾1.概率分布定义：概率分布（ProbabilityDistribution）指的是随机变量所有可能取值及其对应概率的集合。它描述了一个随机变量可能取的所有值以及每个值被取到的概率。对于离散型随机变量，使用概率质量函数来描述。对于连续型随机变量，使用概率密度函数来描述。举例说明：投掷一颗六面骰子，每个面上的数字（1到6）都有相同的概率（1/6）出现，这就是一个简单的概率分布例子
作为普通程序员，我们该如何学习大模型（LLM），学习路线和知识体系和老莫一起学AI 学习人工智能深度学习语言模型 ai 程序员转行
前言原谅我的后知后觉，才开始从头写，我是已经上了一阶段大模型的课，也搜集了些资料，并自己做了小部分实践，回过头来，才想开始整理些文章。起初，大家都在写，都在发，我那会在焦虑。自chatgpt爆火以来，AI技术又被广泛关注，国内外各大厂商也纷纷布局，作为我们每一个普通人，也无不时刻感受着AI一波又一波的冲击。尤其是作为程序员的我，相信绝大多数程序员也有和我一样的感受，从一开始的新奇，到焦虑，到试图去
Web安全攻防入门教程——hvv行动详解白帽子黑客罗哥 web安全安全 hw 护网行动网络安全
Web安全攻防入门教程Web安全攻防是指在Web应用程序的开发、部署和运行过程中，保护Web应用免受攻击和恶意行为的技术与策略。这个领域不仅涉及防御措施的实现，还包括通过渗透测试、漏洞挖掘和模拟攻击来识别潜在的安全问题。本教程将带你入门Web安全攻防的基础概念、常见攻击类型、防御技术以及一些实战方法。一、Web安全基础Web应用安全的三大核心目标（CIA三原则）机密性(Confidentialit
网络安全最新HVV（护网）蓝队视角的技战法分析_护网技战法报告(1)，2024年最新网络安全开发基础作用 2401_84520093 程序员网络安全学习面试
如何自学黑客&网络安全黑客零基础入门学习路线&规划初级黑客1、网络安全理论知识（2天）①了解行业相关背景，前景，确定发展方向。②学习网络安全相关法律法规。③网络安全运营的概念。④等保简介、等保规定、流程和规范。（非常重要）2、渗透测试基础（一周）①渗透测试的流程、分类、标准②信息收集技术：主动/被动信息搜集、Nmap工具、GoogleHacking③漏洞扫描、漏洞利用、原理，利用方法、工具（MSF
Web安全攻防入门教程——hvv行动详解白帽子黑客罗哥 web安全安全学习网络网络安全
Web安全攻防入门教程Web安全攻防是指在Web应用程序的开发、部署和运行过程中，保护Web应用免受攻击和恶意行为的技术与策略。这个领域不仅涉及防御措施的实现，还包括通过渗透测试、漏洞挖掘和模拟攻击来识别潜在的安全问题。本教程将带你入门Web安全攻防的基础概念、常见攻击类型、防御技术以及一些实战方法。一、Web安全基础Web应用安全的三大核心目标（CIA三原则）机密性(Confidentialit
【k8s004】 Docker 打包 K8s镜像姚毛毛-aione1.com kubernetes docker 容器
文章目录一.准备工作1.安装Docker:[官方安装文档](https://docs.docker.com/get-docker/)2.准备应用代码（示例使用Node.js应用）二.创建Dockerfile3、构建镜像（注意最后的点号）4、测试运行5、推送镜像到仓库6、Kubernetes部署文件示例7、部署到Kubernetes三、注意事项8、常用调试命令四、注意事项9、最佳实践一.准备工作1.
shell 知识点1 测试linux服务器之间ip和端口是否畅通 tigercat920 shell linux tcp/ip 服务器
运维工作中，可能会涉及新添加的服务器或者已有服务器之间的网络防火墙不通的情况，但是有的服务器可能已经开通了，有的没有开通，如果一个个去排查就比较麻烦，这个时候我们可以借助于下面这段shell脚本批量探测，并将结果输出；#!/bin/baship="192.168.1.1"#替换为你要检查的IP地址port="80"#替换为你要检查的端口号timeout=3#设置超时时间（秒）foriin`cat/
ArcGIS将Nodata区设置为0 月之圣痕 ArcEngine
两个栅格进行叠加，有时会有一部分没有数据，即用identify点击该区域，Value为NoData，而不是像其他非空区域一样有值。此时注意nodata区域要赋予0值，因为nodata+任何数=nodata，因此要采用条件查询函数将NoData的地方赋值为0。方法是ArcTools->SpatialAnalystTools->MapAlgebra->SingleOutputMapAlgebra。算法
通过Java代码实现ping功能测试ip地址与ip:port的连通性 Java大侠业务代码 java 功能测试
通过Java代码实现测试ip地址与ip:port的连通性需求分析具体实现测试ip连通性测试ip:port连通性重试机制需求分析最近在业务中，需要添加一种掉线告警系统。大致思路为：通过定时任务扫描，每一个小时判断一次设备是否在线，如果在线继续判断端口是否能够通讯。如果不在线或者不能通讯，需要及时push消息给告警人员，及时处理。具体实现测试ip连通性主要通过InetAddress类来实现/***@p
创建 Tauri + Vue + Typescript + Vite + Less 应用 niuiic rust vue vue typescript less rust
更多分享内容可访问我的个人博客https://www.niuiic.top/更新：本文内容已不适用于最新版本，若遇到相同问题可以继续参考。要创建项目首先按https://tauri.studio/docs/getting-started/prerequisites/配置环境，然后参考https://github.com/niuiic/develop-tools中关于tauri的内容。项目创建流程直
Servlet 点击计数器 lsx202406 开发语言
Servlet点击计数器引言随着互联网的快速发展，Web应用程序已成为人们日常生活中不可或缺的一部分。Servlet作为Java平台上用于开发Web应用程序的重要技术之一，已经广泛应用于各种Web项目中。本文将详细介绍Servlet点击计数器的实现方法，帮助读者更好地理解Servlet技术在实际开发中的应用。Servlet点击计数器概述Servlet点击计数器是一种用于记录Web页面点击次数的组件
批量测试IP和域名联通性2 月之圣痕 Bat 批量测试ip连通性批量测试域名联通性批量测试ip和域名连通性
在前面批量测试IP和域名联通性-CSDN博客的基础上，由于IP和域名多样性，比如带端口号的192.168.1.17:17，实际上应该ping192.168.1.17。如果封禁http://www.abc.com/a.exe，实际可pingwww.abc.com。所以又完善了代码。@echooffsetlocalenabledelayedexpansionchcp936for/F%%Ain(E:\封
AI驱动的代码重构与优化技术 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 ChatGPT java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
AI驱动的代码重构与优化技术概述什么是AI驱动的代码重构与优化？AI驱动的代码重构与优化技术，是指利用人工智能，特别是机器学习和深度学习的算法，对软件代码进行自动分析和改进的技术。这种技术能够通过学习大量的代码样本，识别出代码中的模式、问题和改进点，从而自动完成代码的重构和优化。重构的定义重构（Refactoring）是改进代码内部结构而不改变外部行为的过程。其目的通常是为了提高代码的可读性、可维
DeepSeek 助力 Vue3 开发：打造丝滑的表格（Table）之添加列宽调整功能,示例Table14_14树形数据的固定表头表格宝码香车 javascript 前端 vue.js ecmascript 开发语言 DeepSeek
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录DeepSeek助力Vue3开发：打造丝滑的表格（Table）之添加列宽调整功能,示例Table14_14树形数据的固定表头表格页面效果组件代码代码测试测试代码正常跑通，附其他基本代码编写路由src\router\index.js编写展示入口
VSCode CC++ 配置： chuanauc vscode c++ide
vscode配置C/C++编译环境_vscodecompilerpath-CSDN博客之后还有bash的配置设置
DeepSeek 助力 Vue3 开发：打造丝滑的表格（Table）之添加列宽调整功能,示例Table14_12自定义表头的固定表头表格宝码香车 #DeepSeek javascript 前端开发语言 vue.js ecmascript DeepSeek
前言：哈喽，大家好，今天给大家分享一篇文章！并提供具体代码帮助大家深入理解，彻底掌握！创作不易，如果能帮助到大家或者给大家一些灵感和启发，欢迎收藏+关注哦目录DeepSeek助力Vue3开发：打造丝滑的表格（Table）之添加列宽调整功能,示例Table14_12自定义表头的固定表头表格页面效果组件代码代码测试测试代码正常跑通，附其他基本代码编写路由src\router\index.js编写展示入
SQL*LOADER错误总结春风剑客 Oracle
SQL*LOADER错误总结2015-12-0922:51by潇湘隐者,4900阅读,0评论,收藏,编辑在使用SQL*LOADER装载数据时，由于平面文件的多样化和数据格式问题总会遇到形形色色的一些小问题，下面是工作中累积、整理记录的遇到的一些形形色色错误。希望能对大家有些用处。（今天突然看到自己以前整理的这些资料，于是稍稍整理、归纳成这篇博客，后面如果碰到其他案例，会陆陆续续补充在此篇文章。）E
PHP，安卓，UI，java，linux视频教程合集 cocos2d-x小菜 java UI linux PHP android
╔-----------------------------------╗┆
zookeeper admin 笔记 braveCS zookeeper
Required Software 1) JDK>=1.6 2)推荐使用ensemble的ZooKeeper(至少3台)，并run on separate machines 3)在Yahoo!，zk配置在特定的RHEL boxes里，2个cpu，2G内存，80G硬盘数据和日志目录 1)数据目录里的文件是zk节点的持久化备份，包括快照和事务日
Spring配置多个连接池 easterfly spring
项目中需要同时连接多个数据库的时候，如何才能在需要用到哪个数据库就连接哪个数据库呢？ Spring中有关于dataSource的配置： <bean id="dataSource" class="com.mchange.v2.c3p0.ComboPooledDataSource" &nb
Mysql 171815164 mysql
例如，你想myuser使用mypassword从任何主机连接到mysql服务器的话。 GRANT ALL PRIVILEGES ON *.* TO 'myuser'@'%'IDENTIFIED BY 'mypassword' WI TH GRANT OPTION; 如果你想允许用户myuser从ip为192.168.1.6的主机连接到mysql服务器，并使用mypassword作
CommonDAO（公共/基础DAO） g21121 DAO
好久没有更新博客了，最近一段时间工作比较忙，所以请见谅，无论你是爱看呢还是爱看呢还是爱看呢，总之或许对你有些帮助。 DAO(Data Access Object)是一个数据访问（顾名思义就是与数据库打交道）接口，DAO一般在业
直言有讳永夜-极光感悟随笔
1.转载地址:http://blog.csdn.net/jasonblog/article/details/10813313 精华: “直言有讳”是阿里巴巴提倡的一种观念，而我在此之前并没有很深刻的认识。为什么呢？就好比是读书时候做阅读理解，我喜欢我自己的解读，并不喜欢老师给的意思。在这里也是。我自己坚持的原则是互相尊重，我觉得阿里巴巴很多价值观其实是基本的做人
安装CentOS 7 和Win 7后，Win7 引导丢失随便小屋 centos
一般安装双系统的顺序是先装Win7，然后在安装CentOS，这样CentOS可以引导WIN 7启动。但安装CentOS7后，却找不到Win7 的引导，稍微修改一点东西即可。一、首先具有root 的权限。即进入Terminal后输入命令su，然后输入密码即可二、利用vim编辑器打开/boot/grub2/grub.cfg文件进行修改 v
Oracle备份与恢复案例 aijuans oracle
Oracle备份与恢复案例一. 理解什么是数据库恢复当我们使用一个数据库时，总希望数据库的内容是可靠的、正确的，但由于计算机系统的故障（硬件故障、软件故障、网络故障、进程故障和系统故障）影响数据库系统的操作，影响数据库中数据的正确性，甚至破坏数据库，使数据库中全部或部分数据丢失。因此当发生上述故障后，希望能重构这个完整的数据库，该处理称为数据库恢复。恢复过程大致可以分为复原(Restore)与
JavaEE开源快速开发平台G4Studio v5.0发布無為子
我非常高兴地宣布,今天我们最新的JavaEE开源快速开发平台G4Studio_V5.0版本已经正式发布。访问G4Studio网站 http://www.g4it.org 2013-04-06 发布G4Studio_V5.0版本功能新增 (1). 新增了调用Oracle存储过程返回游标，并将游标映射为Java List集合对象的标
Oracle显示根据高考分数模拟录取百合不是茶 PL/SQL编程 oracle例子模拟高考录取学习交流
题目要求: 1,创建student表和result表 2,pl/sql对学生的成绩数据进行处理 3,处理的逻辑是根据每门专业课的最低分线和总分的最低分数线自动的将录取和落选 1,创建student表,和result表学生信息表; create table student( student_id number primary key,--学生id
优秀的领导与差劲的领导 bijian1013 领导管理团队
责任优秀的领导：优秀的领导总是对他所负责的项目担负起责任。如果项目不幸失败了，那么他知道该受责备的人是他自己，并且敢于承认错误。差劲的领导：差劲的领导觉得这不是他的问题，因此他会想方设法证明是他的团队不行，或是将责任归咎于团队中他不喜欢的那几个成员身上。努力工作优秀的领导：团队领导应该是团队成员的榜样。至少，他应该与团队中的其他成员一样努力工作。这仅仅因为他
js函数在浏览器下的兼容 Bill_chen jquery 浏览器 IE DWR ext
做前端开发的工程师，少不了要用FF进行测试，纯js函数在不同浏览器下，名称也可能不同。对于IE6和FF，取得下一结点的函数就不尽相同： IE6：node.nextSibling,对于FF是不能识别的； FF：node.nextElementSibling,对于IE是不能识别的；兼容解决方式：var Div = node.nextSibl
【JVM四】老年代垃圾回收：吞吐量垃圾收集器(Throughput GC) bit1129 垃圾回收
吞吐量与用户线程暂停时间衡量垃圾回收算法优劣的指标有两个：吞吐量越高，则算法越好暂停时间越短，则算法越好首先说明吞吐量和暂停时间的含义。垃圾回收时，JVM会启动几个特定的GC线程来完成垃圾回收的任务，这些GC线程与应用的用户线程产生竞争关系，共同竞争处理器资源以及CPU的执行时间。GC线程不会对用户带来的任何价值，因此，好的GC应该占
J2EE监听器和过滤器基础白糖_ J2EE
Servlet程序由Servlet，Filter和Listener组成，其中监听器用来监听Servlet容器上下文。监听器通常分三类：基于Servlet上下文的ServletContex监听，基于会话的HttpSession监听和基于请求的ServletRequest监听。 ServletContex监听器 ServletContex又叫application
博弈AngularJS讲义(16) - 提供者 boyitech js AngularJS api Angular Provider
Angular框架提供了强大的依赖注入机制，这一切都是有注入器(injector)完成. 注入器会自动实例化服务组件和符合Angular API规则的特殊对象，例如控制器，指令，过滤器动画等。那注入器怎么知道如何去创建这些特殊的对象呢？ Angular提供了5种方式让注入器创建对象，其中最基础的方式就是提供者(provider), 其余四种方式(Value, Fac
java-写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 bylijinnan java
public class CommonSubSequence { /** * 题目：写一函数f(a,b)，它带有两个字符串参数并返回一串字符，该字符串只包含在两个串中都有的并按照在a中的顺序。 * 写一个版本算法复杂度O(N^2)和一个O(N) 。 * * O(N^2)：对于a中的每个字符，遍历b中的每个字符，如果相同，则拷贝到新字符串中。 * O(
sqlserver 2000 无法验证产品密钥 Chen.H sql windows SQL Server Microsoft
在 Service Pack 4 (SP 4), 是运行 Microsoft Windows Server 2003、 Microsoft Windows Storage Server 2003 或 Microsoft Windows 2000 服务器上您尝试安装 Microsoft SQL Server 2000 通过卷许可协议 (VLA) 媒体。这样做, 收到以下错误信息CD KEY的 SQ
[新概念武器]气象战争 comsci
气象战争的发动者必须是拥有发射深空航天器能力的国家或者组织.... 原因如下: 地球上的气候变化和大气层中的云层涡旋场有密切的关系,而维持一个在大气层某个层次
oracle 中 rollup、cube、grouping 使用详解 daizj oracle grouping rollup cube
oracle 中 rollup、cube、grouping 使用详解 -- 使用oracle 样例表演示转自namesliu -- 使用oracle 的样列库，演示 rollup, cube, grouping 的用法与使用场景 --- ROLLUP ，为了理解分组的成员数量，我增加了分组的计数 COUNT(SAL)
技术资料汇总分享 Dead_knight 技术资料汇总分享
本人汇总的技术资料，分享出来，希望对大家有用。 http://pan.baidu.com/s/1jGr56uE 资料主要包含： Workflow->工作流相关理论、框架(OSWorkflow、JBPM、Activiti、fireflow...) Security->java安全相关资料(SSL、SSO、SpringSecurity、Shiro、JAAS...) Ser
初一下学期难记忆单词背诵第一课 dcj3sjt126com english word
could 能够 minute 分钟 Tuesday 星期二 February 二月 eighteenth 第十八 listen 听 careful 小心的，仔细的 short 短的 heavy 重的 empty 空的 certainly 当然 carry 携带；搬运 tape 磁带 basket 蓝子 bottle 瓶 juice 汁，果汁 head 头；头部
截取视图的图片, 然后分享出去 dcj3sjt126com OS Objective-C
OS 7 has a new method that allows you to draw a view hierarchy into the current graphics context. This can be used to get an UIImage very fast. I implemented a category method on UIView to get the vi
MySql重置密码 fanxiaolong MySql重置密码
方法一: 在my.ini的[mysqld]字段加入： skip-grant-tables 重启mysql服务，这时的mysql不需要密码即可登录数据库然后进入mysql mysql>use mysql; mysql>更新 user set password=password('新密码') WHERE User='root'; mysq
Ehcache（03）——Ehcache中储存缓存的方式 234390216 ehcache MemoryStore DiskStore 存储驱除策略
Ehcache中储存缓存的方式目录 1 堆内存（MemoryStore） 1.1 指定可用内存 1.2 驱除策略 1.3 元素过期 2 &nbs
spring mvc中的@propertysource jackyrong spring mvc
在spring mvc中，在配置文件中的东西，可以在java代码中通过注解进行读取了： @PropertySource 在spring 3.1中开始引入比如有配置文件 config.properties mongodb.url=1.2.3.4 mongodb.db=hello 则代码中 @PropertySource(&
重学单例模式 lanqiu17 单例 Singleton 模式
最近在重新学习设计模式，感觉对模式理解更加深刻。觉得有必要记下来。第一个学的就是单例模式，单例模式估计是最好理解的模式了。它的作用就是防止外部创建实例，保证只有一个实例。单例模式的常用实现方式有两种，就人们熟知的饱汉式与饥汉式，具体就不多说了。这里说下其他的实现方式静态内部类方式: package test.pattern.singleton.statics; publ
.NET开源核心运行时，且行且珍惜 netcome java .net 开源
背景 2014年11月12日，ASP.NET之父、微软云计算与企业级产品工程部执行副总裁Scott Guthrie，在Connect全球开发者在线会议上宣布，微软将开源全部.NET核心运行时，并将.NET 扩展为可在 Linux 和 Mac OS 平台上运行。.NET核心运行时将基于MIT开源许可协议发布，其中将包括执行.NET代码所需的一切项目——CLR、JIT编译器、垃圾收集器（GC）和核心
使用oscahe缓存技术减少与数据库的频繁交互 Everyday都不同 Web 高并发 oscahe缓存
此前一直不知道缓存的具体实现，只知道是把数据存储在内存中，以便下次直接从内存中读取。对于缓存的使用也没有概念，觉得缓存技术是一个比较”神秘陌生“的领域。但最近要用到缓存技术，发现还是很有必要一探究竟的。缓存技术使用背景：一般来说，对于web项目，如果我们要什么数据直接jdbc查库好了，但是在遇到高并发的情形下，不可能每一次都是去查数据库，因为这样在高并发的情形下显得不太合理——
Spring+Mybatis 手动控制事务 toknowme mybatis
@Override public boolean testDelete(String jobCode) throws Exception { boolean flag = false; &nbs
菜鸟级的android程序员面试时候需要掌握的知识点 xp9802 android
熟悉Android开发架构和API调用掌握APP适应不同型号手机屏幕开发技巧熟悉Android下的数据存储熟练Android Debug Bridge Tool 熟练Eclipse/ADT及相关工具熟悉Android框架原理及Activity生命周期熟练进行Android UI布局熟练使用SQLite数据库；熟悉Android下网络通信机制，S

ChatGPT 中的人类反馈强化学习 (RLHF) 实战

目录

你可能感兴趣的:(博客质量分测试,chatgpt,人工智能,深度学习)