人工智能小豪

偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

OpenAI

paper: InstructGPT, Training language models to follow instructions with human feedback

paper: Learning to summarize from human feedback

Introducing ChatGPT

解密Prompt系列4介绍了InstructGPT指令微调的部分，这里只看偏好对齐的部分

样本构建

RL的数据来源有两块，一部分是用户在playground里面真实请求的数据，另一部分来自标注同学自己写的指令样本。标注指令样本包括3种形式：单一指令，few-shot指令，根据用户之前提交的使用场景编写的指令，量级分布如下

在标注偏好样本上，OpenAI基于3H原则，设计了详细的标注标准详见论文。需要注意的一点是在训练样本标注时Helpful比Harmless和honest更重要，但是在评估样本的标注上Harmless和honest更重要。这样区别标注是OpenAI发现Helpful和Harmless存在冲突，如果模型过度拟合无害性，会导致模型拒绝回答很多问题。OpenAI认为不同场景下风险的定义是不同的，应该把拒绝回答的能力放到下游场景中, 后面Anthropic也碰到了相似的问题，我个人更偏好Anthropic的方案。

在标注过程中，模型会生成4-7个回复，标注同学需要综合考虑有用性，无害性和真实性，对模型的每一个回复进行绝对打分后续用于评估，同时给出多个模型回复间的相对排序用于RM模型训练，标注界面如下：

ChatGPT对话训练部分未公开细节，从官网能获得细节是，ChatGPT的样本是人工写的对话样本+InstructGPT样本转换成对话格式的混合样本，更多基于对话形式的标注可以参考后面的DeepMind和Anthropic。

奖励模型

OpenAI使用了指令微调16个epoch的6B模型作为奖励模型的初始模型。训练方式是两两对比计算crossentropy，其中rθ是奖励函数对指令x和回复y的打分，如下

不过OpenAI发现如果对数据进行Shuffle，则训练一轮就会过拟合，但如果把针对1个指令模型的K个回复，K在4~9之间，得到的C2k2个pairwise对，放在一个batch里进行训练，会得到显著更高的准确率。这里一个batch包括64个指令生成的所有回复对，其中排名相同的样本对被剔除。

这里感觉和对比学习要用大batch_size进行拟合的思路有些相似，是为了保证对比的全面性和充分性，使用全面对比后计算的梯度对模型进行更新。另一个原因可能是不同标注人员之间的偏好差异，shuffle之后这种偏好差异带来的样本之间的冲突性更高。

之所以选择6B的模型，论文指出尽管175B的RM模型有更高的准确率和更小的验证集loss，但是训练过程并不稳定，以及太大的RM模型会导致RL部分的训练成本太高。

RLHF

RL初始模型

OpenAI使用了SFT指令微调之后的模型作为RL的起点。RL初始模型的训练细节在附录C.3和E.8，基于GPT3的预训练模型，SFT微调2个epoch并混入10%的预训练数据进行训练得到。这里混入预训练是因为在RL微调的过程中发现加入预训练数据可以防止RL微调降低模型语言能力，因此在SFT微调过程中也做了相同的处理。这里我好奇的是，指令微调和预训练的核心差异其实只在指令输入的部分是否计算梯度，因此是否可以直接把指令微调和预训练混合变成一个步骤"文本+指令预训练"，我们准备沿这个方向去尝试下~

RL样本

OpenAI是完全基于在playground里用户真实提交的指令请求来进行训练，没有使用人工标注，为了完全面向用户使用进行偏好优化。

RL训练

RL微调的部分，OpenAI使用了PPO算法，基于Reward模型的打分进行微调，微调了2个epoch。在此基础上加入了两个目标：

微调模型和原始模型在token预测上的KL散度：避免模型过度拟合奖励函数偏离原始模型。后面也论证了KL的加入，可以加速RL收敛，核心是在相同的KL下最大化模型偏好的提升
10%的预训练目标(PPO-PTX)：降低RL对模型语言能力的影响

且论文提到样本的收集和RL训练是多次迭代的，也就是使用RL微调后的模型上线收集更多的用户请求，重新训练RM，再更新模型。不停在优化后的模型上收集用户反馈，会让RM模型学习到更充分的高偏好样本，强者愈强。

效果

对比175B指令微调的模型，1.3B的模型经过RLHF微调，在喜爱度上就能打过175B的SFT模型！2点Insights如下

RLHF对齐带来的模型有用性的提升，效率远超训练更大的模型
使用PPO-PTX的RLHF微调没有产生很大的Alignment-Tax

DeepMind

paper: Teaching language models to support answers with verified quotes

paper: Sparrow, Improving alignment of dialogue agents via

DeepMind的Sparrow使用了基于Google搜索的事实性信息的引入，这部分我们放到Agent调用的章节一起说，这里只关注偏好对齐的部分。

样本构建

不考虑搜索调用的部分，DeepMind的偏好对齐部分只关注2H，有用性和无害性。样本标注的基础模型是Chinchilla-70B，和OpenAI的差异在于，DeepMind把人类偏好和违反2H原则拆成了两个标注任务

人类偏好标注：基于进行中的对话，从模型多个回复中选择最喜欢的一条，这里对话中的人机问答都是由模型生成的

对抗标注/钓鱼执法：基于随机分配的标注规则，标注同学需要刻意引导模型给出违反该规则的回答，和风控红蓝对抗的思路相似

奖励模型

基于以上两份样本，论文通过微调Chinchilla-70B，分别训练了两个模型PM和RM, 微调的方式都是固定前64层，只微调后16层。

PM：Preference Reward Model

PM的数据是在以上每轮对话多选一的基础上，从其他对话中随机采样更多的负样本构成的多分类任务，这里补充负样本是为了惩罚off-topic的模型回复。因此损失函数是多分类的CrossEntropy，以及在此基础上加入了Bradley-Taley(Elo)和正则项，如下

其中ri是所有回复的模型打分，因此正则项是为了保证最终模型输出的打分是以0为中心的。而Elo部分是为了优化两两对比排序，更多细节>>Fitting the Bradley-Terry model to large and potentially sparse datasets

RM：Rule Violation Model

RM模型是一个多标签任务，判断对话当前是否违反其中一条标注规则，输出违反该规则的条件概率。以上5档标签被分成两类,definitely break和probably break]是违反，probably follow和definitely follow是未违反，unsure样本被丢弃。这里DeepMind使用如下Hard Prompt Tunning来构建模型，其实就是引入一些前置语义信息，让模型在小样本上表现更好。更多细节>>解密Prompt系列2. 冻结Prompt微调LM

整体打分

基于以上两个模型，整体打分=偏好打分+所有规则的未违反概率之和+长度惩罚(保证回答简洁)+is_valid(模板检查)。其中模板检查包括要求Agent回复以\n\nSparrow:开始，以\n\nUser:结束，保证所有模型回复有相同的格式

个人感觉分开标注，以及引导式的标注没啥问题，但分开建模再直接打分融合可能不一定是最优的方案，因为两个模型的scale不同，很难对比违反部分规则，和偏好程度要如何balance才是最优的整体打分。

RLHF

RL起点：和OpenAI相同，DeepMmind也使用监督微调模型作为初始模型。不过DeepMind直接使用了以上RM的标注数据中，多选一标注有用的回复，和未违反规则的回复来进行监督微调。
RL样本

对比OpenAI使用纯人机对话的样本，DeepMind的RL的样本来源包括以下四个部分

问题集：GopherCite的Eli5子集
人机对话：以上RM和PM的人机对话的样本集
对抗样本扩充：使用Prompt模板引导Sparrow生成有害问题，扩充有害对话样本
self-play：类似self-instruct，会采样已有对话作为上下文，让sparrow继续生成回复

RL训练

DeepMind使用了Actor-Critic算法进行RL微调, RL算法我们会单独一章来讲，整体上A2C可能略弱于PPO。除了算法不同，DeepMind的RL微调也只微调Chinchilla模型的后16层。

都选择微调16层，其实是为了节省训练显存，这样PM，RM，初始SFT模型，和最终的RL微调模型都共享前64层，后16层通过不同head来实现，从而达到降低显存占用的目的。

Insight：偏好和遵守规则的矛盾统一

人类偏好和遵守规则的要求存在一定冲突，只使用更偏好的数据训练会得到更高的规则违反率，只使用遵守规则的数据训练会降低模型回复的偏好率，混合样本的微调效果最好。

Anthropic

paper: Red Teaming Language Models to Reduce Harms Methods,Scaling Behaviors and Lessons Learned

paper: A General Language Assistant as a Laboratory for Alignment

paper:Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback

数据：https://huggingface.co/datasets/Anthropic/hh-rlhf

样本构建

从论文标题不难看出，Anthropic也只考虑了2H，有害性和有用性。并且着重研究了对抗有害样本的生成，受限于篇幅这里不展开。我个人也更偏好2H，因为我始终没太想明白Honesty如何能通过对齐实现。因为部分非事实性是来自预训练样本中的噪声，例如预训练样本中是"鲲之大一锅炖不下"，如何通过对齐让模型学到"鲲之大，不知其几千里也"？部分非事实性来自训练样本的有限性，需要像Bing一样通过引入实时信息来解决，要是大家有不一样的观点也欢迎留言评论。

同样是拆分了2个标注任务，和DeepMind的差异是，Anthropic是把有害性和有用性分成了两个标注任务，针对开放的对话主题进行4轮左右的对话。

有害性标注：和DeepMind相同使用了红蓝对抗的方案，目标是引导模型生成有害回复。每一轮模型会生成2个回答，选择更有害的一个

有用性标注：同样是每轮2选一，选择更有帮助的一条回复，并不强制进行事实性检查

对抗/引导式的数据标注方式，对比OpenAI直接标注，可以更充分挖掘偏好中更有用和更有害的数据，对于解决模型安全性有更大的帮助，但感觉可能缺少中间部分偏好的样本，如果能和OpenAI直接标注的方案结合是否会更好？

除了2H的任务分开标注之外，每个标注同学进行对话的模型虽然都是52B的模型，但会随机来自3个不同版本的模型

HHH Context-Ditill：类似3Hprompt（helpful,harmless, honest)加持的基础模型，最初只有这个模型
Rejection Sampling（RS）：使用3H模型生成16个回复，使用训练后的PM模型对结果排序，选择有害性最小的2个回复
RLHF微调后的模型：后续的数据收集会基于微调后多个版本的模型持续进行

奖励模型

Anthropic的奖励模型同样是基于样本排序进行训练的，有用得分高于无用，无害得分高于有害，并且更详细论证了相对排序模型的效果要好于二分类模型，要好于语言模型。

为了降低对微调数据的需求，Anthropic加入了Preference Model Pretraining(PMP)的继续预训练过程，使用Reddit, StackExchange等开源问答的数据让模型先部分学习什么是好的什么是坏的回答。

除此之外Anthropic还讨论了PM模型大小对模型稳健性的影响。通过把数据集一分为二，一半训练，一半验证，越稳健的PM模型应该在不同数据上有相似的打分分布。论文使用PM模型在两份数据上打分的KL散度来衡量稳定性，得到两个结论

PM模型越大，KL散度越低
PM模型打分在低分区一致性较高，在高分区一致性较低

第二个结论很符合直觉，因为有害内容的标注一致性更高更易识别，而优质回复的评价更模糊，另一个原因是模型当前的能力可能导致高分区的样本比较稀疏。

但第一个结论，感觉有可能是因为越大的模型预测的置信度越高，打分更容易聚集在一起，才导致的KL散度更低，这个置信度的差异似乎没有被考虑进去。

RLHF

RL起点

Anthropic选择了3H Context Distillation的模型，通过在样本前加入3H指令词，引导模型生成更安全有用的回复，并记录模型生成的每个位置Top50的词和概率，把这个概率作为Teacher；然后去掉3H指令词，对预训练模型进行微调，微调目标就是去拟合之前有3H时Top50 Token的预测概率，其实就是Teacher-Student蒸馏的思路。

RL样本

为了让模型在更大范围的指令样本上进行偏好学习，使用了Self-Instruct，随机采样10个已有的真实请求让模型来生成新的请求，最终是137K真实请求和369K模型生成请求混合作为训练样本

RL训练：整体和openAI类似

和OpenAI相同，Anthropic也提到了online iter训练，但论文的出发点是前面提到的PM模型在高分部分不稳定的问题。因为微调后的模型生成的回复会更好，在更优的模型中持续收集样本，可以持续补充高分样本。注意这里的online和常规意义的online不同，这里每次训练会混合多个snapshot模型收集的偏好数据和最初的偏好样本，重头训练PM，并重新微调RLHF。

Insight：有用性和无害性的矛盾统一

和OpenAI相似，Anthropic也举报了有用性和无害性的标注矛盾。在RLHF微调过程中，只要用户的请求有轻微不满，模型就让用户去看医生哈哈哈哈~其实我们在不充分微调的ChatGLM中也发现了类似的现象。经过分析模型是过度拟合了有害性，而对有用性欠拟合，导致模型虽然无害但也没啥用

论文给出了的解决思路是遇到有害性请求，模型只学到拒绝回答是很简单的，这就是无用但无害，但是如果模型能学到在拒绝回答的同时，给到拒绝的原因，并劝说用户不要有类似的有害的请求的话，就是有用且无害了。这部分标注数据当前是缺失的。个人感觉这个思路比OpenAI适配场景去拒绝请求，似乎可行性更高一些。不过论文没有重新标样本，而是选择了折中的方案，加入更大比例Helpful样本来提升模型有用性

对比总结

paper: Scaling Laws for Reward Model Over optimization

paper: WebGPT: Browser-assisted question-answering with human feedback

Measuring Goodhart’s law

粗略看完以上3家超长无比的系列RLHF论文，结合OpenAI对RM模型的一些观点。我们来讨论下文首问题，感悟很玄学！！不一定靠谱！！仅提供一种思路~

RLHF究竟学了啥？

可类比拒绝采样(Best-of-N)：让模型随机采样生成N个回复，选择RM打分最高的回复

在WebGPT中OpenAI就把Best-of-N和RL进行了对比，best-of-64的效果甚至超过RLHF，而DeepMind在RL微调后加入best-of-n效果会有进一步提升。感觉RLHF和Best-of-N的差异就是前者把排序择优放在了微调阶段训练耗时，后者放在了推理阶段推理耗时。本质上二者是相似的，都是让模型在相似文本打分的文本序列中，挑选偏好打分更高的序列

那再想一步，Best-of-N的本质是啥？是Rejection-Sampling。啥是拒绝采样？简单说，就是针对无法直接采样的分布F，可以从G采样，例如G服从正态分布, 再通过特定的拒绝策略，拒绝不符合F分布的样本，则得到的样本可以近似F分布。对应到RLHF中，G其实就是RL初始模型生成的回复，拒绝策略是拒绝RM打分低的回复，则得到的就是符合人类偏好F的回复。

偏好对齐使用RL和SFT的差异？

优化整个文本序列 vs 优化token级别的偏好：类似序列标注任务中CrossEntropy对比CRF

同样使用偏好标注数据来进行微调，RL微调是针对整个文本序列的RM打分进行优化，而SFT是对每个token的预测概率进行优化。SFT在偏好优化场景上有几个问题

每个token在损失函数中的权重是相同的
没有考虑文本整体对偏好的影响
针对很多开放问题，最优答案是不固定的，只对1条回答做token级别的拟合，可能会影响泛化

综合以上3点RL似乎更合适，但是针对有标准答案的场景，例如所有非开放生成的NLP任务，摘要，分类，抽取等等，用SFT来拟合偏好似乎也没啥毛病，就像序列标注任务用CrossEntropy效果也不会比CRF差太多。

除此之外RL的另一个优点是可以部分降低人工标注，因为训练的RM模型后续可用于偏好打分，而SFT的每一个偏好样本都需要人工标注。

什么模型适合作为RLHF的初始模型？

从拒绝采样的本质出发，RL的初始模型需要有能够生成人类偏好回答的能力

拒绝采样的前提假设是F分布的集合是G分布集合的子集，因为拒绝采样只是拒绝G采样的部分样本来得到F分布。对应到RLHF其实就是RL的初始模型要有能够生成人类偏好回复的能力，因此通过指令微调来解锁指令理解能力，似乎是RL初始模型的必须条件，毕竟纯续写模型是无法生成人类偏好的回复的。

当前的RL其实还存在很多问题。首先人类偏好本身就是存在噪声的，标注的一致率不到80%；其次奖励模型是对标注偏好的进一步抽象，又受到一步准确率的限制；而使用不完美的奖励模型进一步微调模型，则可能带来更进一步的拟合问题。这些问题还有待进一步解决，这一章我们就先说这么多啦

这一章我们聊聊有哪些方案可以不用微调直接让大模型支持超长文本输入，注意这里主要针对无限输入场景。之前在BERT系列中我们就介绍过稀疏注意力和片段递归的一些长文本建模方案长文本建模 BigBird & Longformer & Reformer & Performer，不过以上方案无一例外都需要在训练阶段引入。针对当前大模型微调成本高的问题，更多研究放到如何在模型外部支持长文本输入。先讨论下为啥当前的大模型会在推理时存在输入长度的限制，主要有以下几点原因

Attention矩阵计算复杂度：在不引入稀疏注意力的条件下，Attention矩阵的内存和计算复杂度是O(序列长度2)�(序列长度2)，文本长度的上升会带来显存的指数增长。
训练耗时：训练阶段的文本长度会显著影响训练速度, 因此2048一般是当前预训练常见的最大长度。

位置编码的外推性: 这里的外推性是指推理长度超过训练长度。包括推理会出现没训练过的位置编码，以及注意力机制需要处理比训练更长的输入。已有的旋转位置编码等相对位置编码已经具有了外推性，既推理长度可以超过训练长度，但在ALibi位置编码的测试中，这种外推性是以大幅性能损失为代价的。

针对以上问题本章介绍4种方案：显式搜索的知识库外挂方案，隐式搜索的Unlimiformer, 并行输入的pcw和并行解码NBCE。

Hugging Face挑战DeepSeek，AI开源竞赛升级！新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/DeepSeek的R1推理模型刚刚引发全球轰动，开源AI界的“顶流”HuggingFac
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
DeepSeek：硅谷AI格局的拐点？新加坡内哥谈技术人工智能深度学习语言模型学习
每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗？订阅我们的简报，深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同，从行业内部的深度分析和实用指南中受益。不要错过这个机会，成为AI领域的领跑者。点击订阅，与未来同行！订阅：https://rengongzhineng.io/本周，硅谷迎来了一个令人大跌眼镜的现实：打造先进人工智能模型，可能远没有想象中那么高深莫
理解随机森林算法菌菌的快乐生活算法随机森林机器学习
基本概念随机森林（RandomForest）是一种集成学习算法，它属于机器学习中的监督学习算法。简单来说，它就像是一群“专家”（决策树）在一起讨论并做出决策。想象你要判断一个水果是苹果还是橙子，你可以通过观察水果的颜色、形状、大小等特征。随机森林算法就是利用很多棵决策树来对这个水果进行判断。每一棵决策树就像一个小专家，它们根据自己对这些特征的判断来给出一个答案（是苹果还是橙子），最后综合这些小专家
AI常见的算法纠结哥_Shrek 人工智能算法
人工智能（AI）中常见的算法分为多个领域，如机器学习、深度学习、强化学习、自然语言处理和计算机视觉等。以下是一些常见的算法及其用途：1.机器学习(MachineLearning)监督学习(SupervisedLearning)线性回归(LinearRegression)：用于预测连续值，如房价预测。逻辑回归(LogisticRegression)：用于分类问题，如垃圾邮件检测。支持向量机(SVM)
【书生·浦语大模型实战营】学习笔记（五）：LMDeploy 量化部署 GoAI 深入浅出LLM 深入浅出AI 大模型 LLM 部署人工智能 LMDeploy
AI学习星球推荐：GoAI的学习社区知识星球是一个致力于提供《机器学习|深度学习|CV|NLP|大模型|多模态|AIGC》各个最新AI方向综述、论文等成体系的学习资料，配有全面而有深度的专栏内容，包括不限于前沿论文解读、资料共享、行业最新动态以、实践教程、求职相关（简历撰写技巧、面经资料与心得）多方面综合学习平台，强烈推荐AI小白及AI1；；爱好者学习，性价比非常高！加入星球➡️点击链接
PyTorch 框架实现线性回归：从数据预处理到模型训练全流程大模型铲屎官 PyTorch pytorch 线性回归人工智能深度学习 python
系列文章目录Pytorch基础篇01-PyTorch新手必看：张量是什么？5分钟教你快速创建张量！02-张量运算真简单！PyTorch数值计算操作完全指南03-Numpy还是PyTorch？张量与Numpy的神奇转换技巧04-揭秘数据处理神器：PyTorch张量拼接与拆分实用技巧05-深度学习从索引开始：PyTorch张量索引与切片最全解析06-张量形状任意改！PyTorchreshape、tra
两个免费的英文论文润色网站知足常乐2023 论文润色笔记
1.DeepL：常用，感觉比较好用，可选择多种润色模式，但润色的字数有限制。DeepLWrite：人工智能驱动的写作助手https://www.deepl.com/write2.赛特新思：用的较少，润色字数也有限制。SCI润色|文献润色|英文润色|Editing|英文写作|论文写作|citexs斯特新思https://www.citexs.com/Editing
python中cv是什么_python里面cv是什么意思 weixin_39639568 python中cv是什么
OpenCV(OpenSourceComputerVisionLibrary)开放源代码计算机视觉库，主要算法涉及图像处理、计算机视觉和机器学习相关方法。OpenCV其实就是一堆C和C++语言的源代码文件，这些源代码文件中实现了许多常用的计算机视觉算法。OpenCV由一系列C函数和C++类构成，它有C，C++，Python和java接口，当前SDK(SoftwareDevelopmentKit软件
论文AI率：检测原理是什么？该如何降低论文AI率？迪娜学姐人工智能
我是娜姐@迪娜学姐，一个SCI医学期刊编辑，探索用AI工具提效论文写作和发表。上一篇介绍了10个检测AI率的在线工具。本篇来说说AI率到底是如何检测出来的？该如何有效降低论文的AI率？和AI大模型一样，AI检测的核心也是机器学习模型，它们在包含人类创作和AI生成文本样本的大型数据集上进行训练，通过学习每种文本中存在的模式和特征，以此来区分人类创作的文本和AI生成文本。AI检测器查找的一些关键特征包
Python编程入门指南：从基础到高级编程咕咕gu- python 零基础学习开发语言学习零基础入门
如果你正在学习Python，那么你需要的话可以，点击这里Python重磅福利：入门&进阶全套学习资料、电子书、软件包、项目源码等等免费分享！一、引言1.1Python编程语言简介Python是一种高级编程语言，它具有简单易学、代码简洁、易维护等特点，因此被广泛应用于科学计算、数据分析、人工智能等领域。Python的语法简洁，代码易于阅读和编写，因此它被广大开发者所喜爱。同时，Python还拥有庞大
深入剖析ipywidgets-7.0.0b1：Python交互式前端库的新进展多行不易
本文还有配套的精品资源，点击获取简介：ipywidgets是一个用于创建交互式用户界面的Python库，广泛应用于数据可视化和科学计算。最新版本7.0.0b1带来了新特性、性能优化、API改进和兼容性增强。本详细解析包括ipywidgets的核心概述、主要功能、版本新特性以及其在教育、数据探索和应用原型开发等场景中的应用。1.ipywidgets核心概念介绍在当今数据科学和机器学习领域，交互式可视
机器学习Day01 酒脑猫机器学习人工智能
人工智能三大概念及其关系人工智能（AI）：使用计算机来模拟或者代替人类机器学习（ML）：机器自动学习，并不只由人定义规则编程深度学习（DL）：大脑仿生，模拟人大脑神经网络，设计一层层神经元模拟事物机器学习是实现人工智能的一种途径，深度学习是机器学习的一种更加深入的方法。机器学习学习方法基于规则的学习：程序员根据自己经验定义规则基于模型的学习：由于某些事物，问题无法可以定义明确的规则，如：图片，语音
机器学习Day1 一飞学编程机器学习机器学习人工智能
1.背景以周志华教授的《机器学习》为核心学习AI知识2.绪论中的重要概念整理机器学习的目的：利用经验（数据）来改善系统性能记录：(key1:value1,key2:value2…)数据集：记录的集合示例（样本）：对一个事件或对象的描述属性（特征）：key1,key2…属性值：value1,value2…属性空间（样本空间、输入空间）：key1,key2等组成的多维空间特征向量：形如（value1,
机器学习建模流程 day02 扫把星133 机器学习人工智能 python
机器学习建模流程通常可以分为以下几个主要步骤：问题定义与数据收集：确定问题的类型（分类、回归、聚类等可见上篇所讲内容）和目标。收集相关数据，可以是从数据库、API、文件或其他来源获取。注释：数据库是计算机里面的存储的数据的，当然可以对数据进行一些操作增删改查，通常用于存储大量结构化数据，并提供高效的数据操作和查询功能。API（ApplicationProgrammingInterface，应用程序
AI技术赋能电商行业，引领变革 m0_74136676 人工智能
AI大模型在电商行业的应用正在不断拓展，其强大的数据处理和分析能力为电商平台带来了前所未有的创新机遇。一、购物推荐的创新应用AI大模型通过分析用户的浏览历史、购买记录、搜索关键词等大量数据，能够生成个性化的商品推荐。这种推荐系统比传统的基于规则或简单协同过滤的推荐更为精准。它利用深度学习技术，更准确地预测用户的兴趣点，使推荐内容更加贴切，从而提高用户点击率和购买转化率。例如，当用户在电商平台上搜索
2024年AIGC技术未来发展趋势与挑战：从应用创新到伦理监管小宝哥Code ChatGPT与AIGC AIGC
生成式人工智能（AIGC，ArtificialIntelligenceGeneratedContent）作为人工智能领域的一个重要分支，正在快速发展并改变着多个行业的格局。2024年，AIGC技术持续取得突破，并进入更多实际应用场景。本文将详细介绍AIGC的基本概念、原理、最新前沿技术及发展趋势。1.生成式人工智能（AIGC）基本概念与原理生成式人工智能（AIGC）是指通过人工智能技术，尤其是深度
【DL】神经网络与机器学习基础知识介绍（一） MengWoods 深度学习机器学习神经网络人工智能
原博客：https://mengwoods.github.io/post/dl/009-dl-fundamental/文章目录基本通用概念梯度下降算法数据工程训练技术偏差与方差防止过拟合评估指标决策树基本通用概念机器学习的类型：监督学习（SupervisedLearning）：分类，回归无监督学习（UnsupervisedLearning）：聚类，降维强化学习（ReinforcementLearn
Prompt提示词完整案例：让chatGPT成为“书单推荐”的高手老六哥_AI助理指南 AI提示词案例 prompt chatgpt 人工智能
大家好，我是老六哥，我正在共享使用AI提高工作效率的技巧。欢迎关注我，共同提高使用AI的技能，让AI成功你的个人助理。许多人可能会跟老六哥一样，有过这样的体验：当我们遇到一个能力出众或对事物有独到见解的朋友时，我们往往会认为他们一定经过了特别的学习或培训。我们常向他们请教推荐书目，希望从中获得启发。在互联网上，那些在各自领域表现卓越的人士也乐于分享自己的阅读清单，以此展示他们的专业素养和知识深度。
DeepSeek V3 模型微调（SFT）技术详解 zhangjiaofa 大模型 DeepSeek 模型微调
DeepSeekV3模型微调（SFT）技术详解目录引言背景知识2.1深度学习与预训练模型2.2微调（Fine-tuning）的概念2.3监督微调（SupervisedFine-tuning,SFT）DeepSeekV3模型概述3.1模型架构3.2预训练任务3.3模型性能监督微调（SFT）技术详解4.1数据准备4.1.1数据收集与清洗4.1.2数据标注4.1.3数据增强4.2模型初始化4.2.1预训
AI 集群：Exo 项目详解 ivwdcwso 运维人工智能 AI Exo
引言随着人工智能技术的迅猛发展，越来越多的人希望在家中运行自己的AI集群。传统的AI集群通常需要昂贵的硬件和复杂的配置，但Exo项目正是为了解决这个问题而诞生的。Exo项目旨在让你利用日常电子设备，轻松搭建一个高效的AI集群。本文将详细介绍Exo项目的特点、安装步骤和实战示例。©ivwdcwso(ID:u012172506)Exo项目特点1.广泛的模型支持Exo支持多种流行的AI模型，包括但不限于
使用seaborn绘制相关性热力图 CodeWG python
使用seaborn绘制相关性热力图在数据分析和机器学习中，热力图是一种常见的可视化方法，用于显示不同变量之间的相关性。在Python中，我们可以使用seaborn库绘制相关性热力图。本文将介绍如何使用seaborn中的heatmap函数来绘制相关性热力图，并为读者提供示例代码。首先，我们需要导入必要的库：pandas、numpy和seaborn。我们还使用了matplotlib库以便于展示结果。i
python 监控键盘输入_python 监控键盘输入 weixin_39717121 python 监控键盘输入
软件测试精品文章汇总测试基础python测试开发库及项目谷歌如何测试软件python工具书籍下载-持续更新2018软件测试标准汇总下载python测试开发自学每周一练python测试工具开发自学每周一练-2018-06软件测试工具书籍与面试题汇总下载(持续更新)python测试开发自动化测试数据分析...文章python人工智能命理2019-05-131907浏览量Shell历史记录异地留痕审计与
蛇年鸿运当头：ChatGPT为你送上专属新年祝福码上飞扬 chatgpt 人工智能新年祝福拜年短信
新年伊始，万象更新。在这即将到来的蛇年里，愿我们每个人都能蜕去旧日的沉重，带着新的希冀昂首前行。本篇博客特别为各位精心收集并创作了一份“ChatGPT版”蛇年新春祝福语，涵盖多个群体，让你在辞旧迎新之际，为重要的人们送上最有诚意、最走心的祝愿。一、写给领导的蛇年祝福语（10条）gpt-1o-preview版业绩腾飞：新年新气象，蛇年助您一展宏图，业绩再攀高峰！英明决策：愿您在新的一年思如泉涌，以高
进阶之路：从传统编程到AI大模型与Prompt驱动的爬虫技术大模型老炮人工智能 prompt 爬虫语言模型大模型学习 AI大模型
前言爬虫相信很多人都对此有所了解，它主要依靠编写代码实现对网页结构的解析，通过模拟浏览器行为获取目标数据！随着人工智能技术的发展，LLM大模型的出现为爬虫技术带来了新的思路。与传统的编程模式不同，使用AI大模型+prompt可以显著提高程序员的编程效率。通过结合人工智能和自然语言处理技术，开发者可以更加高效地编写爬虫代码，并实现对网页内容的智能解析和提取。前置内容下面我将通过爬取豆瓣电影top25
开源模型应用落地-qwen模型小试-Qwen2.5-7B-Instruct-LangGraph-链式处理（一）开源技术探险家开源模型-实际应用落地 #深度学习自然语言处理语言模型 langchain
一、前言在当今人工智能快速发展的时代，大语言模型不断迭代升级，为各种复杂任务的处理提供了强大的支持。LangGraph作为一种创新的架构，其链式处理机制为充分发挥LLMs的潜力提供了新的途径。Qwen2.5模型是一款备受瞩目的大语言模型，它具备出色的语言理解和生成能力，在广泛的自然语言处理任务中都展现出了卓越的性能。其在语言的准确性、逻辑性以及对复杂语义的把握上都有着突出的表现，为基于它进行的各类
一文搞懂python的face_recognition人脸识别库码上飞扬 python 开发语言人脸识别
随着人工智能和机器学习的快速发展，人脸识别技术在安全监控、身份验证、智能相册等领域的应用越来越广泛。Python作为一门简洁高效的编程语言，其丰富的库支持使得人脸识别的实现变得更加容易。本文将介绍如何使用Python的face_recognition库来实现基本的人脸识别功能。一、face_recognition库简介1.1什么是face_recognition库？face_recognition
AIGC常见基础概念 GISer_Jinger 人工智能 AIGC 机器学习 ai
AIGC（AIGeneratedContent，人工智能生成内容）是近年来快速发展的领域，涉及文本生成、图像生成、音频生成、视频生成等。以下是AIGC常见的面试题目及其详解：1.AIGC基础概念什么是AIGC？它的主要应用场景有哪些？定义：AIGC是指利用人工智能技术自动生成内容，包括文本、图像、音频、视频等。应用场景：文本生成：新闻写作、广告文案、代码生成（如GitHubCopilot）。图像生
AI时代的人类增强：道德考虑与身体增强的未来发展策略分析预测 AI大模型应用之禅 AI大模型与大数据 java python javascript kotlin golang 架构人工智能
人类增强、AI、道德、身体增强、未来发展策略、预测1.背景介绍人类文明自诞生以来，就一直在探索如何超越自身的局限性。从使用工具到发明火，从农业文明到工业革命，每一次进步都代表着人类对自身能力的提升。如今，人工智能（AI）的快速发展，为人类提供了前所未有的机会，让我们迈向一个全新的时代——AI时代的人类增强时代。AI时代的人类增强，是指通过人工智能技术，提升人类的认知能力、身体能力和生活质量。这不仅
智联未来——打造基于机器学习的MySQL智能运维助手，开启协作新时代墨夶数据库学习资料2 机器学习 mysql 运维
在当今快速发展的信息技术领域，数据库作为信息系统的核心组件，其稳定性和效率直接关系到业务的成功与否。面对日益增长的数据管理和处理需求，传统的运维方式已经难以满足现代企业对高效、稳定服务的要求。为此，越来越多的企业开始探索如何通过智能化手段提升数据库运维水平，特别是利用最新的AI技术和自动化工具来构建一个功能强大的智能运维助手。今天，我们将深入了解如何训练这样一个基于机器学习的MySQL智能运维助手
ztree异步加载 3213213333332132 JavaScript Ajax json Web ztree
相信新手用ztree的时候,对异步加载会有些困惑，我开始的时候也是看了API花了些时间才搞定了异步加载，在这里分享给大家。我后台代码生成的是json格式的数据，数据大家按各自的需求生成，这里只给出前端的代码。设置setting，这里只关注async属性的配置 var setting = { //异步加载配置
thirft rpc 具体调用流程 BlueSkator 中间件 rpc thrift
Thrift调用过程中，Thrift客户端和服务器之间主要用到传输层类、协议层类和处理类三个主要的核心类，这三个类的相互协作共同完成rpc的整个调用过程。在调用过程中将按照以下顺序进行协同工作：（1）将客户端程序调用的函数名和参数传递给协议层（TProtocol），协议
异或运算推导, 交换数据 dcj3sjt126com PHP 异或 ^
/* * 5 0101 * 9 1010 * * 5 ^ 5 * 0101 * 0101 * ----- * 0000 * 得出第一个规律: 相同的数进行异或, 结果是0 * * 9 ^ 5 ^ 6 * 1010 * 0101 * ---- * 1111 * * 1111 * 0110 * ---- * 1001
事件源对象周华华 JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
MySql配置及相关命令 g21121 mysql
MySQL安装完毕后我们需要对它进行一些设置及性能优化，主要包括字符集设置，启动设置，连接优化，表优化，分区优化等等。一修改MySQL密码及用户
[简单]poi删除excel 2007超链接 53873039oycg Excel
采用解析sheet.xml方式删除超链接，缺点是要打开文件2次,代码如下: public void removeExcel2007AllHyperLink(String filePath) throws Exception { OPCPackage ocPkg = OPCPac
Struts2添加 open flash chart 云端月影
准备以下开源项目： 1. Struts 2.1.6 2. Open Flash Chart 2 Version 2 Lug Wyrm Charmer (28th, July 2009) 3. jofc2，这东西不知道是没做好还是什么意思，好像和ofc2不怎么匹配，最好下源码，有什么问题直接改。 4. log4j 用eclipse新建动态网站，取名OFC2Demo，将Struts2 l
spring包详解 aijuans spring
下载的spring包中文件及各种包众多，在项目中往往只有部分是我们必须的，如果不清楚什么时候需要什么包的话，看看下面就知道了。 aspectj目录下是在Spring框架下使用aspectj的源代码和测试程序文件。Aspectj是java最早的提供AOP的应用框架。 dist 目录下是Spring 的发布包，关于发布包下面会详细进行说明。 docs&nb
网站推广之seo概念 antonyup_2006 算法 Web 应用服务器搜索引擎 Google
持续开发一年多的b2c网站终于在08年10月23日上线了。作为开发人员的我在修改bug的同时，准备了解下网站的推广分析策略。所谓网站推广，目的在于让尽可能多的潜在用户了解并访问网站，通过网站获得有关产品和服务等信息，为最终形成购买决策提供支持。网站推广策略有很多，seo，email，adv
单例模式,sql注入,序列百合不是茶单例模式序列 sql注入预编译
序列在前面写过有关的博客,也有过总结,但是今天在做一个JDBC操作数据库的相关内容时需要使用序列创建一个自增长的字段居然不会了,所以将序列写在本篇的前面 1,序列是一个保存数据连续的增长的一种方式; 序列的创建; CREATE SEQUENCE seq_pro 2 INCREMENT BY 1 -- 每次加几个 3
Mockito单元测试实例 bijian1013 单元测试 mockito
Mockito单元测试实例： public class SettingServiceTest { private List<PersonDTO> personList = new ArrayList<PersonDTO>(); @InjectMocks private SettingPojoService settin
精通Oracle10编程SQL(9)使用游标 bijian1013 oracle 数据库 plsql
/* *使用游标 */ --显示游标 --在显式游标中使用FETCH...INTO语句 DECLARE CURSOR emp_cursor is select ename,sal from emp where deptno=1; v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; begin ope
【Java语言】动态代理 bit1129 java语言
JDK接口动态代理 JDK自带的动态代理通过动态的根据接口生成字节码(实现接口的一个具体类)的方式，为接口的实现类提供代理。被代理的对象和代理对象通过InvocationHandler建立关联 package com.tom; import com.tom.model.User; import com.tom.service.IUserService;
Java通信之URL通信基础白糖_ java jdk webservice 网络协议 ITeye
java对网络通信以及提供了比较全面的jdk支持，java.net包能让程序员直接在程序中实现网络通信。在技术日新月异的现在，我们能通过很多方式实现数据通信，比如webservice、url通信、socket通信等等，今天简单介绍下URL通信。学习准备：建议首先学习java的IO基础知识 URL是统一资源定位器的简写，URL可以访问Internet和www，可以通过url
博弈Java讲义 - Java线程同步 (1) boyitech java 多线程同步锁
在并发编程中经常会碰到多个执行线程共享资源的问题。例如多个线程同时读写文件，共用数据库连接，全局的计数器等。如果不处理好多线程之间的同步问题很容易引起状态不一致或者其他的错误。同步不仅可以阻止一个线程看到对象处于不一致的状态，它还可以保证进入同步方法或者块的每个线程，都看到由同一锁保护的之前所有的修改结果。处理同步的关键就是要正确的识别临界条件（cri
java-给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 bylijinnan java
public class DeleteExtraSpace { /** * 题目：给定字符串，删除开始和结尾处的空格，并将中间的多个连续的空格合并成一个。 * 方法1.用已有的String类的trim和replaceAll方法 * 方法2.全部用正则表达式，这个我不熟 * 方法3.“重新发明轮子”，从头遍历一次 */ public static v
An error has occurred.See the log file错误解决！ Kai_Ge MyEclipse
今天早上打开MyEclipse时，自动关闭！弹出An error has occurred.See the log file错误提示！很郁闷昨天启动和关闭还好着！！！打开几次依然报此错误，确定不是眼花了！打开日志文件！找到当日错误文件内容： --------------------------------------------------------------------------
[矿业与工业]修建一个空间矿床开采站要多少钱? comsci
地球上的钛金属矿藏已经接近枯竭........... 我们在冥王星的一颗卫星上面发现一些具有开采价值的矿床..... 那么,现在要编制一个预算,提交给财政部门..
解析Google Map Routes dai_lm google api
为了获得从A点到B点的路劲，经常会使用Google提供的API，例如 [url] http://maps.googleapis.com/maps/api/directions/json?origin=40.7144,-74.0060&destination=47.6063,-122.3204&sensor=false [/url] 从返回的结果上，大致可以了解应该怎么走，但
SQL还有多少“理所应当”？ datamachine sql
转贴存档，原帖地址：http://blog.chinaunix.net/uid-29242841-id-3968998.html、http://blog.chinaunix.net/uid-29242841-id-3971046.html！ ------------------------------------华丽的分割线--------------------------------
Yii使用Ajax验证时，如何设置某些字段不需要验证 dcj3sjt126com Ajax yii
经常像你注册页面,你可能非常希望只需要Ajax去验证用户名和Email,而不需要使用Ajax再去验证密码,默认如果你使用Yii 内置的ajax验证Form,例如: $form=$this->beginWidget('CActiveForm', array( 'id'=>'usuario-form',&
使用git同步网站代码 dcj3sjt126com crontab git
转自:http://ued.ctrip.com/blog/?p=3646?tn=gongxinjun.com 管理一网站，最开始使用的虚拟空间，采用提供商支持的ftp上传网站文件，后换用vps，vps可以自己搭建ftp的，但是懒得搞，直接使用scp传输文件到服务器，现在需要更新文件到服务器，使用scp真的很烦。发现本人就职的公司，采用的git+rsync的方式来管理、同步代码，遂
sql基本操作蕃薯耀 sql sql基本操作 sql常用操作
sql基本操作 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月1日 17:30:33 星期一 &
Spring4+Hibernate4+Atomikos3.3多数据源事务管理 hanqunfeng Hibernate4
Spring3+后不再对JTOM提供支持，所以可以改用Atomikos管理多数据源事务。Spring2.5+Hibernate3+JTOM参考：http://hanqunfeng.iteye.com/blog/1554251Atomikos官网网站：http://www.atomikos.com/ 一.pom.xml <dependency> <
jquery中两个值得注意的方法one()和trigger()方法 jackyrong trigger
在jquery中，有两个值得注意但容易忽视的方法，分别是one()方法和trigger()方法,这是从国内作者<<jquery权威指南》一书中看到不错的介绍 1） one方法 one方法的功能是让所选定的元素绑定一个仅触发一次的处理函数，格式为 one(type,${data},fn) &nb
拿工资不仅仅是让你写代码的 lampcy 工作面试咨询
这是我对团队每个新进员工说的第一件事情。这句话的意思是，我并不关心你是如何快速完成任务的，哪怕代码很差，只要它像救生艇通气门一样管用就行。这句话也是我最喜欢的座右铭之一。这个说法其实很合理：我们的工作是思考客户提出的问题，然后制定解决方案。思考第一，代码第二，公司请我们的最终目的不是写代码，而是想出解决方案。话粗理不粗。付你薪水不是让你来思考的，也不是让你来写代码的，你的目的是交付产品
架构师之对象操作----------对象的效率复制和判断是否全为空 nannan408 架构师
1.前言。如题。 2.代码。 (1)对象的复制，比spring的beanCopier在大并发下效率要高，利用net.sf.cglib.beans.BeanCopier Src src=new Src(); BeanCopier beanCopier = BeanCopier.create(Src.class, Des.class, false);
ajax 被缓存的解决方案 Rainbow702 JavaScript jquery Ajax cache 缓存
使用jquery的ajax来发送请求进行局部刷新画面，各位可能都做过。今天碰到一个奇怪的现象，就是，同一个ajax请求，在chrome中，不论发送多少次，都可以发送至服务器端，而不会被缓存。但是，换成在IE下的时候，发现，同一个ajax请求，会发生被缓存的情况，只有第一次才会被发送至服务器端，之后的不会再被发送。郁闷。解决方法如下： ① 直接使用 JQuery提供的 “cache”参数，
修改date.toLocaleString()的警告 tntxia String
我们在写程序的时候，经常要查看时间，所以我们经常会用到date.toLocaleString()，但是date.toLocaleString()是一个过时的API，代替的方法如下： package com.tntxia.htmlmaker.util; import java.text.SimpleDateFormat; import java.util.
项目完成后的小总结 xiaomiya js 总结项目
项目完成了，突然想做个总结但是有点无从下手了。做之前对于客户端给的接口很模式。然而定义好了格式要求就如此的愉快了。先说说项目主要实现的功能吧 1，按键精灵 2，获取行情数据 3，各种input输入条件判断 4，发送数据（有json格式和string格式） 5，获取预警条件列表和预警结果列表， 6，排序， 7，预警结果分页获取 8，导出文件（excel，text等） 9，修

偏好对齐RLHF-OpenAI·DeepMind·Anthropic对比分析

OpenAI

样本构建

奖励模型

RLHF

DeepMind

样本构建

奖励模型

RLHF

Anthropic

样本构建

奖励模型

RLHF

对比总结

RLHF究竟学了啥？

偏好对齐使用RL和SFT的差异？

什么模型适合作为RLHF的初始模型？

你可能感兴趣的:(人工智能,chatgpt,深度学习,机器学习)