Hellespontus

【LLM】“幻觉”的缓解方法

Hallucination

What’s Hallucination 什么是幻觉

在大型语言模型（LLM）中生成与现实或已知事实不符的信息。

幻觉的类型

上下文冲突型（Context-Conflicting Hallucination）
事实冲突型（Fact-Conflicting Hallucination）

下面是一些不同类型的幻觉的例子

输入冲突型幻觉（Input-conflicting Hallucination）
- 用户描述：用户提到和朋友Hill一起打篮球的经历，包括在场上花费的时间以及对这个游戏的热爱如何把他们作为好朋友更紧密地联系在一起。
- 模型响应：模型错误地将“Hill”改为了“Lucas”，并声称这让他们成为了好朋友，这与用户输入的信息不符。
上下文冲突型幻觉（Context-conflicting Hallucination）
- 用户描述：用户请求关于NBA总裁的信息。
- 模型响应：模型提供了关于当前NBA总裁Adam Silver的信息，但在描述中错误地提到了前NBA总裁David Stern的观点，造成了上下文的冲突。
事实冲突型幻觉（Fact-conflicting Hallucination）
- 用户描述：用户询问葡萄牙第三任国王Afonso II的母亲是谁。
- 模型响应：模型错误地声称Afonso II的母亲是Queen Urraca of Castile，而事实上她并不是。

Mitigation of LLM Hallucination 缓解大型语言模型中的幻觉

预训练期间的缓解（Pre-training Mitigation）

在预训练阶段减少幻觉产生的策略——Data Cleansing。

监督微调期间的缓解（Mitigation during SFT）

下图中的左侧圆形区域代表LLMs（大型语言模型）的参数知识，而右侧圆形区域代表SFT（监督微调）数据。两个区域的重叠部分旁边有一句话：“Teach LLMs to hallucinate”，这暗示了SFT数据中的样本通常包含超出LLMs参数知识范围的信息，这可能会导致幻觉现象，也就是在生成输出时产生不准确或不相关的信息。

这说明SFT数据在训练LLMs时，可能会引导模型学习到错误的信息或教会模型“幻觉”，特别是当数据包含超出模型参数知识范围的样本时。简而言之，这张图通过视觉方式表达了在SFT过程中存在的一个潜在风险：在超出LLMs已有知识范围的数据中进行训练，可能会导致模型生成不准确的信息。

基于人类反馈的强化学习期间的缓解（Mitigation during RLHF）

表格列出了五种不同的情况，每种情况都对应一个奖励值，这是在强化学习（Reinforcement Learning, RL）中减轻大型语言模型（Large Language Models, LLMs）产生幻觉（hallucinations）的一种奖励设计示例。

表中的每种情况如下：

Unhedged Correct (未设防正确): 当LLM的回答是正确且没有保留的时，奖励值为+1。
Hedged Correct (设防正确): 当LLM给出了一个正确但带有保留的回答时，奖励值为+0.5。
Uninformative (无信息的): 当LLM的回答没有提供有用信息时，奖励值为0。
Hedged Wrong (设防错误): 当LLM的回答是错误的但带有保留时，奖励值为-2。
Unhedged Wrong (未设防错误): 当LLM的回答是错误的且没有保留时，奖励值为-4。

这个表格的目的是展示如何通过RL来调整LLMs的行为，鼓励它们给出正确的信息，并减少错误的信息。奖励值较高的情况会被模型视为更加理想的输出，因此模型在未来的行为中会更倾向于重复这些情况。相反，负的奖励值会使模型避免在未来的输出中重复相应的行为。这种方法旨在通过对正确和错误回答的不同“惩罚”和“奖励”，帮助模型学习如何减少幻觉现象。

推理阶段的缓解（Mitigation during Inference）

缓解策略

设计解码策略（Designing Decoding Strategies）
利用外部知识（Resorting to External Knowledge）
利用不确定性（Exploiting Uncertainty）

现在有两种使用外部知识减少LLMs在生成回应时的幻觉的方式，能够提高回答的准确性和可靠性

第一种方法是**“Generation-time Supplement” (生成时补充)*

用户提出查询（User Query）。
知识检索器（Knowledge Retriever）基于用户查询检索信息。
知识被传递给LLM。
LLM结合检索的知识生成最终回应（Final Response）。

这个过程强调在生成回答之前先获取外部知识，确保LLM的回答基于最准确和最新的信息。

第二种方法是**“Post-hoc Correction” (事后修正)**:

用户提出查询。
LLM直接生成中间回应（Intermediate Response）。
修正器（Fixer）使用外部知识源（如知识库、代码执行器和搜索引擎）对LLM的初步回答进行修正。
经过修正后得到最终回应。

这个过程强调在LLM生成回答之后再进行修正，利用外部知识源校正任何不准确或不相关的信息，减少幻觉现象。

LLMs处理复杂问题

下图展示了利用大型语言模型（LLMs）解决问题的四种不同方法

(a) Input-Output Prompting (IO): 这是最简单的方法，直接从输入到输出。

(b) Chain of Thought Prompting (CoT): 这种方法使用一系列中间步骤（或“思路”），这些步骤被串联起来导向最终的输出。

© Self Consistency with CoT (CoT-SC): 这种方法在CoT的基础上增加了自我一致性的检查，可能通过多次迭代和多数投票来确定最终的输出。

(d) Tree of Thoughts (ToT): 这个过程形成了一个思路的树，其中每个矩形代表一个“思路”，这是解决问题的一个中间步骤。在这个方法中，思路会被生成、评估，并搜索最佳路径以产生最终输出。图中的绿色和红色箭头代表了思路的评估过程，其中绿色代表正面评估，红色代表负面评估。

我们通过不同的策略引导LLMs以更加结构化和连贯的方式来解决复杂问题。这些方法有助于提高LLMs的输出质量，通过更详细的中间步骤来减少错误和提高逻辑连贯性。

RAG：检索增强生成（Retrieval Augmented Generation）

RAG的概念：解释RAG的基本概念和功能。

RAG的工作机制：介绍RAG如何结合检索步骤以获取正确的信息。

知识库的索引和使用：探讨如何利用知识库和嵌入（embeddings）来寻找最佳的知识片段。

下图是RAG的流程图，展示了使用预训练检索器和序列到序列模型（seq2seq model）的复合方法的原理：

Query Encoder：首先，用户的查询（比如一个问题或一个需验证的事实）通过一个查询编码器（Query Encoder）转换成一个查询向量（q(x)）。这个查询编码器是预训练的。
Retriever：接着，使用最大内积搜索（Maximum Inner Product Search，MIPS）在一个非参数化的文档索引（Retriever p_n）中找到与查询向量相关度最高的文档（d(z)）。这些文档包含了可能对回答查询有帮助的信息。
Generator：然后，选取的文档被送入一个参数化的生成器（Generator pθ），它是一个序列到序列模型。这个生成器利用查询向量和相关文档生成一个或多个可能的回答。
Marginlize：最后，模型将生成的回答进行边缘化（Marginlize），以得出最终预测（y）。这意味着，如果生成器产生了多个回答，模型会评估这些回答并选择最好的一个作为最终输出。

图中展示了RAG在不同任务上的应用，包括定义查询（Define “middle ear”），问题回答（Question Answering），事实验证（Fact Verification）和问题生成（Jeopardy Question Generation）。通过结合检索到的信息和生成器的预测能力，RAG旨在提高最终输出的质量和准确性。

Define “middle ear”（定义“中耳”）:
- 这是一个定义查询的例子。用户想要知道“中耳”是什么。在这个例子中，模型将利用检索器找到关于“中耳”的相关文档或信息，然后生成器基于这些信息生成定义。最终输出可能是“中耳包括鼓膜腔和三个听骨。”
Barack Obama was born in Hawaii.（巴拉克·奥巴马出生在夏威夷。）:
- 这是一个事实验证查询的例子。在这种情况下，用户提供了一个需要验证的陈述。RAG模型会检索相关文档来确认这个陈述是否正确。这个过程可能包括查找奥巴马的出生地信息，并最终生成一个支持该事实的标签，确认这个陈述是正确的。
The Divine Comedy（《神曲》）:
- 这是一个生成问题的例子，比如在智力竞赛节目“危险边缘”（Jeopardy）中使用的问题。在这个例子中，用户提供了一个答案（在这个节目中，参赛者是根据答案来提出问题的）。RAG模型将检索与“神曲”相关的信息，然后生成一个合适的问题。比如，生成器可能会生成这样一个问题：“这部14世纪的作品被分为三个部分：‘地狱’、‘炼狱’和‘天堂’”。

RAG的整个流程强调了端到端训练（End-to-End Training）的重要性，其中查询编码器和生成器都可以通过反向传播进行微调，以优化整个系统的性能。

下图详细说明了检索增强生成（Retrieval-Augmented Generation, RAG）的工作流程，包括三个主要阶段：索引（Indexing）、检索（Retrieval）和增强回答生成（Augmented Answer Generation）

索引（Indexing）:
- 过程从Loader开始，它负责从Knowledge Base加载文档。
- 接下来，Splitter将加载的文档分割成更小的Document Snippets，以便更精确地检索信息。
- Embedding Machine对这些文档片段生成嵌入向量（Embeddings），这些嵌入向量是文档内容的数学表示。
  
  Embedding Machine会将单词或短语转换为代表其意义的高维空间中的点，意思相近的距离会更近
- 这些嵌入向量存储在Vector Database中，方便后续检索。
  
  向量数据库（Vector Database）: 存储嵌入向量的数据库，它允许快速的相似性查询。在RAG模型中，当用户提出查询时，模型会在这个数据库中查找与查询最相关的知识片段的向量表示
检索（Retrieval）:
- 当用户提出一个问题时，该问题也通过Embedding Machine转换成嵌入向量。
- 使用这个嵌入向量，在Vector Database中执行“closeness”查询，以找到与用户问题内容最接近的Relevant Snippets。
  
  用户问题通过嵌入机器转换成向量，并且在Vector Database中找到距离最近的知识片段
增强回答生成（Augmented Answer Generation）:
- 检索到的相关片段被送入大型语言模型（LLM），LLM考虑这些相关片段生成对用户问题的回答。
- 通过这种方式，LLM能够利用额外的、特定于问题的信息来生成更准确、更相关的答案，而不仅仅是依赖它的预训练知识。

整个RAG的工作流程利用了两种类型的模型：一个是用于生成嵌入向量的Embedding Machine，另一个是用于生成答案的语言模型（LLM）。这种结合了检索和生成的方法使得模型在处理复杂查询时更加强大，尤其是在需要理解和引用外部信息源的情况下。

在实际的gpt-3.5-turbo的调用中，messages数组包含了三个不同角色的信息：system、sources和user：

system角色提供了一个或多个提示（prompts），这可能包括了模型生成回答前需要的任何上下文或指示。

sources角色包含了格式化的文档，这些文档可能是从知识库中检索到的，并被预处理为模型可以理解和使用的格式。

user角色包含了实际的问题，这是想要得到答案的查询。

这个流程模拟了RAG模型的工作方式，其中语言模型不仅依赖内建的知识库，还结合了外部文档来生成回答。在实际应用中，系统可以使用这样的代码结构来执行RAG的检索步骤，将检索到的信息以及用户的问题输入到语言模型中，然后生成增强的回答。

RLHF：Reinforcement Learning from Human Feedback 基于人类反馈的强化学习

InstructGPT的介绍：解释InstructGPT的概念和用途。

预训练语言模型（Pretraining Language Models）：探讨在预训练阶段为RLHF做准备的步骤。

奖励模型训练（Reward Model Training）：介绍如何训练奖励模型来映射输入文本到标量奖励。

使用奖励模型的RL微调（RL Fine-tuning with a Reward Model）：详细说明如何利用奖励模型进行微调。

利用人类反馈进行强化学习（RLHF）优化一个语言模型输出的过程有如下三步：

收集演示数据，并训练一个监督策略:
- 从数据集中抽取一个提示，例如“向六岁小孩解释月球登陆”。
- 标注者（labeler）提供了期望的输出行为，比如一个简单且易于理解的解释。
- 这些演示数据被用来通过监督学习微调GPT-3模型，让模型学会生成类似的回答。
收集比较数据，并训练一个奖励模型:
- 采样一个提示并生成多个模型输出，输出示例可能是关于月球登陆的不同解释。
- 标注者对这些输出按照质量从最好到最差进行排序。
- 这些排序数据用来训练奖励模型，奖励模型能够对输出的质量进行评分。
使用强化学习根据奖励模型优化策略:
- 从数据集中抽取一个新的提示，如“写一个关于青蛙的故事”。
- 策略生成输出，例如一个有关青蛙的故事。
- 奖励模型基于输出计算奖励值。
- 这个奖励被用来通过算法（例如PPO, Proximal Policy Optimization）更新策略，以改善模型未来的输出。

Pretraining language models

提示与文本数据集（Prompts & Text Dataset）：这部分代表训练语言模型所需的数据，包括各种文本提示和相应的文本样本。
初始语言模型训练（Train Language Model）：这显示了使用上述数据集对初始语言模型进行训练的过程。模型的训练旨在理解和生成自然语言。
人类增强文本（Human Augmented Text）（可选）：这是一个可选步骤，表示除了已有的数据集之外，还可以加入由人类编写的高质量文本。这些文本可能用于提供更复杂或更多样化的示例，帮助模型学习更丰富的语言表达
Optional step:
- Pay humans to write responses to existing prompts($$$)
- Considered high quality initialization for RLHF
Supervised Fine Tuning (SFT)：使用上述人类编写的响应对模型进行监督式微调。目的是根据人类编写的高质量响应来调整模型的预测，使其能够产生更准确、更符合用户期望的输出。

Reward model training

这张图描述了强化学习从人类反馈（RLHF）流程中的奖励模型训练部分。图中展示了从数据集采样、初始语言模型的使用，以及如何依靠人类评分来训练一个奖励模型。以下是详细步骤：

提示数据集（Prompts Dataset）: 包含用于训练的不同文本提示。这些提示是奖励模型训练的起点，通常特定于模型将要执行的任务。
初始语言模型（Initial Language Model）: 这表示一个已经预训练的语言模型，它可以生成基于提示的文本输出。
生成文本（Generated text）: 根据提示数据集，初始语言模型会生成多个文本输出。
人类评分（Human Scoring）: 接下来，人类评价者会对这些文本输出进行评分，根据质量对它们进行排序，如使用ELO评分系统等。
奖励（偏好）模型（Reward (Preference) Model）: 评分数据用于训练一个奖励模型，这个模型的目标是能够将输入文本映射到一个标量奖励值。这意味着奖励模型可以根据输入的文本评估其质量，并给出一个数值奖励。

目标（Goal）: 训练出一个能够将输入文本映射到一个标量奖励的模型。
提示（input）数据集: 这些提示是为特定用例模型准备的，并且是原始预训练数据集的一个子集，可能是聊天问题或基于提示的数据。
生成数据排名（Generating data to rank）: 可以使用多个模型生成不同的排名以增加多样性，提示集可以来源于用户数据（例如ChatGPT）。

loss函数

在Reward model training中，loss函数如下定义
$loss(\theta) = -E_{(x,y_j,y_k)\sim D}[log(\sigma(r_\theta(x, y_j) - r_\theta (x,y_k)))]$
该公式描述了一个用于优化奖励模型参数的损失函数。这里的损失函数是预期的对数损失，用于对比两个输出 y_j和y_k的奖励预测r_θ。

θ：奖励模型的参数。
E(x,y_j,y_k)~D ：期望是在数据分布D上计算的，这个分布包括输入x和一对输出y_j和y_k。
σ：Sigmoid函数，它将实数映射到(0, 1)区间，通常用于二分类问题中。
r_θ(x, y_j)和r_θ(x, y_k)：奖励模型对于给定输入x和输出y_j或y_k的奖励预测。

损失函数的目标是最大化正确输出相对于不正确输出的对数概率。换句话说，如果y_j是比y_k更好的输出（基于人类评价），那么奖励模型应该给y_j一个更高的奖励预测值。

loss函数的代码实现如下

class RewardTrainer(Trainer):
    def compute_loss(self, model, inputs, return_outputs=False):
        rewards_j = model(inputs_ids=inputs["inputs_ids_j"], attention_mask=inputs["attention_mask_j"])
        rewards_k = model(inputs_ids=inputs["inputs_ids_k"], attention_mask=inputs["attention_mask_k"])
        loss = -nn.functional.logsigmoid(reward_j - reward_k).mean()
        if return_outputs:
            return loss, {"rewards_j": rewards_j, "rewards_k": rewards_k}
        return loss

我们定义了一个类 RewardTrainer，它继承自 Trainer 类，其中包含一个方法 compute_loss 用于计算上述损失函数。

compute_loss 方法接收模型和输入，不返回模型输出（return_outputs=False）。
model(input_ids_j, attention_mask_j) 和 model(input_ids_k, attention_mask_k) 分别计算对应于输入 j 和 k 的奖励值。
loss 计算两个奖励值的对数sigmoid差的均值，这与上面的损失函数公式相匹配。

if return_outputs: 条件判断是否需要返回模型输出。如果是，那么除了返回损失值外，还会返回每个输入的奖励值。

Fine-tuning with RL

这张图展示了使用强化学习（RL）进行微调（Fine-tuning）的过程，它结合了奖励模型和KL散度（Kullback-Leibler divergence）来优化语言模型的策略

初始语言模型（Initial Language Model）：我们从一个训练过的初始语言模型开始。这个模型已经能够生成基础的文本。例如，对于提示“a dog is”，它可能生成“a furry mammal”，这是一个准确的描述。
调整语言模型（Tuned Language Model (RL Policy)）：通过强化学习，特别是通过一种称为PPO（Proximal Policy Optimization）的算法，语言模型得到了微调，以生成更符合特定目标的文本。例如，对于同样的提示，“a dog is”，经过微调的模型可能会生成“man’s best friend”，这是一个更具情感色彩和人类视角的描述。
奖励（偏好）模型（Reward (Preference) Model）：奖励模型用来评估生成文本的质量，并给出一个奖励值。这个模型基于之前的反馈学习判断哪些输出是优质的。
KL散度（KL Divergence）：KL散度是一个衡量两个概率分布差异的指标。在这个上下文中，它被用来确保微调过程不会导致语言模型生成无意义的内容（gibberish），即避免愚弄奖励模型。通过这个机制，模型被约束在生成有意义的、与初始模型的输出相似度较高的文本。

$D_{KL}(P \parallel Q) = \sum_{x \in \mathcal{X}} P(x) \log\left(\frac{P(x)}{Q(x)}\right)$

其中P和Q是两个概率分布，x是事件的集合。
最终的奖励函数（Final Reward Function）：
$\beta KL(x, y)$
这个函数结合了奖励模型给出的奖励值r(x,y)和KL散度项KL(x,y)。这样做的目的是在奖励生成好的回答的同时，通过KL项惩罚那些偏离初始模型行为太多的输出。参数β控制了KL散度项的权重。

在图中的流程示例中，初始模型生成了基本的描述“a furry mammal”，而细调后的模型生成了更具情感色彩的“man’s best friend”。然后，这些生成的文本被奖励模型评估，同时考虑到它们与初始模型的偏差（通过KL散度）。最终，这个综合考虑了奖励和KL散度的函数用来更新语言模型的参数，以生成更优质的文本。

总结一下使用强化学习（Reinforcement Learning, RL）来优化语言模型（LM）的过程

Rollout：首先，有一个查询（Query），比如一个数学问题“2x4是多少？”（Q: What is 2x4?）。这个查询被输入到语言模型（例如LaMa），语言模型产生一个回应（Response），比如“8”（A: 8）。
Evaluation：接着，这个查询和它的响应一起被用来评估。它们被送入奖励模型（例如LaMa-RM），奖励模型会评估这个回应的质量，并给出一个奖励（Reward），在这个例子中是1.0。这意味着模型生成的回答是正确的。
Optimization：最后，优化过程开始。查询和响应再次被输入到语言模型，产生log-probabilities（log-probs），这是模型评估每个可能输出概率的对数值。同时，有一个参考模型（Reference model），它也产生对同一输出的log-probs。这两个log-probs被用来计算KL散度（KL-div），它是两个概率分布之间差异的度量。

然后，通过策略梯度方法（如PPO算法）结合奖励和KL散度来优化模型。PPO会推动模型产生高奖励的回应，同时通过KL散度来保证生成的回应不会偏离原始模型太远，以防止模型学到产生无意义的输出。

在这个特定的例子中，“2x4”问题的正确回答“8”被奖励模型评估为正面的，这将被用来通过RL进一步优化语言模型，使其更可能在未来产生正确的答案。

TRL微调实战

https://github.com/huggingface/trl

import torch
from tqdm import tqdm
import pandas as pd

tqdm.pandas()

from transformers import pipeline, AutoTokenizer
from datasets import load_dataset

from trl import PPOTrainer, PPOConfig, AutoModelForCausalLMWithValueHead
from trl.core import LengthSampler

Configuration

config = PPOConfig(
    model_name="lvwerra/gpt2-imdb",
    learning_rate=1.41e-5,
    log_with="wandb",
)

sent_kwargs = {"return_all_scores": True, "function_to_apply": "none", "batch_size": 16}

import wandb

wandb.init()

You can see that we load a GPT2 model called gpt2_imdb. This model was additionally fine-tuned on the IMDB dataset for 1 epoch with the huggingface script (no special settings). The other parameters are mostly taken from the original paper “Fine-Tuning Language Models from Human Preferences”. This model as well as the BERT model is available in the Huggingface model zoo here. The following code should automatically download the models.

Load data and models

Load IMDB dataset

The IMDB dataset contains 50k movie review annotated with “positive”/“negative” feedback indicating the sentiment. We load the IMDB dataset into a DataFrame and filter for comments that are at least 200 characters. Then we tokenize each text and cut it to random size with the LengthSampler.

model_name = '../../gpt2-imdb/'
dataset_name = '../../imdb/'

# 由于huggingface国内被墙，我这里采用本地加载
def build_dataset(model_name = '../../gpt2-imdb/', dataset_name="../../imdb/", input_min_text_length=2, input_max_text_length=8):
    """
    Build dataset for training. This builds the dataset from `load_dataset`, one should
    customize this function to train the model on its own dataset.

    Args:
        dataset_name (`str`):
            The name of the dataset to be loaded.

    Returns:
        dataloader (`torch.utils.data.DataLoader`):
            The dataloader for the dataset.
    """
    # 加载预训练模型的 tokenizer
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    tokenizer.pad_token = tokenizer.eos_token  # 设置 pad token 为 eos token

    # 加载 IMDb 数据集
    ds = load_dataset(dataset_name, split="train")  # 加载数据集，这里数据集已在本地
    ds = ds.rename_columns({"text": "review"})  # 重命名列名 'text' 为 'review'
    ds = ds.filter(lambda x: len(x["review"]) > 200, batched=False)  # 过滤，只保留长度超过200的评论

    # 随机选择输入文本的长度
    input_size = LengthSampler(input_min_text_length, input_max_text_length)

    def tokenize(sample):
        # 对样本进行分词
        sample["input_ids"] = tokenizer.encode(sample["review"])[: input_size()]
        sample["query"] = tokenizer.decode(sample["input_ids"])
        return sample

    # 对数据集应用分词函数
    ds = ds.map(tokenize, batched=False)
    ds.set_format(type="torch")  # 设置数据集格式为 PyTorch
    return ds

# 创建数据集
dataset = build_dataset()

def collator(data):
    # 数据整合器，用于整合批次数据
    return dict((key, [d[key] for d in data]) for key in data[0])

dataset

### Output:
### Dataset({
###     features: ['review', 'label', 'input_ids', 'query'],
###     num_rows: 24895
### })

Load pre-trained GPT2 language models

We load the GPT2 model with a value head and the tokenizer. We load the model twice; the first model is optimized while the second model serves as a reference to calculate the KL-divergence from the starting point. This serves as an additional reward signal in the PPO training to make sure the optimized model does not deviate too much from the original language model.

# 加载预训练的因果语言模型（含价值头）
model = AutoModelForCausalLMWithValueHead.from_pretrained(model_name)

# 加载参考模型
ref_model = AutoModelForCausalLMWithValueHead.from_pretrained(model_name)
# 加载 tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_name)
tokenizer.pad_token = tokenizer.eos_token  # 设置 pad token 为 eos token

Initialize PPOTrainer

The PPOTrainer takes care of device placement and optimization later on:

# 创建 PPO 训练器
ppo_trainer = PPOTrainer(config, model, ref_model, tokenizer, dataset=dataset, data_collator=collator)

Load BERT classifier

We load a BERT classifier fine-tuned on the IMDB dataset.

device = ppo_trainer.accelerator.device
if ppo_trainer.accelerator.num_processes == 1:
    device = 0 if torch.cuda.is_available() else "cpu"  # to avoid a `pipeline` bug
sentiment_pipe = pipeline("sentiment-analysis", model="../../distilbert-imdb", device=device)

The model outputs are the logits for the negative and positive class. We will use the logits for positive class as a reward signal for the language model.

text = "this movie was really bad!!"
sentiment_pipe(text, **sent_kwargs)

### Output:
### [[{'label': 'NEGATIVE', 'score': 2.3350484371185303},
###   {'label': 'POSITIVE', 'score': -2.726576566696167}]]

text = "this movie was really good!!"
sentiment_pipe(text, **sent_kwargs)

### Output:
### [[{'label': 'NEGATIVE', 'score': -2.294790029525757},
###   {'label': 'POSITIVE', 'score': 2.557040214538574}]]

Generation settings

For the response generation we just use sampling and make sure top-k and nucleus sampling are turned off as well as a minimal length.

gen_kwargs = {
    "min_length": -1,   # 设置生成文本的最小长度。这里设置为-1可能表示不设置最小长度限制。
    "top_k": 0.0,       # Top-K 采样的K值。设置为0表示不使用 Top-K 采样。
    "top_p": 1.0,       # 核采样（Nucleus Sampling）的P值。设置为1表示包含全部词汇，即不使用核采样。
    "do_sample": True,  # 设置为True表示在生成时进行随机采样。这使得生成的文本更具随机性和多样性。
    "pad_token_id": tokenizer.eos_token_id  # 设置填充（padding）标记的ID。这里将其设置为结束符（EOS）的ID。
}

Optimal model

Training loop

The training loop consists of the following main steps:

Get the query responses from the policy network (GPT-2)
Get sentiments for query/responses from BERT
Optimize policy with PPO using the (query, response, reward) triplet

Training time

This step takes 2h on a V100 GPU with the above specified settings.

# 设置生成文本的最小和最大长度
output_min_length = 4
output_max_length = 16
output_length_sampler = LengthSampler(output_min_length, output_max_length)

# 配置生成文本的参数
generation_kwargs = {
    "min_length": -1,              # 最小长度设置为 -1，表示不限制
    "top_k": 0.0,                  # 不使用 Top-K 采样
    "top_p": 1.0,                  # 不使用核采样
    "do_sample": True,             # 使用随机采样
    "pad_token_id": tokenizer.eos_token_id,  # 填充标记 ID 设置为 EOS
}

# 训练循环
for epoch, batch in tqdm(enumerate(ppo_trainer.dataloader)):
    query_tensors = batch["input_ids"]  # 获取查询的张量表示

    # 用gpt2生成响应
    response_tensors = []
    for query in query_tensors:
        gen_len = output_length_sampler()  # 根据采样器确定生成长度
        generation_kwargs["max_new_tokens"] = gen_len  # 设置最大生成令牌数
        response = ppo_trainer.generate(query, **generation_kwargs)  # 生成响应
        response_tensors.append(response.squeeze()[-gen_len:])  # 取生成的最后 gen_len 个令牌
    batch["response"] = [tokenizer.decode(r.squeeze()) for r in response_tensors]  # 解码响应

    # 计算奖励（例如情感得分）
    texts = [q + r for q, r in zip(batch["query"], batch["response"])]  # 组合查询和响应
    pipe_outputs = sentiment_pipe(texts, **sent_kwargs)  # 计算情感分数
    rewards = [torch.tensor(output[1]["score"]) for output in pipe_outputs]  # 提取分数作为奖励

    # 执行 PPO 步骤
    stats = ppo_trainer.step(query_tensors, response_tensors, rewards)  # 执行 PPO 更新
    ppo_trainer.log_stats(stats, batch, rewards)  # 记录统计信息

response = ppo_trainer.generate(query, **generation_kwargs) # 生成响应

def generate(
    self,
    query_tensor: Union[torch.Tensor, List[torch.Tensor]], # 查询张量或张量列表
    length_sampler: Callable = None, # 用于决定生成文本长度的可调用对象
    batch_size: int = 4, # 批处理大小
    return_prompt: bool = True, # 是否返回原始查询文本
    generate_ref_response: bool = False, # 是否生成参考响应
    **generation_kwargs, # 生成函数的其他参数
):
    # 如果需要生成参考响应
    if generate_ref_response:
        # 选择合适的模型进行生成（根据是否是 PEFT 模型）
        ref_model = self.model if self.is_peft_model else self.ref_model
    # 如果 query_tensor 是一个列表（处理多个查询）
    if isinstance(query_tensor, List):
        # 调用 _generate_batched 生成响应
        response = self._generate_batched(
            self.model,
            query_tensor,
            length_sampler=length_sampler,
            batch_size=batch_size,
            return_prompt=return_prompt,
            **generation_kwargs,
        )
        # 如果需要生成参考响应
        if generate_ref_response:
            with self.optional_peft_ctx():
                ref_response = self._generate_batched(
                    ref_model,
                    query_tensor,
                    length_sampler=length_sampler,
                    batch_size=batch_size,
                    return_prompt=return_prompt,
                    **generation_kwargs,
                )
    else:
        # 如果 query_tensor 是单个张量
        if len(query_tensor.shape) == 2:
            raise ValueError(
                "query_tensor must be a tensor of shape (`seq_len`) or a list of tensors of shape (`seq_len`)"
            )
        # 设置生成长度
        if length_sampler is not None:
            generation_kwargs["max_new_tokens"] = length_sampler()
        # 生成响应
        response = self.accelerator.unwrap_model(self.model).generate(
            input_ids=query_tensor.unsqueeze(dim=0), **generation_kwargs
        )
        # 生成参考响应（如果需要）
        if generate_ref_response:
            with self.optional_peft_ctx():
                ref_response = ref_model.generate(input_ids=query_tensor.unsqueeze(dim=0), **generation_kwargs)
        # 如果不需要返回原始查询文本
        if not return_prompt and not self.is_encoder_decoder:
            response = response[:, query_tensor.shape[0] :]
            if generate_ref_response:
                ref_response = ref_response[:, query_tensor.shape[0] :]
    # 返回生成的响应，如果需要，也返回参考响应
    if generate_ref_response:
        return response, ref_response
    return response

stats = ppo_trainer.step(query_tensors, response_tensors, rewards) # 执行 PPO 更新

def step(self, queries, responses, scores, response_masks=None):
    # 初始化批处理大小
    bs = self.config.batch_size
    # 检查输入数据的一致性
    queries, responses, scores, response_masks = self._step_safety_checker(
        bs, queries, responses, scores, response_masks
    )
    scores = torch.tensor(scores, device=self.current_device)
    # 如果使用分数缩放
    if self.config.use_score_scaling:
        ...
        # 标准化分数
        ...
    if self.config.score_clip is not None:
        # 对分数进行裁剪
        ...
    # 准备数据输入
    model_inputs = self.prepare_model_inputs(queries, responses)
    # 执行前向传播，获取模型和参考模型的输出
    with torch.no_grad():
        all_logprobs, logits_or_none, values, masks = self.batched_forward_pass(
            self.model, ...
        )
        with self.optional_peft_ctx():
            ref_logprobs, ref_logits_or_none, _, _ = self.batched_forward_pass(
                self.model if self.is_peft_model else self.ref_model, ...
            )
    # 计算奖励和优势（Advantages）
    with torch.no_grad():
        ...
        rewards, non_score_reward = self.compute_rewards(...)
        ...
        values, advantages, returns = self.compute_advantages(values, rewards, masks)
    # 准备训练数据
    batch_dict = {
        ...
    }
    batch_dict.update(model_inputs)
    # 执行 PPO 训练的多个迭代
    all_stats = []
    early_stop = False
    for _ in range(self.config.ppo_epochs):
        if early_stop:
            break
        ...
        for backward_batch_start in range(0, bs, self.config.backward_batch_size):
            ...
            for mini_batch_start in range(0, self.config.backward_batch_size, self.config.mini_batch_size):
                ...
                # 对每个小批量进行训练
                with self.accelerator.accumulate(self.model):
                    ...
                    train_stats = self.train_minibatch(...)
        # 检查是否需要提前停止训练
        if self.config.early_stopping:
            ...
    # 收集和汇总训练统计信息
    train_stats = stack_dicts(all_stats)
    stats = self.record_step_stats(...)
    if self.is_distributed:
        stats = self.gather_stats(stats)
    stats = stats_to_np(stats)
    # 更新 KL 散度控制器
    self.kl_ctl.update(stats["objective/kl"], ...)
    # 更新学习率
    if self.lr_scheduler is not None:
        self.lr_scheduler.step()
    return stats

rewards, non_score_reward = self.compute_rewards(…)

def compute_rewards(self, scores, logprobs, ref_logprobs, masks):
    """
    Args:
        scores (torch.FloatTensor): 从奖励模型得到的分数，形状为 (batch_size)。
        logprobs (torch.FloatTensor): 模型的对数概率，形状为 (batch_size, response_length)。
        ref_logprobs (torch.FloatTensor): 参考模型的对数概率，形状为 (batch_size, response_length)。
        masks (torch.LongTensor): 掩码，用于标识响应中的有效标记。
    """
    rewards, non_score_rewards = [], []
    for score, logprob, ref_logprob, mask in zip(scores, logprobs, ref_logprobs, masks):
        # 计算 KL 惩罚（基于对数概率的差异）
        kl = self._kl_penalty(logprob, ref_logprob)
        non_score_reward = -self.kl_ctl.value * kl
        non_score_rewards.append(non_score_reward)
        reward = non_score_reward.clone()
        last_non_masked_index = mask.nonzero()[-1]
        # 奖励是偏好模型分数加上 KL 惩罚
        reward[last_non_masked_index] += score
        rewards.append(reward)
    return torch.stack(rewards), torch.stack(non_score_rewards)

在这个函数中，每个响应的奖励由两部分组成：

非分数奖励（non_score_reward）：这部分是基于模型生成的对数概率和参考模型生成的对数概率之间的 KL 散度计算的。KL 散度表示两个概率分布之间的差异，这里用来衡量模型输出和参考输出之间的差异。
总奖励（reward）：在非分数奖励的基础上，将偏好模型（如情感分析模型或其他评估模型）给出的分数加到最后一个非掩码标记的奖励上。这样，奖励既考虑了模型生成与参考生成的一致性，又考虑了响应的整体质量。

这个函数的输出是一个奖励张量，它将用于 PPO 训练过程中，以指导模型学习生成更高质量的文本。

Training progress

If you are tracking the training progress with Weights&Biases you should see a plot similar to the one below. Check out the interactive sample report on wandb.ai: link.

Figure: Reward mean and distribution evolution during training.

One can observe how the model starts to generate more positive outputs after a few optimisation steps.

Note: Investigating the KL-divergence will probably show that at this point the model has not converged to the target KL-divergence, yet. To get there would require longer training or starting with a higher initial coefficient.

Model inspection

Let’s inspect some examples from the IMDB dataset. We can use model_ref to compare the tuned model model against the model before optimisation.

# 设置批次大小
bs = 16
game_data = dict()
dataset.set_format("pandas")
df_batch = dataset[:].sample(bs)  # 从数据集中随机抽取一个批次的数据
game_data["query"] = df_batch["query"].tolist()  # 获取查询文本
query_tensors = df_batch["input_ids"].tolist()  # 获取查询的张量表示

response_tensors_ref, response_tensors = [], []

# 对每个查询生成响应
for i in range(bs):
    gen_len = output_length_sampler()  # 确定生成响应的长度
    # 使用参考模型生成响应
    output = ref_model.generate(
        torch.tensor(query_tensors[i]).unsqueeze(dim=0).to(device), max_new_tokens=gen_len, **gen_kwargs
    ).squeeze()[-gen_len:]
    response_tensors_ref.append(output)
    # 使用当前模型生成响应
    output = model.generate(
        torch.tensor(query_tensors[i]).unsqueeze(dim=0).to(device), max_new_tokens=gen_len, **gen_kwargs
    ).squeeze()[-gen_len:]
    response_tensors.append(output)

# 解码生成的响应
game_data["response (before)"] = [tokenizer.decode(response_tensors_ref[i]) for i in range(bs)]
game_data["response (after)"] = [tokenizer.decode(response_tensors[i]) for i in range(bs)]

# 进行情感分析
# 情感分析查询和参考模型的响应组合
texts = [q + r for q, r in zip(game_data["query"], game_data["response (before)"])]
game_data["rewards (before)"] = [output[1]["score"] for output in sentiment_pipe(texts, **sent_kwargs)]
# 情感分析查询和当前模型的响应组合
texts = [q + r for q, r in zip(game_data["query"], game_data["response (after)"])]
game_data["rewards (after)"] = [output[1]["score"] for output in sentiment_pipe(texts, **sent_kwargs)]

# 将结果存储到数据框架中
df_results = pd.DataFrame(game_data)
df_results

Looking at the reward mean/median of the generated sequences we observe a significant difference.

print("mean:")
display(df_results[["rewards (before)", "rewards (after)"]].mean())
print()
print("median:")
display(df_results[["rewards (before)", "rewards (after)"]].median())

### Output:
### mean:
### rewards (before)    1.026937
### rewards (after)     1.958725
### dtype: float64
### 
### median:
### rewards (before)    0.869565
### rewards (after)     2.554209
### dtype: float64

Save model

Finally, we save the model and push it to the Hugging Face for later usage.

model.save_pretrained("gpt2-imdb-pos-v2")
tokenizer.save_pretrained("gpt2-imdb-pos-v2")

你可能感兴趣的:(AIGC,人工智能,AIGC,chatgpt,embedding,gpt,prompt,gpt-3)

设置cursor、vscode的默认终端啥都不会工程师 vscode ide 编辑器
一般来说设置为command会比较好，比较方便和anaconda连用。但是正常来说默认是powershel，参考了别的帖子先用ctrl+shift+p调出命令输入settingsjson进入修改为：{"terminal.integrated.profiles.windows":{"CommandPrompt":{"path":"C:\\Windows\\System32\\cmd.exe"},"P
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
数字孪生：未来城市管理的革命性技术大有数据可视化信息可视化
一、数字孪生技术概述数字孪生技术是一种通过创建虚拟模型与物理实体之间实时交互的技术。它借助物联网、大数据、云计算、人工智能等前沿技术，实现对物理实体的精准映射与动态仿真。数字孪生的核心在于构建一个与物理世界相对应的虚拟模型，该模型能够实时反映物理实体的状态，并通过数据分析与模拟优化其性能。在城市管理领域，数字孪生技术为城市管理者提供了一种全新的视角和工具。城市是一个复杂的巨系统，涉及基础设施、交通
人类编程时代即将终结？OpenAI首席产品官预测AI将在今年底全面超越人类程序员前端javascript
ReactHook深入浅出CSS技巧与案例详解vue2与vue3技巧合集VueUse源码解读近日，OpenAI首席产品官KevinWeil在接受采访时表示，人工智能的发展速度远超预期，今年底就有可能在编程领域永久性地超越人类程序员。这一观点立即引发了行业热议，也让程序员们对未来产生了深刻的思考。人工智能的进展速度远超想象在与VarunMayya和TanmayBhat共同主持的YouTube节目《O
Python大数据分析&人工智能教程 - Django-Celery异步处理（深入解析与实战案例） AI_DL_CODE python 数据分析 Django Celery异步处理 Celery
文章目录1.概念介绍1.1Django框架概述1.2Celery异步任务队列1.3AMQP协议与消息路由2.环境搭建2.1安装Django和Celery2.2配置Redis作为消息代理3.Celery架构与工作原理3.1Celery组件介绍3.2任务生命周期3.3任务调度与执行3.3.1定时任务3.3.2异步任务调用3.3.3任务结果查询4.Django与Celery集成4.1创建Celery实例
智能之火，重塑创造：大模型如何点燃新一代开发引擎？黑巧克力可减脂 AIGC 人工智能 AIGC
导言：普罗米修斯之火再现在科技演进的长河中，每一次生产力的跃迁都伴随着工具的质变。从蒸汽机轰鸣到电力普及，再到信息高速公路的铺就，人类驾驭能量的能力不断突破。今天，我们站在一个崭新的临界点上：大语言模型（LLM）正将人工智能的“普罗米修斯之火”引入软件开发的核心腹地。这不再仅仅是效率的优化，更是对开发者角色、开发流程乃至软件本质的深度重塑。GitHubCEOThomasDohmke曾断言：“Cop
Python大数据分析&人工智能教程 - Django-RestFramework框架（深入解析+实操案例） AI_DL_CODE python 数据分析 django RestFramework框架
文章目录1.Django-RestFramework基础1.1Django-RestFramework概述1.2安装与配置1.3构建第一个API1.3.1定义模型1.3.2创建序列化器1.3.3定义视图1.3.4配置URL路由1.4进阶功能1.4.1权限控制1.4.2限流1.5实战案例1.5.1创建图书1.5.2查询图书1.5.3更新图书1.5.4删除图书2.序列化器(Serializers)2.
Python从0到100完整学习指南（必看导航）是Dream呀 Python python 人工智能爬虫 web 神经网络算法深度学习
前言：零基础学Python：Python从0到100最新最全教程。想做这件事情很久了，这次我更新了自己所写过的所有博客，汇集成了Python从0到100，共一百节课，帮助大家一个月时间里从零基础到学习Python基础语法、Python爬虫、Web开发、计算机视觉、机器学习、神经网络以及人工智能相关知识，成为学业升学和工作就业的先行者！【优惠信息】•新专栏订阅前1000名享9.9元优惠•订阅量破10
让AI自己学会“怎么学”——元学习，才是高效训练的终极武器！ Echo_Wish Python 进阶人工智能学习
让AI自己学会“怎么学”——元学习，才是高效训练的终极武器！朋友们，今天咱不聊ChatGPT，不聊大模型黑魔法，也不玩Prompt咒语。我想聊一个比“怎么训模型”更底层、更值得思考的问题：如果我们能让模型自己学会怎么更快、更聪明地学习，是不是就能少走很多弯路？这，就是元学习（MetaLearning）要解决的事儿。说白了，元学习是AI给AI上培训课的过程。咱们天天琢磨怎么喂模型数据、调超参、搞迁移
FastGPT与MCP：解锁AI新时代的技术密码挑战者666888 AI模型应用实战迁移学习集成学习文心一言
一、AI浪潮中的新星：FastGPT与MCP登场在当今科技飞速发展的时代，人工智能（AI）已成为推动各行业变革的核心力量。从智能语音助手到复杂的图像识别系统，AI的应用无处不在，而其中的关键技术——语言模型和集成平台，更是备受关注。FastGPT和MCP（Multi-ComponentPlatform）作为这一领域的新兴代表，正逐渐崭露头角，为AI的发展注入新的活力。FastGPT，以其高效的推理
前沿技术推动机器人的智能化升级 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据机器人 ai
前沿技术推动机器人的智能化升级关键词：机器人智能化、人工智能、机器学习、计算机视觉、自主导航、人机交互、边缘计算摘要：本文深入探讨了前沿技术如何推动机器人从传统自动化向智能化升级的演进过程。文章首先分析了机器人技术发展的历史脉络和当前挑战，然后详细阐述了人工智能、机器学习、计算机视觉等关键技术如何赋能机器人智能化。通过算法原理分析、数学模型构建和实际项目案例，展示了智能机器人的核心技术实现路径。最
提升首屏加载的秘密武器：一文讲透 CDN 加速核心逻辑网罗开发实战源码前端 json javascript
网罗开发（小红书、快手、视频号同名）大家好，我是展菲，目前在上市企业从事人工智能项目研发管理工作，平时热衷于分享各种编程领域的软硬技能知识以及前沿技术，包括iOS、前端、HarmonyOS、Java、Python等方向。在移动端开发、鸿蒙开发、物联网、嵌入式、云原生、开源等领域有深厚造诣。图书作者：《ESP32-C3物联网工程开发实战》图书作者：《SwiftUI入门，进阶与实战》超级个体：CO
量化AI价值的30个关键指标 mao_feng 人工智能 AI
摘要：量化AI的战略价值人工智能（AI）成功集成到业务运营中超越了单纯的技术部署;它需要一种严格、可量化的方法来展示其价值。本报告系统地分类并解释了评估AI优势的基本指标，从核心模型性能到总体战略和道德考虑因素。必须制定多方面的衡量策略，将技术AI指标与运营效率、客户体验、财务绩效、战略优势和负责任的AI实践等有形业务成果直接联系起来。稳健的关键绩效指标（KPI）不仅仅是问责制的工具;它们是持续改
【AI大模型】23、构建你的西部世界：AI小镇具身智能实战指南无心水 AI大模型人工智能 AI小镇搭建具身智能实战智能体系统架构提示语工程优化虚拟社会构建 AI大模型
引言：从代码到虚拟社会的奇妙旅程在人工智能领域，具身智能的发展正引领着一场新的革命。当我们谈论构建一个类似《西部世界》的虚拟社会时，我们不仅在创造一个数字游乐场，更是在探索智能体如何在模拟环境中展现出类似人类的认知、社交和决策能力。本文将带领你踏上一段激动人心的旅程，从底层架构到上层应用，全面解析如何利用提示语工程构建一个充满活力的AI小镇。想象一下，你将成为这个虚拟世界的造物主，通过精心设计的提
大模型系列——提示词工程：从原理、实践到未来的一部系统性综述猫猫姐大模型人工智能大模型提示词
提示词工程：从原理、实践到未来的一部系统性综述摘要本文系统性地阐述了提示词工程（PromptEngineering）这一关键领域，它作为释放大语言模型（LLM）潜能的核心人机交互范式。报告从LLM的“下一个词预测”基本机制出发，追溯了提示词工程从GPT-3时代“上下文学习”的偶然发现到当前系统化、工程化的演进历程。本文深度剖析了多种高级提示框架，包括旨在激发模型逐步推理的“思维链”（Chain-o
九章数学体系：定义域无界化——AI鲁棒性的“隐形杀手“ 九章数学体系数学建模拓扑学人工智能神经网络
九章数学体系：定义域无界化——AI鲁棒性的"隐形杀手"摘要传统人工智能模型在面对边缘场景时常常表现出鲁棒性不足的问题，本文深入分析发现，这种现象的本质根源在于模型缺乏显式的定义域约束，导致无界化假设成为影响AI鲁棒性的"隐形杀手"。文章系统阐述了无界假设如何引发对抗样本脆弱性和数值不稳定等核心问题，并引入九章数学体系的定义域约束理论，为解决这些问题提供了全新的数学视角和工程实现路径。研究表明，通过
从单一设备到万物互联：鸿蒙生态崛起的未来之路王子良. 经验分享 harmonyos 华为
目录一、引言：开启智能时代的钥匙二、鸿蒙生态概述：跨设备协同的核心价值三、开发者机遇与挑战：抓住鸿蒙崛起的机会四、鸿蒙生态崛起的前景：万物互联的未来五、开发者在鸿蒙生态中的实践机遇与挑战1.跨设备开发的机遇2.与人工智能和物联网结合的创新空间3.持续创新与生态完善的挑战六、鸿蒙生态未来的多维发展：智能硬件与大数据的深度结合1.智能硬件与大数据的结合2.在智能家居与城市管理中的应用3.行业领域的深度
考取华为HCIE-AI有什么用？博睿谷IT99_ 华为人工智能华为认证职业规划
在人工智能技术重塑各行各业的浪潮中，掌握核心AI能力成为专业人士的制胜关键。华为推出的HCIE-AISolutionArchitect（华为认证ICT专家-AI解决方案架构师），正是面向这一领域顶尖人才设立的最高级别认证。主要是为了培养和认证掌握人工智能解决方案架构、设计与应用知识，具备大模型业务场景分析、大模型训练与微调、模型推理部署能力的专家级人才。一、HCIE-AI：专家级能力的权威认证HC
多模态实操第一弹：多模态AI是什么？能做什么？江凯吴杰多模态的尝试人工智能
多模态AI专栏第一期：多模态人工智能概述与应用你是否想过，AI如何像人一样同时"看、听、说"？本期专栏将带你深入了解多模态AI的核心原理、发展脉络、关键技术、典型应用，并为后续实战打下坚实基础。最后，我们将详细介绍本系列所用的ERIT数据集及其任务背景。目录1.什么是多模态AI？2.多模态AI的发展历程3.多模态AI的核心技术4.多模态AI的应用场景5.多模态AI的挑战与机遇6.专栏预告与ERIT
遥感云大数据在灾害、水体与湿地领域典型案例实践及GPT模型应用科研的力量生态遥感双碳 chatgpt GEE 卫星遥感数据
以EarthEngine（GEE）、PIE-Engine为代表全球尺度地球科学数据（尤其是卫星遥感数据）在线可视化计算和分析云平台应用越来越广泛。GEE平台存储和同步遥感领域目前常用的MODIS、Landsat和Sentinel等卫星影像、气候与天气、地球物理等方面的数据集超过80PB，同时依托全球上百万台超级服务器，提供足够的运算能力对这些数据进行处理。相比于ENVI等传统的遥感影像处理工具，G
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等深度科研 Yolo566Q chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等 xiao5kou4chang6kai4 人工智能深度学习机器学习 rnn 语言模型 lstm 深度学习机器学习人工智能 DeepSeek
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
十分钟了解人工智能的过去、现在与未来 ithadoop 人工智能人工智能
十分钟了解人工智能的过去、现在与未来人工智能(AI)作为重塑人类社会的技术革命，正以前所未有的速度改变着我们的工作方式、生活方式和思维方式。从1943年人工神经元模型的提出，到2025年AI应用场景的全面爆发，AI发展经历了多个关键阶段。在接下来的十分钟里，我们将通过图文解说，快速了解AI从萌芽到现在的历程，以及未来可能带来的机遇与挑战。一、人工智能的过去：从理论奠基到技术突破1.萌芽阶段(194
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模 asyxchenchong888 chatgpt 语言模型机器学习
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
ChatGPT、DeepSeek等大语言模型助力高效办公、论文与项目撰写、数据分析、机器学习与深度学习建模等科研应用科研的力量人工智能 ChatGPT chatgpt 语言模型数据分析
随着人工智能技术的快速发展，大语言模型如ChatGPT和DeepSeek在科研领域的应用正在为科研人员提供强大的支持。这些模型通过深度学习和大规模语料库训练，能够帮助科研人员高效地筛选文献、生成论文内容、进行数据分析和优化机器学习模型。ChatGPT和DeepSeek能够快速理解和生成复杂的语言，帮助研究人员在撰写论文时提高效率，不仅生成高质量的文章内容，还能优化论文结构和语言表达。在数据分析方面
探索 AI 系统提示与模型资源库：`system-prompts-and-models-of-ai-tools` 几道之旅人工智能智能体及数字员工人工智能
在当今的人工智能领域，系统提示和工具模型的优化与应用对于提升AI助手的性能和响应质量至关重要。x1xhlol开源的system-prompts-and-models-of-ai-tools仓库为开发者们提供了一个丰富的资源集合，涵盖了多种AI工具的系统提示、工具和模型。仓库概述这个仓库包含了超过7500行的代码和文档，详细介绍了多个知名AI工具的系统提示和相关模型，其中包括FULLv0、Curso
AI人工智能中LSTM在视频行为识别的应用
AI人工智能中LSTM在视频行为识别的应用关键词：LSTM、视频行为识别、深度学习、时序建模、计算机视觉、神经网络、动作识别摘要：本文将深入探讨LSTM（长短期记忆网络）在视频行为识别领域的应用。我们将从基础概念出发，逐步讲解LSTM如何解决视频时序建模的挑战，分析其核心算法原理，并通过实际代码示例展示LSTM在行为识别中的具体实现。文章还将探讨当前的应用场景、工具资源以及未来发展趋势，为读者提供
多模态AI：让机器像人一样“全感官”理解世界 Echo_Wish 前沿技术人工智能人工智能
多模态AI：让机器像人一样“全感官”理解世界咱们人类理解世界，从来不是只靠单一感官：眼睛看到画面，耳朵听到声音，皮肤感受到温度，嘴巴尝到味道，甚至鼻子闻到气味。正是这多感官的“多模态”输入，构筑了我们对复杂世界的深刻认知。而人工智能领域的多模态学习（MultimodalLearning），正是让机器拥有“多感官”理解能力的技术突破。今天，我想跟大家聊聊：多模态学习为何重要？当前有哪些创新模型？如何
【PaddleOCR】快速集成 PP-OCRv5 的 Python 实战秘籍--- PaddleOCR实例化 OCR 对象的参数介绍云天徽上 PaddleOCR python ocr 开发语言人工智能文字识别
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen