Isawany

论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models

1. 文章简介
2. 文章概括
3 文章重点技术
- 3.1 预训练Pretraining
- - 3.1.1 预训练细节
  - 3.1.2 Llama2模型评估
- 3.2 微调Fine-tuning
- - 3.2.1 Supervised Fine-Tuning(FT)
  - 3.2.2 Reinforcement Learning with Human Feedback(RLHF)
  - - 3.2.2.1 偏好数据
    - 3.2.2.2 Reward Modeling(RM)
    - 3.2.2.3 Iterative Fine-Tuning
  - 3.2.3 多轮对话一致性
  - 3.2.4 RLHF结果
- 3.3 Safety
- - 3.3.1 Safety in Pretraining
  - 3.3.2 Safety Fine-Tuning
  - 3.3.3 Red Teaming
  - 3.3.4 Safety评估
4. 文章亮点
5. 原文传送门
6. References

1. 文章简介

标题：Llama 2: Open Foundation and Fine-Tuned Chat Models
作者：Touvron H, Martin L, Stone K, et al.
日期：2023
期刊：arxiv preprint

2. 文章概括

文章训练并开源了模型Llama2系列模型。文章对Llama2做了大量的安全和有用性的微调，并进行了大量的数值试验，实验证明，Llama2-chat比其它被比较的开源的chat模型（BLOOM，LLaMa1，Falcon）效果好，且有潜力成为一些未开源chat模型（ChatGPT，BARD）的替代。meta公司发行了如下开源模型

LLAMA2模型：LLAMA1[1]的更新版本，包含7B，13B，70B参数三个版本
LLAMA2-CHAT模型：在LLAMA2之上对对话场景进行微调的chat模型，包含7B，13B，70B参数三个版本。文章整体框架如下图

由于文章内容比较多，笔者挑选了其中重点的部分进行介绍。全部数值实验结果可参见原文。（这篇文章读起来和写起来真的很费力，因为文章很长，细节很多，而且好多技术细节写的好晦涩啊）

3 文章重点技术

3.1 预训练Pretraining

3.1.1 预训练细节

文章使用自回归Transformer模型，在LLAMA1[1]的基础之上进行了一些增强，具体包括

增加数据：Llama的语料库包含2trillion个tokens，且全部为公共可用数据，不包含Meta自己的数据集
增加40%的token数
增加上下文长度从2048到4096
修改attention为Grouped-query attention(GQA)，以提升推理效率
具体差异可见下表

3.1.2 Llama2模型评估

文章对上述Llama2模型与Llama1，MosaicML，Falcon这些开源模型效果进行了评估、比对。文章选择了包含代码、常识推理、世界知识、阅读理解、数学、MMLU等benchmarks进行了数值实验。如下表所示，Llama2模型效果超过了Llama1，且超过所有其他被比较的开源模型。

此外，文章将Llama2模型与GPT-3.5、GPT-4，PaLM，PaLM-2-L这些闭源模型进行了比较，通过调用这些模型的API来获得在benchmarks上面的数值实验结果。从下表可以看出，在Llama2 70B和GPT-4等闭源模型中还是有一定的性能差距的。

3.2 微调Fine-tuning

3.2.1 Supervised Fine-Tuning(FT)

类似于LIMA[2]的结论，文章发现少量高质量的SFT数据的效果超过使用大量无法保证质量的三方数据。文章发现，大约几万条高质量的SFT标注就可以实现高精度的结果，最终文章标注了27540条SFT数据。

3.2.2 Reinforcement Learning with Human Feedback(RLHF)

3.2.2.1 偏好数据

类似InstructGPT[3]，文章尝试收集人类偏好数据，并通过RLHF来将模型和人类偏好和指令遵循进行对齐。
首先，文章通过如下程序收集人类偏好数据：1) 标记员写一个prompt 2) 让模型基于该prompt生成两个回答 3) 标记员基于给定的标准进行二选一 4) 标记员给出两个回答的差异程度：significantly better, better, slightly better或者unsure。按照如上程序，文章每周迭代收集helpfulness和safety两个基准的偏好数据，从而迭代训练llama2-chat模型。
此外，标记员需要给出一个安全性的标签，标签指向三个类别：1) 被选择的答案是安全的，另一个答案不安全 2) 两个答案都是安全的 3) 两个答案都是不安全的。结果表明三种选择的占比分别为18%, 47%和35%。文章将上述第一个分类的数据移除，因为安全的回答自然会被人类偏爱。

3.2.2.2 Reward Modeling(RM)

接下来，文章利用上述helpfulness, safety偏好数据分别训练两个奖励模型Helpfulness RM和 Safety RM。文章利用预训练的chat模型作为RM的初始化参数，这样可以包含预训练阶段学习到的知识，模型参数和架构与预训练阶段一致，除了将用于预测token的分类head修改为一个计算奖励的份的回归head。
为了学习人类偏好数据，文章参考InstructGPT[3]中的ranking损失函数 $\mathcal{L}_{ranking} = - \log (\sigma (r_{\theta} (x, y_c) - r_{\theta}(x, y_r)))$ ，其中 $x$ 为prompt， $y_c$ 为被选择的回答， $y_r$ 为被拒绝的回答， $r_{\theta}$ 表示奖励模型的输出分值。上述损失函数旨在令被偏好的回答 $y_c$ 的得分尽可能高于被拒绝的回答 $y_r$ 的得分。在此基础上，文章将收集到的偏好程度数据囊括进来： $\mathcal{L}_{ranking} = - \log (\sigma (r_{\theta} (x, y_c) - r_{\theta}(x, y_r))-m(r))$ ，其中 $m (r)$ 表示偏好程度（前面收集的significantly better, better, slightly better或者unsure）， $m (r)$ 越大表示被选择的回答被人类的偏好程度越明显，从而两个回答之间的得分差异要更大。
最后，将Helpfulness RM和Safety RM模型分别在Meta Helpfulness data和Meta Safety data上训练得到连个奖励模型。RM满足scaling law，即在相同的数据集上，模型越大，效果越好：

3.2.2.3 Iterative Fine-Tuning

由于Meta的人类偏好数据按周更新，从而可通过更新的数据迭代训练模型：RLHF-V1, …, RLHF-V5。具体来说，每个版本的RLHF模型可通过下述两种策略进行微调的：

PPO(proximal Policy Optimization)：标准RLHF策略，第 $t$ 步的样本为 $t - 1$ 步的更新策略的函数。PPO的目的是最大化奖励函数的期望，奖励函数定义如下： $\tilde{R}_c(g|p) - \beta D_{KL} (\pi_{\theta} (g|p) \Vert \pi_0 (g|p))$ ，其中 $\pi_0 (g|p)$ 表示初始化的策略，公式第二项的作用为限制当前策略距离最初策略不要太远， $\tilde{R}_c$ 表示奖励函数得分的logits+白化，定义如下： $IS_SAFETY ( p ) or R s ( g ∣ p ) < 0.15 R h ( g ∣ p ) , otherwise \tilde{R}_c(g|p) = \text{WHITEN}(\text{LOGIT} (R_c(g|p)))\\ R_c(g|p) = \begin{cases} R_s(g|p), \ \text{if}\ \text{IS\_SAFETY}(p)\ \text{or} \ R_s(g|p) < 0.15\\ R_h(g|p) , \ \text{otherwise}\end{cases}$ ，简单解释下上式，IS_SAFETY就是代表模型中可能引发不安全回答的prompt $p$ ，即对不安全的prompt或safety RM模型 $R_s$ 给出得分小于0.15的prompt，我们让RLHF优先学习安全奖励模型，对其它prompt才学习有用性模型 $R_h$ 。
Rejection Sampling fine-tuning(RSFT)：从模型输出中采样K个样本，通过RM选择最好的候选作为新的gold standard，在这些样本上对模型进行梯度更新。文章只对70B的模型进行RSFT，对7B和13B的模型，文章通过70B的rejection sample进行微调，相当于对大模型的蒸馏。

在V4版本之前，文章通过RSFT进行微调，在V4之后，文章通过两个策略结合（先应用RSFT，再应用PPO）进行微调。此外，文章发现，迭代过程中模型出现了遗忘。为了解决此问题，文章每次都会将早期版本的样本包含进入微调的数据集。

3.2.3 多轮对话一致性

作者发现，在多轮对话之后，RHLF模型很容易忘记最初的指令。为此文章提出了Ghost Attention(GAtt)。给定消息序列 $[u_1, a_1, \dots, u_n, a_n]$ ，其中 $u_i$ 代表用户在第 $i$ 轮给出的信息， $a_i$ 为对应的模型回答。假设用户在最初的时候给出了指令inst（比如act as …）。为使模型在每一轮对话中遵循该指令，一种简单的方法是将inst直接拼接到每一个user信息中，即 $[u_1+inst, a_1, u_2+inst, a_2, \dots, u_n+inst, a_n]$ 。然后文章通过Rejection Sampling的到上述数据的回答（作为标记数据？）；结下来在学习该标记数据时，只在第一轮增加inst，即 $[u_1+inst, a_1, u_2, a_2, \dots, u_n, a_n]$ 还原到真实状态，但这样得到的结果会造成其与标记数据的mismatch，从而文章在训练每一轮对话的时候将该轮对话之前的token loss全部设置为0。
GAtt的效果非常好，实验发现GAtt下的inst可以持续到20+轮次的对话，直至达到最大的context长度。

3.2.4 RLHF结果

首先文章基于模型对RLHF进行自动评估。为了确定RW自动评估的效果是否准确，文章收集了一系列的包含有用性和安全性的prompts测试机，然后让标记员评估回答的Likert Score。我们发现RM给出的分数和人类的Likert score强相关。基于RM对不同阶段的模型结果进行评估，文章发现RM模型和ChatGPT模型对llama2-chat模型评估效果都很好，在V3之后helpfulness和safety指标上都高于ChatGPT(50%)，如下图所示。

文章又进行了人工评估：令人类标记员在4000个单轮+多轮对话上对主要模型版本的回答质量进行打分（多轮对话当作整体）。如下图所示，llama2-chat模型在单轮对话和多轮对话上表现均优于所有开源模型。

3.3 Safety

3.3.1 Safety in Pretraining

首先文章预训练数据集未包含任何包含个人信息的数据，且未使用meta自己用户的数据，除此之外未进行其它过滤。
文章对预训练语料库进行了统计分析

在英语语料中，He出现的次数相比于She出现的要多，从而学习到的模型很可能会生成更多的He相关的语句
文章考虑了宗教、性别、国际、种族和性取向这5种敏感话题，并计算语料库中每个话题的top5元素，如下表所示。可以看到，female出现次数更多（尽管she出现次数少），这说明这些词之间的表达语境可能不同。在国籍上，语料库中包含更多的西方国家。
文章通过HateBERT评估了英语语料中的有毒语料（toxicity），发现仅0.2%的文档中可能包含有毒文本（似然分数>=0.5)
文章使用fastText来进行语言检测，超过0.5似然分数的认为属于该语言。最终检测结果表明89.7%的语料，从而针对其它语言要谨慎使用llama2。

此外，文章通过safety benchmarks来对预训练模型进行安全分析，具体包含以下benchmarks：

Truthfulness：通过TruthfulQA数据来检测模型输出是否可靠、真实、符合常理。
Toxicity：通过ToxiGen来检测有毒回答
Bias：通过BOLD检测模型生成是否有政治倾向

如下表所示，相比于llama1-7B，llama2-7B提升了21.37%的truthfulness，降低了7.61%的toxicity，且bias有提升。但相比于其它开源模型，llama2的toxicity还是很高，这是因为文章用到的数据集未经系统的过滤。但增加过滤之后模型很难再执行一些诸如hate speech的任务了。

3.3.2 Safety Fine-Tuning

接下来文章介绍了在FT阶段的safety策略，主要包含以下几种

Supervised Safety FT：首先将adversarial prompts（用户选择的可能造成不安全回答的prompts）和安全的生成内容结合，将该数据放入SFT数据中。从而模型可以在RLHF之前就和安全指导对齐。
Safety RLHF：在RLHF阶段，文章训练了一个安全的safety RM来指导模型生成安全的回答。Safety RLHF的效果如下图所示，可以看到，下图左的Safety RM分值在应用safety RLHF之后（y轴）相比于之前（x轴）有明显的提升，且下图右的helpfulness RM分值在应用safety RLHF之后（y轴）相比于之前（x轴）未发生明显降低。
Safety Context Distillation：最后，文章将一个preprompt作为前文介绍的inst（比如：you are a safe and responsible preprompt ）和prompt结合，让模型生成安全的回答。

此外，文章证明了，当helpfulness数据不变时，safety数据越多，模型处理不安全prompts的能力越强，且低安全性的回答越少（ligher score），如下图所示

为了判断模型是否有false refusal（拒绝安全的prompts），文章在helpfulness数据集和精心设计的安全的但包含一些敏感词的prompts上（borderline dataset）进行评估，结果发现在helpfulness数据上false refusal大约仅有0.05%，占比很低。但在精心设计的borderline dataset上大的多（20%以上），说明llama2-chat针对此类数据的判断能力仍需提高。

3.3.3 Red Teaming

文章组建了一个red teaming组，包含各个领域的专家来对不同风险分类进行模拟风险，从而减少模型的安全性问题。参与者需要标注出对话的风险领域、风险等级，作者会根据标注结果进行训练策略调整。
定义模型的鲁棒性指标为 $\gamma$ ，文章发现在几轮red teaming 和模型优化之后，模型鲁棒性有所提升： $\gamma : 1.8 \to 0.45$ 。

3.3.4 Safety评估

文章收集了2000个adversial prompts来进行人工评估，其中1351个是单轮对话，623个是多轮对话。然后人工对模型的安全性进行打分：1～5，分数越高表示越安全且有用。考虑打分1-2为violation，则如下图左所示，llama-整体的violation在所比较的模型中最低，且下图右表明llama2整体的整体打分也高于其它模型。

4. 文章亮点

文章训练并发行了一系列llama2模型，其中llama2-chat是迄今为止开源的chat模型中表现最好的。且文章给出的llama2给出了一系列安全性增强策略，可供其它LLM参考。

5. 原文传送门

Llama 2: Open Foundation and Fine-Tuned Chat Models
llama2 模型
llama2 代码

6. References

[1] 论文笔记–LLaMA: Open and Efficient Foundation Language Models
[2] 论文笔记–LIMA: Less Is More for Alignment
[3] 论文笔记–Training language models to follow instructions with human feedback
[4] GAtt示例

有了大模型为何还需要Agent智能体全栈你个大西瓜人工智能人工智能 AI Agent Agent 智能体 Agent 原理
一、什么是Agent？Agent（智能体）是一种能感知环境、自主决策、执行动作的智能实体，当它与大语言模型（如通义千问QWen、GPT）结合时，形成一种**“增强型AI系统”**。其核心架构如下：大脑（LLM）：负责语言理解、逻辑推理、知识问答等认知任务。感官（工具链）：通过API、传感器或数据库获取实时数据（如天气、股价）。手脚（执行器）：调用外部工具完成任务（如发送邮件、控制智能家居）。记忆（
Manus详细介绍 accurater c++算法笔记深度学习人工智能神经网络
第一章Manus的技术背景与核心突破初识ManusAI1.1什么是Manus？Manus是由中国团队Monica.im于2025年3月推出的全球首款通用型AI智能体（AIAgent）。其名称源自拉丁语“MensetManus”，意为“手脑并用”，强调将大模型的逻辑推理能力转化为实际生产力。与传统的对话式AI（如ChatGPT、DeepSeek）不同，Manus的核心定位是“执行型助手”，能够自主完
ChatGPT、DeepSeek、GIS与Python机器学习强强联合！地质灾害风险评估、易发性分析、信息化建库及灾后重建 WangYan2022 DeepSeek ChatGPT 地下水地质灾害 DeepSeek ChatGPT GIS 灾后重建
在地质灾害频繁肆虐的当下，精准开展风险评价刻不容缓。如今，一门极具创新性的教程震撼登场，它将ChatGPT、DeepSeek等前沿技术与GIS、Python以及机器学习深度交融，为学员打造出前所未有的学习体验，助力大家在地质灾害风险评价领域强势突围，一路领先。前沿技术融合，铸就智能学习核心动力教程最闪耀的亮点之一，便是大胆引入了ChatGPT和DeepSeek技术。它们恰似无所不能的“数据魔法师”
DeepSeek智能政务大脑：城市服务知识库构建全指南——从RAG架构到民生场景落地实践 Coderabo DeepSeek R1模型企业级应用政务架构
DeepSeek赋能城市智慧升级：基于RAG架构的市民服务智能知识库构建全解一、需求分析与技术选型1.1市民服务场景需求市民服务智能知识库需要解决政务咨询效率低下、专业术语难理解、多轮对话能力弱等核心问题。系统需具备：自然语言理解能力（NLU）异构知识整合能力政策法规精准解读能力多轮对话上下文管理应急服务联动机制1.2DeepSeek技术栈选择基于DeepSeek-Large语言模型构建核心系统，
deepseek具体应用场景 ahyouxiang 人工智能
DeepSeek的具体应用场景非常广泛，涵盖了多个领域和行业。以下是基于证据的详细总结：金融领域DeepSeek在金融领域的应用表现突出，例如通过其大语言模型（如DeepSeekLLM67Bt）提供数学、逻辑推理等能力，帮助金融机构提升服务效率。此外，DeepSeek还被应用于智能安全体产品中，通过安全大模型实现个性化开发和优化。医疗领域在医疗领域，DeepSeek的技术被用于辅助诊断和患者记录管
五、AIGC大模型_09手动实现ReAct_Agent 学不会lostfound AI 人工智能 react_agent LangGraph Multi-Agent PlanAndExecute AIGC
0、前言在上一章节中，我们了解到：create_react_agent是LangGraph提供的一个预构建方法（fromlanggraph.prebuiltimportcreate_react_agent），它可以将语言模型（LLM）和一组工具（Tools）结合起来，创建一个能够根据用户输入自动调用工具的智能代理，这个代理可以根据用户的请求，决定是否需要调用某个工具，并将工具的输出反馈给用户这个函
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
自定义Retriever的实现方法 vaidfl windows linux microsoft python
技术背景介绍在许多大语言模型（LLM）应用中，检索器（Retriever）用于从外部数据源获取信息。检索器的任务是根据用户查询检索相关的文档，这些文档通常被格式化为提示，供LLM使用，从而生成适当的响应，例如，根据知识库回答用户问题。核心原理解析要实现自定义的检索器，需要继承BaseRetriever类，并实现以下方法：_get_relevant_documents：获取与查询相关的文档，必需实现
如何缓存聊天模型响应以提高效率 scaFHIO 缓存 java oracle python
技术背景介绍在开发基于大型语言模型（LLM）的应用程序时，API调用的成本和响应速度是需要考虑的两个重要因素。尤其是在开发过程中，重复请求相同的文本生成可能会增加额外的成本和延迟。为了应对这一挑战，LangChain提供了一种可选的缓存机制，可以有效地减少API调用次数，从而节省费用并加速应用程序响应。核心原理解析缓存机制的基本原理是在第一次请求时，将响应存储在缓存中。如果以后再次请求相同的输入，
如何在一行代码中初始化各种AI模型 qahaj 人工智能 python 深度学习
技术背景介绍在开发大语言模型(LLM)应用时，用户有时需要选择不同的模型提供商和具体模型。这通常需要一定的逻辑来根据用户配置初始化不同的聊天模型。为了简化这一过程，init_chat_model()方法被引入，让开发者能够轻松地初始化多种模型集成，而无需担心导入路径和类名。核心原理解析init_chat_model()方法通过传入模型名称及其提供商，自动推断并实例化对应的聊天模型。该功能在lang
使用Tiktoken进行文本分割：优化大语言模型的输入 bhawfgrcbtwny 语言模型 python 人工智能
引言在处理大语言模型时，因其对输入的token数量有限制，文本分割成为一个至关重要的任务。为了确保生成的文本块不会超过模型的token限制，我们需要使用与模型相同的tokenizer来计数和分割文本。在本文中，我们将探讨如何使用Tiktoken和其他工具来实现有效的文本分割。主要内容1.Tiktoken介绍Tiktoken是由OpenAI创建的一个快速BPE（BytePairEncoding）to
Transformers模型版本和lm_eval老版本冲突问题ImportError: cannot import name ‘initialize_tasks‘ from ‘lm_eval.task neverwin6 llama python 服务器
Transformers模型版本和lm_eval老版本冲突问题1问题背景在LLM评测的时候，要用lm_eval模型，而对于像是llama3/Mistrual等比较新的模型，较低的Transformers不能适配，所以要升级到0.40.0以上才行，但是如果升级的话，那么直接在沿用老版本的lm_eval评测就会出现：Traceback(mostrecentcalllast):File"main.py"
Tree of Thought Prompting（思维树提示）大数据追光猿大模型人工智能大数据深度学习语言模型计算机视觉
TreeofThoughtPrompting（思维树提示）是一种新兴的提示工程技术，旨在通过模拟人类解决问题时的多步推理过程，提升大型语言模型（LLM）在复杂任务中的表现。与传统的线性提示方法不同，思维树提示将问题分解为多个可能的推理路径，并以树状结构探索这些路径，从而找到最优解或生成更高质量的结果。这种方法特别适用于需要多步推理的任务，例如数学问题求解、逻辑推理、规划和创造性写作等场景。它结合了
95% 向量资源节省，火山引擎云搜索 RAG 技术体系演进字节跳动云原生计算火山引擎搜索引擎算法
采访嘉宾|火山引擎云搜索团队鲁蕴铖、李杰辉、余炜强编辑|TinaInfoQ2023年，大模型惊艳了世界。2024年，RAG技术如日中天。RAG使得大模型能够在不更新模型参数的情况下，获得必要的上下文信息，从而减少大模型的幻觉。随着大型语言模型技术的不断成熟和行业应用的深入，人们对RAG系统的期望已经超越了对其“酷炫”效果的追求。企业和组织开始寻找更可靠、可扩展的RAG解决方案，以满足实际业务需求。
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
chatgpt赋能python：Python处理雷达基数据：从入门到实践 lvsetongdao123 ChatGpt python chatgpt 开发语言计算机
Python处理雷达基数据：从入门到实践随着气象技术的不断发展，雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据，因其包含大量天气信息，不仅在天气预报、天气预警等方面得到了广泛应用，还被广泛地用于气象科研和大气环境研究。本文将介绍如何使用Python处理雷达基数据，解析其中的信息，获取有效的天气数据，以及分析和可视化这些数据。雷达基数据格式与处
医图论文 CVPR‘24 | 适应医学图像中泛化异常检测的视觉-语言模型小白学视觉医学图像处理论文解读语言模型人工智能计算机视觉医学图像顶会医学图像处理 CVPR 论文解读
论文信息题目：AdaptingVisual-LanguageModelsforGeneralizableAnomalyDetectioninMedicalImages适应医学图像中泛化异常检测的视觉-语言模型作者：ChaoqinHuang，AofanJiang，JinghaoFeng，YaZhang，XinchaoWang，YanfengWang源码：https://github.com/Medi
MMScan数据集：首个最大的多模态3D场景数据集，包含层次化的语言标注数据集
2024-10-24，由上海人工智能实验室联合多所高校创建了MMScan，这是迄今为止最大的多模态3D场景数据集，包含了层次化的语言标注。数据集的建立，不仅推动了3D场景理解的研究进展，还为训练和评估多模态3D感知模型提供了宝贵的资源。一、研究背景：随着大型语言模型（LLMs）的兴起和与其他数据模态的融合，多模态3D感知因其与物理世界的连接而受到越来越多的关注，并取得了快速进展。然而，现有的数据集
使用LangChain实现大规模语言模型自发现推理结构 VYSAHF langchain 语言模型人工智能 python
使用LangChain实现大规模语言模型自发现推理结构在现代自然语言处理(NLP)的研究中，大规模语言模型（LLMs）已经展示了强大的能力。然而，在应对复杂的推理问题时，传统的提示方法常常力不从心。这篇文章将带您了解SELF-DISCOVER，一种新兴的框架，如何通过LangChain来实现自动化、动态化的推理结构构建，以提高LLMs的性能。技术背景介绍大规模语言模型（如GPT-4和PaLM2）已
A Survey of Large Language Models大模型综述论文章节总结 WhyteHighmore 论文语言模型人工智能自然语言处理论文笔记
ASurveyofLLM人大译ASurveyofLargeLanguageModels这篇论文全面回顾了大型语言模型(LLM)的最新进展，重点关注其发展背景、关键发现和主流技术。文章主要围绕LLM的四个主要方面展开：1引言自从1950年图灵测试被提出以来，人类一直在探索机器掌握语言智能的方法。语言本质上是一种受语法规则支配的复杂、精细的人类表达系统，这使得开发能够理解和掌握语言的强大人工智能(AI
使用Pinecone实现自查询检索器的实现步骤 vaidfl python
##技术背景介绍Pinecone是一款功能强大的向量数据库，适用于处理复杂的检索需求。在本文中，我们将演示如何结合Pinecone向量存储使用SelfQueryRetriever实现自查询功能。为了更方便的了解原理，我们将以电影总结数据集为例进行展示。##核心原理解析自查询检索器(SelfQueryRetriever)的核心思想是通过提供文档的元数据和内容描述，结合语言模型生成查询条件来完成数据检
AI：对比ChatGPT这类聊天机器人，人形机器人对人类有哪些不一样的影响？ InnoLink_1024 AGI 人工智能机器学习 chatgpt 人工智能机器人
人形机器人与像ChatGPT这样的聊天机器人相比，虽然都属于人工智能技术的应用，但由于其具备的物理形态和与环境的互动能力，它们对人类的影响会有很大的不同。下面从多个角度进行对比，阐述它们各自对人类的不同影响：1.物理交互与虚拟交互人形机器人：具有物理形态，能够在物理世界中与人类进行直接交互。例如，搬运物品、进行日常家务、提供身体上的帮助（如扶持老人、帮助走路等），以及进行非语言的沟通（如手势、面部
A SURVEY ON POST-TRAINING OF LARGE LANGUAGE MODELS——大型语言模型的训练后优化综述——第9部分——应用王金-太想进步了语言模型人工智能自然语言处理
应用尽管预训练为大型语言模型（LLMs）赋予了强大的基础能力，但在部署于专业领域时，LLMs仍经常遇到持续的限制，包括上下文长度受限、容易产生幻觉（hallucination）、推理能力欠佳和固有的偏见。在现实世界的应用中，这些不足显得尤为重要，因为在这些场景中，精确性、可靠性和伦理一致性是至关重要的。这些问题引发了一些根本性的探讨：(1)如何系统地提高LLM的表现以满足特定领域的需求？(2)在实
知识蒸馏：从软标签压缩到推理能力迁移的工程实践(基于教师-学生模型的高效压缩技术与DeepSeek合成数据创新) AI仙人掌人工智能 AI 人工智能深度学习语言模型机器学习
知识蒸馏通过迁移教师模型（复杂）的知识到学生模型（轻量），实现模型压缩与性能平衡。核心在于利用教师模型的软标签（概率分布）替代独热编码标签，学生模型不仅学习到教师模型输出数据的类别信息，还能够捕捉到类别之间的相似性和关系，从而提升其泛化能力核心概念知识蒸馏的核心目标是实现从教师模型到学生模型的知识迁移。在实际应用中，无论是大规模语言模型（LLMs）还是其他类型的神经网络模型，都会通过softmax
KV 缓存简介 dev.null AI 缓存
以下是关于KV缓存（Key-ValueCache）的简介，涵盖其定义、原理、作用及优化意义：1.什么是KV缓存？KV缓存是Transformer架构（如GPT、LLaMA等大模型）在自回归生成任务（如文本生成）中，用于加速推理过程的核心技术。其本质是：在生成序列时，缓存历史token的Key和Value矩阵，避免重复计算，从而显著减少计算量。2.为什么需要KV缓存？传统自注意力计算的问题在生成第t
迁移学习入门 EmbodiedTech 人工智能大模型迁移学习人工智能机器学习
迁移学习1迁移学习的概念预训练模型定义:简单来说别人训练好的模型。一般预训练模型具备复杂的网络模型结构；一般是在大量的语料下训练完成的预训练语言模型的类别现在我们接触到的预训练语言模型，基本上都是基于transformer这个模型迭代而来的因此划分模型类别的时候，以transformer架构来划分：Encoder-Only:只有编码器部分的模型，代表：BERTDecoder-Only:只要解码器部
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
复旦：LLM不同层位置编码缩放大模型任我行大模型-结构原理人工智能自然语言处理语言模型论文笔记
标题：Layer-SpecificScalingofPositionalEncodingsforSuperiorLong-ContextModeling来源：arXiv,2503.04355摘要尽管大型语言模型（LLM）在处理长上下文输入方面取得了重大进展，但它们仍然存在“中间丢失”问题，即上下文中间的关键信息往往不足或丢失。我们广泛的实验表明，这个问题可能源于旋转位置嵌入（RoPE）的快速长期衰
OpenManus 代码分析有个人神神叨叨人工智能 ai
项目分析：OpenManus这是github地址OpenManus是一个基于LLM（大型语言模型）的智能代理系统，它采用了模块化的设计，支持工具调用、规划和执行等功能。下面我将通过时序图和流程图来详细分析整个系统的工作流程。系统架构OpenManus采用了分层架构设计，主要包括以下几个核心组件：Agent层：实现了不同类型的智能代理，包括基础代理（BaseAgent）、ReAct代理（ReActA
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&

论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models