comli_cn

论文阅读：Making Large Language Models A Better Foundation For Dense Retrieval

论文链接

Abstract

密集检索需要学习区分性文本嵌入来表示查询和文档之间的语义关系。考虑到大型语言模型在语义理解方面的强大能力，它可能受益于大型语言模型的使用。然而，LLM是由文本生成任务预先训练的，其工作模式与将文本表示为嵌入完全不同。因此，必须研究如何正确地调整LLM，以便它们能够有效地初始化为密集检索的骨干编码器。
在本文中，我们提出了一种新的方法，称为LLaRA（适用于密集检索的LLM），它作为LLM的后验自适应，用于密集检索应用。LLaRA由两个前置任务组成：基于嵌入的自动编码（EBAE）和基于嵌入的自回归（EBAR），其中来自LLM的文本嵌入分别用于重构输入句子的标记和预测下一个句子的标记。LLaRA被证明是简单、轻便和高效的。它被应用于维基百科语料库上的LLaMA-2-7B（基础），在那里它大大提高了模型在各种密集检索基准上的微调性能，如MSMARCO和BEIR。我们的模型和代码将在BGE存储库中公开。

1. Introduction

密集检索是深度神经网络提出的一种新的检索范式。与传统的IR方法不同，密集检索学习将查询和文档表示为同一潜在空间内的嵌入，其中查询和文档之间的语义关系可以通过嵌入相似性来反映。如今，密集检索已经是许多现实应用中的重要组成部分，比如网页搜索和开放域问答。

密集检索的质量受到其骨干编码器容量的严重影响。在过去的几年里，预训练的语言模型，例如BERT、RoBERTa、T5，被广泛应用于查询和文档的表示。实验发现，模型大小和训练规模的扩展可以显著提高密集检索的准确性和通用性。

最近，大型语言模型（LLM）被作为许多经典NLP任务的通用解决方案进行了微调。考虑到LLM在语义理解方面的卓越能力，利用这种强大的模型进行密集检索也很有希望。事实上，在这个方向上已经有了开创性的努力，LLM被提示或微调以生成判别嵌入，从而促进密集检索。

尽管取得了初步进展，但要充分释放LLM在密集检索应用中的潜力仍然很困难。特别地，LLM通过文本生成进行预训练，学习文本生成的嵌入来预测下一个token。因此，LLM的输出嵌入将主要集中于捕获上下文的局部和未来的语义。然而，密集检索需要嵌入来表示整个上下文的全局语义。如此大的差异将严重限制LLM在密集检索中的直接应用。

为了解决上面提到的问题，我们提出了一个新的方法，名叫LLaRA（如Figure 1），它作为LLM的后验自适应，以提高它们的密集检索能力。LLaRA可以看作是无监督生成预训练的一个扩展训练阶段。通过适当设计的文本前置任务，它旨在增强LLM，使其能够生成用于全局上下文语义表示的文本嵌入。

特别是LLaRA引入了两个前置训练任务：EBAE（Embedding Based Auto Encoding）和EBAR（Embedding-Based Auto Regression）。在EBAE中，LLM被提示生成文本嵌入，该文本嵌入可用于预测输入句子本身的token。而使用EBAR时，LLM会被提示生成文本嵌入，该嵌入可用于预测下一个句子的token。通过从上述前置任务中学习，可以将LLM的文本嵌入从局部语义表示（即对下一个标记的预测）调整为全局语义表示（例如对句子级特征的预测）。有了这两个不同的提示模板，LLM的嵌入能力可以区分开来，以处理不同的语义匹配场景，例如相似性搜索（使用EBAE的提示）和问答（使用EBAR的提示）。

在LLaRA中，句子级特征的预测是通过LLM的输出嵌入的线性投影进行的，其中不需要额外的解码组件。因此，LLaRA可以直接在现有的生成预训练管道之上实现，并且它导致了极具竞争力的训练效率。此外，不需要收集任何被标记的数据，因为LLaRA完全基于普通语料库进行。

我们使用Wikipedia语料库，应用LLaRA对LLaMA-2-7B进行适应，从而显著提高了LLM的检索质量。在进行了常见的微调操作后，适应良好的模型在各种评估场景中恢复了最先进的性能，例如在MSMARCO上的文章和文档检索，以及在BEIR基准上的零样本检索。

总之，我们在这项工作中做出了以下技术贡献。1）我们提出了LLaRA，这是第一项将LLM应用于密集检索应用的研究工作。2） LLaRA设计简单但有效。通过对未标记数据执行EBAE和EBAR这两个前置任务，LLaRA大大提高了LLM的检索能力。3） LLM的预训练和微调将花费巨大的成本。为了便于未来在这一领域的研究，我们的模型和源代码将公开。

2. Related Works

密集检索是将查询和文档表示为同一潜在空间内的嵌入，其中可以基于嵌入相似性为查询检索相关文档。如今，它被广泛应用于许多重要的现实世界应用中，如网页搜索、问答和会话系统。密集检索的准确性由其嵌入的质量决定，其中骨干编码器是学习有判别性嵌入的决定性因素。在过去的几年里，预训练语言模型（PLM），如BERT、RoBERTa和T5，被广泛用于查询和文档的编码。得益于大规模的预训练和基于transformer的架构，PLM能够为输入文本生成细粒度的语义表示。此外，研究还发现，随着模型和训练规模的扩大，以及预训练方法的改进，可以进一步提高基于PLM的密集检索的准确性和通用性。

遵循同样的精神，利用LLM不断扩大骨干编码器是一个自然的举措。LLM的使用在许多方面都是有前景的。值得注意的是，考虑到LLM强大的语义理解能力，它可以大大有助于复杂查询和文档的建模。此外，考虑到LLM的上下文长度大大扩展，它为构建文档级检索器提供了直接的基础。由于LLM具有前所未有的通用性和指令跟随能力，它也有利于多任务嵌入模型的学习。最近，已经有几项工作对应用LLM作为密集检索的骨干编码器进行了初步的努力。然而，现有的方法只是直接使用LLM。由于文本生成和文本嵌入任务之间的巨大差异，LLM可能还有许多未被发掘的潜力。事实上，如何将LLM作为密集检索应用的更好的基础模型，还有待研究。

3. Methodology

3.1 初步的

密集检索利用文本嵌入模型来生成查询和文档的嵌入： $e_q$ 和 $e_d$ 。查询和文档的相关性通过它们的嵌入相似性来反映： $< e_{q}, e_{d} >$ 。因此，可以通过embedding空间内的ANN搜索来检索查询（ $D_q$ ）的相关文档：

$D_q \gets Top-k(\{d:|D\})$

预训练语言模型曾经是嵌入模型的骨干编码器。以BERT为例。输入文本被标记为序列T: $\dots, tN,[EOS]$ 。然后，通过BERT对标记化序列（tokenized sequence）进行编码，其中输出嵌入被集成为文本嵌入。执行集成有两个常用选项：[CLS]或平均池化：

$e_t \gets BERT(T)[CLS]$

$e_t \gets AVG(BERT(T))$

当使用大型语言模型（LLM）作为骨干编码器时，文本嵌入需要以不同的方式生成。考虑到现有的LLM主要采用仅解码器的架构，全局上下文只能通过输入序列末尾的token来获取。因此，特殊标记 $⟨\setminus s⟩$ 或[EOS]的输出嵌入被用作文本嵌入。以LLaMA为例，我们有以下更新的文本嵌入形式：

$e_t \gets LLaMA(T)[<\setminus s>]$

3.2 LLaRA

尽管LLM中的最后一个token可以在给定仅解码器的架构的情况下处理整个上下文，但其输出嵌入并不是输入文本的合适表示。这是因为LLM是通过文本生成进行预训练的，其中每个token的嵌入用于预测其下一个token。换句话说，LLM的输出嵌入侧重于捕获局部和不久的将来（near-future）的语义，而不是全局上下文的语义。

目标： 为了解决上述问题，我们提出了LLaRA（适用于检索的LLM），用于LLM的面向检索的自适应。LLM的文本嵌入有望通过自适应过程实现两个特性。
- 文本嵌入需要表示全局上下文的语义。
- 全局上下文表示应该便于说明查询和文档之间的关联。
前置文本任务： 基于以上两个目标，我们为LLaRA引入了两个前置任务。第一个叫做EBAE（Embedding-based Auto-Encoding)，文本嵌入 $e_t$ 用于预测它自己的输入文本。特别地，如果原始输入文本可以由 $e_t$ 预测，那么输入文本的全局语义必须由 $e_t$ 完全编码。第二个是EBAR（基于嵌入的自回归），其中文本嵌入 $e_t$ 用于预测输入文本的下一个句子。已知相关文档是查询的合理的下一个句子，例如，问题和答案、对对话上下文的回应，可以通过对这种语义进行表示来建立查询和文档之间的关联。
文本嵌入： LLM由两个不同的模板提示生成EBAE和EBAR的文本嵌入（图1）。对于EBAE，LLM通过这个模版生成prompt：

"[Place-holder for input] The original sentence: ⟨\s⟩"

文本embedding的生成方式为：

$e_t^{\alpha} \gets LLaMA(T, SELF, \left\langle \setminus s \right\rangle)[-1]$

其中，“SELF” 表示EBAE的prompt：“The original sentence: ⟨\s⟩”。对于EBAR，LLM的prompt模版为：

"[Placeholder for input] The next sentence: ⟨\s⟩"

基于此，文本嵌入被生成为：

$e_t^{\beta} \gets LLaMA(T, NEXT, \left\langle \setminus s \right\rangle)[-1]$

其中"NEXT"表示EBAR的prompt：“The next sentence:”。

如果直接计算 $e_t^{\alpha}$ 和 $e_t^{\beta}$ 将会造成很大的运算开销的浪费，因为输入文本 $T$ 将会被处理两次。为了解决这个问题，我们提出一次性计算 $e_t^{\alpha}$ 和 $e_t^{\beta}$ 。特别地，EBAE和EBAR的prompts被合并到了LLM的一个prompt里面：

"[Placeholder for input] SELF ⟨\s⟩ NEXT ⟨\s⟩"

因为这两个文本嵌入需要被单独计算，我们修改了传统casual language modeling的注意力掩码，其中 “SELF $\left\langle \setminus s \right\rangle$ ” 和 “NEXT $\left\langle \setminus s \right\rangle$ ” 是相互不可见的（Figure2）。

现在，第一个和第二个 <\s> 的输出embedding分别被用作 $e_t^{\alpha}$ 和 $e_t^{\beta}$ 。考虑到输入文本T将占据联合提示（joint prompt）的大部分长度，与直接计算相比，这种处理将节省几乎50%的成本。

训练目标： 如前所述，LLaRA的文本嵌入是为了捕捉输入文本本身的全局语义和输入文本的下一个句子的语义。在这里，我们提出了一个简单但有效的训练目标，将文本嵌入转换为全局语义表示。理论上，我们认为，如果一个嵌入本身能够准确预测特定上下文的标记，那么该嵌入一定是相应上下文的全局语义的有力表示。

基于这一基本原理，文本嵌入的训练被公式化为一个多类分类问题，其中文本嵌入是线性投影的，用于预测目标上下文中的tokens。上述问题的目标函数推导为：

在这个地方， $\in R^{|V| \times d}$ 是线性投影矩阵， $V$ 是词汇空间。 $\mathcal{T}$ 代表输入文本本身或下一个句子的标记的集合，分别取决于 $e_t^{\alpha}$ 和 $e_t^{\beta}$ 的处理。事实证明，上述训练目标简单而有效。它可以很容易地在现有的语言建模训练管道之上实现。

4. Experimental Study

4.1 设置

进行实验研究是为了验证LLaRA的有效性，特别是它对微调后检索准确性的影响，以及它在不同场景下的通用性。为了实现这些目标，我们使用MS MARCO（Nguyen et al.，2016）作为我们的微调数据集，对段落检索和文档检索任务进行评估。为了评估模型的通用性，我们还利用了BEIR基准涵盖了多种检索场景，如问答、事实验证、实体检索、重复检测等。将MS MARCO的微调模型直接移植到BEIR的zero-shot评价中。

训练： LLaRA应用于LLaMA-2-7B（基础）模型。这是基于DPR策划的维基百科的未标记语料库进行的（Karpukhin等人，2020）。我们总共执行了10000个LLaRA自适应步骤，批量大小为256，序列长度为1024，学习率为1e-5。LLaRA按照RepLLaMA提出的过程进行微调：它利用LoRA进行LLM的参数有效训练，并简单地利用ANN hard negatives进行嵌入模型的对比学习。

4.2 分析

分别用Table 1、2和3给出了在MS MARCO上的文章和文献检索以及在BEIR基准上的零样本检索的评价结果。我们与各种各样的基线方法进行了比较，包括基于预训练的语言模型的具有代表性的密集检索器，例如 ANCE，RocketQA，GTR，RetroMAE ，SimLM以及传统的基于BM25的稀疏检索。我们还介绍了利用LLM作为骨干编码器的最新方法，包括CPT，SGPT和RepLLaMA。

主要观察结果如下。首先，LLaRA在每个评估场景中都实现了最高的重新评估性能。值得注意的是，LLaRA在MS MARCO 段落检索中MRR@10指标获得了43.1分，在文档检索中MRR@100指标获得了47.5分，且NDCG@10平均为55.1。这样的性能甚至高于交叉编码器的大多数re-ranking结果。此外与跟它最接近的baseline RepLLaMA相比较，LLaRA在MS MARCO段落检索上的MRR@10指标高出1.9%，在MS MARCO文档检索上的MRR@100指标也要高出1.9%，在BEIR上zero-shot检索的NDGC@10指标要高出1.0%。这种显著且一致的经验增益验证了LLM的文本嵌入能力由于LLaRA的自适应而得到了显著提高。

我们对每个特定场景都有以下观察结果。首先，MS MARCO段落检索（Table 1）曾经是信息检索中引用最广泛的基准。近几年，由于对预训练的语言模型和微调方法的重大改进，一系列具有竞争力的基线极大地提高了SOTA。随着LLM的使用，新提出的稠密检索又向前迈出了一大步。需要注意的是，LLaRA只是通过hard negative采样进行了微调。如果未来可以使用更先进的微调方法，那么报告的性能很可能会得到进一步改进。与基于BERT的模型（比如RetroMAE和SimLM）相比，骨干编码器的变化在MRR@10指标上带来了将近4%的增益。这种巨大的进步表明LLM在密集检索中的巨大潜力。

对MS MARCO的文档检索任务也进行了同样的观察（Table 2）。基于LLM的检索器带来了优越的经验性能，其中LLaRA的结果相较于以前基于BERT的方法在MRR@100上有了超过+5%的改进。事实上，考虑到LLM的文本长度显著扩展，例如LLaMA-2的4K，文档检索是使用基于LLM的作为骨干编码器的直接优势。

根据BEIR基准零样本评估结果，检索器的通用性是使用基于LLM的骨干编码器的另一个明显优势。此前，人们普遍观察到，密集型检索很难处理zero-shot场景，尽管它们在监督数据集中表现出了竞争性。对于BEIR基准中的许多评估任务，基于BERT的方法甚至比基于BM25的稀疏检索器差得多。然而，通过切换到基于LLM的骨干编码器，密集检索器的zero-shot性能可以得到很大的改善。值得注意的是，随着模型尺寸的大幅扩大，所有大型基线，如GTR-XXL、CPT-XL、Ada-002、SGPT、RepLLaMA，在大多数情况下都能够优于BM25。从侧面来看，与BERT基线相比，LLaRA在每个单独任务中都取得了更好的性能，最终NDCG@10指标平均提高了+16%。

5. Conclusion

在本文中，我们提出了LLaRA，这是一种新的方法，旨在通过提高LLM的文本嵌入能力，使其成为密集检索的更好基础。LLaRA由两个前置任务组成，即EBAE和EBAR。这两个任务协作将LLM的文本嵌入转换为全局上下文的表示，从而促进查询与其相关目标之间的语义匹配。作为对预训练良好的LLM的后验自适应，LLaRA不仅有效而且实现简单。它可以完全基于未标记的语料库进行，并与现有的语言建模训练管道完全兼容。基于全面的实验研究验证了LLaRA的有效性，其中基于LLM的检索器的准确性和通用性可以显著提高，从而在有监督和zero-shot评估场景中实现最先进的性能。

数学领域的跨时代进化与升级：从公理化到智能化的破茧之路夏末之花算法
作者：夏末之花|发布时间：2025-03-16|阅读量：10万+|点赞数：5.6万引言：数学的“破茧时刻”与文明跃迁人类历史上，数学的每一次重大突破都像一次“破茧时刻”，推动文明跨越式发展。从古希腊的几何公理化到牛顿的微积分，再到20世纪的计算机理论，数学始终是科学革命的基石。而在21世纪的今天，随着量子计算、人工智能、生物信息等技术的爆发，数学正迎来新一轮的进化与升级——从纯粹的逻辑工具，演变为
精准测试：软件开发中的高效质量保障利器霍格沃兹软件测试开发精准化测试测试用例安全性测试测试覆盖率模块测试 selenium 测试工具压力测试
全面解析软件测试开发：人工智能测试、自动化测试、性能测试、测试左移、测试右移到DevOps如何驱动持续交付在现代软件开发中，测试效率与测试质量直接影响产品竞争力。精准测试作为一项兼具效率与精度的创新测试方法，已经成为众多企业提升软件质量的重要手段。本篇文章围绕精准测试的落地实施、对质量指标的提升、数据统计与效果评估方法以及如何提高投入产出比进行全面解读，帮助企业掌握精准测试的价值与实践路径。精准测
提升敏感力，“工具人”破圈的唯一解！技能咖 GAI认证生成式人工智能认证人工智能
在当今这个日新月异的数字化时代，个人与组织面临着前所未有的挑战与机遇。随着科技的飞速发展，尤其是生成式人工智能（GenerativeAI）的兴起，职场生态正在发生深刻变革。如何在这场变革中提升敏感力，实现从“工具人”到行业佼佼者的跨越，成为了众多职场人士关注的焦点。本文将探讨提升敏感力的重要性，并引入生成式人工智能认证（GAI认证），为您揭示“工具人”破圈的唯一解。提升敏感力：职场竞争的关键什么是
新浪财经App喜娜AI助手通过大模型登记，已上线AI摘要和个股公告AI解读量子位
3月14日，官方发布的信息显示，新浪财经App喜娜AI助手近日已通过北京市生成式人工智能服务登记。目前，喜娜AI助手已上线两项创新功能：喜娜AI摘要和个股公告AI解读。这两项功能旨在通过先进的人工智能技术，提升用户对财经资讯和上市公司公告的理解与分析效率，这标志着AI技术在信息服务领域的又一重大突破。喜娜AI摘要：快速提炼财经资讯核心要点AI时代，资讯信息迎来爆炸性增长，用户每天都要面对海量资讯，
模型微调：让AI更懂你的魔法棒带上一无所知的我 pytorch 人工智能 python
模型微调：让AI更懂你的魔法棒✨在人工智能的世界里，模型微调（Fine-tuning）就像是一位魔法师用魔法棒对预训练模型进行“个性化改造”，让它更适应特定的任务。今天，我们就来深入探讨模型微调的技术细节，让你也能像魔法师一样，轻松驾驭AI模型！什么是模型微调？模型微调是指在预训练模型的基础上，通过少量的特定任务数据进行训练，使模型更好地适应新任务的技术。预训练模型通常是基于大规模数据集（如Ima
从 DeepSeek 到 AI 工具箱：Websoft9 应用托管平台赋能高校教学与科研人工智能deepseek
从DeepSeek到AI工具箱：Websoft9应用托管平台赋能高校教学与科研人工智能技术的快速发展正在重塑高校的教学与科研生态。从智能教学辅助到跨学科研究，AI工具的应用场景不断扩展，而技术落地的复杂性也带来新的挑战。在这一背景下，如何将大模型能力与多样化AI工具无缝整合，构建安全、易用的科研教学环境，成为高校数字化转型的关键命题。一、高校智能化转型的三大痛点技术门槛高•AI工具部署依赖专业运维
聊聊关于Python与人工智能那些事小G-biu- python 人工智能 tensorflow
Python与人工智能：介绍Python在人工智能方面的应用Python是一种广泛使用的编程语言，也是人工智能领域中最受欢迎的语言之一。Python提供了许多用于构建和训练人工智能模型的库和框架。本文将介绍一些常见的人工智能技术以及Python在这些技术中的应用。OpenAIOpenAI是一个非营利组织，旨在推动人工智能的发展并促进其对人类的利益。OpenAI通过开发人工智能技术、研究人工智能的影
当现代教育技术遇上仓颉---探秘华为仓颉编程语言与未来教育技术的接轨想成为高手499 华为服务器 php
引言随着人工智能、物联网、区块链等新兴技术的发展，编程语言的需求也在不断演化。据市场研究机构发布的数据显示，全球编程语言市场规模预计在未来五年内将以每年10%的速度增长。此外，越来越多的企业和高校正在积极推动基于分布式系统和硬件优化的新型语言开发，这进一步表明对高性能编程语言的需求日益旺盛。近年来，华为推出了自研编程语言“仓颉”，以其高效的语法设计、灵活的语义表达能力和强大的跨平台适配性能引发了编
Python在人工智能与机器人开发中的应用与实践一键难忘 python 人工智能机器人
Python在人工智能与机器人开发中的应用与实践Python已经成为人工智能和机器人开发的主要编程语言之一，凭借其简洁的语法、强大的库支持和广泛的社区资源，Python为开发者提供了一个高效且易于学习的平台。在这篇文章中，我们将深入探讨如何使用Python进行人工智能（AI）和机器人开发，并通过实际代码示例展示核心技术和应用。1.Python在人工智能中的应用人工智能（AI）领域的核心任务包括机器
复旦：过程奖励优化多模态推理大模型任我行大模型-模型训练人工智能自然语言处理语言模型论文笔记
标题：VisualPRM:AnEffectiveProcessRewardModelforMultimodalReasoning来源：arXiv,2503.10291摘要我们引入了VisualPRM，这是一种具有8B参数的高级多模态过程奖励模型（PRM），它通过Best-of-N（BoN）评估策略提高了现有多模态大型语言模型（MLLM）在不同模型尺度和族之间的推理能力。具体来说，我们的模型提高了三
智慧交通是什么，可以帮助我们解决什么问题? Guheyunyi 运维大数据人工智能信息可视化前端
智慧交通是什么？智慧交通（SmartTransportation）是指利用物联网（IoT）、大数据、人工智能（AI）、云计算、5G通信等先进技术，对交通系统进行智能化管理和优化，以提高交通效率、减少拥堵、降低事故率、提升出行体验，并实现交通资源的合理配置和可持续发展。智慧交通的核心是通过数据采集、分析和应用，实现交通系统的智能化、自动化和协同化，从而构建一个高效、安全、绿色、便捷的交通生态系统。智
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
AI学习指南RAG篇(24)-RAGFlow的社区与开源贡献俞兆鹏 AI学习指南人工智能
一、引言RAGFlow是一款基于深度文档理解的开源RAG（Retrieval-AugmentedGeneration，检索增强生成）引擎，旨在解决现有RAG技术在数据处理和生成答案方面的挑战。RAGFlow通过结合大型语言模型（LLMs）的强大生成能力和高效的信息检索系统，为用户提供了一种全新的交互体验。本文将鼓励读者参与到RAGFlow的开源社区中，共同推动技术的发展和创新。二、RAGFlow的
在线视频创作平台（Vidnami） deepdata_cn 视频生成视频剪辑视频创作
Vidnami是一款功能强大的在线视频创作平台，前身为ContentSamurai，于2015年推出，2020年更名为Vidnami。它运用人工智能技术，能够分析输入的文本，自动从大量素材中选取合适的图像和视频片段，将文字快速转化为具有专业外观的视频，无需用户具备视频编辑经验。该平台提供多种视频模板、全主题定制功能以及内置的免版权媒体库，包括3000万张图片和3万首音乐，还支持自动配音，用户可以录
OpenCV第1课OpenCV 介绍及其树莓派下环境的搭建嵌入式老牛树莓派之OpenCV opencv 人工智能计算机视觉
1.机器是如何“看”的我们人类可以通过眼睛看到五颜六色的世界，是因为人眼的视觉细胞中存在分别对红、绿、蓝敏感的3种细胞。其中的光感色素根据光线的不同进行不同比例的分解，从而让我们识别到各种颜色。对人工智能而言，学会“看”也是非常关键的一步。那么机器人是如何看到这个世界的呢？这就涉及到人工智能方向重要的分支--机器视觉。机器视觉即用机器人代替人眼来做测量和判断，通过机器视觉产品（即图像摄取装置，分C
有了大模型为何还需要Agent智能体全栈你个大西瓜人工智能人工智能 AI Agent Agent 智能体 Agent 原理
一、什么是Agent？Agent（智能体）是一种能感知环境、自主决策、执行动作的智能实体，当它与大语言模型（如通义千问QWen、GPT）结合时，形成一种**“增强型AI系统”**。其核心架构如下：大脑（LLM）：负责语言理解、逻辑推理、知识问答等认知任务。感官（工具链）：通过API、传感器或数据库获取实时数据（如天气、股价）。手脚（执行器）：调用外部工具完成任务（如发送邮件、控制智能家居）。记忆（
Linux安装Anaconda和Jupyter 硬水果糖人工智能 Linux linux jupyter 运维
一、了解Anaconda和Jupyter引言：Anaconda是一个流行的开源数据科学平台，广泛用于数据分析、机器学习、人工智能等领域。它是一个集成了大量科学计算和数据科学工具的Python和R编程语言环境。Anaconda的主要目标是简化数据科学和机器学习的开发流程，提供一个易于安装和管理的环境。而预装了大量常用的Python和R库，这些库涵盖了数据科学的各个方面，包括：数据分析：Pandas、
DeepSeek智能政务大脑：城市服务知识库构建全指南——从RAG架构到民生场景落地实践 Coderabo DeepSeek R1模型企业级应用政务架构
DeepSeek赋能城市智慧升级：基于RAG架构的市民服务智能知识库构建全解一、需求分析与技术选型1.1市民服务场景需求市民服务智能知识库需要解决政务咨询效率低下、专业术语难理解、多轮对话能力弱等核心问题。系统需具备：自然语言理解能力（NLU）异构知识整合能力政策法规精准解读能力多轮对话上下文管理应急服务联动机制1.2DeepSeek技术栈选择基于DeepSeek-Large语言模型构建核心系统，
deepseek具体应用场景 ahyouxiang 人工智能
DeepSeek的具体应用场景非常广泛，涵盖了多个领域和行业。以下是基于证据的详细总结：金融领域DeepSeek在金融领域的应用表现突出，例如通过其大语言模型（如DeepSeekLLM67Bt）提供数学、逻辑推理等能力，帮助金融机构提升服务效率。此外，DeepSeek还被应用于智能安全体产品中，通过安全大模型实现个性化开发和优化。医疗领域在医疗领域，DeepSeek的技术被用于辅助诊断和患者记录管
DeepSeek 大模型落地成都高新区：科技赋能警务的创新变革 AGI大模型学习科技人工智能 DeepSeek 大模型 chatgpt 大模型应用 AI大模型
在科技飞速发展的当下，人工智能正以前所未有的速度融入各个领域，深刻改变着人们的生活与工作方式。公安领域也不例外，积极拥抱科技创新，成为提升警务效能、维护社会稳定的关键路径。全国第一例警用DeepSeek大模型落地成都高新区，这一突破性举措在警务智能化发展进程中具有里程碑意义，为公安工作带来了全方位的革新。一、警用DeepSeek大模型落地的时代背景近年来，国产AI蓬勃发展，不断涌现出令人瞩目的成果
五、AIGC大模型_09手动实现ReAct_Agent 学不会lostfound AI 人工智能 react_agent LangGraph Multi-Agent PlanAndExecute AIGC
0、前言在上一章节中，我们了解到：create_react_agent是LangGraph提供的一个预构建方法（fromlanggraph.prebuiltimportcreate_react_agent），它可以将语言模型（LLM）和一组工具（Tools）结合起来，创建一个能够根据用户输入自动调用工具的智能代理，这个代理可以根据用户的请求，决定是否需要调用某个工具，并将工具的输出反馈给用户这个函
大数据和人工智能概念全面解析就犯得上方法
一、大数据和人工智能大数据是伴随着信息数据爆炸式增长和网络计算技术迅速发展而兴起的一个新型概念。根据麦肯锡全球研究所的定义，大数据是一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。大数据能够帮助各行各业的企业从原本毫无价值的海量数据中挖掘出用户的需求，使数据能够从量变到质变，真正产生价值
DeepSeek爆火，背后模型竟藏着这些秘密！ qq_23519469 ai
DeepSeek是什么来头最近，AI圈可是被一个名字刷爆了屏，那就是DeepSeek！它就像一颗横空出世的超级新星，在全球范围掀起了一阵狂热的追捧潮，这热度，简直了！大家都在疯狂讨论它，各种测评、对比层出不穷。它到底有啥过人之处，能让这么多人都为之疯狂？今天咱就来好好唠唠。DeepSeek，全称杭州深度求索人工智能基础技术研究有限公司，是一家专注于开发先进大语言模型（LLM）和相关技术的企业。它成
Ai时代初期全球不同纬度的层级辐射现象龙胥伯人工智能
基于最新研究成果与行业动态，AI时代的"层级辐射"现象可被科学解构为以下六大维度，结合技术演进、产业实践和社会影响进行系统性分析：一、技术能力的层级跃迁模型效率革命DeepSeek研发的R1-Zero模型通过动态架构设计，将样本利用率提升40%以上，训练周期大幅缩短。这种技术突破推动AI从实验室走向规模化应用，在智能制造、生物医药等领域催生新生态。大语言模型的训练方式（预训练→多任务学习→强化学习
自定义Retriever的实现方法 vaidfl windows linux microsoft python
技术背景介绍在许多大语言模型（LLM）应用中，检索器（Retriever）用于从外部数据源获取信息。检索器的任务是根据用户查询检索相关的文档，这些文档通常被格式化为提示，供LLM使用，从而生成适当的响应，例如，根据知识库回答用户问题。核心原理解析要实现自定义的检索器，需要继承BaseRetriever类，并实现以下方法：_get_relevant_documents：获取与查询相关的文档，必需实现
如何缓存聊天模型响应以提高效率 scaFHIO 缓存 java oracle python
技术背景介绍在开发基于大型语言模型（LLM）的应用程序时，API调用的成本和响应速度是需要考虑的两个重要因素。尤其是在开发过程中，重复请求相同的文本生成可能会增加额外的成本和延迟。为了应对这一挑战，LangChain提供了一种可选的缓存机制，可以有效地减少API调用次数，从而节省费用并加速应用程序响应。核心原理解析缓存机制的基本原理是在第一次请求时，将响应存储在缓存中。如果以后再次请求相同的输入，
如何在一行代码中初始化各种AI模型 qahaj 人工智能 python 深度学习
技术背景介绍在开发大语言模型(LLM)应用时，用户有时需要选择不同的模型提供商和具体模型。这通常需要一定的逻辑来根据用户配置初始化不同的聊天模型。为了简化这一过程，init_chat_model()方法被引入，让开发者能够轻松地初始化多种模型集成，而无需担心导入路径和类名。核心原理解析init_chat_model()方法通过传入模型名称及其提供商，自动推断并实例化对应的聊天模型。该功能在lang
使用Tiktoken进行文本分割：优化大语言模型的输入 bhawfgrcbtwny 语言模型 python 人工智能
引言在处理大语言模型时，因其对输入的token数量有限制，文本分割成为一个至关重要的任务。为了确保生成的文本块不会超过模型的token限制，我们需要使用与模型相同的tokenizer来计数和分割文本。在本文中，我们将探讨如何使用Tiktoken和其他工具来实现有效的文本分割。主要内容1.Tiktoken介绍Tiktoken是由OpenAI创建的一个快速BPE（BytePairEncoding）to
AI人工智能代理工作流AI Agent WorkFlow：设计智能任务处理流程 AI天才研究院计算 AI大模型企业级应用开发实战 DeepSeek R1 &大数据AI人工智能大模型计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
AI人工智能代理工作流AIAgentWorkFlow：设计智能任务处理流程作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在当今的数字化时代，随着数据量的爆炸式增长和复杂性的提升，传统的手动任务处理方式已经无法满足高效、准确的需求。人工智能技术的发展为自动化任务处理提供了新的可能性。AI人工智能代理（AIAgent）作为一
Tree of Thought Prompting（思维树提示）大数据追光猿大模型人工智能大数据深度学习语言模型计算机视觉
TreeofThoughtPrompting（思维树提示）是一种新兴的提示工程技术，旨在通过模拟人类解决问题时的多步推理过程，提升大型语言模型（LLM）在复杂任务中的表现。与传统的线性提示方法不同，思维树提示将问题分解为多个可能的推理路径，并以树状结构探索这些路径，从而找到最优解或生成更高质量的结果。这种方法特别适用于需要多步推理的任务，例如数学问题求解、逻辑推理、规划和创造性写作等场景。它结合了
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts