澜舟孟子开源社区

NLP 论文领读 | Seq2Seq一统江湖？谷歌提出全新端到端检索范式DSI，它才是检索模型的未来？

欢迎关注 NLP 论文领读专栏！快乐研究，当然从研读paper开始——澜舟科技团队注重欢乐的前沿技术探索，希望通过全新专栏和大家共同探索人工智能奥秘、交流NLP「黑科技」，踩在「巨人」肩上触碰星辰！官网：https://langboat.com

本期分享者：澜舟科技研究实习生沈田浩，天津大学自然语言处理实验室（TJUNLP）一年级博士生，目前正在研究对话系统，期待人和机器能够真正自由交流的那一天！Feel free to contact me via email: [email protected] 君子以文会友，以友辅仁～

写在前面

信息检索可以说是互联网中应用最广泛和最成功的技术之一，没有信息检索，我们就会迷失在海量的互联网数据中。想找到自己需要的信息？很蓝的啦~

目前的各类信息检索模型大体都遵循召回+排序的两阶段流程，也就是根据用户的查询(query)首先从海量的文档(document)集合中用简单的特征和模型筛选出粗略匹配的文档（召回），然后对这些文档使用更多的特征和更强的模型做进一步打分（排序），就可以最终得到按分数排序的文档列表了。

那么如何组织海量的文档以便模型检索呢？这时候就需要一个索引了。稀疏检索方式（使用高维稀疏向量表示用户查询和文档，如BM25[1]）一般是使用倒排索引，也就是以词为索引，构建词到文档的映射。而稠密检索方式（使用低维稠密向量表示查询和文档，如目前一票基于深度学习的双塔检索模型）则是构建一个表，其中每一行存储一个文档的向量表示。

然而我们可以看到，目前的这套检索框架存在一些天然的缺陷。首先，两阶段流程会导致错误的传播，并且排序模型和召回模型不能联合优化。如果一个用户想要的文档都没有进入召回模型的法眼，那么无论排序模型多么强大也无法挽救了。如果能使用一个端到端的模型统一建模检索过程，就可以极大缓解上述问题；其次，目前的检索方式都依赖于不可学习的外部索引，并采用不可学习的度量方式（如归一化内积），如果能够根据数据对索引和度量也做优化，是不是就非常的有趣了呢？

正所谓“好风凭借力，送我上青云”，最近大规模预训练模型的迅猛发展大家也是有目共睹，它能够通过自己“记住”的知识回答很多问题，并且具有极强的生成能力。如果能使用一个大模型直接完成整个检索流程，就朝着解决上述问题前进了一大步！

近日来自谷歌研究院的研究人员就发表了一篇名为《Transformer Memory as a Differentiable Search Index》的论文，提出了一种基于Seq2Seq的端到端检索架构DSI，并取得了不错的检索效果。接下来就让我们一起来看看这篇论文，它是否能够代表未来检索模型的发展方向呢？

论文标题

Transformer Memory as a Differentiable Search Index

论文作者

Yi Tay, Vinh Q. Tran, Mostafa Dehghani, Jianmo Ni, Dara Bahri, Harsh Mehta, Zhen Qin, Kai Hui, Zhe Zhao, Jai Gupta, Tal Schuster, William W. Cohen, Donald Metzler

论文单位

Google Research

论文链接

https://arxiv.org/abs/2202.06991

论文代码

https://github.com/ArvinZhuang/DSI-transformers

（目前还没有开源，非官方复现）

DSI有什么不一样？

首先，论文给出了一个与此前检索方式比较的表格，从中就能看出DSI的不同之处：

可以看到，DSI引入了新的文档索引方式docid，并通过训练模型实现docid到文档的映射，因此索引实际上是存储在模型参数中的。同时，DSI的检索方式也是可训练的，检索时不再计算内积，而是通过序列的方式输出docid。同时，文中也提到，DSI的排序是通过Beam Search的方式输出top-k的docid，因此不需要额外的排序模型，极大地简化了整体设计。

虽然DSI看上去极具颠覆性，和此前的检索模型比起来简直是哪哪都不一样，但实际上DSI的结构却是非常简单的。笔者在这里画了一个示意图，供大家参考：

从图中可以看到，DSI按先后顺序可分为四个模块：

1. 文档表示策略：这里是要解决索引什么(what to index)的问题。考虑到完整文档往往较长，作者认为采用文档词序列的子集来表示文档是更好的方案。作者提出了三种文档表示策略：

• Direct Index: 使用前L个tokens表示该文档；

• Set Index: 先去重，去停用词，然后按照类似Direct Index的方式操作；

• Inverted Index: 多次采样连续的k个tokens表示该文档。

2. Docid 构造：作者认为一个好的docid需要满足两条要求：首先，docid需要能够表示文档语义；其次，docid需要在每一步解码过程中帮助解码器缩小搜索空间，以保证检索速度。基于这个目标，作者提出了三种构造docid的方案：

• Unstructured Atomic Docid：直接为doc分配任意int值的docid，预测时视为分类任务，这个方案不满足上述的任何一条要求；

• Naively Structured String Docid：把docid视为文本序列进行解码，以降低每步解码时可选的token范围。这个方案能够实现上述第二条要求，但第一条仍无法满足；

• Semantically Structured Docid：作者认为较好的方案，通过层次化的语义编码在降低每步解码时可选token范围的同时赋予docid语义信息，如下图所示。可以看到这个方案能够同时满足上述两条要求。

具体来说，在构造Semantically Structured Docid时，模型首先使用8层BERT对文档编码得到文档的向量表示，然后做k-means聚类。聚类时先将文档集合分为10个cluster（每个cluster要少于c个文档），如果多于c个文档，则再分为10个cluster，直到每个cluster都少于c个文档为止。总体来看这是一种十进制的树状编码，其中作者实际使用的c=100。

3. 基于docid和文档表示训练索引(index)模型：这里是要解决如何索引(how to index)的问题。有了docid和文档表示以后，就要建立它们之间的对应关系了。DSI采用Seq2Seq的方式建模索引过程，同时作者也给出了四种索引建模策略：

• Inputs2Target：输入文档表示，输出docid；

• Target2Inputs：与上面的策略相反，输入docid，输出文档表示；

• Bi-directional：上述两种方式进行联合训练，通过tag让模型知道是哪个方向；

• Span corruption: 直接把docid和文档表示拼在一起做随机span corruption。

4. 基于索引和用户查询训练检索（retrieval）模型：这一步就是实际的检索步骤了，可以看到和索引任务一样，它们的输出都是docid，只不过输入从文档表示变成了用户的查询。那么一个很自然的想法就是将这两个任务也放在一起训练，而作者也是这么做的。

作者在这里尝试了两种方式：1)先训练一个索引模型，再在检索任务上微调，以及2)直接同时学习两个任务，并使用prompt加以区分。实验表明第二种方案显著优于第一种，因此后续的实验也是基于后者开展的。

介绍完模型后我们再来回顾一下，DSI是怎么解决前面提到的问题的呢？

1. 首先，它的编码和检索建模成了同一个任务，因此可以使用一个模型同时训练。同时不再针对排序设计专门的模型，而是直接使用解码过程中的beam search完成，因此是一个端到端的检索架构，这就解决了传统的召回+排序两阶段流程中错误传播和无法联合优化的问题；

2. 其次，它的索引方式和检索方式都是可训练的，且直接存储于模型参数中，这使得模型可以学习到更适合训练数据的索引方式和检索方式，而不会局限于固定的索引和向量相似度检索。

实验设置及结论

实验数据集方面，作者基于Natural Question(NQ)[2]构造出三种不同规模的数据集: NQ10K/NQ100K/NQ320K（分别包含10K/100K/320K个文档），指标则使用了衡量召回性能的Hits@k。模型方面，作者使用了Base(0.2B), Large(0.8B), XL(3B)和XXL(11B)四种不同参数规模的T5模型。为了训练这些模型，作者使用了128-256块(XL/XXL)和64-128块(Base/Large)TPU，只能说谷歌就是谷歌，延续了一贯的壕气作风……

不过这里笔者认为实验的数据集和评测指标还是太过单一了：只使用了NQ和衡量召回性能的Hits@k。首先，数据集层面还有很多其它的检索数据集，如目前学术界广泛使用的MSMarco[4]；其次，鉴于DSI能够排序，评测指标层面应引入对位置敏感的评测指标（如MRR）以评估beam search的排序能力，这点还是有点遗憾的。

接下来我们来看实验：

1. 有监督的full-shot setting：

如上表所示，在这个设置下，作者比较了BM25、使用T5的双塔架构和使用T5的DSI架构的表现。可以看到DSI总体来说是比BM25和双塔架构强的，也可以看出模型越大DSI的表现越好。但最优的docid表示策略则有点出乎意料，作者认为最好的Semantic Docid相比其它两种相对朴素的策略并没有全方位的领先，三种策略各自占据了一些最优指标。笔者猜想这可能是由于构造docid的模型（即8层BERT+k-means）的建模能力偏弱，导致Semantic Docid的表示能力不足，进而无法完全达到作者的设计初衷。

2. zero-shot setting，即不使用用户查询，只有文档的情形：

可以看到DSI再次优于BM25和双塔架构，且领先幅度较大。笔者认为这是由于索引和检索两个任务建模成了相同的形式，因此在没有用户查询时，索引可视为检索的预训练任务，因此为zero-shot 的检索提供了一个还不错的初始化权重。

然而，在最优的docid表示策略方面，当数据规模变大时，反倒是最朴素的Atomic Docid效果最好（并且好得多），但在full-shot设置下却没有这种现象。这点作者并没有解释原因，并且在实验分析部分更是直接把实验结果的表格用自然语言复述了一遍，没有提供任何新的有用信息，这点让笔者感到十分困惑。同时，作者在比较时使用的SentenceT5只是一个Large模型，而双塔和DSI的T5却使用了XXL模型（两者参数量大约相差十几倍），且提升相较参数量来说有限，针对参数带来的提升和算法带来的提升还需要进一步分析。

3. 不同的文档表示策略和索引建模策略：

• Index策略: 在NQ100K数据集和Atomic Docid策略下，Hits@1分别为：Inputs2Targets (13.5) > Bi-directional (13.2) >> Targets2Inputs (0) ≈ Span Corruption (0)，可以看到Inputs2Targets仍然是最好的策略，这也比较符合我们的直觉；

• Document表示: 从下图可以看出，最简单的Direct Index（取前32个token）反而效果最好，并且不同的表示方法对检索表现有非常大的影响。

4. Scaling Laws：

可以看到随着模型参数量变大，DSI性能能够继续大幅提升，但双塔架构基本停滞。这意味着DSI架构对参数量更敏感，因此更能从目前大模型的研究中获益，但这同时也意味着它需要大模型才能充分发挥作用，如果不解决大模型推理阶段的检索速度和成本问题，DSI还是很难实用化的。

5. Interplay Between Indexing and Retrieval：

这里作者探究了index和retrieval两个任务之间的关系。既然两个任务是同时训练的，那么比例就要有讲究。可以看到索引和检索比例为32:1时达到最好性能，不过由于实验没有使用其它数据集，目前无法确定该比例与什么因素有关（比如用户查询长度、候选文档数量等）

未来方向

• 在DSI中，索引和检索两个任务有显著的依赖关系（即检索依赖好的索引模型），在这种具有先后依赖关系的任务间进行多任务学习仍然是具有挑战性的，未来需要探索更好的训练策略，如某种形式的交替训练或基于课程学习的训练方法；

• 信息检索，特别是大规模数据的检索对速度是非常敏感的，考虑到DSI对参数量的要求，未来需要提升检索速度，使其能够顺利应用到大规模数据中；

• 数据更新对于信息检索来说是家常便饭，但对于DSI来说，数据更新时模型也需要更新。考虑到训练DSI需要花费大量时间，如何在推理阶段以较低成本更新模型也是一个值得研究的问题；

• 检索增强的语言模型是时下最火热的NLP研究方向之一（参见往期检索增强相关论文领读，DeepMind 发布检索型 LM，或将成为 LM 发展新趋势！？和别再第四范式：看看新热点检索增强怎么做文本生成！），作为一种与大规模预训练模型联系更加紧密的检索范式，DSI和检索增强的语言模型的结合也许很值得期待哦~

总结

这篇论文提出了一种全新的端到端检索范式：Differentiable Search Index (DSI)，通过Seq2Seq的方式实现检索，并统一建模了召回和排序过程。实验表明，DSI在full-shot和zero-shot上击败了双塔稠密检索模型和稀疏检索模型BM25，但最优的docid构造策略仍有待商榷。

DSI最大的亮点在于它能够更直接地借助大规模预训练模型的力量。在以往的检索模型中，预训练模型大多都应用在编码器上以获得更好的向量表示。而DSI则更进一步，将编码、检索和排序的全过程都纳入到预训练模型的版图，这样就可以利用海量的无监督语料来优化整个检索过程，在没有数据的情况下也能得到一个差强人意的检索模型。与此同时，DSI还可以加入其它建模成Seq2Seq的任务的数据进行联合训练，这也有望进一步提升检索模型的表现。这么来看，Seq2Seq+Prompt大潮在攻陷一众NLP任务后，又啃下来了一块硬骨头，朝着一统天下又迈进了一步。

然而目前，阻碍DSI实用化的最大因素还是速度问题。DSI将原本不可学习的、基于向量相似度的检索变成了模型的inference。然而成也可学习，败也可学习，如果不解决大模型对检索速度产生的巨大影响，DSI是无法取代现有的检索架构的。不过这种挖新坑的文章往往也是大家希望看到的，毕竟它是一块璞玉，能进一步雕琢的地方越多，越能吸引人去follow嘛~

参考资料

[1] Robertson, Stephen, and Hugo Zaragoza. "The Probabilistic Relevance Framework: BM25 and Beyond." Information Retrieval 3.4 (2009): 333-389.

[2] Kwiatkowski, Tom, et al. "Natural questions: a benchmark for question answering research." Transactions of the Association for Computational Linguistics 7 (2019): 453-466.

[3] Raffel, Colin, et al. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." Journal of Machine Learning Research 21 (2020): 1-67.

[4] Nguyen, Tri, et al. "MS MARCO: A human generated machine reading comprehension dataset." CoCo@ NIPS. 2016.

[5] Ni, Jianmo, et al. "Sentence-t5: Scalable sentence encoders from pre-trained text-to-text models." arXiv preprint arXiv:2108.08877 (2021).

本专栏欢迎投稿，关注公众号「澜舟科技」或者联系澜小舟（id： langboat2021）哦。

大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
Longformer: The Long-Document Transformer（2020-4-10）不负韶华ღ 深度学习（NLP）transformer 深度学习人工智能
模型介绍目前基于Transformer的预训练模型在各项NLP任务纷纷取得更好的效果，这些成功的部分原因在于Self-Attention机制，它运行模型能够快速便捷地从整个文本序列中捕获重要信息。然而传统的Self-Attention机制的时空复杂度与文本的序列长度呈平方的关系，这在很大程度上限制了模型的输入不能太长，因此需要将过长的文档进行截断传入模型进行处理，例如BERT中能够接受的最大序列长
搜索架构中的NLP技术：提升搜索准确性的关键搜索引擎技术架构自然语言处理人工智能 ai
搜索架构中的NLP技术：提升搜索准确性的关键关键词：搜索架构、NLP技术、查询理解、语义搜索、相关性排序、意图识别、BERT模型摘要：本文将深入探讨现代搜索架构中NLP技术的核心应用，从查询理解到结果排序的全流程，揭示NLP如何提升搜索准确性。我们将通过生动的比喻解释复杂概念，分析关键技术原理，并提供实际代码示例，帮助读者全面理解搜索系统背后的NLP魔法。背景介绍目的和范围本文旨在解析NLP技术在
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
2024年11月架构设计师论文真题回顾，附参考解答、解析及所涉知识点（一）一几文架构系统架构系统架构设计师软考高级 IT考证
软考高级系统架构设计师考试包含三个科目：信息系统综合知识、案例分析和系统架构设计论文。考试形式为机考。本文主要回顾2024年下半年(2024-11-10)系统架构设计师考试下午论文的题目，同时附带参考解答、解析和所涉知识点。综合知识2024年11月架构设计师综合知识真题回顾，附参考答案、解析及所涉知识点（一）2024年11月架构设计师综合知识真题回顾，附参考答案、解析及所涉知识点（二）2024年1
202505架构师论文《论静态负载均衡策略设计和应用》文琪小站系统架构师软考论文负载均衡运维软考论文
软件架构师论文范文系列摘要在当今高度依赖信息技术的时代，构建高性能、高可用的分布式系统已成为必然趋势。负载均衡作为分布式系统中的关键技术，旨在将请求或数据有效地分发到多个处理单元，以优化资源利用率、提升系统吞吐量并确保服务的稳定运行。本文深入探讨了静态负载均衡策略的设计原理、技术特点及其在实际项目中的应用。首先，概述了负载均衡的整体概念及静态策略的分类，重点介绍了基于哈希、轮询和权重等静态算法的实
深度学习篇---简单果实分类网络
下面我将提供一个使用Python从零实现果实分类模型的完整流程，包括数据准备、模型构建、训练和部署，不依赖任何深度学习框架，仅使用NumPy进行数值计算。1.数据准备与预处理首先需要准备果实图像数据集，将其分为好果和坏果两类，并进行预处理：importosimportnumpyasnpfromPILimportImagefromsklearn.model_selectionimporttrain_
Python深度学习：3步实现AI人脸识别，效果堪比专业软件！小筱在线 python 人工智能 python 深度学习
引言：AI人脸识别的时代已经到来在当今数字化时代，人脸识别技术已经从科幻电影走进了我们的日常生活。从手机解锁到机场安检，从银行身份验证到智能门禁系统，这项技术正以前所未有的速度改变着我们的生活方式。而令人振奋的是，借助Python和深度学习技术，普通人也能构建出专业级的人脸识别系统。本文将带领您通过三个关键步骤，使用Python深度学习技术实现一个准确率高达99%的人脸识别系统。这个系统不仅原理简
RNN案例人名分类器（完整步骤） AI扶我青云志 rnn 人工智能深度学习 nlp lstm gru
今天给大家分享一个NLP（自然语言处理）中的一个小案例，本案例讲解了RNN、LSTM、GRU模型是如何使用并进行预测的，一、案例架构人名分类器的实现可分为以下五个步骤:第一步:导入必备的工具包第二步:对data文件中的数据进行处理，满足训练要求第三步:构建RNN模型(包括传统RNN,LSTM以及GRU)第四步:构建训练函数并进行训练五步第:构建评估函数并进行预测二、实现步骤1.导包#导入torch
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
【论文笔记】RAGLAB: A Modular and Research-Oriented Unified Framework for Retrieval-Augmented Generation AustinCyy 论文笔记论文阅读
论文信息论文标题：RAGLAB:AModularandResearch-OrientedUnifiedFrameworkforRetrieval-AugmentedGeneration-EMNLP24论文作者：XuanwangZhang-NanjingUniversity论文链接：https://arxiv.org/abs/2408.11381代码链接：https://github.com/fat
【推荐算法课程二】推荐算法介绍-深度学习算法盒子6910 运维视角下的广告业务算法推荐算法深度学习运维开发运维人工智能
三、深度学习在推荐系统中的应用3.1深度学习推荐模型的演化关系图3.2AutoRec——单隐层神经网络推荐模型3.2.1AutoRec模型的基本原理AutoRec模型是一个标准的自编码器，它的基本原理是利用协同过滤中的共现矩阵，完成物品向量或者用户向量的自编码。再利用自编码的结果得到用户对物品的预估评分，进而进行推荐排序。什么是自编码器？自编码器是指能够完成数据“自编码”的模型。无论是图像、音频，
巅峰对决，超三十万奖金等你挑战！第十届信也科技杯全球AI算法大赛火热开赛！中杯可乐多加冰前沿资讯分享科技人工智能算法计算机视觉机器学习深度学习
信也科技今年跟IJCAI和CIKM这两大全球顶级AI会议合作，这场比赛被全球人工智能顶会CIKM收录为官方赛事单元，获奖选手有机会全球人工智能顶会创造更大的影响力。一、赛事概况随着深度伪造技术的高度发展，人工智能产业走深向实，生成合成技术开始呈现工具化和普及化趋势。在生成合成内容质量显著提升的当下，基于换脸攻击的身份冒用和欺诈事件在全球范围内激增，严重威胁个人隐私和公共数据安全。第十届信也科技杯全
【AI智能推荐系统】第二篇：深度学习在推荐系统中的架构设计与优化实践 DeepFaye 人工智能深度学习
第二篇：深度学习在推荐系统中的架构设计与优化实践提示语：“从Wide&Deep到Transformer，深度推荐模型如何突破性能瓶颈？本文将揭秘Netflix、淘宝都在用的深度学习推荐架构，手把手教你设计高精度推荐系统！”目录深度学习推荐系统的核心优势主流深度学习推荐架构解析2.1Wide&Deep模型2.2DeepFM与xDeepFM2.3神经协同过滤(NCF)2.4基于Transformer的
OPENAI中Assistants API的实现原理及示例代码python实现 dzend aigc python ai
OPENAI中AssistantsAPI的实现原理及示例代码前言OPENAI是一家人工智能公司，致力于研究和开发人工智能技术。其中，AssistantsAPI是OPENAI推出的一项人工智能服务，可以帮助开发者快速构建智能助手。本文将介绍AssistantsAPI的实现原理，并提供使用Python实现的示例代码。AssistantsAPI实现原理AssistantsAPI的实现原理主要包括以下几个
【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等十小大超分辨率重建（理论+实战科研+应用）超分辨率重建人工智能图像处理深度学习计算机视觉图像超分 pytorch
文章目录专栏简介专栏亮点适配人群相关说明关于答疑环境配置超分理解实现流程文章目录基础知识三个常用的SR框架数据集相关可解释性（论文中的可视化说明）图像超分（ImageSuper-Resolution）经典超分（ClassicalSR）任意尺度超分（Arbitrary-ScaleSR）高效/轻量化超分（Efficient/LightweightSR，ESR）盲超分/真实世界图像超分辨率（Blind/
【图像超分】论文复现：密集残差链接Transformer！DRCT的Pytorch源码复现，跑通超分源码，获得指标、模型复杂度、结果可视化，核心模块拆解与源码对应，注释详细！十小大超分辨率重建（理论+实战科研+应用）pytorch 深度学习超分辨率重建图像处理计算机视觉 python transformer
请先看【专栏介绍文章】：【超分辨率（Super-Resolution）】关于【超分辨率重建】专栏的相关说明，包含专栏简介、专栏亮点、适配人群、相关说明、阅读顺序、超分理解、实现流程、研究方向、论文代码数据集汇总等）完整代码和训练好的模型权重文件下载链接见本文底部，订阅专栏免费获取！本文亮点：跑通DRCT源码，获得与论文一致的PSNR/SSIM、Params、超分可视化结果，修正论文中FLOPs的计
系统架构设计师论文分享-论软件架构复用
我的软考历程摘要2023年2月，我所在的公司通过了研发纱线MES系统的立项，该项目为国内纱线工厂提供SAAS服务，旨在提升纱线工厂的数字化和智能化水平。我在该项目中担任架构设计师，负责该项目的架构设计工作。本文结合我在该项目中的实践，详细论述了软件架构复用的实现过程。软件架构复用可以有效降低成本，提高开发速度和质量属性，架构复用方法的步骤分为三个过程：可复用资产的获取、架构复用的管理、架构复用的使
系统架构设计师论文分享-论软件体系结构的演化
我的软考历程摘要2023年2月，我所在的公司通过了研发纱线MES系统的立项，该系统为国内纱线工厂提供SAAS服务，旨在提高纱线工厂的数字化和智能化水平，我在该项目中担任架构设计师，负责该项目的架构设计工作。本文结合我在该项目中的实践，详细论述了软件体系结构的演化。系统上线后，为了满足新需求和适应新场景，就必须修改原有软件架构。在软件架构演化过程中遵循以下原则：演化适应新技术、有利于重构和重用、影响
系统架构设计师论文分享-论单元测试方法及其应用码农卿哥系统架构设计师系统架构单元测试
我的软考历程摘要2023年2月，我所在的公司做了开发纱线MES系统的决定，该系统为国内纱线工厂提供SAAS服务，旨在提高纱线工厂的智能化和数字化水平。我在该项目中被任命为系统架构设计师，全面掌管该项目的架构设计工作。本文将结合我在该项目中的架构设计工作经验，详细介绍如何把单元测试方法应用在项目中。在该项目中，我们采用了多种单元测试方法，包括静态测试和动态测试。静态测试在不运行程序的情况下，通过代码
【深度学习】神经网络剪枝方法的分类烟锁池塘柳0 机器学习与深度学习深度学习神经网络剪枝
神经网络剪枝方法的分类摘要随着深度学习模型，特别是大语言模型（LLM）的参数量爆炸式增长，模型的部署和推理成本变得异常高昂。如何在保持模型性能的同时，降低其计算和存储需求，成为了工业界和学术界的核心议题。神经网络剪枝（Pruning）作为模型压缩的关键技术之一，应运而生。本文将解析剪枝技术的不同分类，深入探讨其原理、优缺点。文章目录神经网络剪枝方法的分类摘要1为什么我们需要剪枝？2分类方法一：剪什
Python 图像分类入门超龄超能程序猿机器学习 python 分类开发语言
一、介绍图像分类作为深度学习的基础任务，旨在将输入图像划分到预定义的类别集合中。在实际的业务中，图像分类技术是比较常用的一种技术技能。例如，在安防监控中，可通过图像分类识别异常行为；在智能交通系统中，实现对交通标志和车辆类型的快速识别等。本文将通过安装包已有数据带你逐步了解使用Python进行图像分类的全过程。二、环境搭建在开始图像分类项目前，需要确保Python环境中安装了必要的库。主要包括：T
jvm调优总结（从基本概念到深度优化） oloz java jvm jdk 虚拟机应用服务器
JVM参数详解：http://www.cnblogs.com/redcreen/archive/2011/05/04/2037057.html Java虚拟机中，数据类型可以分为两类：基本类型和引用类型。基本类型的变量保存原始值，即：他代表的值就是数值本身；而引用类型的变量保存引用值。“引用值”代表了某个对象的引用，而不是对象本身，对象本身存放在这个引用值所表示的地址的位置。
【Scala十六】Scala核心十：柯里化函数 bit1129 scala
本篇文章重点说明什么是函数柯里化，这个语法现象的背后动机是什么，有什么样的应用场景，以及与部分应用函数(Partial Applied Function)之间的联系 1. 什么是柯里化函数 A way to write functions with multiple parameter lists. For instance def f(x: Int)(y: Int) is a
HashMap dalan_123 java
HashMap在java中对很多人来说都是熟的；基于hash表的map接口的非同步实现。允许使用null和null键；同时不能保证元素的顺序；也就是从来都不保证其中的元素的顺序恒久不变。 1、数据结构在java中，最基本的数据结构无外乎：数组和引用（指针），所有的数据结构都可以用这两个来构造，HashMap也不例外，归根到底HashMap就是一个链表散列的数据
Java Swing如何实时刷新JTextArea，以显示刚才加append的内容周凡杨 java 更新 swing JTextArea
在代码中执行完textArea.append("message")后，如果你想让这个更新立刻显示在界面上而不是等swing的主线程返回后刷新，我们一般会在该语句后调用textArea.invalidate()和textArea.repaint()。问题是这个方法并不能有任何效果，textArea的内容没有任何变化，这或许是swing的一个bug，有一个笨拙的办法可以实现
servlet或struts的Action处理ajax请求 g21121 servlet
其实处理ajax的请求非常简单，直接看代码就行了： //如果用的是struts //HttpServletResponse response = ServletActionContext.getResponse(); // 设置输出为文字流 response.setContentType("text/plain"); // 设置字符集 res
FineReport的公式编辑框的语法简介老A不折腾 finereport 公式总结
FINEREPORT用到公式的地方非常多，单元格（以=开头的便被解析为公式），条件显示，数据字典，报表填报属性值定义，图表标题，轴定义，页眉页脚，甚至单元格的其他属性中的鼠标悬浮提示内容都可以写公式。简单的说下自己感觉的公式要注意的几个地方： 1.if语句语法刚接触感觉比较奇怪，if(条件式子,值1,值2)，if可以嵌套，if(条件式子1，值1，if(条件式子2，值2，值3)
linux mysql 数据库乱码的解决办法墙头上一根草 linux mysql 数据库乱码
linux 上mysql数据库区分大小写的配置 lower_case_table_names=1 1-不区分大小写 0-区分大小写修改/etc/my.cnf 具体的修改内容如下: [client] default-character-set=utf8 [mysqld] datadir=/var/lib/mysql socket=/va
我的spring学习笔记6-ApplicationContext实例化的参数兼容思想 aijuans Spring 3
ApplicationContext能读取多个Bean定义文件，方法是： ApplicationContext appContext = new ClassPathXmlApplicationContext（ new String[]｛“bean-config1.xml”，“bean-config2.xml”，“bean-config3.xml”，“bean-config4.xml
mysql 基准测试之sysbench annan211 基准测试 mysql基准测试 MySQL测试 sysbench
1 执行如下命令，安装sysbench-0.5： tar xzvf sysbench-0.5.tar.gz cd sysbench-0.5 chmod +x autogen.sh ./autogen.sh ./configure --with-mysql --with-mysql-includes=/usr/local/mysql
sql的复杂查询使用案列与技巧百合不是茶 oracle sql 函数数据分页合并查询
本片博客使用的数据库表是oracle中的scott用户表; ------------------- 自然连接查询查询 smith 的上司(两种方法) &
深入学习Thread类 bijian1013 java thread 多线程 java多线程
一．线程的名字下面来看一下Thread类的name属性，它的类型是String。它其实就是线程的名字。在Thread类中，有String getName()和void setName(String)两个方法用来设置和获取这个属性的值。同时，Thr
JSON串转换成Map以及如何转换到对应的数据类型 bijian1013 java fastjson net.sf.json
在实际开发中，难免会碰到JSON串转换成Map的情况，下面来看看这方面的实例。另外，由于fastjson只支持JDK1.5及以上版本，因此在JDK1.4的项目中可以采用net.sf.json来处理。一.fastjson实例 JsonUtil.java package com.study; impor
【RPC框架HttpInvoker一】HttpInvoker：Spring自带RPC框架 bit1129 spring
HttpInvoker是Spring原生的RPC调用框架，HttpInvoker同Burlap和Hessian一样，提供了一致的服务Exporter以及客户端的服务代理工厂Bean，这篇文章主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中
【Mahout二】基于Mahout CBayes算法的20newsgroup的脚本分析 bit1129 Mahout
#!/bin/bash # # Licensed to the Apache Software Foundation (ASF) under one or more # contributor license agreements. See the NOTICE file distributed with # this work for additional information re
nginx三种获取用户真实ip的方法 ronin47
随着nginx的迅速崛起，越来越多公司将apache更换成nginx. 同时也越来越多人使用nginx作为负载均衡, 并且代理前面可能还加上了CDN加速，但是随之也遇到一个问题：nginx如何获取用户的真实IP地址,如果后端是apache,请跳转到<apache获取用户真实IP地址>，如果是后端真实服务器是nginx，那么继续往下看。实例环境：用户IP 120.22.11.11
java-判断二叉树是不是平衡 bylijinnan java
参考了 http://zhedahht.blog.163.com/blog/static/25411174201142733927831/ 但是用java来实现有一个问题。由于Java无法像C那样“传递参数的地址，函数返回时能得到参数的值”，唯有新建一个辅助类：AuxClass import ljn.help.*; public class BalancedBTree {
BeanUtils.copyProperties VS PropertyUtils.copyProperties 诸葛不亮 PropertyUtils BeanUtils
BeanUtils.copyProperties VS PropertyUtils.copyProperties 作为两个bean属性copy的工具类，他们被广泛使用，同时也很容易误用，给人造成困然；比如：昨天发现同事在使用BeanUtils.copyProperties copy有integer类型属性的bean时，没有考虑到会将null转换为0，而后面的业
[金融与信息安全]最简单的数据结构最安全 comsci 数据结构
现在最流行的数据库的数据存储文件都具有复杂的文件头格式，用操作系统的记事本软件是无法正常浏览的，这样的情况会有什么问题呢？从信息安全的角度来看，如果我们数据库系统仅仅把这种格式的数据文件做异地备份，如果相同版本的所有数据库管理系统都同时被攻击，那么
vi区段删除 Cwind linux vi 区段删除
区段删除是编辑和分析一些冗长的配置文件或日志文件时比较常用的操作。简记下vi区段删除要点备忘。 vi概述引文中并未将末行模式单独列为一种模式。单不单列并不重要，能区分命令模式与末行模式即可。 vi区段删除步骤： 1. 在末行模式下使用:set nu显示行号非必须，随光标移动vi右下角也会显示行号，能够正确找到并记录删除开始行
清除tomcat缓存的方法总结 dashuaifu tomcat 缓存
用tomcat容器，大家可能会发现这样的问题，修改jsp文件后，但用IE打开依然是以前的Jsp的页面。出现这种现象的原因主要是tomcat缓存的原因。解决办法如下: 在jsp文件头加上 <meta http-equiv="Expires" content="0"> <meta http-equiv="kiben&qu
不要盲目的在项目中使用LESS CSS dcj3sjt126com Web less
　如果你还不知道LESS CSS是什么东西，可以看一下这篇文章，是我一朋友写给新人看的《CSS——LESS》　　不可否认，LESS CSS是个强大的工具，它弥补了css没有变量、无法运算等一些“先天缺陷”，但它似乎给我一种错觉，就是为了功能而实现功能。　　比如它的引用功能 ? .rounded_corners{
[入门]更上一层楼 dcj3sjt126com PHP yii2
更上一层楼通篇阅读完整个“入门”部分，你就完成了一个完整 Yii 应用的创建。在此过程中你学到了如何实现一些常用功能，例如通过 HTML 表单从用户那获取数据，从数据库中获取数据并以分页形式显示。你还学到了如何通过 Gii 去自动生成代码。使用 Gii 生成代码把 Web 开发中多数繁杂的过程转化为仅仅填写几个表单就行。本章将介绍一些有助于更好使用 Yii 的资源：
Apache HttpClient使用详解 eksliang httpclient http协议
Http协议的重要性相信不用我多说了，HttpClient相比传统JDK自带的URLConnection，增加了易用性和灵活性（具体区别，日后我们再讨论），它不仅是客户端发送Http请求变得容易，而且也方便了开发人员测试接口（基于Http协议的），即提高了开发的效率，也方便提高代码的健壮性。因此熟练掌握HttpClient是很重要的必修内容，掌握HttpClient后，相信对于Http协议的了解会
zxing二维码扫描功能 gundumw100 android zxing
经常要用到二维码扫描功能现给出示例代码 import com.google.zxing.WriterException; import com.zxing.activity.CaptureActivity; import com.zxing.encoding.EncodingHandler; import android.app.Activity; import an
纯HTML+CSS带说明的黄色导航菜单 ini html Web html5 css hovertree
HoverTree带说明的CSS菜单:纯HTML+CSS结构链接带说明的黄色导航在线体验效果：http://hovertree.com/texiao/css/1.htm代码如下,保存到HTML文件可以看到效果： <!DOCTYPE html > <html > <head> <title>HoverTree
fastjson初始化对性能的影响 kane_xie fastjson 序列化
之前在项目中序列化是用thrift，性能一般，而且需要用编译器生成新的类，在序列化和反序列化的时候感觉很繁琐，因此想转到json阵营。对比了jackson，gson等框架之后，决定用fastjson，为什么呢，因为看名字感觉很快。。。网上的说法： fastjson 是一个性能很好的 Java 语言实现的 JSON 解析器和生成器，来自阿里巴巴的工程师开发。
基于Mybatis封装的增删改查实现通用自动化sql mengqingyu DAO
1.基于map或javaBean的增删改查可实现不写dao接口和实现类以及xml，有效的提高开发速度。 2.支持自定义注解包括主键生成、列重复验证、列名、表名等 3.支持批量插入、批量更新、批量删除 <bean id="dynamicSqlSessionTemplate" class="com.mqy.mybatis.support.Dynamic
js控制input输入框的方法封装(数字，中文，字母，浮点数等) qifeifei javascript js
在项目开发的时候，经常有一些输入框，控制输入的格式，而不是等输入好了再去检查格式，格式错了就报错，体验不好。 /** 数字，中文，字母,浮点数(+/-/.) 类型输入限制，只要在input标签上加上 jInput="number,chinese,alphabet,floating" 备注：floating属性只能单独用*/ funct
java 计时器应用 tangqi609567707 java timer
mport java.util.TimerTask; import java.util.Calendar; public class MyTask extends TimerTask { private static final int
erlang输出调用栈信息 wudixiaotie erlang
在erlang otp的开发中，如果调用第三方的应用，会有有些错误会不打印栈信息，因为有可能第三方应用会catch然后输出自己的错误信息，所以对排查bug有很大的阻碍，这样就要求我们自己打印调用的栈信息。用这个函数：erlang:process_display (self (), backtrace).需要注意这个函数只会输出到标准错误输出。也可以用这个函数：erlang:get_s

NLP 论文领读 | Seq2Seq一统江湖？谷歌提出全新端到端检索范式DSI，它才是检索模型的未来？

写 在 前 面

DSI有什么不一样？

实 验 设 置 及 结 论

未 来 方 向

总 结

参考资料

你可能感兴趣的:(NLP,论文领读,人工智能,自然语言处理,深度学习)

写在前面

实验设置及结论

未来方向

总结