向日葵花籽儿

#AIGC##LLM##RAG# RAG：专补LLMs短板_减少LLM幻觉并多模态/RAG 技术最新进展

RAG技术，即检索增强生成，标志着自然语言处理领域的重大进展。通过整合先前知识，它提升了大型语言模型的性能，广泛应用于多模态领域和垂直行业。本文深入探讨了RAG技术的演进历程、技术发展、LLMs问题及其解决方案，为读者提供了对这一前沿技术的全面理解。

RAG 与 LLMs

RAG 演进历程

RAG 技术的演进历程可以分为几个关键阶段，总结如下：

预训练阶段： RAG 概念首次于2020年提出，初期研究侧重于如何通过预训练模型注入额外知识，以增强语言模型的能力。这个阶段旨在使模型能够更好地利用先前的知识。
ChatGPT时代： 随着ChatGPT的出现，对于运用大型模型进行深层次上下文学习的兴趣激增。这推动了 RAG 技术在研究领域的快速发展，引入了更复杂的上下文学习。
LLMs潜力的开发： 随着大型语言模型（LLMs）潜力的进一步开发，研究开始关注如何提升模型的可控性，以满足不断演变的需求。RAG 技术逐渐转向增强推理能力，并尝试在微调过程中引入各种改进方法。
GPT-4时代： GPT-4的发布标志着 RAG 技术的深刻变革。研究重心转向一种新的融合 RAG 和微调策略的方法，同时持续关注对预训练方法的优化。这一阶段旨在进一步提高模型的性能和适应性。

总体而言，RAG 技术从提出到今天经历了多个关键阶段，不断演化和改进，以适应不断发展的自然语言处理需求。

RAG 技术发展

在RAG技术的发展过程中，可以从技术范式的角度将其总结为以下几个阶段：

朴素（Naive RAG）：

索引： 将文档库分割成较短的Chunk，并通过编码器构建向量索引。
检索： 根据问题和chunks的相似度检索相关文档片段。
生成： 以检索到的上下文为条件，生成问题的回答。

进阶的 RAG（Advanced RAG）：

在Naive RAG中存在检索质量、响应生成质量和增强过程中的挑战。
数据索引： 通过更精细的数据清洗、设计文档结构和添加元数据等方法提升文本的一致性、准确性和检索效率。
检索前处理： 使用问题的重写、路由和扩充等方式对齐问题和文档块之间的语义差异。
检索后处理： 通过重排序文档库避免 “Lost in the Middle” 现象，或通过上下文筛选与压缩缩短窗口长度。

模块化 RAG（Modular RAG）：

随着技术的发展，出现了模块化RAG的概念。
结构上更自由和灵活： 引入更多具体功能模块，如查询搜索引擎、融合多个回答。
技术融合： 将检索与微调、强化学习等技术融合，设计和编排多种RAG模式。
范式的继承与发展： 模块化RAG不是突然出现的，而是Naive RAG和Advanced RAG的继承与发展关系，前者是后者的一种特例形式。

综合而言，RAG技术在朴素、进阶和模块化三个阶段的发展过程中，不断突破传统的检索-生成框架，提升了检索质量、响应生成质量和整体性能。

LLMS 问题

LLMs（大语言模型）型虽然具有令人印象深刻的能力，但也存在一些问题：

误导性的“幻觉”： 模型可能会产生误导性的结果，即其生成的信息可能不准确或不完全符合实际情况。
信息过时： 模型依赖的信息可能会过时，因为它们在训练时使用的数据可能不包括最新的信息。
处理特定知识时效率不高： 在处理某些特定领域的知识时，模型可能效率不高，可能由于缺乏足够的领域专业性或深度。
缺乏专业领域的深度洞察： 模型可能缺乏对专业领域的深度理解，从而在特定领域的任务中表现不如专业人士。
推理能力欠缺： 模型在推理方面可能存在不足，可能难以正确推断复杂或抽象的关系，从而影响其在某些任务中的表现。

在现实世界的应用中，数据需要定期更新以反映最新的发展。生成的内容必须具有透明性和可追溯性，以便有效地控制成本并确保数据隐私的保护。
因此，仅仅依赖于那些被称为“黑盒”模型的简单方法是不够的。我们需要更为精细的解决方案来满足这些复杂的需求，以确保系统在不断变化的环境中能够持续提供准确和可信的信息。

RAG 解决LLMs 幻觉

检索增强：能够与外部世界互动，以不同的形式和方式获取知识，从而提高所生成内容的事实性和合理性。
然而，世界上还有更多的知识存储在不同的结构和模式中，如图像和视频，这些知识往往是传统文本语料库无法访问、无法获得或无法描述的。
检索多模态知识以增强生成模型。
解决当前面临的事实性、推理、可解释性和鲁棒性等挑战提供了一个前景广阔的解决方案

RAG 核心：Retrieval、Augmentation、Generation

在构建一个优秀的RAG系统时，三个核心部分分别是“检索”（Retrieval）、“增强”（Augmentation）和“生成”（Generation）。这三个部分正好对应了RAG的首字母，是系统中不可或缺的关键组成部分。在注重增强部分的前提下，需要考虑以下三个关键问题：

检索什么？

确定在检索阶段要获取的信息，这直接影响到生成阶段的输入。选择合适的检索内容能够为模型提供更有价值的上下文信息，提高生成的准确性和相关性。

什么时候检索？

确定检索增强应该在RAG系统的哪个阶段进行。这可能包括预训练、微调和推理三个阶段。决定检索的时机会影响外部知识的参数化程度，以及所需的计算资源。

怎么用检索的内容？

确定如何有效地利用检索到的内容进行增强。这可能涉及到如何整合外部知识，将其融入生成模型的过程中。有效的使用检索的内容对于提升系统性能至关重要。

在检索增强的阶段，有一些关键方面需要考虑：

检索增强的数据源：
- 可以选择多种形式的数据作为增强的来源，包括非结构化的文本数据（段落、短语、单词），结构化数据（带有索引的文档、三元组数据、子图），或者充分发挥LLMs自身生成内容的能力，从模型自身生成的内容中检索。
检索增强的过程：
- 最初的检索可以是一次性过程，但在RAG的发展过程中，出现了更复杂的方法，如迭代检索、递归检索以及由LLMs自行判断检索时机的自适应检索方法。选择合适的检索过程能够更好地适应不同场景和需求。

构建一个强大的RAG系统需要综合考虑上述问题，平衡检索的精度和效率，以及如何将检索到的信息融入到生成模型中，从而实现更准确、相关和可信的语言生成。

RAG 和微调如何选择

RAG，LLMs 主要优化手段还包括了提示工程 (Prompt Engineering)、微调 (Fine-tuning，FT)。他们都有自己独特的特点。根据对外部知识的依赖性和模型调整要求上的不同，各自有适合的场景。
RAG vs. FT：

RAG（Retrieval-Augmented Generation）：
- 类比：给模型一本教科书，用于特定查询的信息检索。
- 优点：适用于特定问题，信息检索高效。
- 注意：擅长整合新知识，适用于快速迭代新的用例。
FT（Fine-Tuning）：
- 类比：学生随着时间内化知识，模仿特定结构、风格或格式。
- 优点：通过增强模型知识、调整输出和教授复杂指令提高性能和效率。
- 注意：不太擅长整合新知识，相对固定于已学知识。
互补关系：
- RAG和FT并非相互排斥，可相互补充使用。
- 联合使用可能产生最佳性能，充分发挥各自优势。

评估RAG的方法RAG评估方法概述：

质量评分：

上下文相关性： 评估生成的答案是否与上下文相关。
答案忠实性： 确保生成的答案忠实于检索到的信息。
答案相关性： 衡量答案是否与用户查询相关。

关键能力评估：

噪声鲁棒性： 模型对输入中的噪声或干扰的处理能力。
拒答能力： 评估模型是否能够合理拒绝某些查询。
信息整合： 能否有效整合多个信息源。
反事实鲁棒性： 模型对虚构或不准确信息的处理能力。

评估框架：

基准测试： 包括RGB和RECALL等传统量化指标。
自动化评估工具： RAGAS、ARES、TruLens等，提供全面的性能评估。

评估维度总结：

评估对象： 主要关注RAG模型的生成答案。
评估维度： 包括上下文相关性、答案忠实性、答案相关性以及关键能力的多个方面。
评估指标： 通过多种基准测试和自动化评估工具来全面衡量性能。

这些评估维度结合了传统量化指标和专门的RAG评估标准，为深入理解RAG模型的性能和应用提供了全面的评估框架。

多模态检索增强生成

多模态检索增强生成（RAG）是指通过检索与生成目标相关的信息，来增强生成模型性能的技术。RAG 具有广阔的应用前景，包括文本生成、图像生成、视频生成等。
多模态学习的确是一个很有趣且具有挑战性的领域。通过整合不同模态的数据，我们可以获得更全面、丰富的信息，从而提高机器学习系统在各种任务中的性能。
在多模态生成模型中，文本-图像生成是一个典型的应用场景。通过将文本描述与图像关联，模型可以学习到语义上的联系，实现生成与描述相符的图像。这在创意写作生成和多语言翻译等任务中都具有很大的潜力。
当然，这个领域也面临一些挑战，如获取大量多模态数据以训练模型、设计能够产生有语义输出的网络结构等问题。解决这些挑战将有助于进一步推动多模态学习的发展，使其在实际应用中更加有效。

原理

RAG 通常包括两个阶段：

检索阶段：从多模态数据库中检索与生成目标相关的信息。
生成阶段：使用检索到的知识或信息指导生成模型的生成过程。

挑战

首先，由于生成模型依赖于内在知识（权重），可能导致产生许多虚幻的结果。其次，由于参数量庞大，传统的预训练和微调方法的更新成本极高，已经变得难以实际应用。作为一种解决之道，RAG 方法为语言模型与外部世界有效互动提供了一个极具前景的解决方案。

RAG 在近年来取得了显著的进展，但仍面临一些挑战，包括：

数据稀缺问题：多模态数据集的获取和标注成本高昂，因此数据稀缺问题一直是多模态生成领域的挑战。
模态不一致问题：不同模态的数据往往存在不一致性，这给多模态检索和合成带来了困难。
模型复杂度问题：多模态检索增强生成模型往往具有复杂的结构，这给模型的训练和部署带来了挑战。

未来的研究将致力于解决这些挑战，以推动多模态检索增强生成领域的发展。

趋势

RAG 已经在多个下游 NLP 任务中得到广泛应用，包括机器翻译、对话生成、抽象概括和知识密集型生成。其中，许多方法着重于利用检索文本信息。例如，Guu等人（2020b）和Izacard等人（2022）采用了将检索系统与编码器或序列到序列语言模型进行联合训练的方法，在性能上取得了与使用更多参数的大型语言模型相当的成果。近期的研究还提出了将检索系统与思维链（CoT）推理提示相结合的方法，以增强语言模型的性能。
以下是一些值得关注的趋势：

多模态检索和合成技术的融合：未来的研究将致力于将多模态检索和合成技术进行深入融合，以提高生成模型的性能。
多模态生成模型的泛化能力研究：多模态生成模型在特定任务上取得了显著的进展，但它们的泛化能力仍有待提高。
多模态生成模型的安全和可靠性研究：多模态生成模型可以生成逼真的文本、图像、音频等，因此它们可能被用于生成虚假信息或传播有害内容。

应用场景

图片

**视觉问题解答（Visual question answering, VQA） **
图片说明 (Image captioning)
有视觉基础的对话 (Visually grounded dialogue)
文本生成（Text generation）

代码

借助于NLP深度学习的进展，出现了一种通用的检索增强生成范式，为软件开发人员提供了有效的工具。这种范式不仅在代码补全中表现良好，还在代码生成和自动程序修复等任务中取得了显著的成果。然而，现有方法通常将编程语言和自然语言视为等价的标记序列，忽略了源代码的丰富语义。为了解决这一问题，最新的研究集中在多模态学习上，将代码注释、标识符标签和抽象语法树等附加模态纳入代码预训练模型，以提高代码的泛化性能。这种多模态检索增强生成方法在特定代码任务中已经证明了其可行性。
文本到代码生成（Text-to-Code Generation）
代码到文本的生成（Code-to-Text Generation）
代码补全（Code Completion）
**自动程序修复 (Automatic Program Repair，APR) **
作为中间步骤的代码推理（Reasoning over Codes）

结构化知识

幻觉的一个解决方案是利用检索到的结构化知识（如知识图谱、表格和数据库）进行基础生成。
问题解答（Question Answering，QA）
一般文本生成（General text generation）
用知识推理（Reasoning with knowledge）
以知识为基础的对话（Knowledge-grounded dialogue）

音频

文本音频数据增强（Text-audio data augmentation）
**音乐字幕（Music captioning） **
音乐生成（Music generation）

视频

视频对话（Video-grounded dialogue）
**视频字幕（Video captioning） **
LLM增强（LLM augmentation）

研究挑战

垂直优化面临的挑战与解决方案：

长下文长度的挑战：

问题： 当检索内容过多，超过LLMs上下文窗口限制时，如何处理？
解决方案： 探索更灵活的上下文处理方式，考虑引入分段机制或动态选择关键信息以适应长下文。

鲁棒性的挑战：

问题： 如何处理检索到的错误内容，进行过滤和验证？怎么提高模型的抗毒、抗噪声能力？
解决方案： 引入强化学习机制，让模型学习对错误信息的过滤，加强对异常情况的处理，提高模型的鲁棒性。

与微调协同的挑战：

问题： 如何协同RAG和FT，组织串行、交替还是端到端的训练方式？
解决方案： 探索混合训练策略，通过串行或交替的方式融合RAG和FT的训练，使它们相互协同提升性能。

Scaling-Law的挑战：

问题： RAG模型是否满足Scaling Law？在什么场景下可能出现Inverse Scaling Law？
解决方案： 进行规模化实验和评估，了解RAG在不同规模下的性能表现，寻找可能存在的Scaling Law或Inverse Scaling Law现象。

LLMs的角色的挑战：

问题： 如何更充分地挖掘LLMs在RAG中的潜力？
解决方案： 考虑在检索、生成、评估阶段中更灵活地使用LLMs，探索新的架构和方法以优化LLMs在RAG中的表现。

工程实践的挑战：

问题： 如何降低超大规模语料的检索时延？如何保证检索内容不被大模型泄露？
解决方案： 优化检索引擎的工程实践，使用分布式计算和高效索引技术来提高检索效率；引入隐私保护机制以防止泄露。

发展方向

检索增强型多模态推理（Retrieval Augmented Multimodal Reasoning）
构建多模态知识索引（Building a Multimodal Knowledge Index）
多模态检索预训练（Pretraining with Multimodal Retrieval）

参考文献

https://arxiv.org/abs/2312.10997 Retrieval-Augmented Generation for Large Language Models: A Survey
https://arxiv.org/abs/2401.05856 Seven Failure Points When Engineering a Retrieval Augmented Generation System
https://download.csdn.net/download/weixin_45312236/88720208 2023 中国开源开发者报告

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
AIGC工具与软件开发流程的深度集成方案 Irene-HQ 软件开发测试 AIGC 测试工具 github AIGC 程序人生面试
一、代码开发环节集成路径‌环境配置标准化‌安装AIGC工具包并配置环境变量（如设置AIGC_TOOL_PATH），确保团队开发环境一致‌。在IDE插件市场安装Copilot等工具，实现编码时实时建议调用‌。‌人机协作新模式‌‌需求解析‌：上传PRD文档，AI自动提取业务规则生成类结构（如支付模块的PaymentService雏形）‌。‌代码补全‌：输入注释//JWT验证中间件，生成OAuth2.0
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
具身语义导航算法总揽 Shilong Wang 具身导航算法算法
端到端方法小脑大脑GNMNavDPNaVILAViNTNomadNavidStreamVLNMapNavNavGPTUni-NavidOctoNavNavGPT2模仿学习行为克隆BCDAgger模块化方法GOATVLFMSayPlanLM-NavETPNavVoroNavEmbodiedRAGVL-NavStairwaytoSuccess业内大佬北大王鹤NavidUni-NavidOctoNav吴
LLM-生成器判别器的实现
总结首先，使用GPT模型获取每个词的生成概率pLLMp_{LLM}pLLM。然后，使用训练好的生成判别器，对每个可能的生成结果进行打分，得到pθ(c∣x1:t)p_\theta(c|x_{1:t})pθ(c∣x1:t)。最后，结合两者的输出，用贝叶斯规则调整每个词的概率，选择调整后的概率最高的词作为输出。通过这样的组合，生成过程可以更好地满足预期需求，如生成符合特定风格或格式的文本。要在使用已经预
Xcode 26 现已发布，并支持代码智能它与基于 Cursor 和 AI Agent 的工作流程相比如何？知识大胖 SwiftUI源码大全 xcode macos ide
简介Xcode26昨天发布了！惊喜的是，它支持macOS15，但要使用新的ChatGPT助手，你需要macOS26Tahoe。所以我把我的M3MaxMacBookPro升级到了Tahoe。我不是说你应该升级，但我这么做是为了测试Xcode的新功能并与大家分享！值得注意的是，这是迄今为止最小的Xcode版本（下载大小）！正如Apple在Xcode新功能会话视频（我建议您观看）中所说的那样，这是一项巨
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
12 个强大的 DeepSeek AI 提示将彻底改变您的日常生活知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
内容写作的最佳提示让我们从写作开始吧。无论您是博主、学生还是社交媒体创作者，这些提示都将帮助您创作出精彩的内容。提示1：“扮演专业文案撰稿人，为[产品/服务]撰写引人注目的广告文案。文案应引人入胜、具有说服力，且字数不得超过100个字。”这使得ChatGPT的响应结构就像真实的广告文案一样。提示2：“以更具吸引力和说服力的方式重写此段落，同时保持含义不变：[插入文本]。”推荐文章《Neo4j上使用
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
在 Obsidian 中本地使用 DeepSeek — 无需互联网！知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek
简介您是否想在Obsidian内免费使用类似于ChatGPT的本地LLM？如果是，那么本指南适合您！我将引导您完成在Obsidian中安装和使用DeepSeek-R1模型的确切步骤，这样您就可以在笔记中拥有一个由AI驱动的第二大脑。推荐文章《24GBGPU中的DeepSeekR1：UnslothAI针对671B参数模型进行动态量化》权重1，DeepSeek类《在RaspberryPi上运行语音识别
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
AnythingLLM教程系列之 09 AnythingLLM 支持自定义音频转录提供程序知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 anythingllm llm
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
AnythingLLM教程系列之 04 AnythingLLM 允许您以正确的格式导出聊天日志，以构建 GPT-3.5 和 OpenAI 上其他可用模型的微调模型（教程含安装步骤）知识大胖 NVIDIA GPU和大语言模型开发教程 llama3 ai anythinllm llama
什么是AnythingLLM?AnythingLLM是最易于使用的一体化AI应用程序，可以执行RAG、AI代理等操作，且无需任何代码或基础设施难题。您需要为您的企业或组织提供一款完全可定制、私有且一体化的AI应用程序，该应用程序基本上是一个具有许可的完整ChatGPT，但具有任何LLM、嵌入模型或矢量数据库。如何安装《无需任何代码构建自己的大模型知识库：AnythingLLM最易于使用的一体化AI
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
本地部署大模型的几种方式 AI产品经理语言模型人工智能自然语言处理 chatgpt 学习
现在大模型可谓是满天飞,只要你稍微关注时下的AI资讯,几乎每天都有新的AI大模型出现.这之中当然有诸如GhatGPT,Gemini这样的私有化大模型,更吸引人关注的可能是开源的可私有化部署的一些大模型.比如Meta前两天开放的Lamma3,Google的Gemma开源模型,国内也有Qwen以及YI等.前排提示，文末有大模型AGI-CSDN独家资料包哦！无论私有的大模型,还是开源的可私有化部署的大模
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
LLaMA-Omni 深度解析：打开通往无缝人机语音交互的大门 kakaZhui 前沿多模态大模型：论文与实战 llama 交互 LLM TTS 语音识别语音合成人工智能
一、引言：语音交互大模型今天我们来看语音交互大模型LLaMA-Omni，它由中国科学院计算技术研究所的研究者们推出，是一个基于强大的Llama-3.1-8B-Instruct构建的语音语言模型。LLaMA-Omni不仅实现了低至226ms的惊人交互延迟，还能同时生成高质量的文本与语音回复，真正意义上让大语言模型（LLM）具备了“听说”的能力。这篇博客将带你由浅入深，全方位地探索LLaMA-Omni
低成本作弊神器？使用ESP32将通义千问AI接入学生计算器
前因：IT之家9月24日消息，YouTube频道ChromaLock于9天前发布视频，介绍了名为TI-32的改造电路板，加装在德州仪器TI-84Plus图形计算器上，可以接入ChatGPT。IT之家查询公开资料，在PSAT、SAT和ACT大学入学考试、IB和AP考试中，标准化组织已经批准考生使用TI-84Plus图形计算器。ChromaLock探索了该计算器的连接端口，设计了名为TI-32的改造电
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
在LLM快速迭代时代构建持久AI应用：架构设计与实施策略
引言：技术浪潮下的开发困境大型语言模型(LLM)的发展速度令人瞠目：从GPT-3到GPT-4，从Claude1到Claude3，从Llama1到Llama3，迭代周期正在从"年"缩短到"月"。作为一名AI应用开发者，我亲身经历了这种技术浪潮带来的挑战：昨天精心调优的prompt今天可能失效；上个季度集成的模型这个季度已有更优选择；刚完成的功能设计瞬间被新模型的能力超越。在如此快速变化的环境中，如何
AI Agent 2025 大爆发：从 GPT-4o 到 Devin，下一代 Agent 架构与落地趋势深度解析
当大模型学会“看”“听”“点鼠标”，并且还能叫来一整个“Agent舰队”协同工作，软件开发、运营乃至个人生产力的游戏规则正在被重写。1|为什么Agent在2025重新引爆？模型升级带来实时多模态OpenAIGPT-4o把文本、语音、图像三路感知和毫秒级响应塞进同一模型，实时demo像“科幻电影走出屏幕”OpenAI。浏览器级自动操作新上线的OperatorAgent能在Web页面自主点击、滚动、填
ChatGPT 技术核心：模型结构、能力差异与实战价值
ChatGPT系列模型全景与版本进化按时间与技术路标排序，核心模型如下：GPT‑3.5（2022）GPT‑4（2023年3月）GPT‑4Turbo/GPT‑4.5（2023年末/2025年2月）GPT‑4o（Omni）（2024年5月）GPT‑4o mini/o1/o3系列/GPT‑4.1（2024–2025）每一代都是对前代提升版本，从参数规模、性能、能力上不断优化。核心技术差异详解（面向高级程
大型语言模型（LLM, Large Language Models）基模和 Chat 模型之间的区别
一、概述最近看大模型相关的知识，有看到大模型都有基础模型（base）和对话模型（chat），不太清楚什么时候用到基础模型，什么时候用到对话模型，故有此文。通过了解，最简单的概述就是基于基础模型会训练出一个对话（Chat）模型，对话模型主要用于对话场景，基础模型主要做文本生成，没有上下文对话的能力。在模型命名上也能看出来区别，例如：Qwen-72B和Qwen-72B-ChatChatGLM3-6B-
SpringBoot集成LangChain4j：构建智能AI应用全解析 java干货仓库八股文汇总 Spring 大模型 spring boot 人工智能后端
在企业级应用中融入大语言模型(LLM)能力已成为趋势，而LangChain4j作为专为Java设计的LLM集成框架，与SpringBoot的结合为开发者提供了强大而灵活的解决方案。本文将从基础概念到高级应用，全面解析如何利用这一组合构建智能AI应用。一、LangChain4j概述1.1什么是LangChain4j？LangChain4j是一个开源Java框架，灵感来源于Python的LangCha
jsonp 常用util方法 hw1287789687 jsonp jsonp常用方法 jsonp callback
jsonp 常用java方法 (1)以jsonp的形式返回:函数名(json字符串) /*** * 用于jsonp调用 * @param map : 用于构造json数据 * @param callback : 回调的javascript方法名 * @param filters : <code>SimpleBeanPropertyFilter theFilt
多线程场景 alafqq 多线程
0 能不能简单描述一下你在java web开发中需要用到多线程编程的场景？0 对多线程有些了解，但是不太清楚具体的应用场景，能简单说一下你遇到的多线程编程的场景吗？ Java多线程 2012年11月23日 15:41 Young9007 Young9007 4 0 0 4 Comment添加评论关注(2) 3个答案按时间排序按投票排序 0 0 最典型的如： 1、
Maven学习——修改Maven的本地仓库路径 Kai_Ge maven
安装Maven后我们会在用户目录下发现.m2 文件夹。默认情况下，该文件夹下放置了Maven本地仓库.m2/repository。所有的Maven构件(artifact)都被存储到该仓库中，以方便重用。但是windows用户的操作系统都安装在C盘，把Maven仓库放到C盘是很危险的，为此我们需要修改Maven的本地仓库路径。
placeholder的浏览器兼容 120153216 placeholder
【前言】自从html5引入placeholder后，问题就来了，不支持html5的浏览器也先有这样的效果，各种兼容，之前考虑，今天测试人员逮住不放，想了个解决办法，看样子还行，记录一下。【原理】不使用placeholder，而是模拟placeholder的效果，大概就是用focus和focusout效果。【代码】 <scrip
debian_用iso文件创建本地apt源 2002wmj Debian
1.将N个debian-506-amd64-DVD-N.iso存放于本地或其他媒介内，本例是放在本机/iso/目录下 2.创建N个挂载点目录如下： debian:~#mkdir –r /media/dvd1 debian:~#mkdir –r /media/dvd2 debian:~#mkdir –r /media/dvd3 …. debian:~#mkdir –r /media
SQLSERVER耗时最长的SQL 357029540 SQL Server
对于DBA来说，经常要知道存储过程的某些信息： 1. 执行了多少次 2. 执行的执行计划如何 3. 执行的平均读写如何 4. 执行平均需要多少时间列名 &
com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 7454103 eclipse
今天eclipse突然报了com/genuitec/eclipse/j2eedt/core/J2EEProjectUtil 错误，并且工程文件打不开了，在网上找了一下资料，然后按照方法操作了一遍，好了，解决方法如下：错误提示信息： An error has occurred.See error log for more details. Reason: com/genuitec/
用正则删除文本中的html标签 adminjun java html 正则表达式去掉html标签
使用文本编辑器录入文章存入数据中的文本是HTML标签格式，由于业务需要对HTML标签进行去除只保留纯净的文本内容，于是乎Java实现自动过滤。如下： public static String Html2Text(String inputString) { String htmlStr = inputString; // 含html标签的字符串 String textSt
嵌入式系统设计中常用总线和接口 aijuans linux 基础
嵌入式系统设计中常用总线和接口任何一个微处理器都要与一定数量的部件和外围设备连接，但如果将各部件和每一种外围设备都分别用一组线路与CPU直接连接，那么连线
Java函数调用方式——按值传递 ayaoxinchao java 按值传递对象基础数据类型
Java使用按值传递的函数调用方式，这往往使我感到迷惑。因为在基础数据类型和对象的传递上，我就会纠结于到底是按值传递，还是按引用传递。其实经过学习，Java在任何地方，都一直发挥着按值传递的本色。首先，让我们看一看基础数据类型是如何按值传递的。 public static void main(String[] args) { int a = 2;
ios音量线性下降 bewithme ios音量
直接上代码吧 //second 几秒内下降为0 - (void)reduceVolume:(int)second { KGVoicePlayer *player = [KGVoicePlayer defaultPlayer]; if (!_flag) { _tempVolume = player.volume;
与其怨它不如爱它 bijian1013 选择理想职业规划
抱怨工作是年轻人的常态，但爱工作才是积极的心态，与其怨它不如爱它。一般来说，在公司干了一两年后，不少年轻人容易产生怨言，除了具体的埋怨公司“扭门”，埋怨上司无能以外，也有许多人是因为根本不爱自已的那份工作，工作完全成了谋生的手段，跟自已的性格、专业、爱好都相差甚远。
一边时间不够用一边浪费时间 bingyingao 工作时间浪费
一方面感觉时间严重不够用，另一方面又在不停的浪费时间。每一个周末，晚上熬夜看电影到凌晨一点，早上起不来一直睡到10点钟，10点钟起床，吃饭后玩手机到下午一点。精神还是很差，下午像一直野鬼在城市里晃荡。为何不尝试晚上10点钟就睡，早上7点就起，时间完全是一样的，把看电影的时间换到早上，精神好，气色好，一天好状态。控制让自己周末早睡早起，你就成功了一半。有多少个工作
【Scala八】Scala核心二：隐式转换 bit1129 scala
Implicits work like this: if you call a method on a Scala object, and the Scala compiler does not see a definition for that method in the class definition for that object, the compiler will try to con
sudoku slover in Haskell (2) bookjovi haskell sudoku
继续精简haskell版的sudoku程序，稍微改了一下，这次用了8行，同时性能也提高了很多，对每个空格的所有解不是通过尝试算出来的，而是直接得出。 board = [0,3,4,1,7,0,5,0,0, 0,6,0,0,0,8,3,0,1, 7,0,0,3,0,0,0,0,6, 5,0,0,6,4,0,8,0,7,
Java-Collections Framework学习与总结-HashSet和LinkedHashSet BrokenDreams linkedhashset
本篇总结一下两个常用的集合类HashSet和LinkedHashSet。它们都实现了相同接口java.util.Set。Set表示一种元素无序且不可重复的集合；之前总结过的java.util.List表示一种元素可重复且有序
读《研磨设计模式》-代码笔记-备忘录模式-Memento bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; /* * 备忘录模式的功能是，在不破坏封装性的前提下，捕获一个对象的内部状态，并在对象之外保存这个状态，为以后的状态恢复作“备忘”
《RAW格式照片处理专业技法》笔记 cherishLC PS
注意，这不是教程！仅记录楼主之前不太了解的一、色彩（空间）管理作者建议采用ProRGB（色域最广），但camera raw中设为ProRGB，而PS中则在ProRGB的基础上，将gamma值设为了1.8（更符合人眼）注意：bridge、camera raw怎么设置显示、输出的颜色都是正确的（会读取文件内的颜色配置文件），但用PS输出jpg文件时，必须先用Edit->conv
使用 Git 下载 Spring 源码编译 for Eclipse crabdave eclipse
使用 Git 下载 Spring 源码编译 for Eclipse 1、安装gradle，下载 http://www.gradle.org/downloads 配置环境变量GRADLE_HOME，配置PATH %GRADLE_HOME%/bin，cmd，gradle -v 2、spring4 用jdk8 下载 https://jdk8.java.
mysql连接拒绝问题 daizj mysql 登录权限
mysql中在其它机器连接mysql服务器时报错问题汇总一、[running][email protected]:~$mysql -uroot -h 192.168.9.108 -p //带-p参数，在下一步进行密码输入 Enter password: //无字符串输入 ERROR 1045 (28000): Access
Google Chrome 为何打压 H.264 dsjt apple html5 chrome Google
Google 今天在 Chromium 官方博客宣布由于 H.264 编解码器并非开放标准，Chrome 将在几个月后正式停止对 H.264 视频解码的支持，全面采用开放的 WebM 和 Theora 格式。 Google 在博客上表示，自从 WebM 视频编解码器推出以后，在性能、厂商支持以及独立性方面已经取得了很大的进步，为了与 Chromium 现有支持的編解码器保持一致，Chrome
yii 获取控制器名和方法名 dcj3sjt126com yii framework
1. 获取控制器名在控制器中获取控制器名: $name = $this->getId(); 在视图中获取控制器名: $name = Yii::app()->controller->id; 2. 获取动作名在控制器beforeAction()回调函数中获取动作名: $name =
Android知识总结（二） come_for_dream android
明天要考试了，速速总结如下 1、Activity的启动模式 standard：每次调用Activity的时候都创建一个（可以有多个相同的实例，也允许多个相同Activity叠加。） singleTop：可以有多个实例，但是不允许多个相同Activity叠加。即，如果Ac
高洛峰收徒第二期：寻找未来的“技术大牛” ——折腾一年，奖励20万元 gcq511120594 工作项目管理
高洛峰，兄弟连IT教育合伙人、猿代码创始人、PHP培训第一人、《细说PHP》作者、软件开发工程师、《IT峰播》主创人、PHP讲师的鼻祖！首期现在的进程刚刚过半，徒弟们真的很棒，人品都没的说，团结互助，学习刻苦，工作认真积极，灵活上进。我几乎会把他们全部留下来，现在已有一多半安排了实际的工作，并取得了很好的成绩。等他们出徒之日，凭他们的能力一定能够拿到高薪，而且我还承诺过一个徒弟，当他拿到大学毕
linux expect heipark expect
1. 创建、编辑文件go.sh #!/usr/bin/expect spawn sudo su admin expect "*password*" { send "13456\r\n" } interact 2. 设置权限 chmod u+x go.sh 3.
Spring4.1新特性——静态资源处理增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
idea ubuntuxia 乱码 liyonghui160com
1.首先需要在windows字体目录下或者其它地方找到simsun.ttf 这个字体文件。 2.在ubuntu 下可以执行下面操作安装该字体： sudo mkdir /usr/share/fonts/truetype/simsun sudo cp simsun.ttf /usr/share/fonts/truetype/simsun fc-cache -f -v
改良程序的11技巧 pda158 技巧
有很多理由都能说明为什么我们应该写出清晰、可读性好的程序。最重要的一点，程序你只写一次，但以后会无数次的阅读。当你第二天回头来看你的代码时，你就要开始阅读它了。当你把代码拿给其他人看时，他必须阅读你的代码。因此，在编写时多花一点时间，你会在阅读它时节省大量的时间。让我们看一些基本的编程技巧：尽量保持方法简短永远永远不要把同一个变量用于多个不同的
300个涵盖IT各方面的免费资源（下）——工作与学习篇 shoothao 创业免费资源学习课程远程工作
工作与生产效率: A. 背景声音 Noisli:背景噪音与颜色生成器。 Noizio:环境声均衡器。 Defonic:世界上任何的声响都可混合成美丽的旋律。 Designers.mx:设计者为设计者所准备的播放列表。 Coffitivity:这里的声音就像咖啡馆里放的一样。 B. 避免注意力分散 Self Co
深入浅出RPC uule rpc
深入浅出RPC-浅出篇深入浅出RPC-深入篇 RPC Remote Procedure Call Protocol 远程过程调用协议它是一种通过网络从远程计算机程序上请求服务，而不需要了解底层网络技术的协议。RPC协议假定某些传输协议的存在，如TCP或UDP，为通信程序之间携带信息数据。在OSI网络通信模型中，RPC跨越了传输层和应用层。RPC使得开发