露葵025

零资源的大语言模型幻觉预防

摘要
1 引言
2 相关工作
- 2.1 幻觉检测和纠正方法
- 2.2 幻觉检测数据集
3 方法论
- 3.1 概念提取
- 3.2 概念猜测
- - 3.2.1 概念解释
  - 3.2.2 概念推理
- 3.3 聚合
- - 3.3.1 概念频率分数
  - 3.3.2 加权聚合
4 实验
5 总结

摘要

大语言模型（LLMs）在各个领域的广泛应用引起了人们对“幻觉”问题的关注，即LLMs生成事实不准确或无依据的信息。现有的语言助手中的幻觉检测技术依赖于复杂的不确定性、特定的自由语言思维链（CoT）技术或 基于参数的方法，存在解释性问题。此外，针对生成后识别幻觉的方法无法防止其发生，并且由于指令格式和模型风格的影响，性能不一致。本文介绍了一种新颖的 预检测自我评估技术 ，称为SELF-FAMILIARITY，重点评估模型对输入指令中存在的概念的熟悉程度，并在遇到不熟悉的概念时不生成响应。这种方法模拟了人类在面对不熟悉的话题时避免回应的能力，从而减少幻觉。

基于参数的方法是指在幻觉检测中使用参数化模型或算法的技术。这些方法通常会将语言助手的行为、输出或其他相关特征表示为参数，并使用这些参数来进行幻觉检测。

预检测的自我评估技术是指在自然语言处理任务中，通过对模型输出进行评估和分析来评估模型性能的技术。模型生成翻译结果后，并不立即输出给用户或系统。相反，生成的结果会经过一系列评估步骤来估计其质量和准确性。

在四个不同的大语言模型上验证了SELF-FAMILIARITY，并表现出与现有技术相比始终优越的性能。研究结果为LLM助手中的幻觉缓解提供了重要的先发性策略转变，有望提高可靠性、适用性和解释性。

1 引言

大语言模型（LLMs）的广泛应用引发了人们对其在各种用例中的应用的兴趣，例如医疗和药学。然而，阻碍它们充分发挥潜力的一个主要挑战是幻觉问题，即模型产生不准确或编造的信息，导致其可靠性和可信度存在重大差距。图6展示了一个示例，演示了当用户向ChatGPT查询有关治疗由内源性生长激素分泌不足引起的矮小症的药物“Skytrofa”时，幻觉问题的存在。可以观察到ChatGPT在这种药物的关键因素上生成了不准确的回答。

最近，已提出了几种方法来检测（甚至纠正）LLMs在开放对话中生成的幻觉回答，这些方法可以大致分为两类：

第一类方法依赖第三方知识库，结合思维链（CoT）技术，识别和纠正潜在的幻觉回答。
另一个研究方向侧重于设计基于参数的方法，主要利用困惑度等特定指标评估回答的正确性。

在这种方法中，模型会根据输入的问题或任务，生成一个回答。然后，通过计算回答的困惑度或其他特定指标来评估回答的正确性。困惑度是一种衡量语言模型预测能力和不确定性的指标，它表示模型在选择正确答案时的困惑程度，即模型对不同答案的选择难度。
通过使用困惑度等特定指标，可以量化回答的质量和准确性。较低的困惑度通常表示回答更准确和可靠。这些指标可以用于评估模型在特定任务或数据集上的表现，并进行模型选择、调优或比较。

所有上述方法主要集中在 幻觉回应的后检测 上。这些方法只能确定回答是否为幻觉，无法阻止未来产生此类回答，从而降低可靠性。此外，现有方法的性能深受指令和模型风格的影响，在维持开放对话场景的鲁棒性方面存在挑战。这种复杂性使得很难建立一个明确的阈值来区分幻觉回答。例如，二进制查询通常会导致简短的响应序列，使得与更长的响应序列导出的指标相比，指标差异显著。因此，对于人工智能（AI）语言助手的实际和高效应用，一种积极的、预防性的幻觉回答策略是必不可少的。

“Post-detection of hallucination responses”（幻觉回应的后检测）是指在生成型模型或对话系统中，对于生成的回答或响应进行后续的幻觉检测。为了解决幻觉回应的问题，可以采用后检测的方法。后检测是指在生成结果之后，对其进行进一步的分析和评估，以确定其中是否存在幻觉回应。

设计这样一种有效的预防方法面临着几个挑战。

首先，所提出的方法必须在零资源的环境中进行导航，不能依赖于从搜索引擎中获取的外部知识。忽视这一要求会损害方法的通用性和适用性，使其不适用于预算有限或无法访问外部环境的情况。因此，深入了解语言模型的内在知识变得至关重要。
此外，确保鲁棒性的任务非常重要。设想的系统必须对不同类型的指令、上下文变化和模型风格表现出韧性。鉴于人类语言的开放性和动态性质，要在各种场景中实现一致的性能和坚定的韧性，面临着无疑的巨大挑战。

为了同时应对这些挑战，本文提出了一种新颖的零资源预检测方法，称为SELF-FAMILIARITY，如图2所示。该方法通过避免讨论模型不熟悉的概念来模拟人类的自我评估能力，从而减少产生幻觉信息的风险。这种方法使其与传统的后检测技术有所区别。

首先，本方法在概念提取阶段从指令中提取和处理概念实体。
然后，在概念猜测阶段，通过提示工程分别检查提取的概念，以获得每个概念的熟悉程度分数。
最后，在聚合阶段，将不同概念的熟悉程度分数组合起来生成最终的指令级熟悉程度分数。

与现有方法相比，本文的算法具有以下优点。

首先，SELF-FAMILIARITY集成了思维链技术和基于参数的方法的优势。与思维链方法类似，本文的算法可以通过识别模型不熟悉的概念提供有建设性的回答。然而，本文的算法仅使用提示工程，不需要模型具备强大的推理能力，并避免了它们的缺点，同时结合了它们的优点。
此外，本文的算法不受指令风格和类型的影响，具有积极性和预防性，从而提高了其可靠性和鲁棒性。
最后，它不需要任何外部知识。

使用一种新提出的预检测幻觉指令分类数据集Concept-7，在四个大语言模型上评估了我们的方法。实验结果表明，所提出的SELF-FAMILIARITY方法在所有模型上始终优于其他方法，显示出其巨大的应用价值。

2 相关工作

目前，没有现有的工作专注于在零资源环境下通过分析指令本身来防止开放对话中的幻觉回答。因此，所讨论的上下文与先前研究的上下文有所不同。

2.1 幻觉检测和纠正方法

以前的幻觉检测和纠正研究主要集中在特定任务的条件文本生成上，例如摘要概括、图像字幕、对话生成、机器翻译和表格到文本生成。由于这些工作非常特定于任务，它们无法解决开放对话中的幻觉问题。

对于开放对话设置，根据采用的策略，方法通常分为两组。

第一类利用思维链（CoT）或提示编程来评估和修正回答。一个值得注意的例子是CRITIC，其中使用思维链过程，并从外部搜索引擎获得补充输入，以提高响应质量。某些方法不需要外部知识，通常直接要求模型评估输出的准确性。然而，这些方法在特定回答方面有一定的局限性，并且在很大程度上依赖于模型的内在推理能力。另一个挑战在于算法输出通常是自由文本，这可能使得实际的分类阈值模糊不清。
第二类方法强调使用语言模型参数（例如token概率序列）来确定幻觉程度。这些方法通常具有出色的泛化能力，并且可以提供精确的输出分数。Self-check GPT是使用基于参数的方法进行开放式文本生成的先驱。Self-check GPT使用困惑度、采样和无条件概率共同估计幻觉程度。然而，该工作仅评估与传记相关的问题，并且与思维链技术相比，模型的可解释性显著降低。

2.2 幻觉检测数据集

目前在开放对话中的幻觉检测数据集主要集中在后检测情景中。在这些数据集中，任务涉及选择正确的回答或确定回答是否不正确。然而，这些数据集受到一定限制。首先，这些数据集通常源自单个任务，如传记撰写，没有考虑不同语言模型之间的差异。每个模型可能具有不同的背景知识，使得一个模型可以识别另一个模型可能忽略的幻觉回答。此外，即使模型能够准确地对特定的幻觉回答进行分类，也不能保证模型将在将来避免生成不同的幻觉回答。因此，重要的是创建一个新的数据集，用于验证预检测设置。

3 方法论

本算法的目标是通过检查语言模型对指令 $P_T$ 中存在的概念的熟悉程度，评估目标指令 $P_T$ 是否是潜在的幻觉指令，这在零资源环境下进行。方法如图2所示，包括三个主要步骤：
（1）概念提取，
（2）概念猜测，
（3）聚合。
每个步骤的详细信息将在下面的章节中阐述。

3.1 概念提取

为了评估熟悉程度，首先需要从自由文本指令中提取概念实体，否则评分将受到指令中的“噪音”的很大影响，即指令的风格和格式化元素，这些元素对其理解没有贡献。例如，将问题“声音能在真空中传播吗？”转化为陈述句“声音能在真空中传播。请判断该陈述的真实性。”不会改变所需的知识，但会大幅修改后续回答的风格。此外，如果指令中包含多个概念，将会极大增加后续提示工程的难度。通过独立评估这些概念，可以减少这种风格影响，从而增强后续程序的鲁棒性。通过使用命名实体识别（NER）模型对给定指令进行概念提取来实现这一点：

这些提取的实体 [c1, · · · , cN ] 是指令的关键概念。N代表提取的概念数。然而，NER模型经常产生额外的噪音并且无法完全捕捉到一些概念。因此，引入后续的处理步骤来改进这些提取的概念，如下所述。

概念分组 提取的概念经常具有一定的不完整性。例如，“2023年美国债务上限危机”这个术语可能被无意地分割成[“2023年”， “美国”， “债务上限危机”]。为了解决这个问题，提出按照它们在 $P_T(语言模型对指令)$ 中的位置对概念进行排序，并尝试将一个概念与相邻的概念合并，如果新合并的概念在原始 $P_T$ 中找到，就将合并的概念对合并为一个扩展的、统一的概念。

概念过滤 在合并概念之后，下一步是排除不需要检查的简单概念，以提高效率。这些包括常见的概念，如“年份”和“年龄”，通常被模型很好地理解。为了解决这个问题，识别Wiktionary4中使用频率最高的单词，并将其指定为“常见概念”。任何包含在这些常见词汇中的概念都将被排除。

3.2 概念猜测

下一个任务是在零资源环境中检查语言模型对提取的概念的熟悉程度。在零资源环境中进行这项任务会增加其复杂性，因为它不能依赖外部概念知识。因此，将模型的理解能力与已建立的金标准定义进行比较以得出结果的方法变得不可行。同时，引入了一种新颖的自我评估技术，称为概念猜测。本方法开始时，提示模型为给定的概念生成一个解释。随后，通过提示工程，要求模型基于这个解释重新创建原始概念。如果模型成功生成了初始概念，响应序列的概率分数可以解释为概念与解释之间的连接强度，作为熟悉度分数。整个过程可以类比为专门的Charades或Pictionary游戏。如果语言模型能够从生成的解释中熟练地推导出原始概念，这不仅表明解释的充分性，也反映了模型对概念的熟练程度。重要的是，这一方法不需要获得概念的金标准定义。概述以下步骤，将这个概念方法转化为一个标准化的度量方式：

3.2.1 概念解释

在概念解释步骤中，使用标准的解释提示（ $P_E$ ）和目标概念（ $c_i$ ）来查询语言模型（LM）。这个查询促使语言模型通过贪婪搜索（Greedy Search）为每个概念生成解释。贪婪搜索选择下一个具有最高概率的单词来生成响应。这个过程会一直持续，直到遇到句子的结束标记，或达到预定义的最大长度（记为 $l_F$ ）:

其中，⊕表示将 $c_i$ 插入到 $P_E$ 的预定义位置。在许多情况下，原始概念可能直接并入生成的解释中，如图2所示。因此，模型可以简单地“复制”原始概念以“作弊”。为了防止这种情况发生，在 $R_i$ 中对 $c_i$ 的单词进行屏蔽处理：

3.2.2 概念推理

给定屏蔽的解释 $R^∗_i$ 和由 $P_I$ 表示的概念推理提示，可以要求模型生成原始概念 $c_i$ 。然而，模型的响应是以开放式的自由文本形式生成的，这在尝试将其转化为标准分数时会带来挑战。考虑这样一个情况，模型可能以“可口可乐的最大竞争对手”而不是“百事可乐”的形式正确生成原始概念。这种差异使得确定原始概念是否成功重现变得复杂。为了解决这个问题，采用了**约束束搜索（ConsBeamSearch）**的方法，指导模型通过束搜索寻找包含原始概念的响应，并同时提供响应的概率分数：

其中，每个 < $R^j_i, s^j_i$ > 对应于包含概念实体 $c_i$ 的响应 $R^j_i$ ，其中 $s^j_i$ 表示相应的响应概率分数。 $T_B$ 是ConsBeamSearch算法的束搜索大小。将停止准则设置为达到句子结束标记或达到最大长度 $l_B$ 。束搜索将返回多个结果，但是模型的理解仅与最高分相关。因此，从[ $s^1_i, · · · , s^{T_B}_i$ ]中选择最高的响应分数 $s_i$ 作为概念 $c_i$ 的熟悉度分数。

约束束搜索（ConsBeamSearch）是一种搜索算法，用于在生成式模型中进行序列生成任务，如机器翻译或文本生成。与贪婪搜索（Greedy Search）只选择每个步骤上最可能的单词不同，束搜索考虑了多个备选单词，并根据概率进行排序。
束搜索使用一个参数称为束宽（beam width），该参数指定在每个时间步中要保留的备选单词数量。在每个时间步，束搜索会根据预测的概率选择前K个可能性最高的备选单词（K为束宽），并保留这些备选路径。然后，针对每个备选路径，继续预测下一个单词，并再次选择最有可能的K个备选单词。
这个过程会一直持续，直到生成的序列达到预定的结束标记或达到最大长度。最终，束搜索会返回具有最高总体概率的生成序列作为最终的输出。

3.3 聚合

在许多情况下，最终提取的概念数量可能大于1。因此，需要对每个概念的重要性进行排名，并根据其重要性合并概念的熟悉度分数，以生成最终的指令级结果。

3.3.1 概念频率分数

为了评估概念的重要性，提出了一种基于概念中包含的单词频率排名计算分数的方法。期望具有更不常见单词的概念对应的分数 $f_i$ 较低。为此，从Wiktionary中获取概念 $c_i$ 的第 $j$ 个单词的频率排名 $p^j_i$ 。如果单词不在词典中或者是大写的，则将索引设置为词典的长度。考虑到单词分布往往遵循长尾分布，使用指数函数将频率排名转换回频率分数，并将它们相乘得到概念级别的频率分数：

在这里， $M_i$ 是概念 $c_i$ 中的单词数。术语 $H$ 被引入作为一个归一化因子，以确保结果分数在一个合理的范围内。

3.3.2 加权聚合

接下来，通过加权平均值基于频率分数对熟悉度分数进行平均。与仅选择单个分数作为最终值相比，这种方法在多实体情况下提供了稳健性。为了使重要部分比不重要的尾部部分更有贡献，我们建立了一个几何递减的加权方案，比率为1/r。

在这里，θ(fi)表示 $f_i$ 在按fi的大小排序的[ $f_1, · · · , f_N$ ]中的排名位置。使用得到的 $s_f$ 来表示指令的臆想程度，并在分数低于预定阈值h时终止响应过程。

4 实验

5 总结

高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？ ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 机器学习算法深度学习人工智能
LLM中最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息吗？在大语言模型（LLM）中，最后一个词语的表征（隐藏状态）通常会融合前面所有词语的信息，这是由LLM的核心架构（以Transformer为基础）决定的，具体可以从以下角度理解：1.核心机制：自注意力（Self-Attention）的作用现代LLM（如GPT系列、Qwen等）均基于Transformer架构，其核心是自注意力机制。在
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
AI MCP教程之什么是 MCP？利用本地 LLM 、MCP、DeepSeek 集成构建您自己的 AI 驱动工具知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 mcp deepseek
介绍利用模型上下文协议(MCP)的工具吸引了我们的注意力—将AI变成触手可及的生产力引擎。它们巧妙、高效，让人难以抗拒。但如果您可以将这样的功能添加到自己的工具中，会怎么样呢？在本指南中，我将引导您构建一个具有本地运行的大型语言模型(LLM)和MCP集成的AI工具-让您以类似的方式自动执行利用MCP的工具您喜欢的任务。推荐文章《AnythingLLM教程系列之12AnythingLLM上的Olla
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
【AI大模型】LLM模型架构深度解析：BERT vs. GPT vs. T5 我爱一条柴ya 学习AI记录 ai 人工智能 AI编程 python
引言Transformer架构的诞生（Vaswanietal.,2017）彻底改变了自然语言处理（NLP）。在其基础上，BERT、GPT和T5分别代表了三种不同的模型范式，主导了预训练语言模型的演进。理解它们的差异是LLM开发和学习的基石。一、核心架构对比特性BERT(BidirectionalEncoder)GPT(GenerativePre-trainedTransformer)T5(Text
[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
GPT实操——利用GPT创建一个应用狗木马深度学习 gpt-3 gpt
功能描述信息查询：用户可以询问各种问题，如天气、新闻、股票等，机器人会返回相关信息。任务执行：用户可以要求机器人执行一些简单的任务，如设置提醒、发送邮件等。情感支持：机器人可以与用户进行情感交流，提供安慰和支持。个性化设置：用户可以自定义机器人的回复风格和偏好。技术栈前端：React.js后端：Node.js+Express数据库：MongoDB自然语言处理：OpenAIGPT-3API其他工具：
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【实战AI】macbook M1 本地ollama运行deepseek 东方鲤鱼 chat AI macos ai llama AIGC chatgpt
由于deepseek官网或者Aapi调用会有网络延迟或不响应的情况，故在本地搭建部署；前提条件1.由于需要拉取开源镜像，受网络限制，部分资源在前提中会下载的更快！请自行；2.设备macbookM132G下载ollamaOllama是一款跨平台推理框架客户端（MacOS、Windows、Linux），专为无缝部署大型语言模型（LLM）（如Llama2、Mistral、Llava等）而设计。通过一键式
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
NLP_知识图谱_大模型——个人学习记录 macken9999 自然语言处理知识图谱大模型自然语言处理知识图谱学习
1.自然语言处理、知识图谱、对话系统三大技术研究与应用https://github.com/lihanghang/NLP-Knowledge-Graph深度学习-自然语言处理(NLP)-知识图谱：知识图谱构建流程【本体构建、知识抽取（实体抽取、关系抽取、属性抽取）、知识表示、知识融合、知识存储】-元気森林-博客园https://www.cnblogs.com/-402/p/16529422.htm
LLaMA-Omni 深度解析：打开通往无缝人机语音交互的大门 kakaZhui 前沿多模态大模型：论文与实战 llama 交互 LLM TTS 语音识别语音合成人工智能
一、引言：语音交互大模型今天我们来看语音交互大模型LLaMA-Omni，它由中国科学院计算技术研究所的研究者们推出，是一个基于强大的Llama-3.1-8B-Instruct构建的语音语言模型。LLaMA-Omni不仅实现了低至226ms的惊人交互延迟，还能同时生成高质量的文本与语音回复，真正意义上让大语言模型（LLM）具备了“听说”的能力。这篇博客将带你由浅入深，全方位地探索LLaMA-Omni
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
从RNN循环神经网络到Transformer注意力机制：解析神经网络架构的华丽蜕变熊猫钓鱼>_> 神经网络 rnn transformer
1.引言在自然语言处理和序列建模领域，神经网络架构经历了显著的演变。从早期的循环神经网络（RNN）到现代的Transformer架构，这一演变代表了深度学习方法在处理序列数据方面的重大进步。本文将深入比较这两种架构，分析它们的工作原理、优缺点，并通过实验结果展示它们在实际应用中的性能差异。2.循环神经网络（RNN）2.1基本原理循环神经网络是专门为处理序列数据而设计的神经网络架构。RNN的核心思想
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

零资源的大语言模型幻觉预防

零资源的大语言模型幻觉预防

摘要

1 引言

2 相关工作

2.1 幻觉检测和纠正方法

2.2 幻觉检测数据集

3 方法论

3.1 概念提取

3.2 概念猜测

3.2.1 概念解释

3.2.2 概念推理

3.3 聚合

3.3.1 概念频率分数

3.3.2 加权聚合

4 实验

5 总结

你可能感兴趣的:(论文,语言模型,人工智能,自然语言处理)