无脑敲代码，bug漫天飞

开放域问答论文阅读-Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augme

论文链接：2307.11019.pdf (arxiv.org)

Abstract

知识密集型任务（例如，开放域问答（QA））需要大量事实知识，并且通常依赖外部信息的帮助。最近，大型语言模型（LLM）（例如 ChatGPT）在利用世界知识解决各种任务（包括知识密集型任务）方面表现出了令人印象深刻的能力。然而，目前尚不清楚LLM能够如何感知他们的事实知识边界，特别是他们在结合检索增强时的表现。在这项研究中，我们对LLM的事实知识边界进行了初步分析，以及检索增强如何影响LLM在开放领域问答方面的影响。特别是，我们关注三个主要研究问题，并通过检查LLM的质量保证表现、先验判断和后验判断来分析它们。我们的证据表明，LLM对自己回答问题的能力和回答的准确性有着坚定不移的信心。此外，检索增强被证明是增强LLM知识边界意识的有效方法，从而提高他们的判断能力。此外，我们还发现LLM在制定答案时倾向于依赖所提供的检索结果，而这些结果的质量会显着影响他们的可靠性。重现这项工作的代码可在 https://github.com/RUCAIBox/LLM-Knowle-Boundary 上找到。

1 Introduction

知识密集型任务是指需要大量知识才能解决的任务（Petroni 等人，2021）。一个代表性任务是开放域问答（QA）（Chen et al., 2017），它要求模型通过利用外部文本语料库来获取答案。在此类任务中，信息检索系统通常需要用于帮助满足信息需要。近年来，作为预训练语言模型(Devlin et al., 2019年；路易斯et al., 2020年;拉费尔et al., 2020年)推向前进处理自然语言、大量的研究开域QA已经提出，大大提高的性能在许多基准数据集(Lee等人， 2019年;Guu et al., 2020年;Karpukhin et al., 2020年;Izacard和严重，2021).

最近，诸如 ChatGPT 之类的大型语言模型 (LLM) 在解决各种任务（包括知识密集型任务）方面表现出了卓越的能力，这些模型能够在其参数内编码大量的世界知识（Brown 等人，2017）。，2020；欧阳等，2022；赵等，2023）。尽管LLM的表现令人印象深刻，但人们仍然缺乏对其感知事实知识边界的能力的深入了解，特别是在可以使用外部资源（即检索增强设置）时。最近，一些研究在开放域 QA 中利用了 LLM（Qin 等人，2023；Ka malloo 等人，2023；Yue 等人，2023；Wang 等人，2023；Sun 等人，2023），主要侧重于评估LLM的质量保证表现，讨论改进的评估方法或利用LLM来增强现有的开放领域质量保证模型。此外，现有的工作还通过自动化方法检测LLM的不确定性（Yin et al., 2023）。而我们的主要LLM的事实知识边界进行深入分析，并研究检索增强对LLM生成的影响。

在本文中，我们对检索增强对LLM生成质量的影响进行了全面分析，特别关注质量保证表现和LLM对其事实知识边界的感知。为了衡量知识边界感知的能力，我们考虑两种替代方法。第一种是先验判断，LLM评估回答给定问题的可行性。第二个是后验判断，LLM评估他们对问题的回答的正确性。对于检索增强，我们采用多种检索模型为LLM针对给定问题提供相关支持文档，包括稀疏检索、密集检索以及LLM利用自己的知识生成的文档。通过精心设计的提示，LLM能够在整个答复过程中参考给定的支持文件。请注意，在本工作中，我们基于GPT系列的LLM进行实验，得到的结论也来自GPT系列。具体来说，我们的工作旨在回答三个研究问题：（i）LLM能够在多大程度上感知到他们的事实知识边界？ (ii) 检索增强对法学硕士有什么影响？ (iii) 具有不同特征的支持文件如何影响LLM？

基于实证分析，我们得出以下重要发现： • LLM对事实知识边界的认知不准确，并且常常表现出过度自信的倾向。

• LLM无法充分利用他们所拥有的知识，而检索增强可以为LLM提供有益的知识补充。此外，检索增强可LLM感知事实知识边界的能力，无论是先验判断还是后验判断。

• 当提供高质量的支持文件时，LLM表现出更高的表现和信心，并且倾向于依赖所提供的支持文件来做出回应。信赖程度和LLM的信心取决于支持文件和问题之间的相关性。

2 Background and Setup

在本节中，我们概述了本研究所必需的背景和实验设置。

2.1 Task Formulation

在这项工作中，我们在知识密集型任务上进行实验，特别是在开放领域问答(QA)上。开放领域QA的目标描述如下。

开放域QA的目标描述如下。给定自然语言中的问题 q 和大型文档集合 D = {di} m i=1 （例如维基百科），模型需要使用提供的语料库 D 提供问题 q 的答案 a。

通常，之前的研究（Chen 等人，2017 年；Karpukhin 等人，2020 年；Qu 等人，2021 年）通过采用检索器阅读器管道来解决开放域 QA 任务。在第一阶段，使用检索器查找给定问题q的相关支持文档L = {d1，d2，···dn}（或其他文本形式），并在后续阶段使用机器阅读理解模型（又名读者）利用检索到的文档得出最终答案。在LLM时代，LLM可以直接以端到端的方式解决开放领域的QA任务，而不需要外部语料库（Qin等人，2023）。给定问题 q，并带有提示 p，LLM 可以根据特定输出格式生成答案 a：

当通过信息检索增强 LLM 时，典型的策略是设计提示 p 来指示 LLM 使用检索器检索到的支持文档 L 提供问题 q 的答案 a：

方程 1 和方程 2 提出了利用 LLM 解决 QA 任务的两种不同方法。为了取得良好的表现，LLM理解问题和生成答案的模型能力、支持文件的质量以及外部资源的利用方式是需要考虑的重要因素。针对这些关键因素，我们在第3节中提出了三个研究问题，然后进行了相应的分析实验。接下来，我们介绍这两种方案中不同实验设置的提示设计。

2.2 Instructing LLMs with Natural Language Prompts

在这项工作中，我们考虑了两种特定的设置来开发自然语言指令，即 QA 提示和判断提示。LLM被期望理解给定的指令，并根据指令提出适当的判断或答案。图1提供了一个总体说明。

（使用自然语言提示指导LLM的不同设置的插图，其中还显示了相应的指标。）

2.2.1 QA Prompting

QA提示的目的是引导LLM们乖乖回答问题，以评价其QA能力。由于开放域 QA 的注释通常由一个或多个单词的简短答案组成，因此我们需要限制 LLM 的生成格式以适应简短答案结构。

我们提出了两种构建指令来评估LLM的质量保证能力的方法：（a）正常设置：LLM需要用自己的知识提供问题的答案（如等式（1）所示）。例如，“根据你的内在知识，用一句话或几句话回答以下问题。 ···》； (b) 检索增强设置：LLM需要使用自己的知识和检索到的支持文档来回答问题（用公式（2）表示）。例如：“给定以下信息：···根据给定的信息或你的内在知识，用一言或几句话回答以下问题，无需出处。 ···”。

2.2.2 Judgemental Prompting

为了调查LLM是否能够感知自己的事实知识边界，我们提出判断提示来评估LLM的判断能力。与问答提示类似，正常设置和检索增强设置的概念也适用于判断提示，其中LLM利用自己的知识或查阅检索器的支持文档来执行判断过程。此外，我们从不同的判断角度构建了两种设置的指令：（a）先验判断：LLM需要判断他们是否可以提供问题的答案。例如使用正常设置：“您是否确定根据您的内部知识准确回答以下问题，如果是，您应该用一个或几个词简短回答，如果不是，您应该回答‘未知’。 ···》； (b) 后验判断：LLM需要评估自己提供的问题答案的正确性。例如使用正常设置：“你能根据你的内部知识判断以下关于该问题的答案是否正确，如果是，你应该回答True或False，如果否，你应该回答‘未知’。 ···”。

2.3 Experimental Settings

2.3.1 Datasets

我们收集了三个广泛采用的开放域 QA 基准数据集，包括 Natural Questions (NQ) (Kwiatkowski et al., 2019)、Trivi aQA (Joshi et al., 2017) 和 HotpotQA (Yang et al., 2018) 。 NQ 由 Google 搜索查询以及带注释的简短答案或文档（长答案）构建。 TriviaQA 由琐事问题以及带注释的答案和相应的证据文件组成。 HotpotQA 是需要多跳推理的问答对的集合，其中问答对是通过 Amazon Mechanical Turk 收集的。我们在 NQ 的测试集和其他数据集的开发集上进行实验，这些数据集来自 MRQA（Fisch et al., 2019）。对于 QA 评估，我们采用数据集提供的简短答案作为标签。我们的检索增强实验是在维基百科上使用 DPR 提供的版本（Karpukhin et al., 2020）完成的，该版本由 21M 分割段落组成。

2.3.2 Evaluation Metrics

继之前的工作（Chen et al., 2017；Izac ard and Grave, 2021；Sun et al., 2023）之后，我们使用精确匹配（EM）分数和 F1 分数来评估LLM的 QA 表现。精确匹配分数评估LLM预测的答案与问题的正确答案精确匹配的问题的百分比。 F1分数用于衡量预测答案与正确答案之间的重叠度，它代表精确率和召回率的调和平均值。召回率是通过考虑与正确答案标记的重叠数量来确定的，而精度是通过考虑与所有预测标记的重叠数量来确定的。此外，我们提出了几种评价LLM判断能力的评价指标。放弃率是指LLM放弃回答的问题的百分比，它评估LLM在生成答案时的置信水平。 Right/G代表LLM放弃回答但实际上能回答正确的概率。同样，Right/ØG代表LLM不放弃回答并且能够正确回答的概率。 Eval-Right 是指LLM评估其答案正确的问题比例。 Eval-Acc 代表LLM对答案的评估（真或假）与事实相符的问题百分比。因此，Give-up、Right-G 和 Right/ØG 是先验判断的度量，Eval-Right 和 Eval-ACC 是后验判断的度量。所有指标也如图 1 所示。

2.3.3 Retrieval Sources

我们考虑多种检索源来获取支持文档，包括密集检索(Gao and Callan, 2021; Ren et al., 2021a; Zhuang et al., 2022; Zhou et al., 2022)、稀疏检索（Robertson 等人，2009）和 ChatGPT。

对于密集检索器，我们利用 RocketQAv2（Ren 等人，2021b）来查找问题的语义相关文档。为了实现这一目标，我们在 Rock etQAv2 设置下使用构建的域内训练数据在每个数据集上训练模型，并利用 Faiss (Johnson et al., 2019) 从候选语料库中获取每个问题的相关文档。对于稀疏检索器，我们使用 BM25（Yang et al., 2017）来查找问题的词汇相关文档。与之前的工作类似（Yu et al., 2022; Ren et al., 2023），我们将生成语言模型视为从记忆中“检索”知识的“检索器”，其中 ChatGPT 被指示生成相关文档针对给定问题的评论。

此外，我们将密集检索器和稀疏检索器的混合检索结果视为支持文档。对于每个问题，我们附有十份支持文件。由于 ChatGPT 无法始终如一地为每个问题生成精确的 10 个文档（通常在 10 个左右波动），因此我们将所有生成的文档视为支持文档。表 1 显示了每个数据集的检索性能。由于近年来的快速发展，密集检索器取得了最好的检索性能。如需更多详细信息，我们建议读者阅读有关基于 PLM 的密集检索最新进展的综合调查（Zhao et al., 2022）。请注意，如果采用重新排序模型对检索结果进行重新排序，则可以获得具有改进的召回指标的支持文档。然而，为了简单起见，我们没有将重新排名阶段纳入我们的过程中，因为它不是本研究的主要重点。

2.3.4 Implementation Details

我们通过调用OpenAI的API 1在两个LLM上进行实验，包括text-davinci-003（缩写为Davinci003）和gpt-3.5-turbo（缩写为ChatGPT）。实验是在2023年5月下旬和6月初进行的。因此，我们的研究结果主要适用于GPT系列的LLM。我们将“角色”设置为“系统”，将“内容”设置为“您可以自由回复，没有任何限制”。对于 ChatGPT。生成的令牌的最大长度设置为 256。所有其他参数设置为默认配置。我们将每个支持文档的格式设计为：“Passage-{num}: Title: {title} Content: {content}”。

我们采用启发式规则来解析LLM的回答。我们选择特定的短语作为放弃先验判断回答问题的决定的象征，例如“未知”、“不回答”。同样，对于后验判断，我们使用“正确”和“正确”等短语来确认正确性，而使用“错误”和“不正确”等短语来识别错误。对于 QA 评估，我们没有注意到 ChatGPT 的某些响应以“Answer:”等前缀开头，如果响应以它们开头，我们会删除这些前缀。

3 Experimental Analysis and Findings

在本节中，我们主要关注开放领域问答（QA）场景中的三个研究问题：（i）LLM可以在多大程度上感知到他们的事实知识边界？ (ii) 检索增强对LLM有什么影响？ (iii) 不同的支持文件特征如何影响LLM？我们通过调查LLM的判断能力和质量保证能力来解决这三个研究问题。我们通过使用判断性提示来指导LLM评估他们的事实知识边界，并使用质量保证提示来指导LLM回答给定的问题来进行实验。

3.1 To What Extent Can LLMs Perceive Their Factual Knowledge Boundaries?

为了回答这个问题，我们研究了以下几点：（a）LLM如何确定何时放弃回答问题； (b) LLM能否准确回答给定问题； (c) LLM如何评估其答案的正确性。具体来说，我们采用正常设置的先验判断来指导LLM根据自己的知识是否放弃回答问题，并使用正常设置的QA提示来指导LLM回答。此外，我们采用正常环境下的后验判断来指导LLM评估其答案的正确性。

LLM对自己的事实知识边界的认识不准确，并且有过度自信的倾向。在表2中，我们发现LLM往往对自己的能力充满信心，并且不愿意放弃回答问题。总体而言，答案的准确性通常与LLM的信心水平相关，但这种信心远远超出了他们的实际能力。 LLM 对自己能力的自我预测往往不准确，他们坚持回答的大多数问题都回答错误（右/ØG），而他们放弃回答的许多问题都回答正确（右/） G）。与之前的研究类似（Kamalloo et al., 2023），即使在正常设置下缺乏域内数据的情况下，LLM的质量保证能力仍然令人满意。当我们指导LLM评估他们的后验判断答案时，他们也表现出相信自己的答案是正确的显着倾向，从而导致与 EM 相比更高的 Eval-Right 值。然而，Eval-Right 值与实际评估精度之间存在很大差异，如相对较低的 Eval-Acc 指标所示。此外，ChatGPT 的性能优于 Davinci003，但放弃率更高，表明 Davinci003 在生成问题答案时比 ChatGPT 更自信。

模型微调方法Prefix-Tuning ballball~~ 大模型人工智能算法大数据
简介：个人学习分享，如有错误，欢迎批评指正。随着大规模预训练语言模型（如GPT系列、BERT等）的广泛应用，如何高效、经济地针对特定任务对这些模型进行微调（Fine-Tuning）成为研究热点。传统的微调方法通常需要调整模型的大量参数，导致计算资源消耗大、适应新任务的速度慢。为了解决这一问题，Prefix-Tuning（前缀调优）作为一种高效的微调技术被提出，旨在通过引入少量可训练的前缀参数，达到
star31.6k，Aider：让代码编写如虎添翼的终端神器
ider是一款运行在终端中的AI结对编程工具，它能与大型语言模型（LLM）无缝协作，直接在您的本地Git仓库中编辑代码。无论是启动新项目，还是优化现有代码库，Aider都能成为您最得力的助手。它支持Claude3.5Sonnet、DeepSeekV3、GPT-4o等顶级AI模型，几乎可以连接任何LLM，让编程体验如虎添翼。Stars数35,188Forks数3,230主要特点Git操作：Aider
MongoDB + Voyage AI 详解：重塑数据库与AI的协同范式 csdn_tom_168 NoSQL 数据库 mongodb 人工智能 AI
MongoDB+VoyageAI详解：重塑数据库与AI的协同范式2025年2月，MongoDB官方宣布收购VoyageAI，这一举措标志着数据库与人工智能技术的深度融合迈入新阶段。通过整合VoyageAI的先进AI检索与嵌入模型能力，MongoDB旨在重新定义AI时代的数据库架构，为企业构建智能应用提供端到端的数据基础设施。一、收购背景与技术战略1.行业趋势驱动AI数据挑战：随着生成式AI与大语言
HarmonyOS5.0仓颉引擎与盘古大模型：个性化作业批改系统架构设计与实现 H老师带你学鸿蒙系统架构 HarmonyOS5.0 鸿蒙华为仓颉教育
人工智能与边缘计算的融合正在重塑教育评价体系。本文将展示如何基于HarmonyOS5.0仓颉并发引擎和盘古大模型，构建新一代智能作业批改系统。系统架构全景graphTDA[学生端设备]-->|提交作业|B[仓颉边缘处理]B-->C[盘古大模型分析]C-->D[个性化反馈生成]D-->E[学生终端]D-->F[教师仪表盘]subgraphHarmonyOS分布式系统B-->|设备协同|G[教室平板集
DeepSeek在智能教育评估中的应用：试题检索 AIGC应用创新大全 AI大模型与大数据技术 AI人工智能与大数据应用开发 MCP&Agent 云算力网络 easyui 前端 javascript ai
DeepSeek在智能教育评估中的应用：试题检索关键词：DeepSeek、智能教育、试题检索、自然语言处理、知识图谱、个性化学习、评估系统摘要：本文探讨了DeepSeek大模型在智能教育评估系统中的试题检索应用。我们将深入分析如何利用先进的自然语言处理技术和知识图谱构建高效的试题检索系统，实现个性化学习路径推荐和精准评估。文章将从核心概念、技术原理到实际应用场景，全面解析这一创新教育技术解决方案。
知识图谱的个性化智能教学推荐系统(论文+源码) 毕设工作室_wlzytw python论文项目知识图谱人工智能
目录摘要Abstract目录第1章绪论1.1研究背景及意义1.2国内外研究现状1.2.1知识图谱1.2.2个性化推荐系统1.3本文研究内容及创新点1.4全文组织结构第2章相关理论与技术概述2.1知识图谱2.1.1知识图谱的介绍与发展2.1.2知识图谱的构建2.3协同过滤推荐算法2.2.1推荐算法概述2.2.2Pearson相关系数2.2.3Spearman相关系数2.4Bert模型和Albert模
阿里云瑶池数据库 Data Agent for Meta 正式发布，让 AI 更懂你的业务！数据库观点资讯人工智能
背景随着生成式人工智能（GenerativeAI）从概念验证迈向规模化商业落地，AIAgent已成为企业核心业务流程的重要组成部分。然而，当模型调用日益便捷时，核心痛点已不再是模型本身，而是集中在一个关键要素上：数据。AIAgent的落地瓶颈已从技术能力转向高质量、高相关性、安全合规的数据供给。企业面临的核心挑战在于：数据孤岛导致知识库分散，通用大模型难以理解专业业务传统数据管理依赖人工开发维护，
【PaddleOCR】OCR文本检测与文本识别数据集整理，持续更新......
博主简介：曾任某智慧城市类企业算法总监，目前在美国市场的物流公司从事高级算法工程师一职，深耕人工智能领域，精通python数据挖掘、可视化、机器学习等，发表过AI相关的专利并多次在AI类比赛中获奖。CSDN人工智能领域的优质创作者，提供AI相关的技术咨询、项目开发和个性化解决方案等服务，如有需要请站内私信或者联系任意文章底部的的VX名片（ID：xf982831907）博主粉丝群介绍：①群内初中生、
使用 C++ 实现 MFCC 特征提取与说话人识别系统 whoarethenext c++开发语言 mfcc 语音识别
使用C++实现MFCC特征提取与说话人识别系统在音频处理和人工智能领域，C++凭借其卓越的性能和对硬件的底层控制能力，在实时音频分析、嵌入式设备和高性能计算场景中占据着不可或缺的地位。本文将引导你了解如何使用C++库计算核心的音频特征——梅尔频率倒谱系数(MFCCs)，并进一步利用这些特征构建一个说话人识别（声纹识别）系统。Part1:在C/C++中计算MFCCs直接从零开始实现MFCC的所有计算
ImportError: /nvidia/cusparse/lib/libcusparse.so.12: undefined symbol: __nvJitLinkComplete_12_4 爱编程的喵喵 Python基础课程 python ImportError torch nvJitLink 解决方案
大家好，我是爱编程的喵喵。双985硕士毕业，现担任全栈工程师一职，热衷于将数据思维应用到工作与生活中。从事机器学习以及相关的前后端开发工作。曾在阿里云、科大讯飞、CCF等比赛获得多次Top名次。现为CSDN博客专家、人工智能领域优质创作者。喜欢通过博客创作的方式对所学的知识进行总结与归纳，不仅形成深入且独到的理解，而且能够帮助新手快速入门。本文主要介绍了ImportError:/home/
网络安全相关专业总结（非常详细）零基础入门到精通，收藏这一篇就够了网络安全工程师教学兼职副业黑客技术网络安全 web安全安全人工智能网络运维
一、网络工程专业专业内涵网络工程是指按计划进行的以工程化的思想、方式、方法，设计、研发和解决网络系统问题的工程，一般指计算机网络系统的开发与构建。该专业培养具备计算机科学与技术学科理论基础，掌握网络技术领域专业知识和基本技能，在计算机、网络及人工智能领域的工程实践和应用方面受到良好训练，具有深厚通信背景、可持续发展、能力较强的高水平工程技术人才。学生可在计算机软硬件系统、互联网、移动互联网及新一代
大语言模型应用指南：ReAct 框架 AI大模型应用实战 java python javascript kotlin golang 架构人工智能
大语言模型应用指南：ReAct框架关键词：大语言模型,ReAct框架,自然语言处理(NLP),模型融合,多模态学习,深度学习,深度学习框架1.背景介绍1.1问题由来近年来，深度学习技术在自然语言处理(NLP)领域取得了显著进展。尤其是大语言模型(LargeLanguageModels,LLMs)，如BERT、GPT系列等，通过在大规模无标签数据上进行预训练，获得了强大的语言理解和生成能力。然而，预
目前最火的agent方向-A2A快速实战构建（二）： AutoGen模型集成指南：从OpenAI到本地部署的全场景LLM解决方案
引言：打破模型壁垒，构建灵活AI应用在AI应用开发中，大语言模型（LLM）的选择往往决定了系统的能力边界。AutoGen通过标准化的模型客户端协议，实现了对OpenAI、AzureOpenAI、本地模型等多源LLM的统一接入，让开发者能够根据场景需求自由切换模型服务。本文将深入解析AutoGen的模型集成框架，从云端服务到本地部署，助你构建弹性可扩展的AI代理系统。一、模型客户端核心架构：统一接口
在 Dify 平台中集成上下文工程技术由数入道人工智能数据库大数据人工智能软件工程 dify
1.提升LLM问答准确率的上下文构建与提示策略大语言模型在开放领域问答中常面临幻觉和知识过时等问题。为提高回答准确率，上下文工程的关键是在提示中注入相关背景知识与指导。具体策略包括：检索增强(RAG)：通过从知识库中检索相关内容并将其纳入提示，可以显著提升回答的准确性和可信度。Dify提供了知识检索节点，支持向量数据库存储外部知识，并将检索结果通过上下文变量注入LLM提示中。例如，在知识库问答应用
大语言模型原理基础与前沿基于语言反馈进行微调 AI天才研究院计算 AI大模型企业级应用开发实战 AI人工智能与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理基础与前沿基于语言反馈进行微调作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着深度学习技术的飞速发展，自然语言处理（NLP）领域取得了显著的进展。大语言模型（LargeLanguageModels，LLMs）如GPT-3、BERT等在各项NLP任务上取得了令人瞩目的成绩。然而，如何进一步提高大语言模型的理
《北京市加快推动“人工智能+医药健康“创新发展行动计划（2025-2027年）》深度解读
引言随着新一轮科技革命和产业变革的深入推进，人工智能技术与医药健康的深度融合已成为全球科技创新的重要方向。北京市于2025年7月正式发布《北京市加快推动"人工智能+医药健康"创新发展行动计划（2025-2027年）》，旨在充分发挥北京在人工智能技术策源、头部医疗资源汇聚、健康数据高度富集等方面的突出优势，构建形成"人工智能+医药健康"创新和应用并举的产业生态体系，打造具有国际影响力的创新策源地、应
「源力觉醒创作者计划」_文心大模型开源：开启 AI 新时代的大门小黄编程快乐屋人工智能
在人工智能的浩瀚星空中，大模型技术宛如一颗璀璨的巨星，照亮了无数行业前行的道路。自诞生以来，大模型凭借其强大的语言理解与生成能力，引发了全球范围内的技术变革与创新浪潮。百度宣布于6月30日开源文心大模型4.5系列，这一消息如同一颗重磅炸弹，在AI领域掀起了惊涛骇浪，其影响之深远，意义之重大，足以改写行业的发展轨迹。百度这次放大招，直接把文心大模型4.5开源了，这操作就像往国内AI圈子里空投了一个超
四种微调技术详解：SFT 监督微调、LoRA 微调、P-tuning v2、Freeze 监督微调方法
当谈到人工智能大语言模型的微调技术时，我们进入了一个令人兴奋的领域。这些大型预训练模型，如GPT-3、BERT和T5，拥有卓越的自然语言处理能力，但要使它们在特定任务上表现出色，就需要进行微调，以使其适应特定的数据和任务需求。在这篇文章中，我们将深入探讨四种不同的人工智能大语言模型微调技术：SFT监督微调、LoRA微调方法、P-tuningv2微调方法和Freeze监督微调方法。第一部分：SFT监
从新闻到知识图谱：用大模型和知识工程“八步成诗”打造科技并购大脑许泽宇的技术分享知识图谱科技人工智能
一句话摘要：本文带你用现代NLP和知识图谱技术，把科技公司并购新闻变成结构化的知识大脑，过程全景揭秘，理论与实战齐飞，代码只用伪代码，干货与段子齐发，助你成为AI知识工程老司机！前言：为什么要把新闻变成知识图谱？想象一下，你是个投资分析师，老板让你一周内梳理全球科技并购大事件，找出谁在买谁、花了多少钱、背后有哪些大佬、涉及哪些新技术……你会怎么做？A.手动Ctrl+F，Excel狂敲，熬夜爆肝？B
2023年搜索领域的技术认证与职业发展指南搜索引擎技术搜索引擎 ai
2023年搜索领域的技术认证与职业发展指南关键词搜索领域、技术认证、职业发展、搜索引擎技术、人工智能搜索摘要本指南旨在为搜索领域的从业者和有志于进入该领域的人士提供全面的技术认证与职业发展参考。首先介绍搜索领域的概念基础，包括其历史发展和关键问题。接着阐述相关理论框架，分析不同认证背后的原理。架构设计部分展示搜索系统的组成与交互。实现机制探讨算法复杂度和代码优化。实际应用部分给出实施和部署策略。高
探索AI人工智能医疗NLP实体识别系统的架构设计 AI学长带你学AI 人工智能自然语言处理 easyui ai
探索AI人工智能医疗NLP实体识别系统的架构设计关键词：人工智能、医疗NLP、实体识别、系统架构、深度学习、自然语言处理、医疗信息化摘要：本文将深入探讨医疗领域NLP实体识别系统的架构设计。我们将从基础概念出发，逐步解析医疗文本处理的特殊性，详细介绍实体识别技术的核心原理，并通过实际案例展示如何构建一个高效可靠的医疗实体识别系统。文章还将探讨当前技术面临的挑战和未来发展方向，为医疗AI领域的从业者
AI智能体原理及实践：从概念到落地的全链路解析 you的日常人工智能大语言模型人工智能机器学习深度学习神经网络自然语言处理
AI智能体正从实验室走向现实世界，成为连接人类与数字世界的桥梁。它代表了人工智能技术从"知"到"行"的质变，是能自主感知环境、制定决策、执行任务并持续学习的软件系统。在2025年，AI智能体已渗透到智能家居、企业服务、医疗健康、教育和内容创作等领域，展现出强大的生产力与创造力。然而，其发展也伴随着技术挑战、伦理困境和安全风险，需要从架构设计到落地应用的全链条思考与平衡。一、AI智能体的核心定义与技
人工智能动画展示人类的特征 AGI大模型与大数据研究院 AI大模型应用开发实战 java python javascript kotlin golang 架构人工智能
人工智能，动画，人类特征，情感识别，行为模拟，机器学习，深度学习，自然语言处理1.背景介绍人工智能（AI）技术近年来发展迅速，已渗透到生活的方方面面。从智能语音助手到自动驾驶汽车，AI正在改变着我们的世界。然而，尽管AI技术取得了令人瞩目的成就，但它仍然难以完全模拟人类的复杂行为和特征。人类的特征是多方面的，包括情感、认知、社交和创造力等。这些特征是人类区别于其他生物的重要标志，也是人类社会文明发
文心一言插件：使用插件探索无限可能前端
文心一言作为一款强大的语言模型，为我们提供了丰富的功能和应用场景。而文心一言插件的出现，进一步拓展了其功能，为用户带来了更多的便利和可能性。本文将详细介绍文心一言插件的使用方法，并通过一个具体的实例展示其在实际应用中的强大之处。一、文心一言插件的安装和启用访问文心一言官方网站，登录你的账号。在页面左侧的菜单中，点击“插件”选项。在插件页面中，你可以浏览可用的插件列表，选择你需要的插件并点击“安装”
Python+AI十分钟自动生成小说！程序员：这工具让我月入5万+ 小筱在线人工智能人工智能开发语言
引言：AI写作革命已来，你准备好了吗？2025年的今天，AI写作已经从科幻概念变成了现实生产力。一位名叫李明的程序员在社交媒体上晒出他的收入截图：单月稿费突破5万元，而他的"秘密武器"竟是用Python开发的AI小说生成工具。这不是天方夜谭，而是正在发生的技术革命。随着GPT-4、Claude3等大语言模型的成熟，结合Python强大的自动化能力，任何人都可以在十分钟内生成一部完整的小说初稿。AI
DeepSeek Chat 虾条_花吹雪 Spring AI ai
SpringAI支持DeepSeek的各种AI语言模型。您可以与DeepSeek语言模型交互，并基于DeepSeek模型创建多语言会话助手。Prerequisites您需要使用DeepSeek创建一个API密钥来访问DeepSeek语言模型。在DeepSeek注册页面创建一个帐户，并在API密钥页面上生成一个令牌。SpringAI项目定义了一个名为Spring.AI.deepseek.api-ke
Chat Memory 虾条_花吹雪 Spring AI ai 人工智能
大型语言模型（LLM）是无状态的，这意味着它们不保留有关以前交互的信息。当您想在多个交互中维护上下文或状态时，这可能是一个限制。为了解决这个问题，SpringAI提供了聊天记忆功能，允许您在与LLM的多次交互中存储和检索信息。ChatMemory抽象允许您实现各种类型的内存来支持不同的用例。消息的底层存储由ChatMemoryRepository处理，其唯一职责是存储和检索消息。由ChatMemo
Spring AI 第二讲之 Chat Model API 第八节ZhiPu AI Chat 疼死老夫了人工智能
SpringAI支持知普人工智能的各种人工智能语言模型。您可以与知普人工智能语言模型互动，并基于知普人工智能模型创建多语言对话助手。先决条件您需要与ZhiPuAI创建一个API，以访问ZhiPuAI语言模型。在ZhiPuAI注册页面创建账户，并在APIKeys页面生成令牌。SpringAI项目定义了一个名为spring.ai.zhipuai.api-key的配置属性，你应将其设置为从APIKeys
动手实践OpenHands系列学习笔记3：LLM集成基础 JeffWoodNo.1 笔记人工智能
笔记3：LLM集成基础一、引言大型语言模型(LLM)是OpenHands代理系统的核心驱动力。本笔记将深入探讨LLMAPI调用的基本原理，以及如何在实践中实现与Claude等先进模型的基础连接模块，为构建AI代理系统奠定基础。二、LLMAPI调用基础知识2.1LLMAPI基本概念API密钥认证:访问LLM服务的身份凭证提示工程:构造有效请求以获取预期响应推理参数:控制模型输出的各种参数流式响应:增
Chat Model API 虾条_花吹雪 Spring AI java
聊天模型API为开发人员提供了将人工智能聊天完成功能集成到应用程序中的能力。它利用预训练的语言模型，如GPT（生成预训练转换器），以自然语言对用户输入生成类似人类的响应。API通常通过向人工智能模型发送提示或部分对话来工作，然后人工智能模型根据其训练数据和对自然语言模式的理解生成对话的完成或继续。然后将完成的响应返回给应用程序，应用程序可以将其呈现给用户或用于进一步处理。Spring人工智能聊天模
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多