zenRRan

解密大型语言模型：从相关性中发现因果关系？

深度学习自然语言处理原创
作者：wkk

因果推理是人类智力的标志之一。因果关系NLP领域近年来引起了人们的极大兴趣，但其主要依赖于从常识知识中发现因果关系。本研究提出了一个基准数据集(CORR2CAUSE)来测试大语言模型(LLM)的纯因果推理能力。其中CORR2CAUSE对LLM来说是一项具有挑战性的任务，有助于指导未来关于提高LLM纯粹推理能力和可推广性的研究。

简介

因果推理

因果推理是推理的一个基本方面，其涉及到在变量或事件之间建立正确的因果关系。大致可分为两种不同的方式的因果关系：一种是通过经验知识，例如，从常识中知道，为朋友准备生日派对会让他们快乐；另一种是通过纯粹的因果推理，因果关系可以通过使用因果推理中已知的程序和规则进行形式化的论证和推理得到。例如，已知A和B彼此独立，但在给定C的情况下变得相关，那么可以推断，在一个封闭系统中，C是A和B共同影响的结果，如下图所示。

解密大型语言模型：从相关性中发现因果关系？_第2张图片

想象上图中的场景，在训练语料库中有大量的相关性，比如疫苗这个词与疾病病例数量的增加有关。如果认为LLM的成功在于捕捉术语之间的大量统计相关性，那么关键但缺失的一步是如何处理这些相关性并推断因果关系，其中一个基本的构建块是CORR2CAUSE推断技能。

本文将这项任务表述为NLP的一项新任务，即因果关系推理，并认为这是大语言模型的必备技能。

贡献

基于CORR2COUSE数据集，本文探讨了两个主要的研究问题：

(1)现有的LLM在这项任务中的表现如何？

(2)现有的LLM能否在这项任务中重新训练或重新设定目标，并获得强大的因果推理技能？

本文的主要贡献如下：

(1)提出了一项新任务，探讨LLMs推理能力的一个方面，即纯因果推理；

(2)使用因果发现的见解组成了超过400K个样本的数据集；

(3)在数据集上评估了17个LLM的性能，发现它们的性能都很差，接近随机基线；

(4)进一步探讨了LLM是否可以通过微调来学习这项技能，发现LLM无法在分布外扰动的情况下稳健地掌握这项技能，本文建议未来的工作探索更多方法来增强LLM中的纯因果推理技能。

因果推理预备知识

因果模型有向图(DGCM)

有向图形因果模型是一种常用的表示方法，用于表示一组变量之间的因果关系。给定一组N个变量X={X₁,...,X_N}，可以使用有向图G=(X，E)对它们之间的因果关系进行编码，其中E是有向边的集合。每条边e_i,j∈E代表一个因果联系X_i→X_j，意味着X_i是X_j的直接原因。

D-分离与马尔可夫性质

D-Separation(D-分离)

D分离是图模型中的一个基本概念，用于确定在给定第三组节点Z的情况下，DAG中的两组节点X和Y是否条件独立，其中这三组节点是不相交的。

Markov Property(马尔可夫性质)

DAG中的马尔可夫性质表明每个节点X_i在给定父节点的情况下有条件地独立于其非后代，。使用马尔可夫属性，可以将图中所有节点的联合分布分解为为了从概率分布中推断因果图，一个常见的假设是置信度，即从概率分布中的独立关系中推断图中所有D-分离集的有效性。在本文的工作中，也采用了这个广泛的假设，它适用于大多数现实世界的场景。

Markov Equivalence of Graphs(图的马尔可夫等价)

如果两个DAG有相同的联合分布P(X)，则将两个DAG表示为马尔可夫等价。相互等价的马尔可夫 DAG集称为马尔可夫等价类(MEC)。同一MEC中的因果图可以很容易地识别，因为它们具有相同的骨架(即无向边)和V结构(即A→B←C形式的结构，其中A和C不连接)。

因果发现

因果发现旨在通过分析观测数据中的统计属性来学习因果关系。它可以通过基于约束的方法、基于分数的方法或其他利用功能因果模型的方法来实现。

为了从相关性(用自然语言表示)推断因果关系，本研究的数据集设计基于广泛使用的Peter Clark(PC)算法。其使基于条件独立原则和因果马尔可夫假设，这使它能够有效地识别给定数据集中变量之间的因果关系。该算法首先从所有变量之间的完全连通无向图开始。然后，如果两个变量之间存在无条件或有条件的独立关系，它就消除了它们之间的边。然后，只要存在V形结构，它就会定向定向边。最后，它迭代地检查其他边的方向，直到整个因果图与所有统计相关性一致。

数据集构建

任务定义

给定一组N个变量X={X₁,...,X_N}，一个关于变量之间所有相关性的声明s，以及一个描述变量X_i和X_j对之间的因果关系r的假设h。该任务是学习一个函数f(s,h)→v，它将相关语句和因果关系假设h映射到它们的有效性v∈{0,1}，如果该推理无效，则取值0，否则为1。

数据生成过程

数据生成过程如下图所示，首先选择变量的数量N，并生成所有具有N个节点的唯一DGCM。然后，从这些图中收集所有D分离集。对于MEC到因果图的每个对应关系，根据MEC中的统计关系组合相关语句，并假设两个变量之间的因果关系，如果假设是MEC中所有因果图的共享属性，则有效性v=1，如果对于所有MEC图的假设不一定为真，则v=0。

解密大型语言模型：从相关性中发现因果关系？_第3张图片

用同构检验构造图

数据生成的第一步是组成因果图，如上图的步骤1和2所示。对于一组N个变量X={X₁,...,X_N}，存在N(N-1)个可能的有向边，因为每个节点可以链接到除自身之外的任何节点。为了删除图中的循环，将节点按拓扑顺序排列，这只允许边X_i→ X_j，其中i＜j。通过将图的邻接矩阵限制为仅在对角线上具有非零值来实现这一点，从而产生DAG的N(N−1)/2个可能的有向边。

集合中可能存在同构图。为了避免这种情况，进行了图同构检查，并减少了集合，以便只保留唯一的DAG，在下表中展示了它们的统计数据。尽管其可以处理大型图，但主要关注较小的图，这些图仍然可以产生合理大小的数据集。

解密大型语言模型：从相关性中发现因果关系？_第4张图片

程序生成D-分离集

基于一组唯一的DAG，通过图论条件以编程方式生成D-分离集，如数据生成过程图的步骤3所示。对于每对节点，给定D-分离集中的变量，它们是条件独立的。如果D-分离集是空的，那么这两个节点是无条件独立的。如果不能为这两个节点找到D-分离集，那么它们是直接相关的。

组成假设和标签

在基于D-分离集生成相关性集合之后生成因果假设。对于因果关系r，重点关注两个节点之间的六种常见因果关系：是父节点、是子节点、是祖先节点(不包括父节点)、是后裔节点(不包含子节点)、混淆节点和碰撞节点。这样，假设集包含每对变量之间的所有六个有意义的因果关系，从而导致具有N个变量的图的总大小为6*N(N−1)/2=3N(N–1)个假设。

为了生成真实有效性标签，从数据生成过程图的步骤3中的相关集合开始，查找与给定相关性集合对应的相同MEC中的所有因果图，并检查假设因果关系的必要性。如果假设中提出的因果关系对MEC中的所有因果图都是有效的，那么我们生成有效性v=1;否则，v=0。

自然语言化

如数据生成过程图的最后一步所示，将上述所有信息转换为文本数据，用于CORR2CAUSE任务。对于相关语句，将数据生成过程图步骤3中的相关性集合表示为自然语言语句s。当两个变量不能进行D-分离时，将其描述为A与B相关，因为它们直接相关并且不能独立于任何条件。如果两个变量具有有效的D-分离集C，那么将它们描述为A与给定C的B无关。在D-分离集为空的特殊情况中，A与B无关。

此外，通过将相关语句与给定变量的封闭系统的设置开始来消除歧义。最后，为了表达假设，将因果关系三元组 (X_i, r, X_j) 输入到下表中的假设模板中。

解密大型语言模型：从相关性中发现因果关系？_第5张图片

结果数据统计

CORR2COUSE数据集的统计数据，以及按子集的统计数据如下表所示。其报告了样本总数；测试、开发和训练集的拆分；每个前提和假设的token数量；隐含标签的百分比和词汇大小。

解密大型语言模型：从相关性中发现因果关系？_第6张图片

实验

实验设置

为了测试现有的LLM，首先在下载次数最多的transformers库中包括六个常用的基于BERT的NLI模型：BERT、RoBERTa、BART、DeBERTa、DistilBERT和DistilBART。除了这些基于BERT的NLI模型外，还评估了基于GPT的通用自回归LLM：GPT-3Ada、Babbage、Curie、Davinci；其指令调整版本，text-davinci-001、text-davici-002和text-davici-003；和GPT-3.5（即ChatGPT），以及最新的GPT-4，使用temperature为0的OpenAI API2,还评估了最近更有效的模型LLaMa和Alpaca,如下表所示。

解密大型语言模型：从相关性中发现因果关系？_第7张图片

现有LLM中的因果推理技能

在上表中展示了LLM的因果推理性能。可以看到，纯因果推理是所有现有LLM中一项非常具有挑战性的任务。在所有LLM中，BART MNLI的最佳性能为33.38%F1，甚至高于最新的基于GPT的模型GPT-4。值得注意的是，许多模型比随机猜测更差差，这意味着它们在纯因果推理任务中完全失败。

微调性能

在CORR2CAUSE上微调的12个模型的展示在下表中的实验结果乍一看似乎非常强大。大多数模型性能显著增加，其中微调的基于BERT的NLI模型表现出最强的性能。性能最好的是oBERTa-Large MNLI，在这项任务中获得了 94.74%的F1值，以及较高的精度、召回率和准确度分数。

解密大型语言模型：从相关性中发现因果关系？_第8张图片

基于因果关系的细粒度性能

本文还进行了细粒度分析，通过六种因果关系类型来检验最强模型RoBERTa Large MNLI的性能。如下表所示，该模型在判断Is-Parent、Is-Descendant和Has-Confounder等关系方面非常好，所有 F1 分数都超过96%，而在HasCollider关系上则较弱。这可能是因为collider关系是最特殊的类型，需要仅基于两个变量的无条件独立性和以共同后代为条件的相关性来识别V结构。

解密大型语言模型：从相关性中发现因果关系？_第9张图片

鲁棒性分析

微调后的模型展现出了高性能，但是这些模型真的健壮地学习了因果推理技能吗?基于此本研究展开了鲁棒性分析。

两个鲁棒性测试

设计了两个简单的稳健性测试:(1)释义，(2)变量重构。对于释义，通过将每个因果关系的文本模板更改为一些语义等效的替代方案来简单地释义假设。对于(2)变量重构，颠倒变量名称的字母表，即将A, B, C翻转为Z, Y, X等。具体来说，采用了常见的文本对抗性攻击设置保留训练集并保留相同的保存模型，但在扰动测试集中运行推理。通过这种方式，将模型只过度拟合训练数据的可能性与掌握推理技能的可能性分开。

数据扰动后的结果

从下表右侧两列F1值可以看出，当解释测试集时，所有模型急剧下降多达39.29，当重新分解变量名称时，它们大幅下降高达58.38。性能最好的模型RoBERTa-Large MNLI对释义特别敏感，表明所有模型的下降幅度最大；然而，它对变量再分解最稳健，保持了67.87的高F1分数。

解密大型语言模型：从相关性中发现因果关系？_第10张图片

总结

在这项工作中，介绍了一项新任务CORR2CAUSE，用于从相关性推断因果关系，并收集了超过400K个样本的大规模数据集。在新任务上评估了大量的LLM，发现现成的LLM在此任务中表现不佳。实验表明，可以通过微调在这项任务上重新使用LLM，但未来的工作需要知道分布外的泛化问题。鉴于当前LLM的推理能力有限，以及将实际推理与训练语料库衍生知识分离的困难，必须专注于旨在准确解开和衡量两种能力的工作。

论文：Can Large Language Models Infer Causation from Correlation?
地址：https://arxiv.org/abs/2306.05836

进NLP群—>加入NLP交流群

你可能感兴趣的:(语言模型,人工智能,机器学习,自然语言处理,深度学习)

Pad Token技术原理与实现指南 Takoony AI
目录概述理论基础：第一性原理分析技术实现机制工程最佳实践性能优化策略常见问题与解决方案技术发展趋势附录1.概述1.1文档目的本文档旨在深入阐述深度学习中PadToken的技术原理、实现机制及工程应用，为算法工程师提供全面的理论指导和实践参考。1.2适用范围自然语言处理模型开发序列数据批处理优化深度学习系统架构设计高性能计算资源管理1.3核心问题研究问题:为什么深度学习模型需要将变长序列统一到固定长
深度学习分布式训练：并行策略与通信机制的系统性分析 Takoony 深度学习分布式人工智能
1.引言随着深度学习模型规模的指数级增长，单一计算设备已无法满足训练需求。以GPT-3为例，其1750亿参数在FP16精度下需要约350GB存储空间（每个参数2字节），远超当前主流GPU的显存容量（如NVIDIAA100的80GB）。根据OpenAI的技术报告[1]，即使使用最先进的硬件，单卡训练GPT-3需要355年。这一计算瓶颈催生了分布式训练技术的快速发展。本文将从理论基础出发，系统性地分析
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全苏柒 web安全计算机网络网络安全运维转业程序员编程
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
万字长文，解读大模型技术原理（非常详细）零基础入门到精通，收藏这一篇就够了
大模型是指具有大规模参数和复杂计算结构的机器学习模型。本文从大模型的发展历程出发，对大模型领域的各个技术细节进行详细解读，供大家在了解大模型基本知识的过程中起到一定参考作用。一、大模型的定义大语言模型作为一个被验证可行的方向，其“大”体现在训练数据集广，模型参数和层数大，计算量大，其价值体现在通用性上，并且有更好的泛化能力。这些模型通常由深度神经网络构建而成，拥有数十亿甚至数千亿个参数。大模型的设
转行网络安全需要学什么？（非常详细）从零基础到精通，收藏这篇就够了！～小羊没烦恼～黑客技术黑客网络安全 web安全安全学习运维网络
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
转行网络安全需要学什么？（非常详细）零基础入门到精通，收藏这一篇就够了网络安全k叔 web安全计算机网络网络安全编程计算机转业信息安全
什么是网络安全？网络安全是指保护网络系统的硬件、软件及其系统中的数据，破坏、更改、泄露，使系统连续可靠正常地运行，网络服务不会中断。未来，我国将着重发展数字经济，发展云计算、大数据、物联网、工业互联网、区块链和人工智能等产业，这些产业全部都基于网络互联。网络的安全就是以上这些产业能够良性发展的基础，也是建设制造强国和网络强国的基础保障。什么是网络安全工程师？网络安全工程师是负责保护计算机网络系统，
TensorFlow为AI人工智能航空航天领域带来变革 AI原生应用开发人工智能 tensorflow python ai
TensorFlow为AI人工智能航空航天领域带来变革关键词：TensorFlow、人工智能、航空航天、机器学习、深度学习、神经网络、自主系统摘要：本文探讨了TensorFlow这一强大的机器学习框架如何推动航空航天领域的创新。我们将从基础概念入手，逐步深入分析TensorFlow在航天器导航、卫星图像处理、飞行器自主决策等关键应用场景中的实现原理。通过实际代码示例和架构图解，展示TensorFl
多语言文本分类在AI应用中的实践 AI原生应用开发人工智能分类数据挖掘 ai
多语言文本分类在AI应用中的实践关键词：多语言文本分类、自然语言处理、机器学习、深度学习、BERT、迁移学习、跨语言模型摘要：本文深入探讨多语言文本分类在AI领域的应用实践。我们将从基础概念出发，逐步讲解其核心原理、技术架构和实现方法，并通过实际案例展示如何构建一个高效的多语言文本分类系统。文章将涵盖从传统机器学习方法到最先进的深度学习技术，特别关注跨语言迁移学习在实际业务场景中的应用。背景介绍目
从零开始构建AI原生应用的认知架构 AI原生应用开发 AI-native 架构 ai
从零开始构建AI原生应用的认知架构关键词：AI原生应用、认知架构、机器学习、知识图谱、神经网络、智能决策、系统设计摘要：本文深入探讨如何从零开始构建AI原生应用的认知架构。我们将从基本概念出发，逐步解析认知架构的核心组件，包括知识表示、推理机制和学习能力等。通过生动的比喻和实际代码示例，帮助读者理解如何设计一个能够模拟人类认知过程的AI系统。文章还将介绍当前最先进的认知架构模型，并展望未来发展趋势
Orange3实战教程：图像分析---图像嵌入 err2008 Orange3 实战教程数据挖掘神经网络自然语言处理机器学习计算机视觉深度学习 orange3中文版
图像嵌入通过深度神经网络实现图像嵌入。输入图像：图像列表。输出嵌入向量：用数字向量表示的图像。跳过的图像：未计算嵌入向量的图像列表。图像嵌入功能读取图像并将其上传至远程服务器或本地计算。深度学习模型用于为每张图像计算特征向量。该功能返回一个增强的数据表，包含额外的列（图像描述符）。图像可以通过导入图像小部件导入，也可以通过电子表格中的图像路径导入。在这种情况下，包含图像路径的列需要一个三行表头，第
宗毅说 | 乌卡瑟时代的生存思考裂变学院
今天，互联网经济、人工智能、全球化发展对我们的影响，要比我们想象得大得多。在多股合力的相互作用下，这个时代的社会特征、商业特征与之前相比显著不同，我称之为乌卡瑟“VUCASE”。备注：乌卡瑟（VUCASE）这个术语是我自创的，来自于乌卡(VUKA）。VUCA是Volatility(易变性)，Uncertainty(不确定性)，Complexity(复杂性)、Ambiguity（模糊性）这四个英文单
[论文阅读] 人工智能 + 软件工程 | 单会话方法论：一种以人类为中心的人工智能辅助软件开发协议张较瘦_ 前沿技术论文阅读人工智能软件工程
单一对话法（SCM）：AI辅助软件开发的“全局对话”新思路SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSoftwareDevelopmentarXiv:2507.12665SingleConversationMethodology:AHuman-CenteredProtocolforAI-AssistedSo
如何安全使用人工智能大模型
人工智能大模型的安全漏洞在推送，你只要有不一样的解决方案他就会通过学习学会，在别人讨论相同问题时，就会作为解决问题的推荐方案。这种机制是没办法防的。鉴于此我们只能采取如下措施:1.绝对本地部署，就是部署好以后断网，因为你使用时他还是会手机数据往后台传送，我本地部署的大模型在推理时看性能，网络也是有数据流的。也不知道在交换什么。2.既然搞不清楚那就彻底不相信，断网。那么我们要加快进度，快速完成任务，
一起学大模型 - LangChain 的 OutputParser 做个天秤座的程序猿 langchain outPutParser 大模型
文章目录前言一、OutputParser的概述二、JSONOutputParser三、自定义格式解析器1.假设的自定义格式2.实现CustomFormatOutputParser3.更复杂的自定义格式四、正则表达式解析器1.示例：正则表达式解析器2.假设的语言模型输出3.实现RegexOutputParser4.更复杂的示例5.说明五、表格解析器1.假设的表格数据2.实现TableOutputPa
PyTorch生成式人工智能（18）——循环神经网络详解与实现盼小辉丶 pytorch rnn 自然语言处理
PyTorch生成式人工智能（18）——循环神经网络详解与实现0.前言1.文本生成的挑战2.循环神经网络2.1文本数据2.2循环神经网络原理3.长短期记忆网络3.自然语言处理基础3.1分词3.2词嵌入3.3词嵌入在自然语言处理中的应用小结系列链接0.前言我们已经学习了如何生成数字和图像等内容。从本节开始，我们将主要聚焦于文本生成。人类语言极其复杂且充满细微差别，不仅仅涉及语法和词汇的理解，还包括上
【人工智能99问】卷积神经网络（CNN）的结构和原理是什么？(10/99)
文章目录卷积神经网络（CNN）的结构及原理一、CNN的核心结构1.输入层（InputLayer）2.卷积层（ConvolutionalLayer）2.卷积层的核心机制：局部感受野与权值共享3.池化层（PoolingLayer）4.全连接层（FullyConnectedLayer）5.输出层（OutputLayer）6.辅助层二、CNN的工作原理三、CNN的使用场景1.计算机视觉（最核心场景）2.其
Deep Multi-scale Convolutional Neural Network for Dynamic Scene Deblurring 论文阅读钟屿论文阅读计算机视觉人工智能
用于动态场景去模糊的深度多尺度卷积神经网络摘要针对一般动态场景的非均匀盲去模糊是一个具有挑战性的计算机视觉问题，因为模糊不仅来源于多个物体运动，还来源于相机抖动和场景深度变化。为了去除这些复杂的运动模糊，传统的基于能量优化的方法依赖于简单的假设，例如模糊核是部分均匀或局部线性的。此外，最近的基于机器学习的方法也依赖于在这些假设下生成的合成模糊数据集。这使得传统的去模糊方法在模糊核难以近似或参数化的
基于Paillier同态加密算法的金融数据安全共享机制研究【附数据】
金融数据分析与建模专家金融科研助手|论文指导|模型构建✨专业领域：金融数据处理与分析量化交易策略研究金融风险建模投资组合优化金融预测模型开发深度学习在金融中的应用擅长工具：Python/R/MATLAB量化分析机器学习模型构建金融时间序列分析蒙特卡洛模拟风险度量模型金融论文指导内容：金融数据挖掘与处理量化策略开发与回测投资组合构建与优化金融风险评估模型期刊论文✅具体问题可以私信或查看文章底部二维码
吴恩达机器学习cs229-学习笔记-更新中是娜个二叉树！机器学习学习笔记
吴恩达机器学习cs22901基础概念语言：Matlab/python监督学习定义：获取一组数据集拟合数据从X到Y的映射回归问题：预测的Y是连续的，Y是实数分类问题：分类指的是Y取离散值，输出是离散的两组，正示例和负示例，把所有样本推到这条直线上，用0，1，标识逻辑回归算法，拟合直线区分正，负示例处理相对大量特征的回归算法或者分类算法支持向量机算法：它使用的不是1,2,3,10个输入特征，而是使用无
YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测
在深度学习领域，手写数字识别是一个经典问题，也是入门计算机视觉的重要案例。本文将介绍一个基于YOLOv8和MNIST数据集的手写数字识别系统，该系统不仅能识别静态图像中的数字，还能通过摄像头实时检测手写数字。个人博客：YOLOv8实现手写数字识别系统：从MNIST到实时摄像头检测-iDing's博客项目概述这个项目结合了传统的MNIST数据集和现代的目标检测算法YOLOv8，实现了以下功能：将MN
「日拱一码」033 机器学习——严格划分胖达不服输「日拱一码」机器学习人工智能严格划分组划分
目录简单随机划分（train_test_split）分组划分（GroupSplitting）简单分组划分(GroupSplitting)分层分组划分(StratifiedGroupSplitting)交叉验证法（Cross-Validation）分组K折交叉验证（GroupKFold）留一组法（LeaveOneGroupOut）简单随机划分（train_test_split）简单随机分组通过随机分
LLM应用开发中的敏捷文档管理 AI天才研究院计算 Agentic AI 实战 AI人工智能与大数据 java python javascript kotlin golang 架构人工智能大厂程序员硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM 系统架构设计软件哲学 Agent 程序员实现财富自由
文章标题：LLM应用开发中的敏捷文档管理关键词：LLM应用开发敏捷文档管理敏捷开发方法文档生命周期管理敏捷文档工具摘要：本文旨在探讨在LLM（大型语言模型）应用开发过程中，敏捷文档管理的重要性及其具体实践方法。文章首先介绍了LLM应用开发的背景和敏捷文档管理的必要性，接着深入讲解了敏捷文档管理的核心概念和原理。随后，文章探讨了敏捷文档管理工具的选择与应用，以及如何在LLM应用开发中实施敏捷文档管理
掌握 RAG：使用 Langchain 和 Ollama 创建本地智能应用程序知世不是芝士 langchain 人工智能 ai大模型大语言模型 ollama 本地部署大模型大模型技术
引言随着大型语言模型（LLMs）的兴起，我们见证了一种新的工具类别的诞生。然而，LLMs也存在局限性，尤其是当面对需要最新信息或专有数据的商业用例时。本文将介绍如何通过微调和RAG来解决这些问题。LLMs的局限性传统LLMs训练成本高昂，且只能访问公共信息。对于商业用途，需要模型能够提供基于内部知识的最新回应。文章介绍了两种解决这一问题的方法：微调和RAG。微调微调是针对特定数据集进一步训练预训练
基于深度学习的手写数字和符号识别系统：YOLOv5/v6/v7/v8/v10模型实现与UI界面集成 YOLO实战营深度学习 YOLO ui 人工智能目标检测计算机视觉
1.引言随着人工智能和深度学习技术的发展，手写数字和符号识别已经成为计算机视觉领域的重要研究方向。手写识别在很多实际应用中扮演着关键角色，例如邮政编码识别、表单自动处理和智能教育系统等。传统的手写识别方法通常依赖于复杂的特征工程，而深度学习则能够自动从数据中学习到特征，极大地提高了识别精度和速度。本文将介绍如何构建一个基于YOLO系列模型（YOLOv5、YOLOv6、YOLOv7、YOLOv8、Y
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】陈辰学长人工智能科技
【人工智能艺术革命：科技灵感与艺术创新的交融纪元】在21世纪的科技浪潮中，人工智能（AI）作为一股不可忽视的力量，正以前所未有的速度渗透并重塑着我们的生活、工作乃至艺术创作领域。其中，AI绘画作为科技与艺术深度融合的产物，不仅挑战了传统艺术的边界，更开启了一个充满无限想象与可能的新时代。本文将从AI绘画的定义与发展历程、技术原理、对艺术创作的影响、面临的挑战与机遇以及未来展望等多个维度，深入探讨这
从零开始：搭建你的人工智能开发环境人工智能教程人工智能 YOLO 机器学习 transformer 线性回归动态规划排序算法
前言在人工智能和机器学习的旅程中，一个稳定且高效的开发环境是成功的关键第一步。无论是初学者还是经验丰富的开发者，一个配置良好的开发环境都能大大提高工作效率，减少遇到的问题。本文将从零开始，逐步指导你如何搭建一个完整的人工智能开发环境，包括操作系统选择、Python安装、常用库的配置以及开发工具的选择。一、选择合适的操作系统（一）主流操作系统介绍在搭建人工智能开发环境时，首先需要选择一个合适的操作系
骗局揭露：光远投研会马光远，环境排放3.0被骗不靠谱！不可信！真相震惊！易星辰分享普法
关于曝光网上光远投研会马光远在炒股群推荐智慧农业中粮仓平台骗局的文章，其内容主要揭示了近期频发的一种投资诈骗手段。以下是该骗局的主要特点和步骤：为什么明明跟老师对过视频，确认是本人，怎么还会被骗了?你有没有想过一个名人大咖怎么会有时间给你们一对一视频，其次我来给大家揭露一下，这个套路AI换脸骗局是一种利用人工智能技术，通过替换视频中的人脸来伪造身份或进行诈骗的行为。你的账户“余额”是真的吗？为什么
【Grafana】Prometheus指标可视化Grafana，手把手教你如何自定义图形景天科技苑 grafana prometheus prometheus可视化 grafana自定义图形手撕grafana 自定义监控图形
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，Prometheu
SpringBoot单元测试全攻略：MockMVC+Testcontainers+覆盖率分析 fanxbl957 Web spring boot 单元测试后端
博主介绍：Java、Python、js全栈开发“多面手”，精通多种编程语言和技术，痴迷于人工智能领域。秉持着对技术的热爱与执着，持续探索创新，愿在此分享交流和学习，与大家共进步。DeepSeek-行业融合之万象视界(附实战案例详解100+)全栈开发环境搭建运行攻略：多语言一站式指南(环境搭建+运行+调试+发布+保姆级详解)感兴趣的可以先收藏起来，希望帮助更多的人SpringBoot单元测试全攻略：
AI作画：AI人工智能激发艺术创作灵感 AGI大模型与大数据研究院 AI作画人工智能 ai
AI作画：AI人工智能激发艺术创作灵感关键词：AI作画、生成艺术、深度学习、神经网络、艺术创作、人工智能、创意工具摘要：本文深入探讨AI作画技术如何激发艺术创作灵感。我们将从基础概念出发，解释AI如何"学习"艺术风格并生成新作品，分析核心技术原理，提供实际应用案例，并展望这一领域的未来发展趋势。通过通俗易懂的讲解和实际代码示例，帮助读者理解这项融合科技与艺术的创新技术。背景介绍目的和范围本文旨在向
Linux的Initrd机制被触发 linux
Linux 的 initrd 技术是一个非常普遍使用的机制，linux2.6 内核的 initrd 的文件格式由原来的文件系统镜像文件转变成了 cpio 格式，变化不仅反映在文件格式上， linux 内核对这两种格式的 initrd 的处理有着截然的不同。本文首先介绍了什么是 initrd 技术，然后分别介绍了 Linux2.4 内核和 2.6 内核的 initrd 的处理流程。最后通过对 Lin
maven本地仓库路径修改 bitcarter maven
默认maven本地仓库路径：C:\Users\Administrator\.m2 修改maven本地仓库路径方法： 1.打开E:\maven\apache-maven-2.2.1\conf\settings.xml 2.找到
XSD和XML中的命名空间 darrenzhu xml xsd schema namespace 命名空间
http://www.360doc.com/content/12/0418/10/9437165_204585479.shtml http://blog.csdn.net/wanghuan203/article/details/9203621 http://blog.csdn.net/wanghuan203/article/details/9204337 http://www.cn
Java 求素数运算周凡杨 java 算法素数
网络上对求素数之解数不胜数，我在此总结归纳一下，同时对一些编码，加以改进，效率有成倍热提高。第一种：原理: 6N(+-)1法任何一个自然数，总可以表示成为如下的形式之一： 6N，6N+1，6N+2，6N+3，6N+4，6N+5 (N=0，1，2，…)
java 单例模式 g21121 java
想必单例模式大家都不会陌生，有如下两种方式来实现单例模式： class Singleton { private static Singleton instance=new Singleton(); private Singleton(){} static Singleton getInstance() { return instance; }
Linux下Mysql源码安装 510888780 mysql
1.假设已经有mysql-5.6.23-linux-glibc2.5-x86_64.tar.gz (1)创建mysql的安装目录及数据库存放目录解压缩下载的源码包，目录结构，特殊指定的目录除外：
32位和64位操作系统墙头上一根草 32位和64位操作系统
32位和64位操作系统是指：CPU一次处理数据的能力是32位还是64位。现在市场上的CPU一般都是64位的，但是这些CPU并不是真正意义上的64 位CPU，里面依然保留了大部分32位的技术，只是进行了部分64位的改进。32位和64位的区别还涉及了内存的寻址方面，32位系统的最大寻址空间是2 的32次方= 4294967296（bit）= 4（GB）左右，而64位系统的最大寻址空间的寻址空间则达到了
我的spring学习笔记10-轻量级_Spring框架 aijuans Spring 3
一、问题提问： → 请简单介绍一下什么是轻量级？轻量级（Leightweight）是相对于一些重量级的容器来说的，比如Spring的核心是一个轻量级的容器，Spring的核心包在文件容量上只有不到1M大小，使用Spring核心包所需要的资源也是很少的，您甚至可以在小型设备中使用Spring。
mongodb 环境搭建及简单CURD antlove Web Install curd NoSQL mongo
一搭建mongodb环境 1. 在mongo官网下载mongodb 2. 在本地创建目录 "D:\Program Files\mongodb-win32-i386-2.6.4\data\db" 3. 运行mongodb服务 [mongod.exe --dbpath "D:\Program Files\mongodb-win32-i386-2.6.4\data\
数据字典和动态视图百合不是茶 oracle 数据字典动态视图系统和对象权限
数据字典（data dictionary）是 Oracle 数据库的一个重要组成部分，这是一组用于记录数据库信息的只读（read-only）表。随着数据库的启动而启动,数据库关闭时数据字典也关闭数据字典中包含数据库中所有方案对象（schema object）的定义(包括表，视图，索引，簇，同义词，序列，过程，函数，包，触发器等等) 数据库为一
多线程编程一般规则 bijian1013 java thread 多线程 java多线程
如果两个工两个以上的线程都修改一个对象，那么把执行修改的方法定义为被同步的，如果对象更新影响到只读方法，那么只读方法也要定义成同步的。不要滥用同步。如果在一个对象内的不同的方法访问的不是同一个数据，就不要将方法设置为synchronized的。
将文件或目录拷贝到另一个Linux系统的命令scp bijian1013 linux unix scp
一.功能说明 scp就是security copy，用于将文件或者目录从一个Linux系统拷贝到另一个Linux系统下。scp传输数据用的是SSH协议，保证了数据传输的安全，其格式如下： scp 远程用户名@IP地址：文件的绝对路径
【持久化框架MyBatis3五】MyBatis3一对多关联查询 bit1129 Mybatis3
以教员和课程为例介绍一对多关联关系，在这里认为一个教员可以叫多门课程，而一门课程只有1个教员教，这种关系在实际中不太常见，通过教员和课程是多对多的关系。示例数据：地址表： CREATE TABLE ADDRESSES ( ADDR_ID INT(11) NOT NULL AUTO_INCREMENT, STREET VAR
cookie状态判断引发的查找问题 bitcarter form cgi
先说一下我们的业务背景： 1.前台将图片和文本通过form表单提交到后台，图片我们都做了base64的编码，并且前台图片进行了压缩 2.form中action是一个cgi服务 3.后台cgi服务同时供PC，H5，APP 4.后台cgi中调用公共的cookie状态判断方法（公共的，大家都用，几年了没有问题）问题：（折腾两天。。。。） 1.PC端cgi服务正常调用，cookie判断没
通过Nginx,Tomcat访问日志(access log)记录请求耗时 ronin47
一、Nginx通过$upstream_response_time $request_time统计请求和后台服务响应时间 nginx.conf使用配置方式： log_format main '$remote_addr - $remote_user [$time_local] "$request" ''$status $body_bytes_sent "$http_r
java-67- n个骰子的点数。把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 bylijinnan java
public class ProbabilityOfDice { /** * Q67 n个骰子的点数 * 把n个骰子扔在地上，所有骰子朝上一面的点数之和为S。输入n，打印出S的所有可能的值出现的概率。 * 在以下求解过程中，我们把骰子看作是有序的。 * 例如当n=2时，我们认为（1，2）和（2，1）是两种不同的情况 */ private stati
看别人的博客，觉得心情很好 Cb123456 博客心情
以为写博客，就是总结，就和日记一样吧，同时也在督促自己。今天看了好长时间博客: 职业规划: http://www.iteye.com/blogs/subjects/zhiyeguihua android学习: 1.http://byandby.i
[JWFD开源工作流]尝试用原生代码引擎实现循环反馈拓扑分析 comsci 工作流
我们已经不满足于仅仅跳跃一次，通过对引擎的升级，今天我测试了一下循环反馈模式，大概跑了200圈，引擎报一个溢出错误在一个流程图的结束节点中嵌入一段方程，每次引擎运行到这个节点的时候，通过实时编译器GM模块，计算这个方程，计算结果与预设值进行比较，符合条件则跳跃到开始节点，继续新一轮拓扑分析，直到遇到
JS常用的事件及方法 cwqcwqmax9 js
事件描述 onactivate 当对象设置为活动元素时触发。 onafterupdate 当成功更新数据源对象中的关联对象后在数据绑定对象上触发。 onbeforeactivate 对象要被设置为当前元素前立即触发。 onbeforecut 当选中区从文档中删除之前在源对象触发。 onbeforedeactivate 在 activeElement 从当前对象变为父文档其它对象之前立即
正则表达式验证日期格式 dashuaifu 正则表达式 IT其它 java其它
正则表达式验证日期格式 function isDate(d){ var v = d.match(/^(\d{4})-(\d{1,2})-(\d{1,2})$/i); if(!v) { this.focus(); return false; } } <input value="2000-8-8" onblu
Yii CModel.rules() 方法、validate预定义完整列表、以及说说验证 dcj3sjt126com yii
public array rules () {return} array 要调用 validate() 时应用的有效性规则。返回属性的有效性规则。声明验证规则，应重写此方法。每个规则是数组具有以下结构：array('attribute list', 'validator name', 'on'=>'scenario name', ...validation
UITextAttributeTextColor = deprecated in iOS 7.0 dcj3sjt126com ios
In this lesson we used the key "UITextAttributeTextColor" to change the color of the UINavigationBar appearance to white. This prompts a warning "first deprecated in iOS 7.0." Ins
判断一个数是质数的几种方法 EmmaZhao Math python
质数也叫素数，是只能被1和它本身整除的正整数，最小的质数是2，目前发现的最大的质数是p=2^57885161-1【注1】。判断一个数是质数的最简单的方法如下： def isPrime1(n): for i in range(2, n): if n % i == 0: return False return True 但是在上面的方法中有一些冗余的计算，所以
SpringSecurity工作原理小解读坏我一锅粥 SpringSecurity
SecurityContextPersistenceFilter ConcurrentSessionFilter WebAsyncManagerIntegrationFilter HeaderWriterFilter CsrfFilter LogoutFilter Use
JS实现自适应宽度的Tag切换 ini JavaScript html Web css html5
效果体验：http://hovertree.com/texiao/js/3.htm 该效果使用纯JavaScript代码，实现TAB页切换效果，TAB标签根据内容自适应宽度，点击TAB标签切换内容页。 HTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"
Hbase Rest API : 数据查询 kane_xie REST hbase
hbase（hadoop）是用java编写的，有些语言（例如python）能够对它提供良好的支持，但也有很多语言使用起来并不是那么方便，比如c#只能通过thrift访问。Rest就能很好的解决这个问题。Hbase的org.apache.hadoop.hbase.rest包提供了rest接口，它内嵌了jetty作为servlet容器。启动命令：./bin/hbase rest s
JQuery实现鼠标拖动元素移动位置（源码+注释）明子健 jquery js 源码拖动鼠标
欢迎讨论指正！ print.html代码： <!DOCTYPE html> <html> <head> <meta http-equiv=Content-Type content="text/html;charset=utf-8"> <title>发票打印</title> &l
Postgresql 连表更新字段语法 update qifeifei PostgreSQL
下面这段sql本来目的是想更新条件下的数据，可是这段sql却更新了整个表的数据。sql如下： UPDATE tops_visa.visa_order SET op_audit_abort_pass_date = now() FROM tops_visa.visa_order as t1 INNER JOIN tops_visa.visa_visitor as t2 ON t1.
将redis,memcache结合使用的方案? tcrct redis cache
公司架构上使用了阿里云的服务，由于阿里的kvstore收费相当高，打算自建，自建后就需要自己维护，所以就有了一个想法，针对kvstore(redis)及ocs(memcache)的特点，想自己开发一个cache层，将需要用到list，set，map等redis方法的继续使用redis来完成，将整条记录放在memcache下，即findbyid，save等时就memcache，其它就对应使用redi
开发中遇到的诡异的bug wudixiaotie bug
今天我们服务器组遇到个问题：我们的服务是从Kafka里面取出数据，然后把offset存储到ssdb中，每个topic和partition都对应ssdb中不同的key，服务启动之后，每次kafka数据更新我们这边收到消息，然后存储之后就发现ssdb的值偶尔是-2,这就奇怪了，最开始我们是在代码中打印存储的日志，发现没什么问题，后来去查看ssdb的日志，才发现里面每次set的时候都会对同一个key

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他