PaperWeekly

TPAMI 2023 | 跨模态因果干预实现鲁棒可信的事件级问答推理

近日，中山大学人机物智能融合实验室（HCP-Lab）团队的论文 Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering（基于跨模态因果关系发现的事件级问答推理）被人工智能领域的国际顶级学术期刊 IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）接收。

TPAMI 是中国计算机学会（CCF）推荐的人工智能领域 A 类期刊，也是目前计算机类别中影响因子最高（影响因子 24.314）的期刊之一。下面带来该论文的详细解读。

简介

论文标题：

Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering

论文作者：

刘阳，李冠彬，林倞

论文链接：

https://arxiv.org/abs/2207.12647

代码链接：

https://github.com/HCPLab-SYSU/CMCIR

因果驱动的视觉-语言推理开源框架Causal-VLReasoning：

https://github.com/HCPLab-SYSU/Causal-VLReasoning

研究动机

跨模态事件级问答推理建立在基于视频的事件理解基础上，要求推理模型需要同时具备多模态视觉语义理解、时空表征学习、自然语言理解与生成和因果关系发现能力，实现对真实事件的深度理解，达到人机协同的自然交互，具有广泛的应用前景：包括聊天机器人 ChatGPT、智慧教育机器人、人机交互系统、医疗问诊系统等。

▲ 图1：事件级反事实问答推理任务示例

首先，现有的问答方法通常关注相对简单的事件，比如电影、TV-show 或者是合成视频，在这些视频类型中，时域理解和因果发现可能并不需要表现得很好。但是，这些方法却忽略了更复杂并且更具挑战性的事件，这些事件需要深入的因果、时空动态和语言关系的理解。

如图 1 所示，给定一个视频和一个相关问题，对于人类来说，一个典型的推理过程是先记住每个视频帧出现的相关目标和它们之间的交互关系（比如，车在路上行驶、人骑摩托车，穿过马路），然后根据这些记忆的视频内容推断出对应的答案。

然而，图 1 中的事件级反事实视觉问答任务需要得到特定假设条件下给定视频没有发生的事件对应的结果（比如，当人没有骑摩托车穿过马路时）。如果我们仅仅简单地将这些相关的视觉内容关联起来，而忽略其中隐含的时空和因果关系，我们可能得不到正确的推理结果。为了准确地在反事实条件下推理得到设想事件的答案，我们需要模型同时拥有层次化的关系推理能力和充分挖掘视觉语言内容包含的因果、逻辑和时空动态结构能力。

▲ 图2：示例：为何缺乏因果推理的跨模态问答推理模型会学习到浅层关联？（a）训练集中包含视觉和语言偏误， person和motorbike两个概念出现频次很高，（b）结构因果图模型（structured causal model）展示了混淆因子（confounders）是如何给事件级问答推理任务带来浅层关联（spurious correlation）的，绿色路径表示了无偏误的问答推理过程（包含真正的因果关系），红色路径表示混淆因子导致的有偏误问答推理过程，（c）当在测试集给一些 vehicle 和 accident 高度相关的样本时，模型可能不会利用真正的问题语义和显著的视觉线索来推理出正确答案。

其次，现有的跨模态问答推理方法通常捕捉的是混淆因子（confounders）带来的浅层（spurious）的语言或者视觉关联，而不是真正的因果结构和因果驱动的跨模态表征，这会导致不鲁棒且不可信赖的推理过程，无法捕捉视频中跨事件的时间性、因果性和动态性，如图 2 所示。

图灵奖得主 Judea Pearl 提出因果学习的三个层次（即关联，干预和反事实），并指出现有基于深度学习的大数据模型倾向于基于关联性去刻画数据背后的信息，学到的只是低层次的关联关系，这种建模方式难以得到数据背后的因果关系，其可解释性和鲁棒性在复杂应用场景下无法得到保证。

因此，本工作关注的重点是：1）如何设计有效的跨模态因果干预方法，对视觉和语言样本的共通推理路径进行聚类、归纳，来缩小视觉和语言模态的数据偏误？2）如何设计事件级因果发现方法，在时空层面挖掘复杂事件的潜在因果逻辑链条和关系变量，并建立基于多层因果推理结构的跨模态因果关系？

研究方法

为了实现上述两个目标，我们提出了一个跨模态因果关系推理的框架（CMCIR）。具体而言，我们基于因果关系图对问答推理过程进行了建模，如图 3 所示，并引入了一系列因果干预操作，来发现视觉和语言模态之间的潜在因果结构。

我们的跨模态因果关系推理框架（CMCIR）包括三个模块：i）因果感知的视觉-语言推理（CVLR）模块，通过因果前门和因果后门干预的协同来减弱视觉和语言的虚假相关性；ii）时空 Transformer（STT）模块，用于捕捉视觉和语言语义之间的细粒度交互；iii）视觉-语言特征融合（VLFF）模块，自适应地学习全局语义感知的视觉-语言表征。

我们在四个事件级问答推理数据集 SUTD-TrafficQA, TGIF-QA, MSVD-QA, 和 MSRVTT-QA 上进行了的大量实验，证明了我们的 CMCIR 在发现视觉-语言因果结构和实现鲁棒问答推理方面的优越性。

该工作的主要贡献是：

◆ 该工作首次在事件级问答推理任务中实现了跨模态因果结构发现。提出了一种因果驱动的事件级视觉问答框架 CMCIR，通过对视觉和语言模态的因果干预，来发现真实的因果结构，并实现鲁棒的的事件级问答推理。

◆ 提出了一个由语言语义关系引导的语言后门因果干预模块，以减弱语言偏误并挖掘语言模态内部的因果关系。为了减弱视觉的虚假相关性，我们提出了一个局部-全局因果注意力模块（LGCAM），通过前门因果干预来聚合局部和全局的视觉表示。

◆ 构建了一个时空 Transformer 模块（STT），用于建模视觉和语言知识之间的多模态交互关系，挖掘语义、空间和时间表征之间的细粒度交互关系。

▲ 图3：所提出的视觉-语言因果干预的因果结构图。绿色路径表示无偏的视觉问答，即真实的因果效应。红色路径显示由混淆因子引起的有偏视觉问答，也被称为后门路径。图的底部部分通过视觉-语言因果干预对一个真实的VideoQA样本进行直观解释。

因果感知的视觉-语言推理（CVLR）

对于事件级视觉问答，我们采用 Pearl 的结构因果图（SCM）来建模视频-语言对和答案之间的因果关系，如图 3 所示。节点表示变量，边表示因果关联。我们希望能够训练一个视频问答模型来学习真正的因果关系：模型应该基于视频特征和问题特征来推理得到答案，而不是利用由混淆因子和带来的浅层关联（例如，过分利用视觉和语言概念的共生关系）。在 SCM 模型中，一个未干预的预测模型可以用贝叶斯公式表示：

然而，上述目标不仅能学到主要的因果关系，还会学习到来自未被阻断的后门路径带来的浅层关联。我们将对的干预表示为，该操作断开了的连接从而阻断了后门路径。通过这种方式，模型可以学习到真正的因果关系。

事实上，计算有两种方式，分别是后门干预和前门干预。后门干预在混淆因子可以观测时有效。然而，在事件级视觉问答任务上，视觉和语言模态的混淆因子并不总是可观测的。因此，本论文基于视觉-语言模态的特点，同时采用后门因果干预和前门因果干预方法来挖掘视觉-语言跨模态因果结构。

（1）语言后门因果干预

为了减少混淆因子带来的数据偏误并挖掘语言模态背后的因果结构，我们设计了一种基于语言层次化关系结构的后门调整策略来近似混淆因子分布。隐含的混淆因子集合可以由层次化问题组合近似得到。如图 3（b）所示，如果将后门路径阻断，可以使得有公平的机会将因果相关的因素考虑进来。基于后门干预的分布可以表示为：

为了计算上述公式，我们将混淆因子集合 Z1 近似为 verb 为中心的关联字典集合

先验概率可以基于数据库统计计算得到：

（2）视觉前门因果干预

后门干预需要我们提前知道混淆因子。然而，在视觉模态，数据偏误往往十分复杂，导致我们很难知道并区分不同的混淆因子。现有的方法通常将混淆因子定义为视觉特征的平均，事实上，由于复杂异质时空数据本身的特点，平均特征不能正确地表示特定的混淆因子。当我们不能显式地表示混淆因子时，前门干预提供了一种可行的方式来计算 P(A|V, do(Q))。

如图 3（c）所示，为了实现前门干预，我们需要在 X 和 A 之间添加一个额外的中间特征 M，从而构建前门路径 V→X→M→A 来传输知识。对于视觉-语言问答任务，一个基于注意力的模型 P (A|V, Q) = Σm P (M = m | V, Q) P (A | M = m) 能够基于问题 Q 从视频 V 中选取一些区域来预测答案 A ，其中 m 表示从 M 选取的知识。然后，答案预测器可以由两部分组成：一个特征提取器 V→X→M 和一个答案预测器 M→A 。因此，干预概率可以表示为：

为了在深度学习框架实现视觉前门干预，我们将 P ( V = v , M = m ) 参数化为网络 g ( · ) ：

可以看出，M 和 V 都可以被采样然后输入到网络来实现 P(A | do(V) , Q ) 。然后，将所有样本都输入到前向网络代价是高昂的，为此，我们采用 Normalized Weighted Geometric Mean (NWGM) 方法来近似公式：

其中 M (hat) , V (hat) 表示 M 和 V 的估计， h ( · ) 和 f ( · ) 表示网络映射函数。

▲ 图4. 局部-全局（Local-Global）因果注意力（Causal Attention）模块

事实上，M (hat) 和 V (hat) 都可以用注意力网络来计算。M (hat) = Σm P (M = m | f(V)) m 可以通过计算 local-local 视觉特征 F_LL 得到，V (hat) = Σv P (V = v | h(V)) v 可以通过计算 local-global 特征 F_LG 得到。因此，我们提出一个全新的局部-全局因果注意力模块（Local-Global Causal Attention Module, LGCAM）来联合估计 M (hat) 和 V (hat)，从而提升视觉特征的因果表征能力。

这里，我们以 F_LG 的计算为例说明 LGCAM，如图 4 上半部分所示。具体的，我们首先计算 F_L = f (V) 和 F_G = h (V)，然后作为 LGCAM 的输入，其中 f ( · ) 表示视觉特征提取器，h ( · ) 表示基于 K-means 的视觉特征选择器。因此，F_LG 的计算如下：

类似的，当设置 Q = K = V = F_L，F_LL 可以用同样的方式计算得到。最终，我们将 F_LL 和 F_LG 串联得到最终的 P(A | do(V) , Q ) 估计结果。

时空Transformer

为了挖掘语言和时空表征之间的细粒度关联，我们构建了一种时空 Transformer 模块，该模块包含四个子模块，分别是问题-外观（Question-Appearance, QA），问题-运动（Question-Motion, QM），外观-语义（Appearance-Semantics, AS），和运动-语义（Motion-Semantics，MS）模块，如图 5（a）所示。

QA 和 QM 模块各自包含 R-层多模态（Multi-modal）Transformer Block (MTB)，如图 5（b）所示，MTB 的目的是建立问题和外观（运动）特征之间的多模态交互关系。类似的，AS 和 MS 模块同样采用 MTB 来基于问题语义推理出外观和运动信息。具体信息请参阅原论文。

▲ 图5. 时空Transformer模块示意图（图（a）），和多模态Transformer模块（图（b））

结合视觉表征学习模块、多模态语言和视觉时空结构多层次关系建模模块、视觉-语言跨模态因果结构发现模块、时空 Transformer 和视觉语言特征融合模块，我们构建了一个统一的鲁棒可信赖的细粒度事件级视觉问答框架 CMCIR，该框架能够对时空视觉关联、语言语义关联和视觉-语言因果关系进行细粒度的理解，并高效融合跨模态视觉语言语义关联和因果关联关系，实现鲁棒可信赖的细粒度事件级视觉问答，如图 6 所示。

▲ 图6. 基于跨模态因果关系推理的事件级视觉问答框架

总结

该工作首次在事件级问答推理任务中探索了跨模态因果关系发现的可能性，在结构因果图（Structural Causal Model, SCM）的视角下，创新性地引入了视觉因果前门干预和语言后门因果干预模型，以增强事件级问答推理模型的鲁棒性和可信性。该研究的重要意义在于为未来探索如何利用因果范式提升多模态大模型的鲁棒性、可解释性和可信性提供了思路和启发。

中山大学 HCP 团队长期致力于鲁棒、可信、可解释人工智能的研究，基于多模态大模型的认知推理任务，以一种因果驱动的方式来实现鲁棒可信的高阶语义推理，在人机对话、视觉导航、图像/视频生成、图像/视频标注、医学影像报告生成等任务上开展了持续而深入的研究工作，并建立了因果驱动的视觉-语言推理开源框架Causal-VLReasoning：

https://github.com/HCPLab-SYSU/Causal-VLReasoning

中山大学 HCP 团队在多模态人工智能领域有深厚的研究基础，以融合领域知识和语义信息的深度表达学习为主线，从感知单模态大模型到认知多模态大模型，逐步构建认知启发和因果推理引导的视觉计算与推理理论及方法体系。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
AI音乐模拟器：AIGC时代的智能音乐创作革命 lauo 人工智能 AIGC 开源前端机器人
AI音乐模拟器：AIGC时代的智能音乐创作革命引言：AIGC浪潮下的音乐创作新范式在数字化转型的浪潮中，人工智能生成内容（AIGC）正在重塑各个创意领域。音乐产业作为创意经济的重要组成部分，正经历着前所未有的变革。据最新市场研究数据显示，全球AI音乐市场规模预计将从2023年的5.8亿美元增长到2030年的26.8亿美元，年复合增长率高达24.3%。这一快速增长的市场背后，是AI音乐技术正在打破传
视频分析：让AI看懂动态画面随机森林404 计算机视觉音视频人工智能 microsoft
引言：动态视觉理解的革命在数字信息爆炸的时代，视频已成为最主要的媒介形式。据统计，每分钟有超过500小时的视频内容被上传到YouTube平台，而全球互联网流量的82%来自视频数据传输。面对如此海量的视频内容，传统的人工处理方式已无法满足需求，这正是人工智能视频分析技术大显身手的舞台。视频分析技术赋予机器"看懂"动态画面的能力，使其能够自动理解、解释甚至预测视频中的内容，这一突破正在彻底改变我们与视
法律科技领域人工智能代理构建的十个经验教训，一位人工智能工程师通过构建、部署和维护智能代理的经验教训来优化法律工作流程的历程。知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 ai
目录介绍什么是代理人？为什么它对法律如此重要？法律技术中代理用例示例-合同审查代理-法律研究代理在LegalTech中使用代理的十个教训-教训1：即使代理很酷，它们也不能解决所有问题-教训2：选择最适合您用例的框架-教训3：能够快速迭代不同的模型-教训4：从简单开始，必要时扩展-教训5：使用跟踪解决方案；您将需要它-教训6：确保跟踪成本，代理循环可能很昂贵-教训7：将控制权交给最终用户（人在环路中
Llama-Omni会说话的人工智能“语音到语音LLM” 利用低延迟、高质量语音转语音 AI 彻底改变对话方式（教程含源码）知识大胖 NVIDIA GPU和大语言模型开发教程 llama 人工智能 nvidia llm
介绍“单靠技术是不够的——技术与文科、人文学科的结合，才能产生让我们心花怒放的成果。”——史蒂夫·乔布斯近年来，人机交互领域发生了重大变化，尤其是随着ChatGPT、GPT-4等大型语言模型(LLM)的出现。虽然这些模型主要基于文本，但人们对语音交互的兴趣日益浓厚，以使人机对话更加无缝和自然。然而，实现语音交互而不受语音转文本处理中常见的延迟和错误的影响仍然是一个挑战。关键字：Llama-Omni
什么是热力学计算？它如何帮助人工智能发展？知识大胖 NVIDIA GPU和大语言模型开发教程人工智能量子计算
现代计算的基础是晶体管，这是一种微型电子开关，可以用它构建逻辑门，从而创建CPU或GPU等复杂的数字电路。随着技术的进步，晶体管变得越来越小。根据摩尔定律，集成电路中晶体管的数量大约每两年增加一倍。这种指数级增长使得计算技术呈指数级发展。然而，晶体管尺寸的缩小是有限度的。我们很快就会达到晶体管无法工作的阈值。此外，人工智能的进步使得对计算能力的需求比以往任何时候都更加迫切。根本问题是自然是随机的（
上海交大：工具增强推理agent
标题：SciMaster:TowardsGeneral-PurposeScientificAIAgentsPartI.X-MasterasFoundation-CanWeLeadonHumanity’sLastExam?来源：arXiv,2507.05241摘要人工智能代理的快速发展激发了利用它们加速科学发现的长期雄心。实现这一目标需要深入了解人类知识的前沿。因此，人类的最后一次考试（HLE）为评
微算法科技的前沿探索：量子机器学习算法在视觉任务中的革新应用 MicroTech2025 量子计算算法
在信息技术飞速发展的今天，计算机视觉作为人工智能领域的重要分支，正逐步渗透到我们生活的方方面面。从自动驾驶到人脸识别，从医疗影像分析到安防监控，计算机视觉技术展现了巨大的应用潜力。然而，随着视觉任务复杂度的不断提升，传统机器学习算法在处理大规模、高维度数据时遇到了计算瓶颈。在此背景下，量子计算作为一种颠覆性的计算模式，以其独特的并行处理能力和指数级增长的计算空间，为解决这一难题提供了新的思路。微算
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
AI人工智能浪潮中文心一言的独特优势
AI人工智能浪潮中文心一言的独特优势：为什么它是中国市场的“AI主力军”？关键词：文心一言,AI大模型,中文处理,多模态融合,产业落地,安全可控,百度ERNIE摘要：在全球AI大模型浪潮中，百度文心一言（ERNIEBot）凭借“懂中文、会多模态、能落地、守规矩”的四大核心优势，成为中国市场最具竞争力的AI产品之一。本文将用“超级大脑”的比喻，从中文理解、多模态能力、产业生态融合、安全可控性四个维度
正义的算法迷宫—人工智能重构司法体系的技术悖论与文明试炼
一、法庭的数字化迁徙当美国威斯康星州法院采纳COMPAS算法评估被告再犯风险，当中国"智慧法院"系统年处理1.2亿件案件，司法体系正经历从石柱法典到代码裁判的范式革命。这场转型的核心驱动力是司法效率与公正的永恒张力：美国重罪案件平均审理周期达18个月，中国基层法官年人均结案357件（是德国同行的6倍），而算法能在0.3秒内完成百万份文书比对。人工智能渗透司法引发三重裂变：证据分析从经验推断转向数据
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
MCP协议：AI时代的“万能插座”如何重构IT生态与未来
MCP协议：AI时代的“万能插座”如何重构IT生态与未来在人工智能技术爆炸式发展的浪潮中，一个名为ModelContextProtocol（MCP）的技术协议正以惊人的速度重塑IT行业的底层逻辑。2024年11月由Anthropic首次发布，MCP在短短半年内获得OpenAI、谷歌、亚马逊、阿里、腾讯等全球科技巨头的支持，被业内誉为AI时代的HTTP协议或USB-C接口，正在成为连接大模型与现实世
《算法备案全攻略：规范与流程引领数字时代新秩序》算法及大模型备案顾问刘老师算法备案深度学习 AIGC 语言模型算法人工智能
一、算法备案：开启合规新征程（一）备案规定的起源与发展2022年国家互联网信息办公室、工业和信息化部、公安部、国家市场监督管理总局联合发布《互联网信息服务算法推荐管理规定》，自2022年3月1日起施行。此后，相关规定不断完善和演进。如国家网信办于2022年8月、10月及2023年1月先后三次公布了《境内互联网信息服务算法备案清单》。同时，2022年发布的最高人民法院《关于规范和加强人工智能司法应用
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python 实战人工智能数学基础：推荐系统应用 AI天才研究院 AI大模型企业级应用开发实战大数据人工智能语言模型 Java Python 架构设计
作者：禅与计算机程序设计艺术文章目录1.背景介绍2.核心概念与联系2.1用户画像2.2相似性计算2.2.1基于物品的相似度2.2.2基于用户的相似度2.3协同过滤算法2.3.1基于用户的协同过滤算法2.3.2基于物品的协同过滤算法2.3.3基于上下文的协同过滤算法3.核心算法原理和具体操作步骤以及数学模型公式详细讲解3.1基于用户的协同过滤算法3.2基于物品的协同过滤算法3.3混合协同过滤算法3.
Python桌面应用开发的未来——智能化工具与大模型赋能 IronwoodStag78
开发AI智能应用，就下载InsCodeAIIDE，一键接入DeepSeek-R1满血版大模型！标题：Python桌面应用开发的未来——智能化工具与大模型赋能随着人工智能技术的飞速发展，传统软件开发模式正在被重新定义。Python作为一门功能强大且灵活的语言，在桌面应用开发领域一直占据重要地位。然而，面对日益复杂的用户需求和快速变化的技术环境，如何提升开发效率、降低开发门槛，成为开发者亟需解决的问题
深度学习实战-使用TensorFlow与Keras构建智能模型程序员Gloria Python超入门 TensorFlow python
深度学习实战-使用TensorFlow与Keras构建智能模型深度学习已经成为现代人工智能的重要组成部分，而Python则是实现深度学习的主要编程语言之一。本文将探讨如何使用TensorFlow和Keras构建深度学习模型，包括必要的代码实例和详细的解析。1.深度学习简介深度学习是机器学习的一个分支，使用多层神经网络来学习和表示数据中的复杂模式。其广泛应用于图像识别、自然语言处理、推荐系统等领域。
AI产品经理需要了解的算法知识 AI劳模人工智能产品经理 AI产品经理 AI产品经理入门零基础入门产品经理算法语言模型
1、自然语言生成（NLG）自然语言生成（NaturalLanguageGeneration，简称NLG）是一种人工智能技术，它的目标是将计算机的数据、逻辑或算法产生的信息转换成人类可读的自然语言文本。换句话说，NLG能让机器“学会”写文章、报告、故事或者其他任何形式的文字，就像人类作家那样。这项技术使得机器能够理解复杂的数据并将其转化为易于理解的语言，以适应不同的受众和情境。应用实例：金融报告自动
【Python】OpenAI API 宅男很神经 python 开发语言
【Python与OpenAIAPI深度探索：从基础到未来】第一章：OpenAIAPI概览与核心概念1.1OpenAIAPI是什么？能做什么？OpenAIAPI(ApplicationProgrammingInterface，应用程序编程接口)是一套允许开发者通过编程方式访问和使用OpenAI开发的各种先进人工智能模型的服务。这些模型经过海量数据的训练，能够在多种任务上达到甚至超越人类水平。通过AP
Python：操作 Word 对齐方式 Thomas Kant Python python word c#
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】Python：操作Word对齐方式详解（左对齐/右对齐/居中/两端对齐）在日常办公自动化中，我们经常需要对Word文档中的段落设置对齐方式，如左对齐、右对齐、居中、两端对齐等。本文将带你使用python-docx库
TestCafe ➜ Playwright fixture 架构迁移指南 Thomas Kant 自动化测试 playwright testcafe typescript 测试架构
亲爱的技术爱好者们，热烈欢迎来到Kant2048的博客！我是ThomasKant，很开心能在CSDN上与你们相遇～本博客的精华专栏：【自动化测试】【测试经验】【人工智能】【Python】
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
【kafka】在Linux系统中部署配置Kafka的详细用法教程分享景天科技苑 linux基础与进阶 shell脚本编写实战 kafka linux 分布式 kafka安装配置 kafka优化
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，PyQt5和Tkinter桌面应用开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，云原生K8S，Prometheus监控，数据分析，Django
AI技术全景图鉴：从模型开发到落地部署的全链路拆解大模型玩家人工智能 langchain 大模型产品经理学习 ai 程序员
人工智能（AI）技术的快速发展，使得企业在AI模型的开发、训练、部署和运维过程中面临前所未有的复杂性。从数据管理、模型训练到应用落地，再到算力调度和智能运维，一个完整的AI架构需要涵盖多个层面，确保AI技术能够高效、稳定地运行。本文将基于AI技术架构全景图，深入剖析AI的开发工具、AI平台、算力与框架、智能运维四大核心部分，帮助大家系统性地理解AI全生命周期管理。一、AI开发工具：赋能高效开发，提
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命 LucianaiB 评测人工智能自动驾驶 devops
铸造软件交付的“自动驾驶”系统——AI大模型如何引爆DevOps革命嗨，我是LucianaiB！总有人间一两风，填我十万八千梦。路漫漫其修远兮，吾将上下而求索。摘要(Abstract)本文深入探讨了人工智能大模型（AILargeModels）如何驱动DevOps从“自动化”（Automation）向“自主化”（Autonomous）的革命性跃迁。文章指出，AI大模型正成为现代软件工厂的“中枢神经系
解读《生成式人工智能服务管理暂行办法》我的大模型服务需要备案还是登记？纵深企服人工智能 AIGC 安全
一、大模型备案和登记是什么？根据《暂行办法》及相关指引文件，大模型相关的合规路径主要分为“备案”和“登记”两种。准确理解二者的定义、适用情形及区别，是企业合规的第一步。1、大模型备案（生成式人工智能服务上线备案）定义：大模型备案，通常指的是生成式人工智能服务上线备案。根据《暂行办法》，“提供具有舆论属性或者社会动员能力的生成式人工智能服务的，应当按照国家有关规定开展安全评估，并按照《互联网信息服务
显卡GPU的架构和工作原理 InnoLink_1024 芯片人工智能 AGI 架构硬件架构人工智能
显卡GPU（图形处理单元）是专为并行计算和图形处理设计的芯片，广泛应用于游戏、科学计算、人工智能和数据中心等领域。以下详细介绍GPU的架构和工作原理，涵盖核心组件、计算流程和关键技术，尽量简洁清晰。一、GPU架构概述GPU架构与CPU不同，专注于高并行计算，适合处理大量简单、重复的任务。其核心设计目标是最大化吞吐量，而非单任务的低延迟。主流GPU厂商（如NVIDIA、AMD、Intel）架构虽有差
Github 2025-01-07Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10TypeScript项目1C++项目1OpenHands:人工智能驱动的软件开发代理平台创建周期：195天开发语言：Python协议类型：MITLicenseStar数量：31753个Fork数量：3660次关注人数：31753人
Python 生态发展之路仓颉编程语言技术文章 python
目录#Python是如何炼成的##生态系统持续扩张##Python开发的开源社区运作#更加广义的Python社区#广泛应用##Web开发、数据科学##不得不提的人工智能#支持Python成长的商业公司#Python成功之路小结##附：Python生态发展大事记#参考Python是现今最受欢迎的编程语言之一，2021年8月的TIOBE编程语言排行榜中，Python排名第二，仅次于C[1]。2017年
Spring4.1新特性——Spring MVC增强 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
mysql 性能查询优化 annan211 java sql 优化 mysql 应用服务器
1 时间到底花在哪了？ mysql在执行查询的时候需要执行一系列的子任务，这些子任务包含了整个查询周期最重要的阶段，这其中包含了大量为了检索数据列到存储引擎的调用以及调用后的数据处理，包括排序、分组等。在完成这些任务的时候，查询需要在不同的地方花费时间，包括网络、cpu计算、生成统计信息和执行计划、锁等待等。尤其是向底层存储引擎检索数据的调用操作。这些调用需要在内存操
windows系统配置 cherishLC windows
删除Hiberfil.sys ：使用命令powercfg -h off 关闭休眠功能即可： http://jingyan.baidu.com/article/f3ad7d0fc0992e09c2345b51.html 类似的还有pagefile.sys msconfig 配置启动项 shutdown 定时关机 ipconfig 查看网络配置 ipconfig /flushdns
人体的排毒时间 Array_06 工作
======================== || 人体的排毒时间是什么时候？|| ======================== 转载于： http://zhidao.baidu.com/link?url=ibaGlicVslAQhVdWWVevU4TMjhiKaNBWCpZ1NS6igCQ78EkNJZFsEjCjl3T5EdXU9SaPg04bh8MbY1bR
ZooKeeper cugfy zookeeper
Zookeeper是一个高性能，分布式的，开源分布式应用协调服务。它提供了简单原始的功能，分布式应用可以基于它实现更高级的服务，比如同步，配置管理，集群管理，名空间。它被设计为易于编程，使用文件系统目录树作为数据模型。服务端跑在java上，提供java和C的客户端API。 Zookeeper是Google的Chubby一个开源的实现，是高有效和可靠的协同工作系统，Zookeeper能够用来lea
网络爬虫的乱码处理随意而生爬虫网络
下边简单总结下关于网络爬虫的乱码处理。注意，这里不仅是中文乱码，还包括一些如日文、韩文、俄文、藏文之类的乱码处理，因为他们的解决方式是一致的，故在此统一说明。网络爬虫，有两种选择，一是选择nutch、hetriex，二是自写爬虫，两者在处理乱码时，原理是一致的，但前者处理乱码时，要看懂源码后进行修改才可以，所以要废劲一些；而后者更自由方便，可以在编码处理
Xcode常用快捷键张亚雄 xcode
一、总结的常用命令：隐藏xcode command+h 退出xcode command+q 关闭窗口 command+w 关闭所有窗口 command+option+w 关闭当前
mongoDB索引操作 adminjun mongodb 索引
一、索引基础： MongoDB的索引几乎与传统的关系型数据库一模一样，这其中也包括一些基本的优化技巧。下面是创建索引的命令： > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立： &nbs
成都软件园实习那些话 aijuans 成都软件园实习
无聊之中，翻了一下日志，发现上一篇经历是很久以前的事了，悔过~~ 　　断断续续离开了学校快一年了，习惯了那里一天天的幼稚、成长的环境，到这里有点与世隔绝的感觉。不过还好，那是刚到这里时的想法，现在感觉在这挺好，不管怎么样，最要感谢的还是老师能给这么好的一次催化成长的机会，在这里确实看到了好多好多能想到或想不到的东西。　　都说在外面和学校相比最明显的差距就是与人相处比较困难，因为在外面每个人都
Linux下FTP服务器安装及配置 ayaoxinchao linux FTP服务器 vsftp
检测是否安装了FTP [root@localhost ~]# rpm -q vsftpd 如果未安装：package vsftpd is not installed 安装了则显示：vsftpd-2.0.5-28.el5累死的版本信息安装FTP 运行yum install vsftpd命令，如[root@localhost ~]# yum install vsf
使用mongo-java-driver获取文档id和查找文档 BigBird2012 driver
注：本文所有代码都使用的mongo-java-driver实现。在MongoDB中，一个集合（collection）在概念上就类似我们SQL数据库中的表（Table），这个集合包含了一系列文档（document）。一个DBObject对象表示我们想添加到集合（collection）中的一个文档（document），MongoDB会自动为我们创建的每个文档添加一个id，这个id在
JSONObject以及json串 bijian1013 json JSONObject
一.JAR包简介要使程序可以运行必须引入JSON-lib包，JSON-lib包同时依赖于以下的JAR包： 1.commons-lang-2.0.jar 2.commons-beanutils-1.7.0.jar 3.commons-collections-3.1.jar &n
[Zookeeper学习笔记之三]Zookeeper实例创建和会话建立的异步特性 bit1129 zookeeper
为了说明问题，看个简单的代码， import org.apache.zookeeper.*; import java.io.IOException; import java.util.concurrent.CountDownLatch; import java.util.concurrent.ThreadLocal
【Scala十二】Scala核心六：Trait bit1129 scala
Traits are a fundamental unit of code reuse in Scala. A trait encapsulates method and field definitions, which can then be reused by mixing them into classes. Unlike class inheritance, in which each c
weblogic version 10.3破解 ronin47 weblogic
版本：WebLogic Server 10.3 说明：%DOMAIN_HOME%：指WebLogic Server 域(Domain）目录例如我的做测试的域的根目录 DOMAIN_HOME=D:/Weblogic/Middleware/user_projects/domains/base_domain 1.为了保证操作安全，备份%DOMAIN_HOME%/security/Defa
求第n个斐波那契数 BrokenDreams
今天看到群友发的一个问题：写一个小程序打印第n个斐波那契数。自己试了下，搞了好久。。。基础要加强了。 &nbs
读《研磨设计模式》-代码笔记-访问者模式-Visitor bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; interface IVisitor { //第二次分派，Visitor调用Element void visitConcret
MatConvNet的excise 3改为网络配置文件形式 cherishLC matlab
MatConvNet为vlFeat作者写的matlab下的卷积神经网络工具包，可以使用GPU。主页： http://www.vlfeat.org/matconvnet/ 教程： http://www.robots.ox.ac.uk/~vgg/practicals/cnn/index.html 注意：需要下载新版的MatConvNet替换掉教程中工具包中的matconvnet： http
ZK Timeout再讨论 chenchao051 zookeeper timeout hbase
http://crazyjvm.iteye.com/blog/1693757 文中提到相关超时问题，但是又出现了一个问题，我把min和max都设置成了180000，但是仍然出现了以下的异常信息： Client session timed out, have not heard from server in 154339ms for sessionid 0x13a3f7732340003
CASE WHEN 用法介绍 daizj sql group by case when
CASE WHEN 用法介绍 1. CASE WHEN 表达式有两种形式 --简单Case函数 CASE sex WHEN '1' THEN '男' WHEN '2' THEN '女' ELSE '其他' END --Case搜索函数 CASE WHEN sex = '1' THEN
PHP技巧汇总:提高PHP性能的53个技巧 dcj3sjt126com PHP
PHP技巧汇总:提高PHP性能的53个技巧　　用单引号代替双引号来包含字符串，这样做会更快一些。因为PHP会在双引号包围的字符串中搜寻变量，　　单引号则不会，注意：只有echo能这么做，它是一种可以把多个字符串当作参数的函数译注：　　PHP手册中说echo是语言结构，不是真正的函数，故把函数加上了双引号)。　　1、如果能将类的方法定义成static，就尽量定义成static，它的速度会提升将近4倍
Yii框架中CGridView的使用方法以及详细示例 dcj3sjt126com yii
CGridView显示一个数据项的列表中的一个表。表中的每一行代表一个数据项的数据,和一个列通常代表一个属性的物品(一些列可能对应于复杂的表达式的属性或静态文本)。　　CGridView既支持排序和分页的数据项。排序和分页可以在AJAX模式或正常的页面请求。使用CGridView的一个好处是,当用户浏览器禁用JavaScript,排序和分页自动退化普通页面请求和仍然正常运行。实例代码如下：
Maven项目打包成可执行Jar文件 dyy_gusi assembly
Maven项目打包成可执行Jar文件在使用Maven完成项目以后，如果是需要打包成可执行的Jar文件，我们通过eclipse的导出很麻烦，还得指定入口文件的位置，还得说明依赖的jar包，既然都使用Maven了，很重要的一个目的就是让这些繁琐的操作简单。我们可以通过插件完成这项工作，使用assembly插件。具体使用方式如下： 1、在项目中加入插件的依赖： <plugin>
php常见错误 geeksun PHP
1. kevent() reported that connect() failed (61: Connection refused) while connecting to upstream, client: 127.0.0.1, server: localhost, request: "GET / HTTP/1.1", upstream: "fastc
修改linux的用户名 hongtoushizi linux change password
Change Linux Username 更改Linux用户名，需要修改4个系统的文件： /etc/passwd /etc/shadow /etc/group /etc/gshadow 古老/传统的方法是使用vi去直接修改，但是这有安全隐患（具体可自己搜一下），所以后来改成使用这些命令去代替： vipw vipw -s vigr vigr -s 具体的操作顺
第五章常用Lua开发库1-redis、mysql、http客户端 jinnianshilongnian nginx lua
对于开发来说需要有好的生态开发库来辅助我们快速开发，而Lua中也有大多数我们需要的第三方开发库如Redis、Memcached、Mysql、Http客户端、JSON、模板引擎等。一些常见的Lua库可以在github上搜索，https://github.com/search?utf8=%E2%9C%93&q=lua+resty。 Redis客户端 lua-resty-r
zkClient 监控机制实现 liyonghui160com zkClient 监控机制实现
直接使用zk的api实现业务功能比较繁琐。因为要处理session loss，session expire等异常，在发生这些异常后进行重连。又因为ZK的watcher是一次性的，如果要基于wather实现发布/订阅模式，还要自己包装一下，将一次性订阅包装成持久订阅。另外如果要使用抽象级别更高的功能，比如分布式锁，leader选举
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句 pda158 mysql
在Mysql 众多表中查找一个表名或者字段名的 SQL 语句：　　方法一：SELECT table_name, column_name from information_schema.columns WHERE column_name LIKE 'Name'; 　　方法二：SELECT column_name from information_schema.colum
程序员对英语的依赖 Smile.zeng 英语程序猿
1、程序员最基本的技能，至少要能写得出代码，当我们还在为建立类的时候思考用什么单词发牢骚的时候，英语与别人的差距就直接表现出来咯。 2、程序员最起码能认识开发工具里的英语单词，不然怎么知道使用这些开发工具。 3、进阶一点，就是能读懂别人的代码，有利于我们学习人家的思路和技术。 4、写的程序至少能有一定的可读性，至少要人别人能懂吧... 以上一些问题，充分说明了英语对程序猿的重要性。骚年
Oracle学习笔记(8) 使用PLSQL编写触发器 vipbooks oracle sql 编程活动 Access
时间过得真快啊，转眼就到了Oracle学习笔记的最后个章节了，通过前面七章的学习大家应该对Oracle编程有了一定了了解了吧，这东东如果一段时间不用很快就会忘记了，所以我会把自己学习过的东西做好详细的笔记，用到的时候可以随时查找，马上上手！希望这些笔记能对大家有些帮助！这是第八章的学习笔记，学习完第七章的子程序和包之后

TPAMI 2023 | 跨模态因果干预实现鲁棒可信的事件级问答推理

你可能感兴趣的:(人工智能)