又菜又爱玩的学树人。

因果推理综述—基于论文《A Survey on Causal Inference》总结

文章大纲

- 前言
- 因果推理简介
- 解决因果推理问题的一大方法和两大模型
- 因果推理基础
- 因果推理的三大假设
- 因果推理的解决方法
- 可用数据集
- 因果推理源码
- 因果推理应用
- 总结
- 参考

前言

近期导师给我定了因果推理这个方向，看了一些资料和视频之后有了一点点思路转而开始阅读一些经典前沿的论文，此文是基于论文《A Survey on Causal Inference》，阅读此文需要有一定的因果推理基本知识，同时我将会基于此论文并略带个人的理解阐述，如有问题请各位大牛指出，获取论文点此。

因果推理简介

因果推理是一个跨多个领域的重要研究课题，数年来研究涉及到了统计学、计算机科学、教育学、公共政策以及经济学等领域。简单来说因果推理其字面意思就是推理两个研究对象之间的因果关系，但是在大部分情况下 $\textbf{因果}\not=\textbf{相关}$ ，举一个简单的例子来说：

一项研究表明经常吃早餐的女孩要比不那么经常吃早餐的女孩轻，于是得出结论吃早餐可以减肥。但实际上两件事是由相关性引起的而并非因果性，这是因为经常吃早餐的女生可能有一个更好的生活方式，她们会经常锻炼、睡眠规律且有一个健康的饮食习惯所以这些经常吃早餐的女孩才会更轻，在这个例子里生活方式是共同影响吃早餐和变轻这两个对象的共同因素，我们也称其为confounder（混杂因素）。所以在很多例子里表面上是一种行为引起了另外一种事件的发生，但由于很多混杂因素的影响导致你无法确定它们之间真正的因果关系，所以因果推理研究的正是在这些背景之下如何确定研究对象之间的因果关系。

解决因果推理问题的一大方法和两大模型

随机对照试验法
潜在结果模型
结构因果模型

随机对照试验法：随机对照试验的基本方法是，将研究对象随机分组，对不同组实施不同的干预，以对照效果的不同。具有能够最大程度地避免试验设计、实施中可能出现的各种偏倚，平衡混杂因素，提高统计学检验的有效性等诸多优点，被公认为是评价干预措施的金标准。例如在上面的例子中，我们选取一群生活方式都比较好的女生来做试验，要求一半的女生吃早餐，一半的女生不吃早餐，这样我们控制住了生活方式这一混杂因素，从而可以轻易得出结论。但是随机对照试验法是一个非常耗时费力的方法，同时也涉及到伦理问题，例如我们研究 孕妇吸烟是否对新生儿有影响，总不能要求不吸烟的孕妇强行吸烟吧，由于随机对照试验法的缺点我们渴望可以直接从观测数据（直接观测到的、非试验的、没有人为干预的自然数据）中得到因果关系，于是就有学者提出了潜在结果模型和结构因果模型来解决这一问题。
潜在结果模型：比较同一个研究对象(Unit)在接受干预(Treatment)和不接受干预(Control)时结果差异，认为这一结果差异就是接受干预相对于不接受干预的效果。对于同一研究对象而言，通常我们不能够既观察其干预的结果，又观察其不干预的结果。对于接受干预的研究对象而言，不接受干预时的状态是一种“反事实”状态；对于不接受干预的研究对象而言，接受干预时的状态也是一种“反事实”状态；所以该模型又被某些研究者称之为反事实框架(Counter factual Framework)。
结构因果模型：结构因果模型就是用有向无环图来描述因果关系，将变量作为节点。如果X是另一个变量Y的子节点，那么Y是X的直接原因；如果X是Y的后代那么Y是X的一个潜在原因。

由于此论文是基于潜在结果模型来阐述的，所以这里对于结构因果模型不做过多的介绍，后续等我精读完了相关论文再做补充。

因果推理与机器学习领域有着密切的关系。近年来，机器学习领域的发展促进了因果推理领域的发展。强大的机器学习采用决策树、集成方法、深度神经网络等方法对潜在风险进行估计结果更准确。除了对结果估计模型进行改进外，机器学习方法也为处理混杂因素提供了一个新的方面。受益于最近的深度表征学习方法，如生成对抗性神经网络，通过学习所有协变量的平衡表征，以便在学习表征的基础上治疗分配独立于混杂变量。在机器学习中，数据越多越好。
然而，在因果推理中，仅仅有更多的数据还不够。拥有更多数据只会有助于获得更多信息精确的估计，但它无法确保这些估计是正确和无偏的。机器学习方法在促进因果推理发展的同时，因果推理也有助于机器学习方法的发展。对预测精度的简单追求不足以满足现代机器学习研究的需要，也不足以保证正确性可解释性也是机器学习方法的目标。因果推理开始有助于改进机器学习，如推荐系统或强化学习。

因果推理基础

一般来说，因果推理的任务是估计如果应用了另一种干预，其结果的变化。在潜在结果模型的基础之上，定义了一些概念用于计算研究对象之间的因果效应。

Unit：在干预效果研究中，Unit是原子研究对象。数据集中的一个Unit是整个人口的样本，因此在本次调查中，术语“样本”和“Unit”可以互换使用。
Treatment（干预）：Treatment指的是对一个Unit施加的行为，如之前提到的吃早餐的女生是否更轻这个例子中，吃早餐和不吃早餐就可以认为是Treatment。
Potential outcome（潜在结果）：对于每个Unit Treatment对，在该Unit上应用该Treatment的结果就是Potential outcome。值为w的干预的潜在结果表示为 $Y (W = w)$ 。
Observed outcome（观察结果）：观察到的结果是实际应用的干预结果。我们使用 $Y^F$ 来表示观察结果，其中的F代表的就是factual的意思，潜在结果和观观察结果之间的关系就是 $Y^F=Y(W=w)$ ，这里w指的是施加的干预。
Counterfactual outcome（反事实结果）：反事实结果指的是该Unit接受其他干预后的结果。用 $Y^{CF}(W=w^{'})$ 来表示在干预为 $w^{'}$ 时的反事实结果。
Pre-treatment variables：Pre-treatment variables是不受干预影响的变量，也称背景变量。用 $X$ 来表示此变量。
Post-treatment variables：Post-treatment variables是受干预影响的变量，与上一点相反。
Treatment Effect（干预效果）： 在介绍了观察数据和关键术语后，可以使用上述定义对干预效果进行定量定义。干预效果可以在人群、干预组、子组和个体水平上进行测量。为了明确这些定义，我们在这里定义了二元干预下的治疗效果，并通过比较其潜在结果，将其扩展到多种干预。在人群水平上，平均干预效果（ATE），其定义如下：

在干预组下的平均干预效果（ATT）被定义为：

在子组水平上，干预效果称为条件平均干预效果（CATE），其定义如下：

在不同子组的干预效果不同的情况下，CATE是一种常见的干预效果测量，也称为异质干预效果。
在个体层面，干预效果称为干预治疗效果（ITE）， $unit_i$ 的ITE定义为：

对于因果推理而言我们的目标就是从观测数据中评估以上的干预效果

因果推理的三大假设

为了估计干预效果，因果推理文献中通常使用以下假设：

Stable Unit Treatment Value Assumption (SUTVA)：任何unit的潜在结果不会因分配给其他unit的干预而有所不同，对于每个单元，每个干预水平没有不同的形式或版本，从而导致不同的潜在结果。比如说干预A是吃A药，但是不会存在吃多少剂量的A药而导致不同的潜在结果，要么就把剂量也拆分为一种干预。
Ignorability：考虑到背景变量X，干预分配 $W$ 独立于潜在结果。即
无论你给其他unit分配的干预是什么，我的潜在结果不会变， $W ⊥ Y (W = 0), Y (W = 1) ∣ X$ 。
Positivity：对于任何 $X$ ,干预分配是不确定的：

直观来说就是任意的背景变量x的值在任意干预下必须要有结果能被观测到，不然计算出的干预效果就没有意义。举个例子：
假设有两种治疗方法：药物A和药物B。让我们假设60岁以上的患者总是被分配药物A，那么研究药物B对这些患者的疗效将是没有意义的。
根据这些假设，观察结果和潜在结果之间的关系可以改写为：

有了上面这些等式，我们可以重写出 Treatment Effect（干预效果） 中提到的各种公式：

正如前文所提到的，由于混杂因素的存在导致我们计算干预效果的时候会存在一些问题，混杂因素是一些特殊的pre-treatment变量，例如医学示例中的年龄。当直接使用观察到的干预/对照结果的平均值时，计算出的ATE不仅包括干预对结果的影响，还包括混杂因素对结果的影响，这会导致虚假效应。

从表中，我们可以观察到另一个有趣的现象，即辛普森悖论，与之前提到的例子相似。我们从整体数据上来看药物A比药物B的治疗效果要好，但是但从年轻人和老人的子组数据来看药物B比药物A的治疗效果要好，那么到底是药物A的治疗效果要好还是药物B的治疗效果要好呢？

其实这个悖论形成的原因是，年龄作为混杂因素它影响着药物的选择又影响着药物的治疗效果，老人比较倾向于选择B药，但是老人本身的身体状况就不好所以导致B药的整体治疗效果要偏低。

除了虚假关联以外，混杂因素还会导致选择偏差：被观察群体的分布并不代表我们总体的群体。

因果推理的解决方法

为了解决虚假效应问题，我们应该考虑混杂变量对结果的影响。沿着这个方向的一般方法首先估计对混杂因素变量的干预效果，然后根据其分布对混杂因素进行加权平均。

对于选择偏差问题，有两种通用的解决方法。第一种通用方法处理通过创建一个接近样本组的伪组来产生选择偏差。可能的方法包括样本重加权、匹配、基于树的方法、混淆平衡、平衡表示学习方法，基于多任务的方法。创建的伪组减轻了选择偏差和更好的反事实结果估计可以得到。另一种通用方法首先仅根据观察数据训练基本潜在结果估计模型，然后纠正估计由选择偏差引起的偏差。基于元学习的方法属于这一类。

Re-weighting(重加权算法)
Stratification(分层算法)
Matching(匹配算法)
Tree-based(基于树的方法)
Representation Learning(表示学习)
Multitask Learning(多任务学习)
Meta-learning(元学习)

具体内容太多，大家可以下载论文了解算法的具体实现，本文章只做一个入门供大家参考。

可用数据集

IHDP
Jobs
Twins
ACIC datasets
IBM causal inference benchmark
BlogCatalog
Flickr
News
MVICU
TCGA
Saccharomyces cerevisiae (yeast) cell cycle gene expression dataset.
…

因果推理源码

因果推理应用

广告：正确衡量广告活动的效果是品牌方成功营销的关键，如新广告是否增加点击量，或新广告是否增加销售额等。
推荐系统：在推荐系统中给用户推送商品的过程，相当于给原子研究对象施加干预，通过用户的点击、消费等行为评估干预(推荐)的效果。
药物治疗：反事实估计，当可以估计不同的可用药物的疗效时，医生可以据此开出更好的处方。
教育：反事实估计通过比较不同教学方法对学生群体的影响，可以确定一种更好的教学方法。

总结

因果推理可以有效地挖掘研究对象之间的因果关系，去除混杂因素对统计数据的影响极其重要。在机器学习领域有一个强假设即认为训练集和测试集是独立同分布的，然后实际情况下数据之间（特征之间）可能会出现虚假关联、选择偏差等由混杂因素引起的问题。如果将因果推理引入到机器学习之中势必会大大地提高模型的性能以及其泛化能力同时也提供了一定的可解释性，在这一块清华大学崔教授团队提出了Stable Learning的概念，并在Nature子刊发文，可供大家学习参考：
Stable learning establishes some common ground between causal inference and machine learning

参考

[1] 因果推理中的潜在结果模型，起源、逻辑与意蕴
[2] 因果推理综述—《A Survey on Causal Inference》一文的总结和梳理

AI笔记——语音识别 Yuki-^_^ 人工智能 AI 人工智能笔记语音识别
摘要：语音识别（AutomaticSpeechRecognition,ASR）是人工智能领域的一项重要技术，它将人类的语音信号转换成文字。随着科技的发展，语音识别已经成为现代生活和工作中不可或缺的一部分。本文旨在介绍语音识别的基本原理、关键技术、应用场景以及未来发展趋势。一、历史与发展语音识别技术的历史可以追溯到20世纪50年代，那时的技术基于规则和模板。随着计算能力的提升和深度学习方法的出现，语
python-提示词对大模型推理有多重要？给自己做加法 python python 语言模型
文章目录前言测试一个失败的提示词提示词内容knowledge内容提问的内容得到的回答说点啥能引导的提示词提示词内容knowledge内容提问的内容得到的回答说点啥结束语前言神级提示词一度成为AI圈的热搜，那么提示词对大模型推理到底有多重要？测试一个失败的提示词提示词内容基础知识：{knowledge}；问题：{question}；根据已知知识和基础知识回答问题knowledge内容{"商品名称":
Manus（一种AI代理或自动化工具）与DeepSeek（一种强大的语言模型或AI能力）结合使用任务自动化和智能决策 zzlyx99 人工智能自动化语言模型
一、Manus与DeepSeek差异十分好奇DeepSeek和Manus究竟谁更厉害些，DeepSeek是知识型大脑，Manus则是全能型执行者。即DeepSeek专注于语言处理、知识整合与专业文本生成。其核心优势在于海量参数支持的深度学习和知识推理能力，例如撰写论文、润色法律合同、解答专业问题等。Manus则更强调从规划到交付的闭环能力。它通过工具链调用（如浏览器、代码编辑器）自主执行复杂任务，
使用yolov8+flask实现精美登录界面+图片视频摄像头检测系统 FL1623863129 深度学习 YOLO flask python
这个是使用flask实现好看登录界面和友好的检测界面实现yolov8推理和展示，代码仅仅有2个html文件和一个python文件，真正做到了用最简洁的代码实现复杂功能。测试通过环境：windowsx64anaconda3+python3.8ultralytics==8.3.81flask==1.1.2torch==2.3.0运行步骤：安装好环境执行pythonlogin.py后端实现代码：from
机器学习的下一个前沿是因果推理吗？——探索机器学习的未来方向！真智AI 人工智能机器学习
机器学习的进化：从预测到因果推理机器学习凭借强大的预测能力，已经彻底改变了多个行业。然而，要实现真正的突破，机器学习还需要克服实践和计算上的挑战，特别是在因果推理方面的应用。未来，因果推理或许将成为推动机器学习发展的新前沿。什么是因果推理，它如何与机器学习相关？如果你和我一样没有数学背景，你可能会好奇“因果推理”到底意味着什么？它与机器学习又有什么关系？当我刚开始学习机器学习时，第一次听到“因果推
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南 m0_57781768 python langchain 机器人
使用Python和LangChain创建可调用工具的智能对话机器人：全面指南在当今技术迅猛发展的时代，人工智能（AI）和自然语言处理（NLP）技术的应用范围越来越广。尤其是对话机器人，它们不仅能与人类进行自然交互，还能通过调用外部API与各种系统对接，为用户提供更加智能和灵活的服务。本文将通过一系列实例和代码演示，向您展示如何利用Python编程语言和LangChain框架，创建能够使用外部工具（
主流开源大模型能力对比矩阵时光旅人01号人工智能开源 python 深度学习 pytorch
模型名称核心优势主要局限Llama2/3✅多语言生态完善✅Rotary位置编码✅GQA推理加速⚠️数据时效性差⚠️隐私保护不足Qwen✅千亿参数规模✅中文语境优化✅复杂文本生成⚠️需高性能硬件⚠️领域知识需二次训练ChatGLM-3✅多轮对话支持✅中英双语流畅✅对话记忆优秀⚠️计算资源消耗大⚠️长文本易发散DeepSeek✅代码注释生成✅技术文档规范✅全流程方案生成⚠️逻辑错误较多⚠️数据更新延迟
智能编程新时代：DeepSeek加持下的开发工具革新 inscode_013
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能编程新时代：DeepSeek加持下的开发工具革新在当今快速发展的科技领域，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们迎来了前所未有的机遇和挑战。其中，集成DeepSeek模型的AI开发工具，正以其强大的功能和便捷的操作，引领着编程方式的革命性变革。本文将探讨这种创新工具的应用场景
智能编程新时代：DeepSeek加持下的开发利器 inscode_099
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE智能编程新时代：DeepSeek加持下的开发利器在当今快速发展的科技时代，编程工具的智能化已经成为不可阻挡的趋势。随着人工智能技术的不断进步，开发者们不再满足于传统的IDE（集成开发环境），而是渴望更加智能、高效的开发工具。在这种背景下，一款集成了DeepSeek-V3模型的AI开发工具应运而生，它不仅能够大幅提升开发效率
智能化编程新时代，DeepSeek加持下的开发革命 ObsidianRaven13
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化编程新时代，DeepSeek加持下的开发革命随着人工智能技术的飞速发展，编程领域正迎来一场前所未有的变革。从传统的手动编码到如今的智能辅助开发，这一过程不仅极大地提升了开发效率，还让编程变得更加简单和高效。在众多新兴工具中，基于DeepSeek模型的智能编程助手正在成为开发者的新宠。今天，我们将探讨这种工具如何
智能化开发新时代：DeepSeek加持下的编程革命 MoonbeamOwl67
最新接入DeepSeek-V3模型，点击下载最新版本InsCodeAIIDE标题：智能化开发新时代：DeepSeek加持下的编程革命在当今快速发展的科技时代，软件开发已经成为推动社会进步的重要动力。然而，对于许多开发者而言，编写高质量的代码仍然是一项充满挑战的任务。从复杂的算法设计到繁琐的调试过程，每一个环节都需要耗费大量的时间和精力。而随着人工智能技术的迅猛发展，一种全新的编程方式正在悄然改变这
深入解析LTE-A到5G的系统消息架构与功能演进罗博深
本文还有配套的精品资源，点击获取简介：系统消息是移动通信网络中，UE与网络间信息交换的核心，涵盖了网络状态、服务信息与系统配置。文章深入分析了4GLTE-A到5G网络中系统消息的组成、作用及其演进，包括MIB和SIBs的功能与内容，以及5G对系统消息的优化和新技术的引入，如动态调度、网络切片和针对物联网设备的特定参数配置。5G系统消息还通过机器学习和大数据分析实现智能化分发，增强了网络灵活性、智能
解决约束多目标优化问题的新方法：MOEA/D-DAE算法深度解析木子算法多目标优化人工智能算法多目标人工智能
解决约束多目标优化问题的新方法：MOEA/D-DAE算法深度解析在工程优化、机器学习等众多领域，约束多目标优化问题（CMOPs）广泛存在。传统方法在处理这类问题时，常因可行区域不连通或约束违反局部极小点陷入停滞。近期，IEEETransactionsonEvolutionaryComputation上的一篇论文提出了一种新颖的解决方案——MOEA/D-DAE算法，通过结合检测-逃逸策略（DAE）和
python 人工智能实战案例 2401_86114612 pygame python java
大家好，今天我们要分享，python编程人工智能小例子python人工智能100例子，一起探索吧！1.背景介绍概述在这个世纪，人类已经处于数字化的时代，而这也让很多其他行业都进入了数字化领域python列表有哪些基本操作,python列表功能很重要吗。其中包括游戏行业。游戏行业的蓬勃发展促使机器学习的产生，通过计算机能够进行高效率地模拟人类的学习、决策过程，不断升级提升人类的能力。游戏领域中的AI
Python 在人工智能领域的实际6大案例 Solomon_肖哥弹架构人工智能机器学习 python
Python作为一种功能强大且易于学习的编程语言，在人工智能（AI）领域得到了广泛的应用。从机器学习到深度学习，从自然语言处理到计算机视觉，Python提供了丰富的库和框架，使得开发者能够快速实现各种AI应用。本文将通过多个实际案例，展示Python在人工智能领域的强大功能和应用前景。二、案例一：手写数字识别（MNIST）1.背景介绍手写数字识别是机器学习领域的经典入门项目，MNIST数据集包含了
基于AI算法实现的情感倾向分析的方法程序员奇奇计算机毕设人工智能算法
完整代码：https://download.csdn.net/download/pythonyanyan/87430621背景目前，情感倾向分析的方法主要分为两类：一种是基于情感词典的方法；一种是基于机器学习的方法，如基于大规模语料库的机器学习。前者需要用到标注好的情感词典，英文的词典有很多，中文主要有知网整理的情感词典Hownet和台湾大学整理发布的NTUSD两个情感词典，还有哈工大信息检索研究
机器学习算法实战——天气数据分析（主页有源码）喵了个AI 机器学习实战机器学习算法数据分析
✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨✨个人主页欢迎您的访问✨期待您的三连✨1.引言天气数据分析是气象学和数据科学交叉领域的一个重要研究方向。随着大数据技术的发展，气象数据的采集、存储和分析能力得到了显著提升。机器学习算法在天气数据分析中的应用，不仅能够提高天气预报的准确性，还能为气候研究、灾害预警等提供有力支持。本文将介绍机器学习在天气数据分析中的应用，探讨
基于人工智能的智能视频内容分析系统小彭律师 python
基于人工智能的智能视频内容分析系统系统功能1.视频数据预处理降噪与滤波：去除视频画面中的噪点和干扰画质增强：调整亮度、对比度和色彩平衡关键帧提取：减少数据量，提取关键信息2.目标识别检测基于深度学习模型（YOLO、FasterR-CNN等）识别多种目标类型（人、车辆、物品等）适应不同光照、角度和遮挡情况输出目标位置、类别和置信度3.行为分析研判基于时序模型（LSTM、3D-CNN等）分析目标动作规
AGI的学习与适应能力 AGI大模型与大数据研究院计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
“AGI的学习与适应能力”1.背景介绍1.1人工通用智能(AGI)的定义人工通用智能(ArtificialGeneralIntelligence,AGI)是指能够像人类一样具有广泛的理解和学习能力、可以完成多种复杂任务的人工智能系统。与狭义人工智能(NarrowAI)专注于特定领域和特定任务不同,AGI旨在模拟人类整体认知能力,包括感知、推理、学习、计划、创造力和自我意识等。1.2AGI的重要性和
【Python机器学习】2.2. 聚类分析算法理论：K均值聚类(KMeans Analysis)、KNN(K近邻分类)、均值漂移聚类(MeanShift) SomeB1oody Python机器学习机器学习算法 python 聚类分类算法
喜欢的话别忘了点赞、收藏加关注哦（关注即可查看全文），对接下来的教程有兴趣的可以关注专栏。谢谢喵！(=･ω･=)2.2.1.K均值聚类(KMeansAnalysis)K均值算法是以空间中K个点为中心进行聚类，对最靠近他们的对象归类，是聚类算法中最为基础但也最为重要的算法。数学原理计算数据点与各簇中心点的距离：dist(xi,ujt){dist}(x_i,u_j^t)dist(xi,ujt)然后根据
Deepseek 使用攻略隔窗听雨眠人工智能
人工智能飞速发展的时代，新的技术和工具不断涌现，Deepseek便是其中备受瞩目的存在。它以强大的功能和出色的表现，吸引了众多用户的关注。今天，就让我们一起来深入了解一下Deepseek究竟是什么，以及如何使用它。一、什么是DeepseekDeepseek（深度求索）是一家位于杭州的人工智能公司，同时也是一系列大语言模型的统称。它由中国对冲基金高毅资产创立并提供支持，其模型均以开源形式发布。Dee
基于 KTransformers的DeepSeek-R1 本地部署方案，成本骤降32倍！爱科技Ai LLM 人工智能
随着DeepSeek-R1模型在全球范围内的流行，越来越多的用户开始在本地尝试部署该模型。然而，高昂的硬件需求和成本让许多公司望而却步。本文将深入探讨DeepSeek-R1部署中的挑战，并介绍一款创新框架KTransformers，它能够显著降低大规模模型部署的成本并提高推理效率，从而帮助更多中小企业有效部署此类高级AI模型。本地部署“成本骤降32倍”，助力R1真正落地「中小企业」中！1.Deep
算法手撕面经系列(1)--手撕多头注意力机制夜半罟霖算法 python 深度学习
多头注意力机制一个简单的多头注意力模块可以分解为以下几个步骤：先不分多头，对输入张量分别做变换，得到Q,K,VQ,K,VQ,K,V对得到的Q,K,VQ,K,VQ,K,V按头的个数进行split；用Q,KQ,KQ,K计算向量点积考虑是否要添因果mask利softmax计算注意力得分矩阵atten对注意力得分矩阵施加Dropout将atten矩阵和VVV矩阵相乘再过一道最终的输出变换代码给出一个d
【prompt实战】知乎问题解答专家姚瑞南 prompt实战应用案例 prompt
本文原创作者：姚瑞南AI-agent大模型运营专家，先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗；多年人工智能行业智能产品运营及大模型落地经验，拥有AI外呼方向国家专利与PMP项目管理证书。（转载需经授权）#Role:知乎问题解答分类专家##Profile:你是一个知乎问题解答分类专家，主要帮助用户解答各类领域专业问题，包括但不限于金融领域、职场问题、互联网领域、科技领域、人工智能领域
程序员必看！DeepSeek全栈开发指南：从代码生成到分布式训练的黑科技解析 AI创享派后端
一、DeepSeek技术新突破：程序员必须掌握的MoE架构实战2025年2月25日，DeepSeek开源了专为MoE模型设计的DeepEP通信库，这项技术革新直接影响了分布式训练和推理效率。该库支持FP8精度与NVLink/RDMA技术，吞吐量提升3倍以上，特别适合处理千亿级参数的分布式任务。对于后端工程师而言，DeepEP的以下特性值得关注：计算-通信重叠机制：通过回调函数实现GPU资源动态分配
DeepSeek：全栈开发者视角下的AI革命者大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 人工智能
DeepSeek：全栈开发者视角下的AI革命者写在前面随着人工智能（AI）技术的不断进步，AI已经成为各行各业创新的核心动力。从自动驾驶到智能制造，再到自然语言处理和图像识别，AI正在逐渐渗透并改变着我们的生活和工作方式。DeepSeek，作为AI领域的新兴技术，凭借其独特的技术架构和颠覆性的创新理念，成为了全栈开发者关注的焦点。本文将从全栈开发者的角度出发，详细解析DeepSeek的诞生、技术架
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
大语言模型原理与工程实践：大语言模型强化对齐 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
大语言模型原理与工程实践：大语言模型强化对齐作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着人工智能技术的迅猛发展，大语言模型（LargeLanguageModels，LLMs）如GPT-3、LaMDA等，在自然语言处理（NLP）领域取得了显著的突破。这些模型在问答、翻译、文本生成等方面展现出惊人的能力，但同时也引发了
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
java责任链模式 3213213333332132 java 责任链模式村民告县长
责任链模式，通常就是一个请求从最低级开始往上层层的请求，当在某一层满足条件时，请求将被处理，当请求到最高层仍未满足时，则请求不会被处理。就是一个请求在这个链条的责任范围内，会被相应的处理，如果超出链条的责任范围外，请求不会被相应的处理。下面代码模拟这样的效果：创建一个政府抽象类,方便所有的具体政府部门继承它。 package 责任链模式; /** *
linux、mysql、nginx、tomcat 性能参数优化 ronin47
一、linux 系统内核参数 /etc/sysctl.conf文件常用参数 net.core.netdev_max_backlog = 32768 #允许送到队列的数据包的最大数目 net.core.rmem_max = 8388608 #SOCKET读缓存区大小 net.core.wmem_max = 8388608 #SOCKET写缓存区大
php命令行界面 dcj3sjt126com PHP cli
常用选项 php -v php -i PHP安装的有关信息 php -h 访问帮助文件 php -m 列出编译到当前PHP安装的所有模块执行一段代码 php -r 'echo "hello, world!";' php -r 'echo "Hello, World!\n";' php -r '$ts = filemtime("
Filter&Session 171815164 session
Filter HttpServletRequest requ = (HttpServletRequest) req; HttpSession session = requ.getSession(); if (session.getAttribute("admin") == null) { PrintWriter out = res.ge
连接池与Spring,Hibernate结合 g21121 Hibernate
前几篇关于Java连接池的介绍都是基于Java应用的，而我们常用的场景是与Spring和ORM框架结合，下面就利用实例学习一下这方面的配置。 1.下载相关内容： &nb
[简单]mybatis判断数字类型 53873039oycg mybatis
昨天同事反馈mybatis保存不了int类型的属性,一直报错，错误信息如下: Caused by: java.lang.NumberFormatException: For input string: "null" at sun.mis
项目启动时或者启动后ava.lang.OutOfMemoryError: PermGen space 程序员是怎么炼成的 eclipse jvm tomcat catalina.sh eclipse.ini
在启动比较大的项目时，因为存在大量的jsp页面，所以在编译的时候会生成很多的.class文件，.class文件是都会被加载到jvm的方法区中，如果要加载的class文件很多，就会出现方法区溢出异常 java.lang.OutOfMemoryError: PermGen space. 解决办法是点击eclipse里的tomcat，在
我的crm小结 aijuans crm
各种原因吧，crm今天才完了。主要是接触了几个新技术： Struts2、poi、ibatis这几个都是以前的项目中用过的。 Jsf、tapestry是这次新接触的，都是界面层的框架，用起来也不难。思路和struts不太一样，传说比较简单方便。不过个人感觉还是struts用着顺手啊，当然springmvc也很顺手，不知道是因为习惯还是什么。jsf和tapestry应用的时候需要知道他们的标签、主
spring里配置使用hibernate的二级缓存几步 antonyup_2006 java spring Hibernate xml cache
．在spring的配置文件中 applicationContent.xml，hibernate部分加入 xml 代码 <prop key="hibernate.cache.provider_class">org.hibernate.cache.EhCacheProvider</prop> <prop key="hi
JAVA基础面试题百合不是茶抽象实现接口 String类接口继承抽象类继承实体类自定义异常
/* * 栈（stack）：主要保存基本类型（或者叫内置类型）（char、byte、short、 *int、long、 float、double、boolean）和对象的引用，数据可以共享，速度仅次于 * 寄存器（register），快于堆。堆（heap）：用于存储对象。 */ &
让sqlmap文件 "继承" 起来 bijian1013 java ibatis sqlmap
多个项目中使用ibatis , 和数据库表对应的 sqlmap文件（增删改查等基本语句)，dao, pojo 都是由工具自动生成的, 现在将这些自动生成的文件放在一个单独的工程中，其它项目工程中通过jar包来引用，并通过"继承"为基础的sqlmap文件，dao,pojo 添加新的方法来满足项
精通Oracle10编程SQL(13)开发触发器 bijian1013 oracle 数据库 plsql
/* *开发触发器 */ --得到日期是周几 select to_char(sysdate+4,'DY','nls_date_language=AMERICAN') from dual; select to_char(sysdate,'DY','nls_date_language=AMERICAN') from dual; --建立BEFORE语句触发器 CREATE O
【EhCache三】EhCache查询 bit1129 ehcache
本文介绍EhCache查询缓存中数据，EhCache提供了类似Hibernate的查询API，可以按照给定的条件进行查询。要对EhCache进行查询，需要在ehcache.xml中设定要查询的属性数据准备 @Before public void setUp() { //加载EhCache配置文件 Inpu
CXF框架入门实例白糖_ spring Web 框架 webservice servlet
CXF是apache旗下的开源框架，由Celtix + XFire这两门经典的框架合成，是一套非常流行的web service框架。它提供了JAX-WS的全面支持，并且可以根据实际项目的需要，采用代码优先（Code First）或者 WSDL 优先（WSDL First）来轻松地实现 Web Services 的发布和使用，同时它能与spring进行完美结合。在apache cxf官网提供
angular.equals boyitech AngularJS AngularJS API AnguarJS 中文API angular.equals
angular.equals 描述: 比较两个值或者两个对象是不是相等。还支持值的类型，正则表达式和数组的比较。两个值或对象被认为是相等的前提条件是以下的情况至少能满足一项：两个值或者对象能通过=== （恒等）的比较两个值或者对象是同样类型，并且他们的属性都能通过angular
java-腾讯暑期实习生-输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A[0]*A[1]*...*A[i-1]*A[i+1] bylijinnan java
这道题的具体思路请参看何海涛的微博：http://weibo.com/zhedahht import java.math.BigInteger; import java.util.Arrays; public class CreateBFromATencent { /** * 题目：输入一个数组A[1,2,...n]，求输入B，使得数组B中的第i个数字B[i]=A
FastDFS 的安装和配置修订版 Chen.H linux fastDFS 分布式文件系统
FastDFS Home:http://code.google.com/p/fastdfs/ 1. 安装 http://code.google.com/p/fastdfs/wiki/Setup http://hi.baidu.com/leolance/blog/item/3c273327978ae55f93580703.html 安装libevent (对libevent的版本要求为1.4.
[强人工智能]拓扑扫描与自适应构造器 comsci 人工智能
当我们面对一个有限拓扑网络的时候,在对已知的拓扑结构进行分析之后,发现在连通点之后,还存在若干个子网络,且这些网络的结构是未知的,数据库中并未存在这些网络的拓扑结构数据....这个时候,我们该怎么办呢? 那么,现在我们必须设计新的模块和代码包来处理上面的问题
oracle merge into的用法 daizj oracle sql merget into
Oracle中merge into的使用 http://blog.csdn.net/yuzhic/article/details/1896878 http://blog.csdn.net/macle2010/article/details/5980965 该命令使用一条语句从一个或者多个数据源中完成对表的更新和插入数据. ORACLE 9i 中，使用此命令必须同时指定UPDATE 和INSE
不适合使用Hadoop的场景 datamachine hadoop
转自：http://dev.yesky.com/296/35381296.shtml。　　Hadoop通常被认定是能够帮助你解决所有问题的唯一方案。当人们提到“大数据”或是“数据分析”等相关问题的时候，会听到脱口而出的回答：Hadoop! 实际上Hadoop被设计和建造出来，是用来解决一系列特定问题的。对某些问题来说，Hadoop至多算是一个不好的选择，对另一些问题来说，选择Ha
YII findAll的用法 dcj3sjt126com yii
看文档比较糊涂，其实挺简单的： $predictions=Prediction::model()->findAll("uid=:uid",array(":uid"=>10)); 第一个参数是选择条件：”uid=10″。其中:uid是一个占位符，在后面的array(“:uid”=>10)对齐进行了赋值；更完善的查询需要
vim 常用 NERDTree 快捷键 dcj3sjt126com vim
下面给大家整理了一些vim NERDTree的常用快捷键了，这里几乎包括了所有的快捷键了，希望文章对各位会带来帮助。切换工作台和目录 ctrl + w + h 光标 focus 左侧树形目录ctrl + w + l 光标 focus 右侧文件显示窗口ctrl + w + w 光标自动在左右侧窗口切换ctrl + w + r 移动当前窗口的布局位置 o 在已有窗口中打开文件、目录或书签，并跳
Java把目录下的文件打印出来蕃薯耀列出目录下的文件文件夹下面的文件目录下的文件
Java把目录下的文件打印出来 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 11:02:
linux远程桌面----VNCServer与rdesktop hanqunfeng Desktop
windows远程桌面到linux，需要在linux上安装vncserver，并开启vnc服务，同时需要在windows下使用vnc-viewer访问Linux。vncserver同时支持linux远程桌面到linux。 linux远程桌面到windows，需要在linux上安装rdesktop，同时开启windows的远程桌面访问。下面分别介绍，以windo
guava中的join和split功能 jackyrong java
guava库中，包含了很好的join和split的功能，例子如下： 1）将LIST转换为使用字符串连接的字符串 List<String> names = Lists.newArrayList("John", "Jane", "Adam", "Tom");
Web开发技术十年发展历程 lampcy android Web 浏览器 html5
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
架构师之mima-----------------mina的非NIO控制IOBuffer(说得比较好) nannan408 buffer
1.前言。如题。 2.代码。 IoService IoService是一个接口，有两种实现：IoAcceptor和IoConnector；其中IoAcceptor是针对Server端的实现，IoConnector是针对Client端的实现；IoService的职责包括： 1、监听器管理 2、IoHandler 3、IoSession
ORA-00054:resource busy and acquire with NOWAIT specified Everyday都不同 oracle session Lock
[Oracle] 今天对一个数据量很大的表进行操作时，出现如题所示的异常。此时表明数据库的事务处于“忙”的状态，而且被lock了，所以必须先关闭占用的session。 step1，查看被lock的session： select t2.username, t2.sid, t2.serial#, t2.logon_time from v$locked_obj
javascript学习笔记 tntxia JavaScript
javascript里面有6种基本类型的值:number、string、boolean、object、function和undefined。number：就是数字值，包括整数、小数、NaN、正负无穷。string:字符串类型、单双引号引起来的内容。boolean:true、false object:表示所有的javascript对象，不用多说function:我们熟悉的方法，也就是
Java enum的用法详解 xieke90 enum 枚举
Java中枚举实现的分析：示例： public static enum SEVERITY{ INFO,WARN,ERROR } enum很像特殊的class，实际上enum声明定义的类型就是一个类。而这些类都是类库中Enum类的子类 (java.l