zenRRan

论文清单：一文梳理因果推理在自然语言处理中的应用

每天给你送来NLP技术干货！

©作者 | 肖之仪

单位 | 北京邮电大学

研究方向 | 因果推理、对话系统

来自 | PaperWeekly

这篇文章是由笔者根据自然语言顶级会议收录有关于因果推断的文献整理而成，内容包括论文的基本信息以及阅读笔记。

他山之石

1. Papers about Causal Inference and Language

https://github.com/causaltext/causal-text-papers

2. Causality for NLP Reading List

https://github.com/zhijing-jin/Causality4NLP_Papers

3. Causal Reading Group

https://github.com/fulifeng/Causal_Reading_Group

4. awesome-causality-algorithms

https://github.com/rguo12/awesome-causality-algorithms

因果工具

1. DoWhy: An end-to-end library for causal inference

https://microsoft.github.io/dowhy/#dowhy-an-end-to-end-library-for-causal-inference

2. Causal ML: A Python Package for Uplift Modeling and Causal Inference with ML

https://github.com/uber/causalml

3. pgmpy: Python Library for learning (Structure and Parameter), inference (Probabilistic and Causal), and simulations in Bayesian Networks.

https://github.com/pgmpy/pgmpy

4. CausalNex: A Python library that helps data scientists to infer causation rather than observing correlation.

https://github.com/quantumblacklabs/causalnex

5. CausalImpact: An R package for causal inference in time series

https://github.com/google/CausalImpact

6. CausalDiscoveryToolbox: Package for causal inference in graphs and in the pairwise settings. Tools for graph structure recovery and dependencies are included.

https://github.com/FenTechSolutions/CausalDiscoveryToolbox

7. causal-learn: Causal Discovery for Python

https://github.com/cmu-phil/causal-learn

数据集

e-CARE: a New Dataset for Exploring Explainable Causal Reasoning

https://arxiv.org/abs/2205.05849

https://github.com/waste-wood/e-care

数据集概览：

数据集示例：

综述类文章

A Review of Dataset and Labeling Methods for Causality Extraction

https://aclanthology.org/2020.coling-main.133

文献贡献总结如下：

1. 总结了因果关系的关系的概念并介绍了现有因果关系挖掘的工作；

2. 针对现有因果关系实验数据的缺陷和不足，对公开可用的数据集进行了总结，并从多个方面进行了分析；

3. 对现有针对序列标记的因果研究方法（the causal research method of sequence labeling）进行了全面的总结和分析。

值得关注的是，作者在文中对因果关系的语义作了相应的定义与介绍，文献中将因果单元（causal units）定义为以下四类，例子中的〈 e1 〉表示原因，〈 e2〉表示结果：

Word：「〈 e1 〉 Suicide 〈 /e1 〉 is one of the leading causes of 〈 e2 〉 death 〈 /e2 〉 .」

Phrase：「〈 e1 〉 Financial stress 〈 /e1 〉 is one of the main causes of 〈 e2 〉 divorce 〈 /e2 〉.」

Clause：「〈 e1 〉 We play with a steady beat 〈 /e1 〉 so that 〈 e2 〉 dancers can follow it 〈 /e2 〉.」

Event：「〈 e1 〉 A car traveling from Guizhou to Guangdong collided head-on with a bus 〈 /e1 〉 results the 〈 e2 〉 ten people, six men and four women, including the driver, died at the scene 〈 /e2 〉 .」

同时作者也总结了在英文语境相下具有因果关系的连接词，如下表所示：

▲ Summary of common causal connectives in English

Causal Inference in Natural Language Processing: Estimation, Prediction, Interpretation and Beyond

https://arxiv.org/abs/2109.00725

该综述文献将自然语言处理与因果关系的结合点划分成两个不同的研究方向，分别是因果效应评估（estimating causal effects）和因果关系驱动的自然语言处理方法。

文献概述如下：

1. 不同类型的因果推理问题及其挑战；

2. 面向文本数据和 NLP 方法所独有的统计和因果挑战；

3. 应用因果关系改进自然语言处理方法和文本效果估计中存在的问题。

在NLP任务建模种融合因果关系

Uncovering Main Causalities for Long-tailed Information Extraction (EMNLP 2021)

场景：Information Extraction

问题：由数据集的选择偏移带来的长尾分布可能会对数据集产生不正确的关联关系

https://arxiv.org/abs/2109.05213

https://github.com/HeyyyyyyG/CFIE

信息抽取旨在从非结构化的文本中提取出结构化的信息。在实际场景下，数据集由选择偏移带来的长尾分布可能会使得模型习得一些可疑的关联关系。

本文献提出的 CFIE 拟解决上述问题，具体贡献如下：

1. 对多种信息抽取任务（RE，NER 和 ED ）构建统一的结构因果模型（structural causal model）并描述不同变量之间的因果关系；

2. 基于上述的结构因果模型，使用相应的语言结构生成反事实样本，以此在推理阶段更好的计算直接因果效应（direct causal effect）；

3. 文献进一步提出一种消除偏倚的方法以提供更具鲁棒性的预测。

▲ Training and inference stages of CFIE for ED

▲ Causal effect estimation

CFIE 的模型设计如上图所示，分成如下五个步骤：

1. 构造 SCM 并训练模型；

2. 预测每个 token 结果；

3. 沿着 1st hop 语法书给 token 加上 mask 以此生成反事实的样本；

4. 计算 Total Direct Effect；

5. 计算 Main Effect。

Counterfactual Generator: A Weakly-Supervised Method for Named Entity Recognition (EMNLP 2020)

场景：命名实体识别

问题：命名实体识别的数据标注是一项劳动密集性、耗时且昂贵的任务且「实体」的上下文本和实体之间有许多可疑的关联关系

https://aclanthology.org/2020.emnlp-main.590.pdf

https://github.com/xijiz/cfgen

论文主要贡献如下：

1. 基于因果关系的视角描述了 NER 模型推断机制的理论基础，研究了模型输入特征与输出标签之间存在的可疑的关联关系；

2. 在对实体进行干预的基础上，论文在有限的观测样本中提出了一种弱监督的命名实体识别方法，在多个 NER 数据集上证明了方法能有效的提升模型性能。

▲ Structural Causal Models (SCMs) that describes the mechanism of the NER model inference.

作者为 NER 模型的推理机制构建了相应的 SCM 并以 DAG 的形式可视化，其中结点 G 表示混杂因子——既影响了实体结点 E的同时也影响了上下文结点 C，结点 X 则代表了由结点 E 和 C 所生成的输入实例，结点 Y 是 NER 模型的评估指标，如 F1 值。

作者通过平均因果效应 ACE（Average Causal Effect）来评估干预后的 treatment effect，值得注意的是上图中的 (b) 与 (c) 分别表示对上下文和实体进行干预，作者设计了一个新的评估指标—— RI（Relative Importance）来评估上下文和实体的表示对于 NER 模型推理阶段的重要性，在后续的实验分析模块，作者得出的结论是实体的表示对 NER 模型的推理更重要。

▲ An example of the workﬂow of the Counterfactual Generator on the medical dataset.

论文中的模型的流程如上图所示，分成三个步骤：

1. 从已有的本地数据中抽出实体集合；

2. 从实体集合中选取与待干预样本实体相同类别的实体进行替换从而生成反事实样本；

3. 通过使用原始数据训练的辨别器（discriminator）分辨新生成的反事实样本是否合理，若合理则将该样本加入到已有数据集内。

Counterfactual Off-Policy Training for Neural Dialogue Generation (EMNLP 2020)

场景：开放域对话生成

问题：由于潜在可能的回应数量过于庞大，开放域对话生成往往处于数据集不足的问题。

https://arxiv.org/abs/2004.14507

论文主要贡献如下：

1. 以「结构因果模型」对「对话生成模型」建模，从而在「对话生成模型」中融合「反事实推理」；

2. 论文中提出的模型所生成的反事实回应相较于其他标准的基于对抗学习从头开始生成的回应的质量要高得多；

3. 论文提出的方法与模型无关（model-agnostic），因此可以适配与任何基于对抗学习的对话生成模型。

▲ An example of generated responses given dialogue history between person A and B.

文中提出的「counterfactual off-policy training (COPT) approach」步骤如下：

1. 构造生成式对话模型的 SCM，将其描述为两个组成部分即——场景（scenarios）和因果机制（causal mechanisms）；

2. 给出观测回复数据中推断的场景，COPT 将场景（scenario）以及对话历史（dialogue history）根据 SCM 生成相应的反事实回复；

3. 判别器评估生成的语句，并将相应的 reward 返还给第二步的生成器。

▲ An example of an SCM and an intervention.

▲ The architecture of our COPT approach.

Identifying Spurious Correlations for Robust Text Classiﬁcation (EMNLP Findings 2020)

场景：文本分类

问题：文本分类器通常依赖于可疑的关联关系，通常这部分关系不会影响模型最终的准确性，因为关联关系同时出现在训练集和测试集中。但在测试集和训练集分布不同（dataset shift）和训练测试集只在小部分样本（algorithmic fairness）的情况下会影响模型准确性。

https://aclanthology.org/2020.findings-emnlp.308

https://github.com/tapilab/emnlp-2020-spurious

作者对一个电影评论数据集 [7] 使用词袋模型逻辑回归分类器，通过观测每个单词的系数可以评估该单词对文本模型的重要程度。

▲ Motivating example of spurious and genuine correlations in a sentiment classiﬁcation task.

在上图中，作者展示了八个与模型高度匹配的词汇，其中类别 1 代表正向情感，类别 2 则表示负向情感。

不难发现，在正向情感方面，「spielberg」与「animated」看上去较为可疑，作者认为「spielberg」是一名非常成功的电影导演，在数据集中提及到他的电影评论往往是正向的，因此模型认为「spielberg」与正向情感强相关，但作者认为「spielberg」这个单词本身不应当是电影评论被判定为正向情感的原因，举个很简单的例子，倘若有一天导演拍摄了一部新片但口碑却不尽如人意，含有这类可疑的关联关系的模型则会误判评论。

因此，本文提出了一个监督文本分类方法旨在认出文本分类中的伪相关性和真相关性，文章提出的方法如下：

1. 用原始数据集训练分类器 f；

2. 从分类器 f 中提取出与每个类别强相关的若干个词汇；

3. 对前序步骤提取出来的每个词汇计算其真实或可疑的可能值；

4. 对第二步产生词汇的子集进行人工标注，并训练成词汇分类器 h；

5. 应用 h 标注剩余的单词去评估他们是否可疑。

对语言模型进行因果分析

Causal Analysis of Syntactic Agreement Mechanisms in Neural Language Models (ACL 2021)

场景：Syntactic Agreement Mechanisms

https://arxiv.org/abs/2106.06087

https://github.com/mattf1n/lm-intervention

作者想应用因果中介分析（causal mediation analysis）来观察预训练语言模型在「主谓一致」上的表现，探讨对不同的语法结构来说，语言模型中的的哪个神经元负责判断判断「主谓一致」。

因果关系挖掘

Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis (NAACL 2021)

场景：法律文本分析（Legal Text Analysis）

问题：现有的因果推断研究大多关注结构化数据，在类似法律文本这样的非结构化数据较少被关注。

https://arxiv.org/abs/2104.09420

https://github.com/xxxiaol/GCI/

▲ An example of generated causal graph for the charge fraud.

因果推理可以捕捉不同变量之间的因果关系，大多数现有工作专注于解决结构化数据，而从非结构化数据中挖掘因果关系则鲜少有学者涉足，本文献提出了一个全新的基于图的因果推断框架 CGI（Graph-based Causal Inference）——不用人为介入即可通过事实描述构造因果图，以此辅助法律从业者作出更好的判断。

文献通过「近似指控消歧」（similar charge disambiguation）任务来评估框架的性能，实验结果验证 GCI 不仅能够在多个近似指控的事实描述中捕捉细微差别，而且能提供解释性判决，在小样本的实验环境下 CGI 的表现优异。除此之外， CGI 中所包含的因果知识能够有效地与神经网络相结合，以此提供更好的性能和可解释性。

一言以蔽之，文献的主要贡献如下所示：

1. 文献提出了一个新的基于图的因果推断框架，可以自动地对非结构化数据进行因果推断；

2. 文献将 GCI 框架所得出的因果知识与神经网络相结合；

3. 文献通过「近似指控消岐」任务验证了 CGI 能从法律文本中捕捉到细微差别，且它能够进一步提升神经网络的可解释性。

▲ Overall architecture of GCI.

本文献提出的 GCI 模型通过Yake [10] ——一种基于文本特征全自动的提取文本关键字的方法从法律文本数据集中提取相应的关键因子，进而使用 GFCI（Greedy Fast Causal Inference）算法对上述步骤提取出来的关键因子进行因果发现，因为 GFCI 算法产出的结果是部分有向无环图而文本，而因果关系图应当是有向无环图，因此文献下一部对 PAG 进行采样并使用 ATE 来评估因果强度，最终得到一个 DAG 分类器。

▲ Two ways of integrating causal analysis and neural networks.

文献通过两种方式将因果发现的结果应用至神经网络，第一种是将因果强度限制 Attention 的权重，第二种将有向无环图拆解成若干因果链并作为 LSTM 的输入。

因果常识推理及其生成

Guided Generation of Cause and Effect (IJCAI 2020)

场景：文本生成

问题：对于各种人工智能任务来说，因果知识的习得至关重要，例如：因果图的构建、阅读理解和事件预测。

https://arxiv.org/abs/2107.09846

https://github.com/eecrazy/CausalBank

论文作出如下贡献：

1. 提出了开放式因果生成的任务：对任意格式的文本生产出其可能的原因与结果；

2. 构造了因果数据集 CausalBank，其包含有 3.14 亿个因果对（cause-effect pairs）；

3. 拓展了词法限制的解码（lexically-constrained decoding），使其支持析取正向约束（disjunctive positive constraints）。

▲ Possible causes and effects generated by our model, conditioned on the input sentence “babies cry”.

▲ Our approach for generating plausible causes and effects

GLUCOSE: GeneraLized and COntextualized Story Explanations (EMNLP 2020)

场景：常识推理

问题：AI 系统能无法拥有常识推理的能力是因为有两个瓶颈：一是很难大规模的获得常识数据集，二是如何将常识融合至现有 AI 系统。

https://arxiv.org/abs/2009.07758

https://github.com/ElementalCognition/glucose/

文献介绍了 GLUCOSE 数据集，当给出一则短故事和故事中的一个句子 X，GLUCOSE 从十个维度会捕捉与 X 相关的因果解释。

这十个维度启发于人类认知心理学，覆盖了 X 通常隐含的原因和结果，如：事件、地点、所有物等等。

▲ Entries in the GLUCOSE dataset that explain the Gage story around the sentence X= Gage turned his bike sharply.

Counterfactual Story Reasoning and Generation (EMNLP 2019)

场景：反事实推理

问题：对于 AI 完备的系统来说，拥有反事实推理能力是一个充要条件，即当实际发生的事情改变时，模型能给出相应的结果。

https://arxiv.org/abs/1909.04076

https://github.com/qkaren/Counterfactual-StoryRW

在文献中，作者提出了一个新的任务，即基于故事理解和生成的反事实故事重写（Counterfactual Story Rewriting）。

任务的输入是原始故事和反事实条件，模型需要通过反事实推理重写故事以保证逻辑的一致性。

举个例子，如下图所示，左侧提供了原始故事版本，Pierre 喜欢万圣节，想要在万圣节扮演吸血鬼，因此他准备了相应的打扮，但假设 Pierre 想要扮演的是狼人，通过反事实推理，我们知道接下里的故事内容要于狼人相符。

文献提出了 TIMETRAVEL 数据集，拥有 29849 个反事实事例，下图是数据集的标注过程。

▲ Data annotation process for the TIMETRAVEL dataset.

参考文献

[1] A Review of dataset and labeling methods for causality extraction https://aclanthology.org/2020.coling-main.133/

[2] Causal Inference in Natural Language Processing: Estimation, Prediction, Interpretation and Beyond https://arxiv.org/abs/2109.00725

[3] Uncovering Main Causalities for Long-tailed Information Extraction https://arxiv.org/abs/2109.05213

[4] Counterfactual Generator: A Weakly-Supervised Method for Named Entity Recognition https://aclanthology.org/2020.emnlp-main.590/#

[5] Counterfactual Off-Policy Training for Neural Dialogue Generation https://aclanthology.org/2020.emnlp-main.276/

[6] Identifying Spurious Correlations for Robust Text Classiﬁcation https://arxiv.org/pdf/2010.02458.pdf

[7] Seeing Stars: Exploiting Class Relationships for Sentiment Categorization with Respect to Rating Scales https://aclanthology.org/P05-1015/

[8] Causal Analysis of Syntactic Agreement Mechanisms in Neural Language Models https://arxiv.org/abs/2106.06087

[9] Everything Has a Cause: Leveraging Causal Inference in Legal Text Analysis https://arxiv.org/abs/2104.09420

[10] Yake https://github.com/LIAAD/yake

[11] Guided Generation of Cause and Effect https://www.ijcai.org/Proceedings/2020/0502.pdf

[12] GLUCOSE: GeneraLized and COntextualized Story Explanations https://arxiv.org/pdf/2009.07758.pdf

[13] Counterfactual Story Reasoning and Generation https://arxiv.org/pdf/1909.04076.pdf

论文解读投稿，让你的文章被更多不同背景、不同方向的人看到，不被石沉大海，或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

为什么回归问题不能用Dropout？

Bert/Transformer 被忽视的细节

中文小样本NER模型方法总结和实战

一文详解Transformers的性能优化的8种方法

DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

下载一：中文版！学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套！  后台回复【五件套】
下载二：南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习，备注：昵称-学校（公司）-方向，进入DL&NLP交流群。

方向有很多：机器学习、深度学习，python，情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注~

你可能感兴趣的:(大数据,自然语言处理,编程语言,python,机器学习)

Python读取nc文件的几种方式请一直在路上 python
在Python中，有多种方式可以读取NetCDF(.nc)文件。常见的方法包括使用以下库：1.netCDF4这是最常用的库之一，提供了直接读取、写入和处理NetCDF文件的功能。它支持版本3和版本4的NetCDF文件格式。安装：pipinstallnetCDF4用法：importnetCDF4asnc#打开文件dataset=nc.Dataset('example.nc')#查看文件的维度prin
UV - Python 包管理丽英y Python uv python 开发语言
文章目录创建uv项目已有项目已有uv项目创建uv项目#创建项目uvinitm3#创建环境cdm3uvvenv--python3.11#激活环境source.venv/bin/activate#添加库uvaddflask如果创建项目后，给库取别的名字，add的时候，会自动创建.venv文件夹>uvvenv--python3.12e312[0]UsingCPython3.12.8interpreter
漫谈JVM weixin_34111790 运维 java python
2019独角兽企业重金招聘Python工程师标准>>>背景介绍创建了一个技术类公众号:一起源码分析，里面会分享最新的开源代码、源码解读、开发技巧等，欢迎大家关注。JVM已经是Java开发的必备技能了，JVM相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台
开发语言漫谈-脚本语言大道不孤,众行致远技术杂谈开发语言
前面讲的都称之为编程语言，就是做系统用的。还有一大类称之为脚本语言的语言，这类语言数量极多，大部分程序员用不上，也不关心，这是系统维护人员专用的邻域。这个定义其实也很不准确，不必较真。更准确的来讲，能直接运行的文本都可以称之为脚本语言，按这个标准，python也是。但是python同样用于做系统。我们今天讲的脚本语言纯粹用于系统维护邻域。我们重点将编程语言，对这些脚本语言就打包一起介绍了bash：
Python环境管理新利器：UV工具详解云水木石 python uv 开发语言
Python包和环境管理最好的工具无疑是Anaconda，但我在之前的一篇文章《注意，使用这款Python软件可能会带来麻烦》写过，个人使用完全没有问题。如果在公司内使用，就需要格外小心，可能会招来官司。在我们公司，Anaconda（包括Miniconda）就是禁止安装的软件之一。但是在工作中，确实又存在需要切换不同Python版本的需求，比如编译Chromium需要Python3.8以上的版本，
Python新手入门 python流程控制基础1——条件语句if~~else；if~elif~else；不爱纸片人 python
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录一、条件语句是什么？二、语句使用方法1.if.....2.if.......elif......3.if.......elif......else.......总结一、条件语句是什么？在Python中，条件语句用于根据不同的条件执行不同的代码块二、语句使用方法一共有三种if…if’…elif…if…elif…else…1.if
机器学习：让计算机学会思考的艺术平凡而伟大. 机器学习机器学习人工智能
目录什么是机器学习？机器学习的基本步骤常见的机器学习算法机器学习的实际应用如何入门机器学习？结语在当今数字化时代，机器学习（MachineLearning,ML）已经成为一个炙手可热的话题。从推荐系统到自动驾驶汽车，再到语音助手，机器学习的应用无处不在。然而，对于许多人来说，机器学习仍然是一个神秘而复杂的领域。本文将用通俗易懂的语言，带你走进机器学习的世界，了解它的基本原理和应用。什么是机器学习？
机器学习中的 K-均值聚类算法及其优缺点平凡而伟大. 机器学习机器学习算法均值算法
K-均值聚类是一种常用的无监督学习算法，用于将数据集中的样本分成K个簇。其基本原理是将所有样本点划分到K个簇使得簇内样本点之间的距离尽可能接近，而不同簇之间的距离尽可能远。算法流程如下：随机选择K个样本点作为初始的聚类中心。将每个样本点分配到与其最近的聚类中心所在的簇。更新每个簇的聚类中心为该簇所有样本点的平均值。重复第2步和第3步，直到聚类中心不再变化或者达到最大迭代次数。优点：简单且易于实现。
一文讲清楚深度学习和机器学习平凡而伟大. 机器学习人工智能深度学习机器学习人工智能
目录1.定义机器学习（MachineLearning,ML）深度学习（DeepLearning,DL）2.工作原理机器学习深度学习3.应用场景机器学习深度学习4.主要区别5.为什么选择深度学习？6.总结深度学习和机器学习是人工智能（AI）领域中两个密切相关但有所区别的概念。要清楚地解释它们之间的关系，我们可以从定义、工作原理、应用场景以及两者的主要区别等方面进行探讨。1.定义机器学习（Machin
使用 NetworkX 进行图论分析与可视化 aiweker 跟我学python 图论 python
使用NetworkX进行图论分析与可视化NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了丰富的图论算法和数据结构，适用于各种网络分析任务。本文将分点介绍NetworkX的主要功能，并通过代码示例进行详细说明。1.安装NetworkX在开始使用NetworkX之前，首先需要安装它。可以通过pip进行安装：pipinstallnetworkx2.创建图NetworkX支持多
使用 UV 管理 Python 项目 | python小知识 aiweker 跟我学python uv python 人工智能
使用UV管理Python项目|python小知识1.引言在Python开发中，项目管理工具是必不可少的。常见的工具如pip、pipenv、poetry等，它们各有优缺点。近年来，uv作为一个新兴的Python项目管理工具，逐渐受到开发者的关注。uv旨在提供更快的依赖解析和安装速度，同时保持与现有工具的兼容性。本文将详细介绍uv的功能和应用场景，并通过代码示例展示其使用方法。最后，我们将对比uv与其
Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
Python 常用内建模块-venv 赔罪 Python 系统学习 python 开发语言
目录venv小结venv在开发Python应用程序的时候，系统安装的Python3只有一个版本：3.x。所有第三方的包都会被pip安装到Python3的site-packages目录下。如果我们要同时开发多个应用程序，那这些应用程序都会共用一个Python，就是安装在系统的Python3。如果应用A需要jinja2.7，而应用B需要jinja2.6怎么办？这种情况下，每个应用可能需要各自拥有一套“
python Qt Solkatt's
最近帮朋友做了一个将文本文件按条件导出到excel里面的小程序。使用了PyQT，发现Python真是一门强大的脚本语言，开发效率极高。首先需要引用fromPyQt4importQtGui,uic,QtCore很多控件像QPushButton是从QtGui的空间中得来的，下面def__init__(self,parent=None)中定义了界面的设计及与控件相互联系的方法。classAddressB
Rust + 时序数据库 TDengine：打造高性能时序数据处理利器涛思数据（TDengine）时序数据库 rust tdengine
引言：为什么选择TDengine与Rust？TDengine是一款专为物联网、车联网、工业互联网等时序数据场景优化设计的开源时序数据库，支持高并发写入、高效查询及流式计算，通过“一个数据采集点一张表”与“超级表”的概念显著提升性能。Rust作为一门系统级编程语言，近年来在数据库、嵌入式系统、分布式服务等领域迅速崛起，以其内存安全、高性能著称，与TDengine的高效特性天然契合，适合构建高可靠、高
pyspark学习rdd处理数据方法——学习记录亭午学习
python黑马程序员"""文件，按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompysparkimportSparkConf,SparkContextimportosimportjsonos.environ['PYSPARK_PYTHON']=r"D:\anaconda\envs\py10\python.exe"#创建Spark
实时光线追踪技术：Ray Tracing_2024-07-21_02-55-16.Tex chenjj4003 游戏开发 python 算法人工智能矩阵线性代数骨骼绑定开发语言
实时光线追踪技术：RayTracing实时光线追踪技术教程基础知识光线追踪原理光线追踪是一种渲染技术，它通过模拟光线在场景中的传播和反射来生成图像。在实时光线追踪中，这一过程被优化以在有限的时间内完成，通常用于游戏和实时动画。其核心原理是逆向追踪，即从观察者（摄像机）发出光线，而不是从光源发出，这样可以减少计算量。示例：光线追踪的基本算法#Python示例代码，展示如何计算光线与场景中物体的交点c
PyQt和PySide的区别和比较 PgosOcaml pyqt mfc c++
PyQt和PySide的区别和比较PyQt和PySide是两个用于创建图形用户界面(GUI)的Python库。它们都是基于Qt框架，Qt是一个跨平台的应用程序和UI开发框架。本文将介绍PyQt和PySide之间的区别和比较，并提供相应的源代码示例。开发者许可证：PyQt的开发者许可证是商业许可证，因此如果您想在商业项目中业项目中使用PyQt，您需要购买相应的许可证。而Py业项目中使用PyQt，您需
哈尔滨工业大学DeepSeek公开课人工智能：大模型原理技术与应用-从GPT到DeepSeek｜附视频下载方法你觉得205 人工智能机器学习大数据 ai 知识图谱 python 运维
导读INTRODUCTION今天继续哈尔滨工业大学车万翔教授带来了一场主题为“DeepSeek技术前沿与应用”的报告。本报告深入探讨了大语言模型在自然语言处理（NLP）领域的核心地位及其发展历程，从基础概念出发，延伸至语言模型在机器翻译、拼音输入法、语音识别等任务中的关键作用。强调了语言模型不仅辅助其他NLP任务，本身也蕴含大量知识，如地理信息、语义理解和推理能力。随着技术的发展，尤其是trans
Python 错误处理赔罪 Python 系统学习 python 开发语言
目录try调用栈记录错误抛出错误练习小结在程序运行的过程中，如果发生了错误，可以事先约定返回一个错误代码，这样，就可以知道是否有错，以及出错的原因。在操作系统提供的调用中，返回错误码非常常见。比如打开文件的函数open()，成功时返回文件描述符（就是一个整数），出错时返回-1。用错误码来表示是否出错十分不便，因为函数本身应该返回的正常结果和错误码混在一起，造成调用者必须用大量的代码来判断是否出错：
【Python Qt 基本概念】深入探讨 PySide6 与 PyQt6：选择、共存与最佳实践泡沫o0 Qt应用开发 -探索Qt的魅力与实践 Python 基础教程 mfc c++qt 开发语言 python 嵌入式 linux
目录标题第一章:Python绑定的Qt库——PySide6与PyQt6的比较1.1PySide6与PyQt6的基本介绍1.1.1PySide6：Qt官方推荐的Python绑定1.1.2PyQt6：成熟的第三方Python绑定1.1.3主要差异：许可证1.2两者的相似性与差异性1.2.1功能和性能差异1.2.2API差异与兼容性1.3总结：选择的自由与责任第二章:在VSCode中使用PySide6与
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(Flask WEB版) 2 带娃的IT创业者 AI大模型趣味实战人工智能 flask 前端
《AI大模型趣味实战》第8集：多端适配个人新闻头条基于大模型和RSS聚合打造个人新闻电台(FlaskWEB版)2摘要本文末尾介绍了如何实现新闻智能体的方法。在信息爆炸的时代，如何高效获取和筛选感兴趣的新闻内容成为一个现实问题。本文将带领读者通过Python和Flask框架，结合大模型的强大能力，构建一个个性化的新闻聚合平台，不仅能够自动收集整理各类RSS源的新闻，还能以语音播报的形式提供"新闻电台
机器学习knnlearn1 XW-ABAP 机器学习机器学习人工智能
importmatplotlib.pyplotaspltimportnumpyasnpimportoperator#定义一个函数用于创建数据集defcreateDataSet():#定义特征矩阵，每个元素是一个二维坐标点，代表不同策略数据点的坐标group=np.array([[20,3],[15,5],[18,1],[5,17],[2,15],[3,20]])#定义每个数据点对应的标签，用于区分
基于 MySQL 和 Spring Boot 的在线论坛管理系统设计与实现城南|阿洋-计算机从小白到大神 mysql spring boot 数据库
markdownCopy✌全网粉丝20W+,csdn特邀作者、博客专家、CSDN[新星计划]导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、pyhton、机器学习技术领域和毕业项目实战✌哈喽兄弟们，好久不见哦～最近整理了一下之前写过的一些小项目/毕业设计。发现还是有很多存货的，想一想既然放在电脑里面也吃灰，那么还不如分享出去，没准还可以帮助到
LeetCode剑指offer题目记录3 t.y.Tang LeetCode记录学语言 c++leetcode 哈希算法
leetcode刷题开始啦,每天记录几道题.目录剑指offer05.替换空格题目描述思路pythonC++剑指offer06.从尾到头打印链表题目描述思路1python思路2pythonC++剑指offer05.替换空格题目描述让我们实现一个函数,把字符串s中的每个空格替换为%20.思路这个题目我只能想到遍历,在空间控制上应该有原地修改的办法会省一些.python如果用python,那直接用spl
Python 中的 Iterable、Iterator 与生成器 CavenWang python python 开发语言
Python中的Iterable、Iterator与生成器Iterable（可迭代对象）Iterator（迭代器）生成器（Generator）Iterable、Iterator与生成器的关系实际应用生成器的高级用法（send()）总结在Python中，Iterable、Iterator和生成器是三个密切相关的概念，它们都与迭代操作有关，但各自扮演不同的角色。本文将深入探讨它们的定义、区别以及实际应
零基础入门机器学习：用Scikit-learn实现鸢尾花分类藍海琴泉机器学习 scikit-learn 分类
适合人群：机器学习新手|数据分析爱好者|需快速展示案例的学生一、引言：为什么要学这个案例？目的：明确机器学习解决什么问题，建立学习信心。机器学习定义：让计算机从数据中自动学习规律（如分类鸢尾花品种）。为什么选鸢尾花数据集：数据量小、特征明确，适合教学演示。Scikit-learn优势：提供现成算法和工具，无需从头写数学公式。二、环境准备：5分钟快速上手目的：搭建可运行的代码环境，避免卡在工具安装环
Python Lambda 函数详解 2201_75491841 python 开发语言 lambda函数
一、引言在Python编程中，我们经常会遇到一些简单的函数，这些函数可能只在某个特定的地方使用一次，而且逻辑非常简单。如果为了这些简单的功能定义一个常规的函数，不仅会增加代码的冗余，还会使代码结构变得不够简洁。这时，lambda函数就派上用场了。lambda函数也被称为匿名函数，它为我们提供了一种简洁的方式来定义小型的、一次性使用的函数。在本文中，我们将深入探讨Python中的lambda函数，包
机器学习--DBSCAN聚类算法详解 2201_75491841 机器学习算法聚类人工智能
目录引言1.什么是DBSCAN聚类？2.DBSCAN聚类算法的原理3.DBSCAN算法的核心概念3.1邻域（Neighborhood）3.2核心点（CorePoint）3.3直接密度可达（DirectlyDensity-Reachable）3.4密度可达（Density-Reachable）3.5密度相连（Density-Connected）4.DBSCAN算法的步骤5.DBSCAN算法的优缺点5
小白学AI量化：DeepSeek+Python构建强大的金融数据挖掘与多维分析机器人老余捞鱼 AI顾投高级策略 AI探讨与学习人工智能 python 金融 deepseek
作者：老余捞鱼原创不易，转载请标明出处及原作者。写在前面的话：在机构主导的量化交易时代，普通投资者如何用一杯奶茶的钱（15元/天）打造专业级智能量化产品？本文将为您揭秘一个革命性的解决方案——基于国产大模型DeepSeek和Python构建的智能数据挖掘分析机器人。它不仅适用于通用网页数据抓取，更能深度应用于金融领域，精准捕捉市场信号。本文“干货”很多，请务必耐心读完。一、颠覆认知的性价比革命1.
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文