ViviranZ

论文笔记：Accurate Causal Inference on Discrete Data

小白准备讨论班而看的论文，《Causality for Machine Learning》太长了有空再看着玩吧。

惯例先上文献：K. Budhathoki and J. Vreeken, "Accurate Causal Inference on Discrete Data," 2018 IEEE International Conference on Data Mining (ICDM), 2018, pp. 881-886, doi: 10.1109/ICDM.2018.00105.

摘要：

这篇文章主要是对ANM（加性噪声模型）的优化。

ANM模型可以在只知道少量样本的前提下找到随机变量的因果方向。ANM的关键假设是变量之间的影响可以表示成因的函数和噪声是和因无关的，很多情况下ANM表现较好，但是他们的表现与1. 选用的（用于判断无关的）测度和 2.我们对于真实的分布的假设有关。这篇论文中运用香农熵

量化ANM中的无关性，这样可以有一个不需要假设真实分布的方法，也不需要在优化期间执行明确的显著性检验。

显著性检验（significance test）就是事先对总体（随机变量）的参数或总体分布形式做出一个假设，然后利用样本信息来判断这个假设（备择假设）是否合理，即判断总体的真实情况与原假设是否有显著性差异。或者说，显著性检验要判断样本与我们对总体所做的假设之间的差异是纯属机会变异，还是由我们所做的假设与总体真实情况之间不一致所引起的。显著性检验是针对我们对总体所做的假设做检验，其原理就是“小概率事件实际不可能性原理”来接受或否定假设。

信息论公式为我们提供了一种通用、高效、可识别且如实验所示的高度准确的方法，用于对离散变量对进行因果推断——在合成数据和真实数据上均实现（接近）100% 的准确度。

Introduction

我们能知道X,Y相关，但是我们无法确定具体是X→Y还是Y→X，这篇论文就是干介个的。

之前在因果方面有一些模型。比如Structural Causal Model[2]

Structural model:[2]

Causal Structural Model:[2]

和Additive Noise Model（ANM）。ANM模型：假设结果是原因的函数，附加噪声与原因无关。如果存在函数 f 和一个独立于 X 的随机噪声变量 N_Y，即 N_Y ⊥⊥ X，则称具有联合分布 P(X, Y) 的两个随机变量 X 和 Y 满足从 X 到 Y 的 ANM ，使得 Y = f(X) + N_Y ，如果 P(X, Y) 允许从 X 到 Y 的 ANM，但不能在相反的方向上，则该模型是可识别的，在这种情况下，我们认为在ANM下X可能是Y的因。简单来说就是在研究变量之间的关系的时候在因变量上加一个噪声，使其更加符合现实情况（系统本身和观测产生的误差）。ANM模型具体可以看参考文献[3][4][5]，知乎上查到关于ANM的简短理解：（侵删）

通常我们对于一个真实的系统和状态建模都会用一个确定性的部分加上一个随机性的部分，这也符合我们的直觉的，因为对于一个系统来说，系统本身和观测都是带有误差的。那么对于这样一个问题，最简单的数学建模是什么呢？

答案就是加性噪声模型：y=x+\epsilon.这里 \epsilon ~ N(\miu,\sigma^2) , 而x,y分别是真实的状态和与我们能观测到的状态。

通常我们并不能知道噪声满足什么样的一个分布，但是事实证明，往往用高斯分布建模会得到很好的效果。

一个比较直接的应用就是在图像处理领域，如果我们把y,x 分别看成是被污染后的图像和原始的图像，那么图像去噪或者说图像复原问题，本质上就是对于加性模型求解反问题。

作者：Caliber
链接：https://www.zhihu.com/question/408126141/answer/1388641389
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

ANM脱胎于LiNGAM[3]，关于讲LiNGAM的参考文献[3]，看到28页傻眼了，好在知乎专栏有一位老哥写的很好[1.6]。关于ANM，CSDN上有一个老哥一句一句翻译的讲解[1.7]参考文献[4][5]后面再补吧。

参考文献[5]中证明了对于离散的数据，ANM一般地是可识别的。

在本论文中提出了ACID，一个基于信息论的、针对离散数据的、因果推论的可识别方法；具体来说是运用香农熵计算X N_Y之间的相关性。我们认为X导致Y如果H(X)+H(Y)

有点卡顿，明天再看吧，感觉还是要补知乎专栏、[4]、[5]这三个，先放放等这周讲完讨论班回来看。6/15/23:25

CAUSAL INFERENCE

设 X 和 Y 是两个离散的随机变量。多元数据的传统统计分析涉及从联合分布中观察到的样本进行推断。然而，因果推理需要对感兴趣的变量进行操作（干预、政策、处理等）。要推断 X 是否导致 Y ，我们必须比较在 X 的不同操作下 Y 的分布。特别是，如果 P(Y | 操作 X 到 x1) ！= P(Y | 操作 X 到 x)，则 X 会导致 Y。
注意 P(Y | 操作 X 到 x1) 与 P(Y | X = x) 不同；前者代表 Y 在 X 上的后处理分布，而后者只是我们观察到 X = x 的情况下观察到的 Y 分布。 do-calculus [2，Chap. 3] 提供了一种数学语言来表达这种处理后的分布。我们使用 do 演算将 P(Y | 操作 X 到 x) 表示为 P(Y | do(X = x))，简称 P(Y | do(x))。
在实践中，操纵变量（设置实验）通常非常昂贵、不合伦理或根本不可能；确定吸烟是否会导致肺癌就是这样一个例子。因此，需要从观察数据中识别变量之间的因果关系。粗略地说，如果我们可以仅从观察数据中估计 P(Y | do(x)) 是可识别的。
Pearl的开创性工作 [2, Thm. 3.2.5]表明，

为了搞明白Thm3.2.5也算是费了一番功夫，先看看Thm本身：

有一个由马尔可夫模型生成的因果图（有向网络图，点表示事件，线从因指向果）G，在G中的变量子集V是可测的，则P(y|do(x))是可识别的，当X,Y和所有X的直接因（direct cause或parents）都是可测的。

再看看可识别的：

3.2.3是模型Q的可识别的概念，我们更需要的是3.2.4提到的：

这个定义看that is后面的条件比较好理解，但是还是有点点绕。需要理解quantity和这些notation的意思，可以看后面[1]1.4的讨论。（主要意思是：任何两个满足因果图都是G、概率公式也一样的模型里计算的这个do-概率都是一样的的模型M1 M2，计算得到的P（X|Y）都是一样的。）这个可识别的作用是：

顺便我们再了解下parent的概念，先看Thm中提到的式(3.13)：

parent在Pearl的这本书里面是个很常见的概念，

大概讲讲1.4里面关于counterfactual的一个例子，可以方便理解。

如果我们想研究一个关于给药(x)和治愈率(y)的关系，我们只知道对于任何x和y的组合， p(x,y)=0.25，定义测度Q表示“接受治疗但是死掉的人没接受治疗活下来的概率”。

模型一：

u_1 u_2是无关的，且都是1/2的概率，也就是说死活和是否治疗无关。此时Q=0。

模型二：

这样条件下，Q=1。

可以看出，同一Q在不同模型下可能是不一样的.这个例子的第一课是随机因果模型不足以计算反事实的概率；计算需要了解 P(y|x) 背后的实际过程。第二个教训是，函数因果模型构成了足以计算（和定义）此类概率的数学对象。在Q_2中，我们得出结论”如果不接受治疗，已故的接受治疗的对象 (y_1, x_1) 会康复“的方式涉及三个心理步骤。首先，我们将手头的证据 e : {y _1, x_1) 应用于模型并得出结论，e 仅与 U1 和 U2 的一个实现兼容——即 {u1 = 1,u2 = 1}。其次，为了模拟“他或她没有接受治疗”的假设条件，我们将 x=0 代入（1.48），同时忽略第一个方程 x=u1。最后，我们对y（假设x=0且u2=1）求解（1.48），得到y=0，由此得出在考虑的假设条件下恢复概率（y=0）为1的结论。一般化到普遍方法如下图：

在某些条件下，我们可以从观测数据中识别出 P(Y | do(x))。粗略地说，P(Y | do(x)) 可以从联合分布 P(X, Y, Z) 中抽取的观察样本中识别出来，给出马尔可夫模型的因果图 X ← Z → Y，只要所有常见原因（混杂因素）Z, X 和 Y 都被测量。

在实践中，我们往往不知道真正的因果图。我们试图从观察数据中发现它：为此，我们可以使用条件独立性测试来部分识别马尔可夫模型对观察数据的因果图。也就是说，如果给定 Z，X 和 Y 是条件独立的，即 X ⊥Y | Z，

那么我们可以推断出 X—Z—Y（注意，在 Z 存在的情况下，X 和 Y 之间没有直接联系）。但是，我们无法绘制有向边，因为 X ← Z → Y 、X → Z → Y 和 X ← Z ← Y 是马尔可夫等价的——它们编码相同的条件独立性。问题缩减到求因果方向。也就是：

为了解决这个问题，我们应用了Structural Causal Modelling（SCM）。

Structural Causal Modelling

首先作者给了一下模型定义，以之前Introduction查到的为基础

注意，这里用的是赋值而不是=，是因为赋值具有因果意义：操纵 X 会导致 Y 的值发生变化。为了表示诸如 do(x) 之类的操作，我们只需替换等式中的赋值 X := x。然后修改后的 SCM 需要在 X 上进行 Y 后操作的分布，即 P(Y | do(x))。

然而，对于对噪声分布或函数形式没有限制的一般 SCM，我们无法判断从联合分布 P(X, Y ) 中抽取的样本是否是由来自 X → Y 或 Y → X 的 SCM 诱导的，因为我们总是可以在两个方向上构建一个合适的函数和噪声 [7, Prop. 4.1]。换句话说，从一般的 SCM 来看，两个变量的因果结构无法从联合分布中识别出来；我们需要额外的假设来确定因果方向。 SCM 的一种特殊情况，称为加性噪声模型，具有我们所寻求的可识别性。

加性噪声模型 (ANM) （之前也讲过）是一类 SCM模型，其约束条件是噪声是加性的，并且独立于外生变量（其值与系统中其他变量的状态无关的变量）。给定因果图 X → Y ，ANM 将数据生成过程表示为 Y = f(X) + NY ，其中 NY ⊥⊥ X。

在设置对函数形式和噪声分布的一些限制的条件下，我们可以根据观测数据在 ANM 下识别因果方向。可识别性要求在数据生成过程中具有某种不对称性。在 ANM 中，在噪声和外生变量的独立性中观察到不对称性。如果 P(X, Y ) 承认 ANM 从 X 到 Y ，则由 ANM 引起的因果方向 X → Y 是可识别的，但反之则不然。

关于这个“承认”，原文中用词是：admit。具体句子如下：

而网上查到关于admit的定义

也就是说X→Y能表示成ANM的形式。

Shimizu et al. [3]表明如果函数是线性的，并且噪声是非高斯的，则 ANM 是可识别的。 Hoyer et al. [4] 表明，即使函数是非线性的（对噪声分布没有任何限制），ANMs 通常也是可识别的。我们特别感兴趣的是 Peters 等人的工作。 [5] 这表明 ANM 在离散情况下通常是可识别的。因此，对于离散情况，我们有以下陈述：

为了在实践中确定因果方向，我们在两个方向上拟合 ANM，并选择具有独立性的方向作为因果方向。因此，ANM 方法取决于依赖性度量的选择。大多数相关性度量要么假设检验统计量的抽样分布类型，要么需要内核。或者，信息论提供香农熵作为测量依赖性的非常直观但功能强大的工具。在这项工作中，我们对 ANM 采取信息理论方法，并使用熵作为依赖性度量。因此，我们避免使用 p 值进行显式零假设检验。此外，我们可以简单地使用经验分布。请注意，虽然（差分）熵已经在实值数据 [8]、[9] 的 ANM 的背景下进行了研究，但香农熵在离散数据的 ANM 上看似简单的应用却被忽略了。

INFORMATION-THEORETIC ANM

为了得出 ANM 的信息理论公式，我们必须使用香农熵对从具有图形结构 X → Y 和 Y → X 的 ANM 下的联合分布 P(X, Y) 中抽取的样本中包含的信息进行量化。对于由 ANM 建模的图形结构 X → Y，由于 ANM 建模的判别性质，我们有 P(Y | X) = P(N_Y | X)。因此，假设 X → Y 作为使用 ANM 的底层图形结构的样本的总熵是 H(X) + H(N_Y | X)。将此观察结果与联合香农熵的性质相结合，我们可以证明以下结果。

为了使用因果推断规则来推断因果方向，我们需要两个方向上的噪声变量。因此，在每个方向上，我们必须找到一个最小化残差熵的函数。换句话说，我们需要一种离散回归的方法。与连续回归不同，在离散情况下，不存在过拟合的风险；对于 X 的每个值，Y 可能取不同的值，因此不需要正则化。因此，我们可以简单地考虑所有可能的函数，并取损失函数的最小值。作为损失函数，我们考虑离散香农熵。因此，我们的目标是找到一个最小化残差熵的函数。然而，即使函数的范围在目标变量的域内，我们也会有成倍数的函数选择，从而使问题变得棘手。因此，我们采用启发式方法。

具体算法：

RELATED WORK

SCM:结构因果模型根据观察到的和未观察到的变量的函数来表达因果关系。 ANM 假设未观察到的变量（噪声）是可加的。彼得斯等人。 [5] 将 ANM 扩展到离散数据，并提出 DR 算法。 DR 使用卡方独立性检验，这比香农熵的计算成本更高。进一步的 ACID 不需要在每次迭代中进行 p 值测试。此外，ACID 是确定性的，而 DR 是非确定性的。
Kocaoglu et al. [10] 最近提出了两个离散变量的因果推理框架 (ECI)，假设未观察到的变量在真实方向上更简单（就 Renyi´ 熵而言）。特别地，推测如果 X 导致 Y ，H_α(X)+H_α(E) < H_α(Y)+H_α(E^~) 其中 H_α 是Renyi熵，其中Y = f(X, E)， X ⊥⊥ E； X = f(Y, E^~), X ⊥⊥ E^~。与假设噪声为加性类型的 ANM 不同，未观察到的变量在 ECI 中可以是任意类型。

Algorithmic Independence:马尔可夫核的算法独立性假设：如果 X 导致 Y ，则 P(X) 和 P(Y | X) 在算法上是独立的 [11], [12]。由于 Kolmogorov 复杂度是不可计算的，基于算法独立性的因果推理方法必须定义一个可计算的依赖度量。
CISC [13] 使用精制 MDL（an approximation from above to Kolmogorov complexity w.r.t. a model class)从离散数据进行因果推断。可识别性是因果推理的一个重要方面，因为它区分了概率条件 P(Y | X = x) 和因果条件 P(Y |do(X = x))。根据 ANM 对离散数据的可识别性，ACID 是可识别的，而 CISC 则不是。
Liu & Chan [14] (DC) 建议使用距离相关性作为依赖性度量。为了推断因果方向，DC 计算两个方向上的经验边际分布和条件分布之间的距离相关性。On account of the performance of DC against the state-of-the-art [13], we do not consider it for comparison.

EXPERIMENTS

与其他算法的比较结果：

1.合成的因果变量：

以多种分布生成X,Y，始终满足X→Y，一段解释：（公式太多英文太容易懒得写了）

准确度：文章从每个类型里抽样了1000个模型，每个模型里面1000个输出，然后运行程序得到各个算法的准确度。

尽管 CISC 在所有模型类中始终表现良好，但在负二项式模型类中表现非常差。请注意，CISC 将X给定下的的 Y 的条件随机复杂度定义为以 X 值为条件的 Y 的预期随机复杂度，所以S(Y|X)<

ECI 的性能可以归因于我们的数据生成模型的差异，以及 ECI 的建模假设。 ANM 假设噪声本质上是可加性的，而 ECI 假设噪声可以是任意类型的。

样本量：在图 2 中，我们比较了不同样本量的 ACID 与 ECI、DR 和 CISC 的准确性。我们观察到 ACID 在所有情况下都能达到 98% 到 100% 的准确率。 DR 在小样本上表现不佳，对于大样本，其性能逐渐提高。 CISC 的准确率始终保持在 94% 左右，而 ECI 的表现仅略好于随机抛硬币。

因果方向判断准确度：区分 X → Y 和 Y → X 的问题可以转化为身份测试问题。文章的方法基于压缩，因此使用 Ryabko & Astola [15] 提出的基于压缩的身份测试框架来评估推断结果的重要性。框架大致可以描述如下：

该框架的测试统计量由δ = − log P(xn) + log Q(x n) 给出。由于无超压缩不等式 [16，Chap3.3]，测试统计量的 p 值为 2−δ，这给出了任意分布 Q 比分布 P 更好地压缩数据 δ 位的概率在数据上的上限。从 ACID 做出决定（例如 X → Y ）的因果对 (X, Y ) 中，我们想评估该决定是否重要。为此，我们的原假设 H0 将是替代方向 (Y → X) 下的联合分布。那么备择假设 H1 将是在推断方向下的假设。由于熵给出了样本中每个结果的平均位数，使用 ANM 从 X → Y 的样本压缩大小由 CX→Y = nHX→Y 给出，从 Y → X 给出的是 CY →X = nHY → X。我们的检验统计量将是 δ = CY →X − CX→Y 。如果 δ > − log α，我们拒绝 H0。为了控制多重假设检验的错误发现率，我们使用 Benjamini-Hochberg 程序 [17]。让 H10, H20, . . . , Hm0是测试的零假设，并且 p1, p2, . . . , pm 对应的 p 值。我们按升序对 pvalue 进行排序。对于 α 的显着性水平，我们找到最大的 k，使得 pk ≤ km α。我们拒绝所有 hi 的原假设，其中 i = 1, 。 . . ，k。

为了进行评估，我们从几何分布的参数化族中抽取了 100 个模型。对于每个模型，我们采样了 350 个结果。在图 3 中，我们通过它们在两个方向上的相应压缩差异 (δ) 对因果对进行排序。这也对应于以升序方式按 p 值对配对进行排序。在 α = 0.01 的显着性阈值下，应用 Benjamini-Hochberg 校正后，五个推断是不显着的，其中两个不正确的推断。我们也观察到其他模型类的类似行为。

2.实际的因果数据：

为了研究 ACID 是否在现实世界数据中发现有意义的方向，我们考虑了三个数据集。
鲍鱼：该数据集可从 UCI 机器学习存储库中获得，包含 4177 只鲍鱼（大型可食用海螺）的物理测量结果。我们根据长度 (Y1)、直径 (Y2) 和高度 (Y3) 。我们考虑鲍鱼的性别 (X)。鲍鱼的性别是单一的（雄性、雌性或婴儿），而长度、直径和高度均以毫米为单位，分别具有 70、57 和 28 个唯一值。在[5]之后，我们将数据视为离散的。由于性别决定了鲍鱼的大小，而不是相反，我们将 X → Y1、X → Y2 和 X → Y3 视为基本事实。我们在表 I 中报告了结果。 ACID 在所有三对中推断出正确的方向，两个方向之间的得分差异很大。 CISC 和 ECI 也在所有三对中识别正确的方向。另一方面，DR 在第三种情况下仍然犹豫不决。

Horse Colic：该数据集也可从 UCI 机器学习存储库中获得，其中包含具有 28 个属性和 368 个实例的马的医疗记录。我们特别感兴趣的是两个属性：腹部状态 (X) 有 5 个可能的值，手术病变 (Y) 有 2 个可能的值，表明病变（问题）是否是外科手术的。我们删除了缺失值的实例，最终总共有 225 个实例。据领域专家介绍，大肠扩张和小肠扩张两种腹部状态表示手术病变。因此，将腹部状态视为手术病变的原因之一是合理的。因此，我们将 X → Y 视为基本事实。 ACID 和 ECI 都恢复了基本事实。尽管 DR 仍然优柔寡断，但 CISC 以非常高的置信度（δ = 85.73 位）推断出错误的指令。
NLSchools 该数据集是图宾根因果基准对中的第 99 对。3 它包含语言测试
131 所学校 132 个班级 2287 名八年级学生的得分（X）和学生家庭社会经济状况（Y）
荷兰人。语言测试成绩有 47 个唯一值，学生家庭的社会经济地位有 21 个唯一值。我们将 Y → X 视为基本事实，因为学生家庭的社会经济地位是语言考试成绩的原因之一。所有方法都恢复了基本事实。

CONCLUSIONS

我们提出了一个使用 ANM 对离散数据进行因果推断的信息理论框架。实验表明，所提出的算法 ACID 在合成数据上具有很高的准确度，对于各种源分布和样本大小的准确度达到或接近 100%，而定性案例研究证实结果是合理的。 ACID 进行了几次迭代才能收敛，并在我们的实验中在几秒钟内完成。此外，可以使用基于压缩的假设检验框架来评估 ACID 结果的统计显着性。结果表明，香农熵是一个相当不错的选择，作为使用来自离散数据的 ANM 进行因果推断的依赖度量。首先，边际香农熵的计算成本更低。此外，与其他统计独立性测试框架不同，我们不必在每次迭代中使用 p 值明确测试零假设。如果需要，可以使用基于压缩的身份测试框架来评估最终结果的重要性。

参考文献：（其余笔记中提到的参考文献对应找[1]的reference）

[1]K. Budhathoki and J. Vreeken, "Accurate Causal Inference on Discrete Data," 2018 IEEE International Conference on Data Mining (ICDM), 2018, pp. 881-886, doi: 10.1109/ICDM.2018.00105.

[2] J. Pearl, Causality: Models, Reasoning, and Inference. Cambridge University Press, 2000.

[3] S. Shimizu, P. O. Hoyer, A. Hyvarinen, and A. Kerminen, “A linear non-gaussian acyclic model for causal discovery,” JMLR, vol. 7, pp. 2003–2030, 2006.

[4] P. Hoyer, D. Janzing, J. Mooij, J. Peters, and B. Scholkopf, “Nonlinear causal discovery with additive noise models,” in NIPS, 2009, pp. 689– 696.

[5] J. Peters, D. Janzing, and B. Scholkopf, “Identifying cause and effect on discrete data using additive noise models,” in AISTATS, 2010, pp. 597–604.

[1.6]https://zhuanlan.zhihu.com/p/369720949

[1.7]https://blog.csdn.net/weixin_26752075/article/details/108259154#:~:text=Additive%20noise%20model%20%28ANM%29%3A%20The%20joint%20distribution%20P_,%3D%20F_Y%20%28X%29%20%2B%20N_Y%2C%20N_Y%20%E2%9F%82%20X.

你可能感兴趣的:(论文笔记：Accurate Causal Inference on Discrete Data)

WPF中的ComboBox控件几种数据绑定的方式互联网打工人no1 wpf c#
一、用字典给ItemsSource赋值（此绑定用的地方很多，建议熟练掌握）在XMAL中：在CS文件中privatevoidBindData(){DictionarydicItem=newDictionary();dicItem.add(1,"北京");dicItem.add(2,"上海");dicItem.add(3,"广州");cmb_list.ItemsSource=dicItem;cmb_l
将cmd中命令输出保存为txt文本文件落难Coder Windows cmd window
最近深度学习本地的训练中我们常常要在命令行中运行自己的代码，无可厚非，我们有必要保存我们的炼丹结果，但是复制命令行输出到txt是非常麻烦的，其实Windows下的命令行为我们提供了相应的操作。其基本的调用格式就是：运行指令>输出到的文件名称或者具体保存路径测试下，我打开cmd并且ping一下百度：pingwww.baidu.com>./data.txt看下相同目录下data.txt的输出：如果你再
Linux MariaDB使用OpenSSL安装SSL证书 Meta39 MySQL Oracle MariaDB Linux Windows ssl linux mariadb
进入到证书存放目录，批量删除.pem证书警告：确保已经进入到证书存放目录find.-typef-iname\*.pem-delete查看是否安装OpenSSLopensslversion没有则安装yuminstallopensslopenssl-devel开启SSL编辑/etc/my.cnf文件（没有的话就创建，但是要注意，在/etc/my.cnf.d/server.cnf配置了datadir的，
网络编程基础记得开心一点啊网络
目录♫什么是网络编程♫Socket套接字♪什么是Socket套接字♪数据报套接字♪流套接字♫数据报套接字通信模型♪数据报套接字通讯模型♪DatagramSocket♪DatagramPacket♪实现UDP的服务端代码♪实现UDP的客户端代码♫流套接字通信模型♪流套接字通讯模型♪ServerSocket♪Socket♪实现TCP的服务端代码♪实现TCP的客户端代码♫什么是网络编程网络编程，指网络上
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
vue项目element-ui的table表格单元格合并酋长哈哈 vue.js elementui javascript 前端
一、合并效果二全部代码exportdefault{name:'CellMerge',data(){return{tableData:[{id:'1',name:'王小虎',amount1:'165',amount2:'3.2',amount3:10},{id:'1',name:'王小虎',amount1:'162',amount2:'4.43',amount3:12},{id:'1',name:'
python tif转png Python与遥感 python 开发语言
importosfromosgeoimportgdalimportnumpyasnpfromPILimportImage#提取432三波段fromspectralimport*#输入文件夹路径defget_img(dataset_img):width=dataset_img.RasterXSize#获取行列数height=dataset_img.RasterYSizebands=dataset_i
MongoDB知识概括 GeorgeLin98 持久层 mongodb
MongoDB知识概括MongoDB相关概念单机部署基本常用命令索引-IndexSpirngDataMongoDB集成副本集分片集群安全认证MongoDB相关概念业务应用场景：传统的关系型数据库（如MySQL），在数据操作的“三高”需求以及应对Web2.0的网站需求面前，显得力不从心。解释：“三高”需求：①Highperformance-对数据库高并发读写的需求。②HugeStorage-对海量数
Vue中table合并单元格用法 weixin_30613343 javascript ViewUI
地名结果人名性别{{item.name}}已完成未完成{{item.groups[0].name}}{{item.groups[0].sex}}{{item.groups[son].name}}{{item.groups[son].sex}}exportdefault{data(){return{list:[{name:'地名1',result:'1',groups:[{name:'张三',sex
uniapp map组件自定义markers标记点以对_ uni-app学习记录 uni-app javascript 前端
需求是根据后端返回数据在地图上显示标记点，并且根据数据状态控制标记点颜色，标记点背景通过两张图片实现控制{{item.options.labelName}}exportdefault{data(){return{storeIndex:0,locaInfo:{longitude:120.445172,latitude:36.111387},markers:[//标点列表{id:1,//标记点idin
博客网站制作教程 2401_85194651 java maven
首先就是技术框架：后端：Java+SpringBoot数据库：MySQL前端：Vue.js数据库连接：JPA(JavaPersistenceAPI)1.项目结构blog-app/├──backend/│├──src/main/java/com/example/blogapp/││├──BlogApplication.java││├──config/│││└──DatabaseConfig.java
vue + Element UI table动态合并单元格我家媳妇儿萌哒哒 element UI vue.js 前端 javascript
一、功能需求1、根据名称相同的合并工作阶段和主要任务合并这两列，但主要任务内容一样，但要考虑主要任务一样，但工作阶段不一样的情况。（枞向合并）2、落实情况里的定量内容和定性内容值一样则合并。（横向合并）二、功能实现exportdefault{data(){return{tableData:[{name:'a',address:'1',age:'1',six:'2'},{name:'a',addre
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
使用datepicker和uploadify的冲突解决（IE双击才能打开附件上传对话框） zhanglb12
在开发的过程当中，IE的兼容无疑是我们的一块绊脚石，在我们使用的如期的datepicker插件和使用上传附件的uploadify插件的时候，两者就产生冲突，只要点击过时间的插件，uploadify上传框要双才能打开ie浏览器提示错误Missinginstancedataforthisdatepicker解决方案//if(.browser.msie&&'9.0'===.browser.version
golang获取用户输入的几种方式余生逆风飞翔 golang 开发语言后端
一、定义结构体typeUserInfostruct{Namestring`json:"name"`Ageint`json:"age"`Addstring`json:"add"`}typeReturnDatastruct{Messagestring`json:"message"`Statusstring`json:"status"`DataUserInfo`json:"data"`}二、get请求的
【Java】已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException 屿小夏 java 开发语言
文章目录一、分析问题背景问题背景描述出现问题的场景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项已解决：org.springframework.jdbc.datasource.lookup.DataSourceLookupFailureException在使用Spring框架进行开发时，数据源的配置和使用是非常关键的一环。然而，有时候我们可能会遇到org.springframewo
el-table实现全选整表，单元一页复选框功能周bro vue.js elementui javascript 前端
全选整表单选一页0":popper-append-to-body="false":total="tableData.length":page-size="pageObj.pagesize":page-sizes="[10,50,100]"layout="total,sizes,prev,pager,next"@size-change="handleSizeChange"@current-chang
Vue + Express实现一个表单提交九旬大爷的梦
最近在折腾一个cms系统，用的vue+express，但是就一个表单提交就弄了好久，记录一下。环境：Node10+前端：Vue服务端：Express依赖包：vueexpressaxiosexpress-formidableelement-ui（可选）前言：axiosget请求参数是：paramsaxiospost请求参数是：dataexpressget接受参数是req.queryexpresspo
Kubernetes部署MySQL数据持久化沫殇-MS Kubernetes MySQL数据库 kubernetes mysql 容器
一、安装配置NFS服务端1、安装nfs-kernel-server：sudoapt-yinstallnfs-kernel-server2、服务端创建共享目录#列出所有可用块设备的信息lsblk#格式化磁盘sudomkfs-text4/dev/sdb#创建一个目录：sudomkdir-p/data/nfs/mysql#更改目录权限：sudochown-Rnobody:nogroup/data/nfs
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
使用input[type=file]遇上的一些问题刘圣凯
项目遇到一个需要，如下image.png功能大致就是添加图片，展示出来，然后在用户点击提交的时候把图片传给后台，在和后台交涉之后，决定在用户选择图片之后转成formdata传给后台，后台返回一个url，提交的时候将url返回给后台/**转formdata*/varformdata=newFormData();formdata.append("file1",$("#pic")[0].files[0]
详解mybatis的一二级缓存以及缓存失效原因仰望天花板缓存数据库 mybatis java mysql
数据库的大部分场景下是从磁盘读取，如果数据从内存进行读取，速度较比磁盘要快得多。但因为内存的容量有限，所以一般只会把使用和查询较多的数据缓存起来，以便快速反应，其他使用率不太多的继续存放在磁盘。mybatis分为一级缓存和二级缓存1.一级缓存一级缓存存放在SqlSqeeion上，默认开启1.1pojo@DatapublicclassRole{privateLongid;privateStringr
小程序通过js控制页面字体颜色属性祈澈菇凉
需求：当电量少于百分之20的时候，显示电量的字体显示为红色。1：在wxml里面设置属性batStyle：style="{{item.batStyle}}"电量:{{item.battery}}%2：当复合逻辑条件的时候，在js里面carList[i].batStyle="color:red";success:function(res){constcarList=res.data.list;for(
Golang Channel PandaSkr golang
Channel解析1.Channel源码分析1.1Channel数据结构typehchanstruct{qcountuint//channel的元素数量dataqsizuint//channel循环队列长度bufunsafe.Pointer//指向循环队列的指针elemsizeuint16//元素大小closeduint32//channel是否关闭0-未关闭elemtype*_type//元素类
matlab游标标注移动,matlab实现图形窗口的数据游标莫白想 matlab游标标注移动
DatacursorsforfigurewindowSeveralrelatedfunctions:CreateCursorsetsupaverticalcursoronallaxesinafigure.Thecursorscanbemovedaroundusingthemouse.MultiplecursorsaresupportedineachfigureGetCursorLocationre
使用FPGA接收MIPI CSI RX信号并进行去抖动、RGB转YUV处理：FX3014 USB3.0 UVC传输与帧率控制源代码，FPGA实现MIPI CSI RX接收，去Debayer， RGB转 kVfINoSzdrt fpga开发程序人生
fpgamipicsirx接收去debayer,rgb转yuv,fx3014usb3.0uvc传输与帧率控制源代码，具体架构看图，除dphy物理层外，mipi均为源码sensorimx219mipi源码mipi4lanecsirxraw10fpgamachXO3lf-690usb3.0fx301432bityuvdatawithframesync测试模式3280*246415fps1920*108
数据结构 1 五花肉村长数据结构算法开发语言 c语言 visualstudio
1.什么是数据结构数据结构（DataStructure）是计算机存储和组织数据的方式，是指相互之间存在的一种或多种特定关系的数据元的集合。2.什么是算法算法（Algorithm）就是定义良好的计算过程，他取一个或一组的值为输入，并产生出一个或一组值作为输出。简单来说算法就是一系列的计算步骤，用来将输入数据转化成输出结果。3.数据结构和算法的书籍资料学习完数据结构知识，可以去看《剑指offer》和《
好看的vue登录页面(附源代码背景图) 小小薛定谔 vue.js javascript css 前端
一、效果展示二、代码你好!欢迎回来登录忘记密码?注册exportdefault{name:"MedLogin",data(){return{confirm_disabled:false,loginForm:{no:'',password:''},rules:{no:[{required:true,message:'请输入账号',trigger:'blur'},{min:3,max:6,messag
python的request请求401_Python模拟HTTPS请求返回HTTP 401 unauthorized错误 weixin_39599372
Python模拟HTTPS请求返回HTTP401unauthorized错误开始是使用的httplib模块，代码如下：header={"Content-type":"application/json","Accept":"*/*"}params={‘source‘:‘en‘,‘target‘:‘es‘,‘text‘:match.group(1)}data=urllib.urlencode(para
Nginx负载均衡 510888780 nginx 应用服务器
Nginx负载均衡一些基础知识: nginx 的 upstream目前支持 4 种方式的分配 1)、轮询（默认）每个请求按时间顺序逐一分配到不同的后端服务器，如果后端服务器down掉，能自动剔除。 2)、weight 指定轮询几率，weight和访问比率成正比
RedHat 6.4 安装 rabbitmq bylijinnan erlang rabbitmq redhat
在 linux 下安装软件就是折腾，首先是测试机不能上外网要找运维开通，开通后发现测试机的 yum 不能使用于是又要配置 yum 源，最后安装 rabbitmq 时也尝试了两种方法最后才安装成功机器版本： [root@redhat1 rabbitmq]# lsb_release LSB Version: :base-4.0-amd64:base-4.0-noarch:core
FilenameUtils工具类 eksliang FilenameUtils common-io
转载请出自出处：http://eksliang.iteye.com/blog/2217081 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
xml文件解析SAX 不懂事的小屁孩 xml
xml文件解析:xml文件解析有四种方式， 1.DOM生成和解析XML文档(SAX是基于事件流的解析) 2.SAX生成和解析XML文档(基于XML文档树结构的解析) 3.DOM4J生成和解析XML文档 4.JDOM生成和解析XML 本文章用第一种方法进行解析，使用android常用的DefaultHandler import org.xml.sax.Attributes;
通过定时任务执行mysql的定期删除和新建分区，此处是按日分区酷的飞上天空 mysql
使用python脚本作为命令脚本，linux的定时任务来每天定时执行 #!/usr/bin/python # -*- coding: utf8 -*- import pymysql import datetime import calendar #要分区的表 table_name = 'my_table' #连接数据库的信息 host,user,passwd,db =
如何搭建数据湖架构？听听专家的意见蓝儿唯美架构
Edo Interactive在几年前遇到一个大问题：公司使用交易数据来帮助零售商和餐馆进行个性化促销，但其数据仓库没有足够时间去处理所有的信用卡和借记卡交易数据 “我们要花费27小时来处理每日的数据量，”Edo主管基础设施和信息系统的高级副总裁Tim Garnto说道：“所以在2013年，我们放弃了现有的基于PostgreSQL的关系型数据库系统，使用了Hadoop集群作为公司的数
spring学习——控制反转与依赖注入 a-john spring
控制反转（Inversion of Control，英文缩写为IoC）是一个重要的面向对象编程的法则来削减计算机程序的耦合问题，也是轻量级的Spring框架的核心。控制反转一般分为两种类型，依赖注入（Dependency Injection，简称DI）和依赖查找（Dependency Lookup）。依赖注入应用比较广泛。
用spool+unixshell生成文本文件的方法 aijuans xshell
例如我们把scott.dept表生成文本文件的语句写成dept.sql,内容如下: 　　set pages 50000; 　　set lines 200; 　　set trims on; 　　set heading off; 　　spool /oracle_backup/log/test/dept.lst; 　　select deptno||','||dname||','||loc
1、基础--名词解析(OOA/OOD/OOP) asia007 学习基础知识
OOA:Object-Oriented Analysis（面向对象分析方法）是在一个系统的开发过程中进行了系统业务调查以后，按照面向对象的思想来分析问题。OOA与结构化分析有较大的区别。OOA所强调的是在系统调查资料的基础上，针对OO方法所需要的素材进行的归类分析和整理，而不是对管理业务现状和方法的分析。　　OOA（面向对象的分析）模型由5个层次（主题层、对象类层、结构层、属性层和服务层）
浅谈java转成json编码格式技术百合不是茶 json编码 java转成json编码
json编码;是一个轻量级的数据存储和传输的语言在java中需要引入json相关的包,引包方式在工程的lib下就可以了 JSON与JAVA数据的转换（JSON 即 JavaScript Object Natation，它是一种轻量级的数据交换格式，非常适合于服务器与 JavaScript 之间的数据的交
web.xml之Spring配置(基于Spring+Struts+Ibatis) bijian1013 java web.xml SSI spring配置
指定Spring配置文件位置 <context-param> <param-name>contextConfigLocation</param-name> <param-value> /WEB-INF/spring-dao-bean.xml,/WEB-INF/spring-resources.xml, /WEB-INF/
Installing SonarQube（Fail to download libraries from server） sunjing Install Sonar
1. Download and unzip the SonarQube distribution 2. Starting the Web Server The default port is "9000" and the context path is "/". These values can be changed in &l
【MongoDB学习笔记十一】Mongo副本集基本的增删查 bit1129 mongodb
一、创建复本集假设mongod,mongo已经配置在系统路径变量上，启动三个命令行窗口，分别执行如下命令： mongod --port 27017 --dbpath data1 --replSet rs0 mongod --port 27018 --dbpath data2 --replSet rs0 mongod --port 27019 -
Anychart图表系列二之执行Flash和HTML5渲染白糖_ Flash
今天介绍Anychart的Flash和HTML5渲染功能 HTML5 Anychart从6.0第一个版本起，已经逐渐开始支持各种图的HTML5渲染效果了，也就是说即使你没有安装Flash插件，只要浏览器支持HTML5，也能看到Anychart的图形（不过这些是需要做一些配置的）。这里要提醒下大家，Anychart6.0版本对HTML5的支持还不算很成熟，目前还处于
Laravel版本更新异常4.2.8-> 4.2.9 Declaration of ... CompilerEngine ... should be compa bozch laravel
昨天在为了把laravel升级到最新的版本，突然之间就出现了如下错误： ErrorException thrown with message "Declaration of Illuminate\View\Engines\CompilerEngine::handleViewException() should be compatible with Illuminate\View\Eng
编程之美-NIM游戏分析-石头总数为奇数时如何保证先动手者必胜 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class Nim { /**编程之美 NIM游戏分析问题：有N块石头和两个玩家A和B，玩家A先将石头随机分成若干堆，然后按照BABA...的顺序不断轮流取石头，能将剩下的石头一次取光的玩家获胜，每次取石头时，每个玩家只能从若干堆石头中任选一堆，
lunce创建索引及简单查询 chengxuyuancsdn 查询创建索引 lunce
import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Docume
[IT与投资]坚持独立自主的研究核心技术 comsci it
和别人合作开发某项产品....如果互相之间的技术水平不同,那么这种合作很难进行,一般都会成为强者控制弱者的方法和手段..... 所以弱者,在遇到技术难题的时候,最好不要一开始就去寻求强者的帮助,因为在我们这颗星球上,生物都有一种控制其
flashback transaction闪回事务查询 daizj oracle sql 闪回事务
闪回事务查询有别于闪回查询的特点有以下3个：（1）其正常工作不但需要利用撤销数据，还需要事先启用最小补充日志。（2）返回的结果不是以前的“旧”数据，而是能够将当前数据修改为以前的样子的撤销SQL（Undo SQL）语句。（3）集中地在名为flashback_transaction_query表上查询，而不是在各个表上通过“as of”或“vers
Java I/O之FilenameFilter类列举出指定路径下某个扩展名的文件游其是你 FilenameFilter
这是一个FilenameFilter类用法的例子，实现的列举出“c:\\folder“路径下所有以“.jpg”扩展名的文件。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
C语言学习五函数，函数的前置声明以及如何在软件开发中合理的设计函数来解决实际问题 dcj3sjt126com c
# include <stdio.h> int f(void) //括号中的void表示该函数不能接受数据，int表示返回的类型为int类型 { return 10; //向主调函数返回10 } void g(void) //函数名前面的void表示该函数没有返回值 { //return 10; //error 与第8行行首的void相矛盾 } in
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Pl dcj3sjt126com centos
今天在测试环境使用yum安装，遇到一个问题： Error: Cannot retrieve metalink for repository: epel. Please verify its path and try again 处理很简单，修改文件“/etc/yum.repos.d/epel.repo”，将baseurl的注释取消， mirrorlist注释掉。即可。 &n
单例模式 shuizhaosi888 单例模式
单例模式懒汉式 public class RunMain { /** * 私有构造 */ private RunMain() { } /** * 内部类，用于占位，只有 */ private static class SingletonRunMain { priv
Spring Security（09）——Filter 234390216 Spring Security
Filter 目录 1.1 Filter顺序 1.2 添加Filter到FilterChain 1.3 DelegatingFilterProxy 1.4 FilterChainProxy 1.5
公司项目NODEJS实践0.1 逐行分析JS源代码 mongodb nginx ubuntu nodejs
一、前言前端如何独立用nodeJs实现一个简单的注册、登录功能，是不是只用nodejs+sql就可以了？其实是可以实现，但离实际应用还有距离，那要怎么做才是实际可用的。网上有很多nod
java.lang.Math liuhaibo_ljf java Math lang
System.out.println(Math.PI); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1.2)); System.out.println(Math.abs(1)); System.out.println(Math.abs(111111111)); System.out.println(Mat
linux下时间同步 nonobaba ntp
今天在linux下做hbase集群的时候，发现hmaster启动成功了，但是用hbase命令进入shell的时候报了一个错误 PleaseHoldException: Master is initializing，查看了日志，大致意思是说master和slave时间不同步，没办法，只好找一种手动同步一下，后来发现一共部署了10来台机器，手动同步偏差又比较大，所以还是从网上找现成的解决方
ZooKeeper3.4.6的集群部署 roadrunners zookeeper 集群部署
ZooKeeper是Apache的一个开源项目，在分布式服务中应用比较广泛。它主要用来解决分布式应用中经常遇到的一些数据管理问题，如：统一命名服务、状态同步、集群管理、配置文件管理、同步锁、队列等。这里主要讲集群中ZooKeeper的部署。 1、准备工作我们准备3台机器做ZooKeeper集群，分别在3台机器上创建ZooKeeper需要的目录。数据存储目录
Java高效读取大文件 tomcat_oracle java
　　读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：　　Files.readLines(new File(path), Charsets.UTF_8); 　　FileUtils.readLines(new File(path)); 　　这种方法带来的问题是文件的所有行都被存放在内存中，当文件足够大时很快就会导致
微信支付api返回的xml转换为Map的方法 xu3508620 xml map 微信api
举例如下： <xml> <return_code><![CDATA[SUCCESS]]></return_code> <return_msg><![CDATA[OK]]></return_msg> <appid><