人工智能学家

深度学习的可解释性！

来源：智源社区

作者：知源月旦

一、深度学习的可解释性研究概述

随着深度学习模型在人们日常生活中的许多场景下扮演着越来越重要的角色，模型的「可解释性」成为了决定用户是否能够「信任」这些模型的关键因素（尤其是当我们需要机器为关系到人类生命健康、财产安全等重要任务给出预测和决策结果时）。在本章，我们将从深度学习可解释性的定义、研究意义、分类方法 3 个方面对这一话题展开讨论。

1.1

何为可解释性

对于深度学习的用户而言，模型的可解释性是一种较为主观的性质，我们无法通过严谨的数学表达方法形式化定义可解释性。通常，我们可以认为深度学习的可解释性刻画了「人类对模型决策或预测结果的理解程度」，即用户可以更容易地理解解释性较高的模型做出的决策和预测。

从哲学的角度来说，为了理解何为深度学习的可解释性，我们需要回答以下几个问题：首先，我们应该如何定义对事务的「解释」，怎样的解释才足够好？许多学者认为，要判断一个解释是否足够好，取决于这个解释需要回答的问题是什么。对于深度学习任务而言，我们最感兴趣的两类问题是「为什么会得到该结果」和「为什么结果应该是这样」。而理想状态下，如果我们能够通过溯因推理的方式恢复出模型计算出输出结果的过程，就可以实现较强的模型解释性。

实际上，我们可以从「可解释性」和「完整性」这两个方面来衡量一种解释是否合理。「可解释性」旨在通过一种人类能够理解的方式描述系统的内部结构，它与人类的认知、知识和偏见息息相关；而「完整性」旨在通过一种精确的方式来描述系统的各个操作步骤（例如，剖析深度学习网络中的数学操作和参数）。然而，不幸的是，我们很难同时实现很强的「可解释性」和「完整性」，这是因为精确的解释术语往往对于人们来说晦涩难懂。同时，仅仅使用人类能够理解的方式进行解释由往往会引入人类认知上的偏见。

此外，我们还可以从更宏大的角度理解「可解释性人工智能」，将其作为一个「人与智能体的交互」问题。如图 1 所示，人与智能体的交互涉及人工智能、社会科学、人机交互等领域。

图 1：可解释的人工智能

1.2

为什么需要可解释性

在当下的深度学习浪潮中，许多新发表的工作都声称自己可以在目标任务上取得良好的性能。尽管如此，用户在诸如医疗、法律、金融等应用场景下仍然需要从更为详细和具象的角度理解得出结论的原因。为模型赋予较强的可解释性也有利于确保其公平性、隐私保护性能、鲁棒性，说明输入到输出之间个状态的因果关系，提升用户对产品的信任程度。下面，我们从「完善深度学习模型」、「深度学习模型与人的关系」、「深度学习模型与社会的关系」3 个方面简介研究机器深度学习可解释性的意义。

（1）完善深度学习模型

大多数深度学习模型是由数据驱动的黑盒模型，而这些模型本身成为了知识的来源，模型能提取到怎样的知识在很大程度上依赖于模型的组织架构、对数据的表征方式，对模型的可解释性可以显式地捕获这些知识。
尽管深度学习模型可以取得优异的性能，但是由于我们难以对深度学习模型进行调试，使其质量保证工作难以实现。对错误结果的解释可以为修复系统提供指导。

（2）深度学习模型与人的关系

在人与深度学习模型交互的过程中，会形成经过组织的知识结构来为用户解释模型复杂的工作机制，即「心理模型」。为了让用户得到更好的交互体验，满足其好奇心，就需要赋予模型较强的可解释性，否则用户会感到沮丧，失去对模型的信任和使用兴趣。
人们希望协调自身的知识结构要素之间的矛盾或不一致性。如果机器做出了与人的意愿有出入的决策，用户则会试图解释这种差异。当机器的决策对人的生活影响越大时，对于这种决策的解释就更为重要。
当模型的决策和预测结果对用户的生活会产生重要影响时，对模型的可解释性与用户对模型的信任程度息息相关。例如，对于医疗、自动驾驶等与人们的生命健康紧密相关的任务，以及保险、金融、理财、法律等与用户财产安全相关的任务，用户往往需要模型具有很强的可解释性才会谨慎地采用该模型。

（3）深度学习模型与社会的关系

由于深度学习高度依赖于训练数据，而训练数据往往并不是无偏的，会产生对于人种、性别、职业等因素的偏见。为了保证模型的公平性，用户会要求深度学习模型具有检测偏见的功能，能够通过对自身决策的解释说明其公平。
深度学习模型作为一种商品具有很强的社会交互属性，具有强可解释性的模型也会具有较高的社会认可度，会更容易被公众所接纳。

1.3

可解释性的分类

根据可解释性方法的作用时间、可解释性方法与模型的匹配关系、可解释性方法的作用范围，我们可以将深度学习的可解释性方法分为：本质可解释性和事后可解释性、针对特定模型的可解释性和模型无关可解释性、局部可解释性和全局可解释性。

其中，本质可解释性指的是对模型的架构进行限制，使其工作原理和中间结果能够较为容易地为人们所理解（例如，结构简单的决策树模型）；事后可解释性则指的是通过各种统计量、可视化方法、因果推理等手段，对训练后的模型进行解释。

由于深度模型的广泛应用，本文将重点关注深度学习的可解释性，并同时设计一些深度学习方法的解释。

二、深度学习的可解释性

对于深度学习模型来说，我们重点关注如何解释「网络对于数据的处理过程」、「网络对于数据的表征」，以及「如何构建能够生成自我解释的深度学习系统」。网路对于数据的处理过程将回答「输入为什么会得到相应的的特定输出？」，这一解释过程与剖析程序的执行过程相类似；网络对于数据的表征将回答「网络包含哪些信息？」，这一过程与解释程序内部的数据结构相似。下文将重点从以上三个方面展开讨论。

2.1

深度学习过程的可解释性

常用的深度网络使用大量的基本操作来得出决策：例如，ResNet使用了约5×107个学习参数，1010个浮点运算来对单个图像进行分类。解释这种复杂模型的基本方法是降低其复杂度。这可以通过设计表现与原始模型相似但更易于解释的代理模型来完成（线性代理模型、决策树模型等），或者也可以构建显著性图（salience map），来突出显示最相关的一部分计算，从而提供可解释性。

（1）线性代理模型（Proxy Models）

目前被广泛采用的深度学习模型，大多仍然是「黑盒模型」。在根据预测结果规划行动方案，或者选择是否部署某个新模型时，我们需要理解预测背后的推理过程，从而评估模型的可信赖程度。一种可能的方法是，使用线性可解释的模型近似“黑盒模型”。

Marco et. al [1]提出了一种新的模型无关的模型解释技术「LIME」，它可以通过一种可解释的、准确可靠的方式，通过学习一个围绕预测结果的可解释模型，解释任意的分类器或回归模型的预测结果。本文作者还通过简洁地展示具有代表性的个体预测结果及其解释，将该任务设计成了一种子模块优化问题。

文中指出，一种优秀的解释方法需要具备以下几点特质：

（1）可解释性：给出对输入变量和响应的关系的定性理解，可解释性需要考虑用户自身的限制。

（2）局部保真：解释方法至少需要在局部是可靠的，它必须与模型在被预测实例附近的表现相对应。需要指出的是，在全局上重要的特征不一定在局部环境下仍然重要，反之亦然。

（3）模型无关：解释方法需要能够解释各种各样的模型。

（4）全局视角：准确度有时并不是一个很好的模型评价指标，解释器旨在给出一些具有代表性的对样本的解释。

文中的方法可以基于对分类器局部可靠的可解释表征，来鉴别器模型的可解释性。LIME 会对输入样本进行扰动，识别出对于预测结果影响最大的特征（人类可以理解这些特征）。

图 2

如图 2 所示，加粗的红色十字样本有待解释。从全局来看，很难判断红色十字和蓝色圆圈对于带解释样本的影响。我们可以将视野缩小到黑色虚线周围的局部范围内，在加粗红色十字样本周围对原始样本特征做一些扰动，将扰动后的采样样本作为分类模型的输入，LIME 的目标函数如下：

其中，f 为分类器，g 为解释器，π_x 为临近度度量，Ω(g) 为解释器 g 的复杂度，L 为损失函数。

图 3

因为代理模型提供了模型复杂度与可信度之间的量化方法，因此方法间可以互相作为参考，吸引了许多研究工作。

（2）决策树方法

另一种代理模型的方法是决策树。将神经网络分解成决策树的工作从1990年代开始，该工作能够解释浅层网络，并逐渐泛化到深度神经网络的计算过程中。

一个经典的例子是Makoto et. al [2]。文中提出了一种新的规则抽取（Rule Extraction）方法CRED，使用决策树对神经网络进行分解，并通过c/d-rule算法合并生成的分支，产生不同分类粒度，能够考虑连续与离散值的神经网络输入输出的解释。具体算法如下：

一．将网络输入变量按设定的特征间隔大小分成不同类别，并划分网络的目标输出和其他输出。

二．建立输出隐藏决策树（Hidden-Output Decision Tree）每个结点使用预测目标的特征做区分，以此分解网络，建立网络的中间规则。

三．对于2建立的每个节点，对其代表的每个函数建立输入隐藏决策树（Hidden-Input Decision Tree），对输入的特征进行区分，得到每个节点输入的规则。

四．使用3中建立的输入规则替换结点的输出规则，得到网络整体的规则。

五．合并结点，根据设定的规则，使表达简洁。

图 4 ：CRED算法

DeepRED [3]将CRED的工作拓展到了多层网络上，并采用了多种结构优化生成树的结构。另一种决策树结构是ANN-DT[4]，同样使用模型的结点结构建立决策树，对数据进行划分。不同的是，判断节点是采用正负两种方法判断该位置的函数是否被激活，以此划分数据。决策树生成后，通过在样本空间采样、实验，获得神经网络的规则。

这阶段的工作对较浅的网络生成了可靠的解释，启发了很多工作，但由于决策树节点个数依赖于网络大小，对于大规模的网络，方法的计算开销将相应增长。

（3）自动规则生成

自动规则生成是另一种总结模型决策规律的方法，上世纪80年代， Gallant将神经网络视作存储知识的数据库，为了从网络中发掘信息和规则，他在工作[4]中提出了从简单网络中提取规则的方法，这可以被看作是规则抽取在神经网络中应用的起源。现今，神经网络中的规则生成技术主要讲输出看作规则的集合，利用命题逻辑等方法从中获取规则。

Hiroshi Tsukimoto [6]提出了一种从训练完成的神经网络中提取特征提取规则的方法，该方法属于分解法，可以适用在输出单调的神经网络中，如sigmoid函数。该方法不依赖训练算法，计算复杂度为多项式，其计算思想为：用布尔函数拟合神经网络的神经元，同时为了解决该方法导致计算复杂度指数增加的问题，将算法采用多项式表达。最后将该算法推广到连续域，提取规则采用了连续布尔函数。

Towell [7]形式化了从神经网络中提取特征的方法，文章从训练完成的神经网络中提取网络提取特征的方法，MoFN，该方法的提取规则与所提取的网络的精度相近，同时优于直接细化规则的方法产生的规则，更加利于人类理解网络。

MoFN分为6步：1）聚类；2）求平均；3）去误差；4）优化；5）提取；6）简化。

聚类采用标准聚类方法，一次组合两个相近的族进行聚类，聚类结束后对聚类的结果进行求平均处理，计算时将每组中所有链路的权重设置为每个组权重的平均值，接下来将链接权重较低的组去除，将留下的组进行单位偏差优化，优化后的组进行提取工作，通过直接将每个单元的偏差和传入权重转换成具有加权前因的规则来创建，最后对提取到的规则简化。MOFN的算法示例如下图所示。

图5：MOFN 算法

规则生成可以总结出可靠可信的神经网络的计算规则，他们有些是基于统计分析，或者是从模型中推导，在保障神经网络在关键领域的应用提供了安全保障的可能。

（4）显著性图

显著性图方法使用一系列可视化的技术，从模型中生成解释，该解释通常表达了样本特征对于模型输出的影响，从而一定程度上解释模型的预测。常见方法有反卷积、梯度方法等。Zeiler [8]提出了可视化的技巧，使用反卷积观察到训练过程中特征的演化和影响，对CNN内部结构与参数进行了一定的“解读”，可以分析模型潜在的问题，网络深度、宽度、数据集大小对网络性能的影响，也可以分析了网络输出特征的泛化能力以及泛化过程中出现的问题。

利用反卷积实现特征可视化

为了解释卷积神经网络如何工作，就需要解释CNN的每一层学习到了什么东西。为了理解网络中间的每一层，提取到特征，论文通过反卷积的方法，进行可视化。反卷积网络可以看成是卷积网络的逆过程。反卷积可视化以各层得到的特征图作为输入，进行反卷积，得到反卷积结果，用以验证显示各层提取到的特征图。

Eg：假如你想要查看Alexnet的conv5提取到了什么东西，就用conv5的特征图后面接一个反卷积网络，然后通过：反池化、反激活、反卷积，这样的一个过程，把本来一张13*13大小的特征图(conv5大小为13*13)，放大回去，最后得到一张与原始输入图片一样大小的图片(227*227)。

反池化过程

池化是不可逆的过程，然而可以通过记录池化过程中，最大激活值的坐标位置。然后在反池化的时候，只把池化过程中最大激活值所在的位置坐标的值激活，其它的值置为0，当然这个过程只是一种近似，因为在池化的过程中，除了最大值所在的位置，其它的值也是不为0的。

图 6

反激活

在Alexnet中，relu函数是用于保证每层输出的激活值都是正数，因此对于反向过程，同样需要保证每层的特征图为正值，也就是说这个反激活过程和激活过程没有什么差别，都是直接采用relu函数。

另一些可视化方法可视化方法主要是通过deconv的方法将某一层特征图的Top-k激活反向投射到原图像上，从而判断该激活值主要识别图像的什么部分。这就要求针对每一层都必须有对应的逆向操作。

具体而言，对于MaxPooling层，在前馈时使用switch变量来记录最大值来源的index，然后以此近似得到Unpooling。对于Relu层，直接使用Relu层。而对于conv层，使用deconv，即使用原来卷积核的转置作为卷积核。通过可视化方法，对训练完成的模型在ImageNet的数据各层可视化后，可以得到不同结构的重建特征图，与原图进行对比能够直观地看到网络各层学习到的信息：

图 7：第二层学习边缘，角落信息；第三层学到了一些比较复杂的模式，网状，轮胎；第四层展示了一些比较明显的变化，但是与类别更加相关了，比如狗脸，鸟腿；第五层则看到了整个物体，比如键盘，狗。

同时，通过可视化，我们也可以发现模型的缺陷，例如某些层学习到的特征杂乱无章，通过单独训练，可以提升模型效果。另外的方法也被采用，例如使用遮挡的方法，通过覆盖输入的某部分特征，分析输出和模型计算的中间参数，得到模型对被遮挡部分的敏感性，生成敏感性图，或者用梯度方法得到输出对于输入图像像素的梯度，生成梯度热力图。

总结性的工作来自ETH Zurch的Enea Ceolini [9]证明了基于梯度的归因方法（gradient-based Attribution methods）存在形式上\联系，文章证明了在一定情况下，诸如sigma-LRP[10]、DeepLIF[11]方法间存在的等价和近似关系，并基于统一的数学表达，提出了一个更普适的梯度归因方法框架Sensitivity-n，用于解释模型输入输出之间的关联。

深度学习的归因分析用于解释输入的每个变量对于神经网络的贡献（contribution），或相关程度（relevance），严格来说，假设网络的输入为x = [x1, ..., xN ]，C个输出神经元对应的输出为S(x) = [S1(x), ..., SC (x)]，归因分析的目标便是找到xi对于每个神经元输出的贡献，Rc = [Rc 1 , ..., Rc N ]。

基于梯度的方法可以被看作直接使用输出对输出的特征求梯度，用梯度的一定变换形式表示其重要性，工作中展示的考虑不同大小特征区域热力图如下：

图 8

文章分析了不同方法的效果差异：

图 9

通过证明，得到通用的梯度方法表示为：

基于上述推导，作者得以提出了sensitivity-n方法，总结了相似的梯度方法，并使后续工作可以在更广泛的框架下讨论。

2.2

深度网络表示的可解释性

尽管存在大量神经网络运算，深度神经网络内部由少数的子组件构成：例如，数十亿个ResNet的操作被组织为约100层，每层计算64至2048信息通道像素。对深层网络表示的解释旨在了解流经这些信息瓶颈的数据的作用和结构。可以按其粒度划分为三个子类：基于层的解释，将流经层的所有信息一起考虑；基于神经元的解释，用来说明单个神经元或单个filter通道的情况；此外基于（其他)表示向量的解释，例如概念激活向量（CAV）[12]是通过识别和探测与人类可解释概念一致的方向来解释神经网络表示，用单个单元的线性组合所形成的表示向量空间中的其他方向作为其表征向量。

（1）基于层的解释

Bengio等人[13]分析了在图片分类任务中，不同层的神经网络的功能和可迁移性，以及不同迁移方法对结果的影响。从实验的角度分析了神经网络不同层参数具有的一些性质，证明了模型迁移方法的普遍效果。作者验证了浅层神经网络在特征抽取功能上的通用性和可复用性，针对实验结果提出了可能的解释，表明影响迁移学习效果的因素有二：

1）共同训练变量的影响

通过反向传播算法训练的神经网络，结点参数并非单独训练，其梯度计算依赖于一系列相关结点，因此迁移部分结点参数会引起相关结点的训练困难。

2）迁移参数的通用性能和专用性

网络中较浅层网络的功能较为通用，而高层网络与网络的训练目标更加相关。若A、B任务不想关，则专用于A的参数迁移后会影响对B任务的学习。

图10

实验结果发现，在不同的实验条件下，两种因素会不同程度决定迁移学习的效果。例如，当迁移较深层网络并固定参数时，高层参数的专用性会导致在迁移到的任务上表现不佳，但这时共同训练的变量影响会减小，因为大部分参数都被迁移获得；当迁移自身的参数并固定时，在层数较小的情况下出现了性能下降，这说明了共同训练的变量对表现的影响。另外，实验发现完全不相关的任务对应的迁移，在经过充分微调后仍然能提升模型的性能，这证明了参数迁移是一个通用的提升模型性能的方法。

牛津大学Karen Simonyan等人[14]为解决深层卷积神经网络分类模型的可视化问题，提出了两种方法：第一种生成图像使得类得分最大化，再将类可视化；第二种计算给定图像和类的类显著性映射，同时还证明了这种方法可以使用分类转换网络的弱监督对象分类。整个文章主要有三个贡献：证明了理解分类CNN模型可以使用输入图像的数值优化；提出了一种在图像中提取指定类别的空间表征信息(image-specific class saliency map)的方法(只通过一次back-propagation)，并且这种saliency maps可以用于弱监督的物体定位。证明gradient-based的可视化方法可以推广到deconvolutional network的重构过程。

在第一类方法中，文中采用公式（1）进行图像分类模型的可视化操作，其中表示c的分数，由ConvNet的分类层对图像I计算得到，是正则化参数。可视化过程与ConvNet训练过程类似，不同之处在于对图像的输入做了优化，权重则固定为训练阶段得到的权重。图1所示为使用零图像初始化优化，然后将训练集的均值图像添加到结果中的输出图。

（1）

图 11

在第二类方法中，给定一张图像I0，在I0附近使用一阶泰勒展开的线性函数来近似Sc(I)：，其中w即为Sc对于图像I的导数在I0点的值：。

在给定的图像I0(m行n列)和对应的类别c中，要求得它对应saliency map M (M∈Rmxn)，首先按照上述公式利用back-propagation 可以求得导数w，然后对w元素进行重新排列即可得到Saliency Map。Saliency Map是利用训练好的CNN直接提取的，无需使用额外的标注，而且对于某个特定类别的image-specific saliency map的求解是很快的，只需要一次back-propagation。可视化结果如图2所示

图 12

在第二类方法中得到的Saliency Map编码了给定图像中特定类别的物体位置信息，所以它可以被用来进行物体定位(尽管它在分类任务上得到训练，弱监督学习)。给定一张图像和其对应的Saliency Map，可以使用GraphCut颜色分割模型来得到物体分割mask。要使用颜色分割模型主要是因为Saliency Map只能捕捉到一个物体最具有区分性的部分，它无法highlight整个物体，因此需要将threshold map传递到物体的其他区域，本文使用colour continuity cues来达到这个目的。前景和背景模型都被设置为高式混合模型，高于图像Saliency distribution 95％的像素被视为前景，Saliency低于30%的像素被视为背景。标记了前景和背景像素之后，前景像素的最大连接区域即为对应物体的分割mask(使用GraphCut算法)，效果如图3所示。

图 13

此外，Zhang et. al. 的工作[15]发现网络浅层具有统计输入信息的功能，并发现其和共享的特征信息一样，对迁移带来的性能提升起到了帮助。通过从相同checkpoint训练，发现参数迁移，可以使模型损失每次都保持在相同的平面内（basin），具有相似的地形，但随机初始化的参数每次损失所在的训练平面不同。文章支持了高层、低层网络具有的不同功能，发现高层网路对于参数的改变更加敏感。

（2）基于神经元的解释

香港中文大学助理教授周博磊的工作[16]为 CAM 技术的奠定了基础，发现了 CNN 中卷积层对目标的定位功能。在改文中，作者对场景分类任务中训练 CNN 时得到的目标检测器展开了研究。由于场景是由物体组成的，用于场景分类的 CNN 会自动发现有意义的目标检测器，它们对学到的场景类别具有代表性。作者发现，单个网络可以支持多个级别的抽象（如边缘、纹理、对象、场景），同一个网络可以在无监督环境下，在单个前向传播过程中同时完成场景识别和目标定位。

图 14：估计每个神经元的感受野

针对每个神经元，作者估计出了其确切地感受野，并观察到激活区域倾向于随着层的深度增加而在语义上变得更有意义（这是启发后来一系列计算机视觉神经网络框架的理论基础）。

周博磊CVPR 2017[17]提出了一种名为“Network Dissection”的通用框架，假设“单元的可解释性等同于单元的随机线性结合”，通过评估单个隐藏单元与一系列语义概念间的对应关系，来量化 CNN 隐藏表征的可解释性。

这种方法利用大量的视觉概念数据集来评估每个中间卷积层隐藏单元的语义。这些带有语义的单元被赋予了大量的概念标签，这些概念包括物体、组成部分、场景、纹理、材料和颜色等。该方法揭示 CNN 模型和训练方法的特性，而不仅仅是衡量他们的判别能力。

论文发现：人类可解释的概念有时候会以单一隐藏变量的形式出现在这些网络中；当网络未受限于只能用可解释的方式分解问题时，就会出现这种内部结构。这种可解释结构的出现意味着，深度神经网络也许可以自发学习分离式表征(disentangled representations)。

众所周知，神经网络可以学习某种编码方式，高效利用隐藏变量来区分其状态。如果深度神经网络的内部表征是部分分离的，那么检测断分离式结构并读取分离因数可能是理解这种机制的一种方法。同时该论文指出可解释性是与坐标轴对齐（axis-aligned）的，对表示（representation）进行翻转(rotate)，网络的可解释能力会下降，但是分类性能不变。越深的结构可解释性越好，训练轮数越多越好。而与初始化无关dropout会增强可解释性而Batch normalization会降低可解释性。

图 15

麻省理工大学CSAIL的Jonathan Frankle和Michael Carbin论文[18]中指出神经网络剪枝技术可以将受过训练的网络的参数减少90％以上，在不影响准确性的情况下，降低存储要求并提高计算性能。

然而，目前的经验是通过剪枝产生的稀疏架构很难从头训练，也很难提高训练性能。作者发现标准的剪枝技术自然而然地可以得到子网络，它们能在某些初始化条件下有效地进行训练。在此基础之上，作者提出了彩票假设：任何密集、随机初始化的包含子网络（中奖彩票）的前馈网络，当它们被单独训练时，可以在相似的迭代次数内达到与原始网络相当的测试精度。

具体而言，作者通过迭代式而定剪枝训练网络，并剪掉最小的权重，从而得到「中奖彩票」。通过大量实验，作者发现，剪枝得到的中奖彩票网络比原网络学习得更快，泛化性能更强，准确率更高。剪枝的主要的步骤如下：

（1）随机初始化一个神经网络

（2）将网络训练 j 轮，得到参数

（3）剪掉中 p% 的参数，得到掩模 m

（4）将剩余的参数重置为中的值，生成中奖彩票

图 16：虚线为随机才应该能得到的稀疏网络，实现为中奖彩票。

此外，加利福尼亚大学的ZHANG Quanshi和ZHU Song-chun 综述了近年来神经网络可解释性方面的研究进展[19]。文章以卷积神经网络（CNN）为研究对象，回顾了CNN表征的可视化、预训练CNN表征的诊断方法、预训练CNN表征的分离方法、带分离表示的CNN学习以及基于模型可解释性的中端学习。

最后，讨论了可解释人工智能的发展趋势，并且指出了以下几个未来可能的研究方向：1）将conv层的混沌表示分解为图形模型或符号逻辑；2）可解释神经网络的端到端学习，其中间层编码可理解的模式（可解释的cnn已经被开发出来，其中高转换层中的每个过滤器代表一个特定的对象部分）；3）基于CNN模式的可解释性表示，提出了语义层次的中端学习，以加快学习过程；4）基于可解释网络的语义层次结构，在语义级别调试CNN表示将创建新的可视化应用程序。

网络模型自身也可以通过不同的设计方法和训练使其具备一定的解释性，常见的方法主要有三种：注意力机制网络；分离表示法；生成解释法。基于注意力机制的网络可以学习一些功能，这些功能提供对输入或内部特征的加权，以引导网络其他部分可见的信息。分离法的表征可以使用单独的维度来描述有意义的和独立的变化因素，应用中可以使用深层网络训练显式学习的分离表示。在生成解释法中，深层神经网络也可以把生成人类可理解的解释作为系统显式训练的一部分。

2.3

生成自我解释的深度学习系统

（1）注意力机制网络

注意力机制的计算过程可以被解释为：计算输入与其中间过程表示之间的相互权重。计算得到的与其他元素的注意力值可以被直观的表示。

在Dong Huk Park 发表于CVPR2018的[20]一文中，作者提出的模型可以同时生成图像与文本的解释。其方法在于利用人类的解释纠正机器的决定，但当时并没有通用的包含人类解释信息与图像信息的数据集，因此，作者整理了数据集ACT-X与VQA-X，并在其上训练提出了P-JX（Pointing and Justification Explanation）模型，检测结果如图所示。

图 17：P-JX模型检测结果

模型利用「attention」机制得到图像像素的重要性，并据此选择输出的视觉图，同时，数据集中的人类解释文本对模型的预测作出纠正，这样模型可以同时生成可视化的解释，亦能通过文字说明描述关注的原因。例如在上图中，对问题「Is this a healthy meal」，针对图片，关注到了热狗，因此回答「No」，图片的注意力热力图给出了可视化的解释，同时文本亦生成了对应的文本解释。作者认为，利用多模态的信息可以更好地帮助模型训练，同时引入人类的知识纠错有利于提高模型的可解释性。

由于类别之间只有通过细微局部的差异才能够被区分出来，因此「fine-grained」分类具有挑战性，在Xiao et. al. 的[21]中，作者将视觉「attention」应用到「fine-grained」分类问题中，尽管注意力的单元不是出于可解释性的目的而训练的，但它们可以直接揭示信息在网络种的传播地图，可以作为一种解释。由于细粒度特征不适用bounding box标注，因此该文章采用「弱监督学习」的知识来解决这一问题。

该文章中整合了3种attention模型：「bottom-up」（提供候选者patch），「object-level top-down」（certain object相关patch），和「part-level top-down 」（定位具有分辨能力的parts），将其结合起来训练「domain-specific深度网络」。

图 18：Domain-specific深度网络结构示意图

domain-specific深度网络结构示意图如图 18 所示：实现细粒度图像分类需要先看到物体，然后看到它最容易判别的部分。通过bottom-up生成候选patches，这个步骤会提供多尺度，多视角的原始图像。

如果object很小，那么大多数的patches都是背景，因此需要top-down的方法来过滤掉这些噪声patches，选择出相关性比较高的patches。寻找前景物体和物体的部分分别采用「object-level」和「part-level」两个过程，二者由于接受的patch不同，使其功能和优势也不同。在object-level中对产生的patches选出包含基本类别对象的patch，滤掉背景。part-level分类器专门对包含有判别力的局部特征进行处理。

有的patch被两个分类器同时使用，但该部分代表不同的特征，将每幅图片的object-level和part-level的分数相加，得到最终的分数，即分类结果。

（2）分离表示法

分离表示目标是用高低维度的含义不同的独立特征表示样本，过去的许多方法提供了解决该问题的思路，例如PCA、ICA、NMF等。深度网络同样提供了处理这类问题的方法。

Chen et. al. 在加州大学伯克利分校的工作[22]曾被 OpenAI 评为 2016 年 AI 领域的五大突破之一，在 GAN 家族的发展历史上具有里程碑式的意义。对于大多数深度学习模型而言，其学习到的特征往往以复杂的方式在数据空间中耦合在一起。如果可以对学习到的特征进行解耦，就可以得到可解释性更好的编码。对于原始的 GAN 模型而言，生成器的输入为连续的噪声输入，无法直观地将输入的维度与具体的数据中的语义特征相对应，即无法得到可解释的数据表征。为此，InfoGAN 的作者以无监督的方式将 GAN 的输入解耦为两部分：

（1）不可压缩的 z，该部分不存在可以被显式理解的语义信息。

（2）可解释的隐变量 c，该部分包含我们关心的语义特征（如 MNIST 数据集中数字的倾斜程度、笔画的粗细），与生成的数据之间具有高相关性（即二者之间的互信息越大越好）。

若 c 对生成数据 G(z,c)的可解释性强，则 c 与 G(z,c) 之间的交互信息较大。为了实现这一目标，作者向原始 GAN 的目标函数中加入了一个互信息正则化项，得到了如下所示的目标函数：

然而，在计算新引入的正则项过程中，模型难以对后验分布 P(C|X) 进行采样和估计。因此，作者采用变分推断的方法，通过变分分布 Q(C|X) 逼近 P(C|X)。最终，InfoGAN 被定义为了如下所示的带有变分互信息正则化项和超参数 λ 的 minmax 博弈：

图 19：InfoGAN 框架示意图

张拳石团队的[23]一文中，提出了一种名为「解释图」的图模型，旨在揭示预训练的 CNN 中隐藏的知识层次。

在目标分类和目标检测等任务中，端到端的「黑盒」CNN模型取得了优异的效果，但是对于其包含丰富隐藏模式的卷积层编码，仍然缺乏合理的解释，要对 CNN 的卷积编码进行解释，需要解决以下问题：

CNN 的每个卷积核记忆了多少种模式？
哪些模式会被共同激活，用来描述同一个目标部分？
两个模式之间的空间关系如何？

图 20：解释图结构示意图

解释图结构示意图表示了隐藏在 CNN 卷积层中的知识层次。预训练 CNN 中的每个卷积核可能被不同的目标部分激活。本文提出的方法是以一种无监督的方式将不同的模式从每个卷积核中解耦出来，从而使得知识表征更为清晰。

具体而言，解释图中的各层对应于 CNN 中不同的卷积层。解释图的每层拥有多个节点，它们被用来表示所有候选部分的模式，从而总结对应的卷积层中隐藏于无序特征图中的知识，图中的边被用来连接相邻层的节点，从而编码它们对某些部分的共同激活逻辑和空间关系。将一张给定的图像输入给 CNN，解释图应该输出：（1）某节点是否被激活（2）某节点在特征图中对应部分的位置。由于解释图学习到了卷积编码中的通用知识，因此可以将卷积层中的知识迁移到其它任务中。

图 21：解释图中各部分模式之间的空间关系和共同激活关系图

解释图中各部分模式之间的空间关系和共同激活关系。高层模式将噪声滤除并对低层模式进行解耦。从另一个层面上来说，可以将低层模式是做高层模式的组成部分。

另外，张拳石[24]认为在传统的CNN中，一个高层过滤器可能会描述一个混合的模式，例如过滤器可能被猫的头部和腿部同时激活。这种高卷积层的复杂表示会降低网络的可解释性。针对此类问题，作者将过滤器的激活与否交由某个部分控制，以达到更好的可解释性，通过这种方式，可以明确的识别出CNN中哪些对象部分被记忆下来进行分类，而不会产生歧义。

模型通过对高卷积层的每个filter计算loss，种loss降低了类间激活的熵和神经激活的空间分布的熵，每个filter必须编码一个单独的对象部分，并且过滤器必须由对象的单个部分来激活，而不是重复地出现在不同的对象区域。

图 22

Hinton的胶囊网络 [25]，是当年的又一里程碑式著作。作者通过对CNN的研究发现CNN存在以下问题：1) CNN只关注要检测的目标是否存在，而不关注这些组件之间的位置和相对的空间关系;2) CNN对不具备旋转不变性，学习不到3D空间信息；3）神经网络一般需要学习大量案例，训练成本高。为了解决这些问题，作者提出了「胶囊网络」，使网络在减少训练成本的情况下，具备更好的表达能力和解释能力。

「胶囊（Capsule）」可以表示为一组神经元向量，用向量的长度表示物体「存在概率」，再将其压缩以保证属性不变，用向量的方向表示物体的「属性」，例如位置，大小，角度，形态，速度，反光度，颜色，表面的质感等。

和传统的CNN相比，胶囊网络的不同之处在于计算单位不同，传统神经网络以单个神经元作为单位，capsule以一组神经元作为单位。相同之处在于，CNN中神经元与神经元之间的连接，capsNet中capsule与capsule之间的连接，都是通过对输入进行加权的方式操作。

胶囊网络在计算的过程中主要分为四步：

输入向量ui的W矩阵乘法；
输入向量ui的标量权重c；
加权输入向量的总和；
向量到向量的非线性变换。

网络结构如下图所示，其中「ReLI Conv1」是常规卷积层；「PrimaryCaps」构建了32个channel的capsules，得到6*6*8的输出；「DigiCaps」对前面1152个capules进行传播与「routing」更新，输入是1152个capsules，输出是10个capules，表示10个数字类别，最后用这10个capules去做分类。

图23：胶囊网络网络结构示意图

（3）生成解释法

除了上文介绍的诸多方法外，在模型训练的同时，可以设计神经网络模型，令其产生能被人类理解的证据，生成解释的过程也可被显式地定义为模型训练的一部分。

Wagner 2019[26]首次实现了图像级别的细粒度解释。文中提出的「FGVis」，避免了图像的可解释方法中对抗证据的问题，传统方法采用添加正则项的方式缓解，但由于引入了超参，人为的控制导致无法生成更加可信的，细粒度的解释。文中的FGVis方法基于提出的「对抗防御（Adversarial Defense）」方法，通过过滤可能导致对抗证据的样本梯度，从而避免这个问题。该方法并不基于任何模型或样本，而是一种优化方法，并单独对生成解释图像中的每个像素优化，从而得到细粒度的图像解释，检测示意图如图[24] 所示。

图24：FGVis检测结果示意图

另一个视觉的例子来自Antol et. 的Vqa[27]，文章将视觉问题的「回答任务（Vqa）」定义为给定一个图像和一个开放式的、关于图像的自然语言问题，并提出了Vqa的「基准」和「回答方法」，同时还开发了一个两通道的视觉图像加语言问题回答模型。

文章首先对Vqa任务所需的数据集进行采集和分析，然后使用baselines为「基准」对「方法」进行评估，基准满足4个条件：1) 随机，2)答案先验, 3）问题先验，4）最近邻。

「方法」使用文中开发的两个视觉（图像）通道加语言（问题）通道通过多层感知机结合的模型，结构图如图所示。视觉图像通道利用 VGGNet最后一层隐藏层的激活作为 4096- dim 图像嵌入，语言问题通道使用三种方法嵌入：

构建「词袋问题(BoW Q)」；
「LSTM Q 」具有一个隐藏层的lstm对1024维的问题进行嵌入；
「deeper LSTM Q」。最终使用softmax方法输出K个可能的答案。

图 25：deeper LSTM Q + norm I 结构图

三. 总结

为了使深度学习模型对用户而言更加「透明」，研究人员近年来从「可解释性」和「完整性」这两个角度出发，对深度学习模型得到预测、决策结果的工作原理和深度学习模型本身的内部结构和数学操作进行了解释。至今，可解释性深度学习领域的研究人员在「网络对于数据的处理过程」、「网络对于数据的表征」，以及「如何构建能够生成自我解释的深度学习系统」三个层次上均取得了可喜的进展：

就网络工作过程而言，研究人员通过设计线性代理模型、决策树模型等于原始模型性能相当，但具有更强可解释性的模型来解释原始模型；此外，研究人员还开发出了显著性图、CAM 等方法将于预测和决策最相关的原始数据与计算过程可视化，给出一种对深度学习模型的工作机制十分直观的解释。
就数据表征而言，现有的深度学习解释方法涉及「基于层的解释」、「基于神经元的解释」、「基于表征向量的解释」三个研究方向，分别从网络层的设计、网络参数规模、神经元的功能等方面探究了影响深度学习模型性能的重要因素。
就自我解释的深度学习系统而言，目前研究者们从注意力机制、表征分离、解释生成等方面展开了研究，在「视觉-语言」多模态任务中实现了对模型工作机制的可视化，并且基于 InfoGAN、胶囊网络等技术将对学习有不同影响表征分离开来，实现了对数据表征的细粒度控制。

然而，现有的对深度学习模型的解释方法仍然存在诸多不足，面临着以下重大的挑战：

现有的可解释性研究往往针对「任务目标」和「完整性」其中的一个方向展开，然而较少关注如何将不同的模型解释技术合并起来，构建更为强大的模型揭示方法。
缺乏对于解释方法的度量标准，无法通过更加严谨的方式衡量对模型的解释结果。
现有的解释方法往往针对单一模型，模型无关的解释方法效果仍有待进一步提升。
对无监督、自监督方法的解释工作仍然存在巨大的探索空间。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）大脑研究计划，构建互联网（城市）大脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

如果您对实验室的研究感兴趣，欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

你可能感兴趣的:(神经网络,可视化,大数据,算法,编程语言)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
【一起学Rust | 设计模式】习惯语法——使用借用类型作为参数、格式化拼接字符串、构造函数广龙宇一起学Rust #Rust设计模式 rust 设计模式开发语言
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、使用借用类型作为参数二、格式化拼接字符串三、使用构造函数总结前言Rust不是传统的面向对象编程语言，它的所有特性，使其独一无二。因此，学习特定于Rust的设计模式是必要的。本系列文章为作者学习《Rust设计模式》的学习笔记以及自己的见解。因此，本系列文章的结构也与此书的结构相同（后续可能会调成结构），基本上分为三个部分
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Goolge earth studio 进阶4——路径修改与平滑陟彼高冈yu Google earth studio 进阶教程旅游
如果我们希望在大约中途时获得更多的城市鸟瞰视角。可以将相机拖动到这里并创建一个新的关键帧。camera_target_clip_7EarthStudio会自动平滑我们的路径，所以当我们通过这个关键帧时，不是一个生硬的角度，而是一个平滑的曲线。camera_target_clip_8路径上有贝塞尔控制手柄，允许我们调整路径的形状。右键单击，我们可以选择“平滑路径”，这是默认的自动平滑算法，或者我们可
Google earth studio 简介陟彼高冈yu 旅游
GoogleEarthStudio是一个基于Web的动画工具，专为创作使用GoogleEarth数据的动画和视频而设计。它利用了GoogleEarth强大的三维地图和卫星影像数据库，使用户能够轻松地创建逼真的地球动画、航拍视频和动态地图可视化。网址为https://www.google.com/earth/studio/。GoogleEarthStudio是一个基于Web的动画工具，专为创作使用G
基于社交网络算法优化的二维最大熵图像分割智能算法研学社（Jack旭）智能优化算法应用图像分割算法 php 开发语言
智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码文章目录智能优化算法应用：基于社交网络优化的二维最大熵图像阈值分割-附代码1.前言2.二维最大熵阈值分割原理3.基于社交网络优化的多阈值分割4.算法结果：5.参考文献：6.Matlab代码摘要：本文介绍基于最大熵的图像分割，并且应用社交网络算法进行阈值寻优。1.前言阅读此文章前，请阅读《图像分割：直方图区域划分及信息统计介绍》htt
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
121. 买卖股票的最佳时机薄荷糖的味道_fb40
给定一个数组，它的第i个元素是一支给定股票第i天的价格。如果你最多只允许完成一笔交易（即买入和卖出一支股票），设计一个算法来计算你所能获取的最大利润。注意你不能在买入股票前卖出股票。示例1:输入:[7,1,5,3,6,4]输出:5解释:在第2天（股票价格=1）的时候买入，在第5天（股票价格=6）的时候卖出，最大利润=6-1=5。注意利润不能是7-1=6,因为卖出价格需要大于买入价格。示例2:输入:
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
回溯算法-重新安排行程 chirou_ 算法数据结构图论 c++图搜索
leetcode332.重新安排行程这题我还没自己ac过，只能现在凭着刚学完的热乎劲把我对题解的理解记下来。本题我认为对数据结构的考察比较多，用什么数据结构去存数据，去读取数据，都是很重要的。classSolution{private:unordered_map>targets;boolbacktracking(intticketNum,vector&result){//1.确定参数和返回值//2
高级 ECharts 技巧：自定义图表主题与样式 SnowMan1993 echarts 信息可视化数据分析
ECharts是一个强大的数据可视化库，提供了多种内置主题和样式，但你也可以根据项目的设计需求，自定义图表的主题与样式。本文将介绍如何使用ECharts自定义图表主题，以提升数据可视化的吸引力和一致性。1.什么是ECharts主题？ECharts的主题是指定义图表样式的配置项，包括颜色、字体、线条样式等。通过预设主题，你可以快速更改图表的整体风格，而自定义主题则允许你在此基础上进行个性化设置。2.
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
insert into select 主键自增_mybatis拦截器实现主键自动生成 weixin_39521651 insert into select 主键自增 mybatis delete返回值 mybatis insert返回主键 mybatis insert返回对象 mybatis plus insert返回主键 mybatis plus 插入生成id
前言前阵子和朋友聊天，他说他们项目有个需求，要实现主键自动生成，不想每次新增的时候，都手动设置主键。于是我就问他，那你们数据库表设置主键自动递增不就得了。他的回答是他们项目目前的id都是采用雪花算法来生成，因此为了项目稳定性，不会切换id的生成方式。朋友问我有没有什么实现思路，他们公司的orm框架是mybatis，我就建议他说，不然让你老大把mybatis切换成mybatis-plus。mybat
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
JVM、JRE和 JDK：理解Java开发的三大核心组件 Y雨何时停T Java java
Java是一门跨平台的编程语言，它的成功离不开背后强大的运行环境与开发工具的支持。在Java的生态中，JVM（Java虚拟机）、JRE（Java运行时环境）和JDK（Java开发工具包）是三个至关重要的核心组件。本文将探讨JVM、JDK和JRE的区别，帮助你更好地理解Java的运行机制。1.JVM：Java虚拟机（JavaVirtualMachine）什么是JVM？JVM，即Java虚拟机，是Ja
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
数据结构 | 栈和队列 TT-Kun 数据结构与算法数据结构栈队列 C语言
文章目录栈和队列1.栈：后进先出（LIFO）的数据结构1.1概念与结构1.2栈的实现2.队列：先进先出（FIFO）的数据结构2.1概念与结构2.2队列的实现3.栈和队列算法题3.1有效的括号3.2用队列实现栈3.3用栈实现队列3.4设计循环队列结论栈和队列在计算机科学中，栈和队列是两种基本且重要的数据结构，它们在处理数据存储和访问顺序方面有着独特的规则和应用。本文将详细介绍栈和队列的概念、结构、实
[Python] 数据结构详解及代码 AIAdvocate 算法 python 数据结构链表
今日内容大纲介绍数据结构介绍列表链表1.数据结构和算法简介程序大白话翻译,程序=数据结构+算法数据结构指的是存储,组织数据的方式.算法指的是为了解决实际业务问题而思考思路和方法,就叫:算法.2.算法的5大特性介绍算法具有独立性算法是解决问题的思路和方式,最重要的是思维,而不是语言,其(算法)可以通过多种语言进行演绎.5大特性有输入,需要传入1或者多个参数有输出,需要返回1个或者多个结果有穷性,执行
Python算法L5：贪心算法小熊同学哦 Python算法算法 python 贪心算法
Python贪心算法简介目录Python贪心算法简介贪心算法的基本步骤贪心算法的适用场景经典贪心算法问题1.**零钱兑换问题**2.**区间调度问题**3.**背包问题**贪心算法的优缺点优点：缺点：结语贪心算法（GreedyAlgorithm）是一种在每一步选择中都采取当前最优或最优解的算法。它的核心思想是，在保证每一步局部最优的情况下，希望通过贪心选择达到全局最优解。虽然贪心算法并不总能得到全
JAVA·一个简单的登录窗口 MortalTom java 开发语言学习
文章目录概要整体架构流程技术名词解释技术细节资源概要JavaSwing是Java基础类库的一部分，主要用于开发图形用户界面（GUI）程序整体架构流程新建项目，导入sql.jar包（链接放在了文末），编译项目并运行技术名词解释一、特点丰富的组件提供了多种可视化组件，如按钮（JButton）、文本框（JTextField）、标签（JLabel）、下拉列表（JComboBox）等，可以满足不同的界面设计
WebMagic：强大的Java爬虫框架解析与实战 Aaron_945 Java java 爬虫开发语言
文章目录引言官网链接WebMagic原理概述基础使用1.添加依赖2.编写PageProcessor高级使用1.自定义Pipeline2.分布式抓取优点结论引言在大数据时代，网络爬虫作为数据收集的重要工具，扮演着不可或缺的角色。Java作为一门广泛使用的编程语言，在爬虫开发领域也有其独特的优势。WebMagic是一个开源的Java爬虫框架，它提供了简单灵活的API，支持多线程、分布式抓取，以及丰富的
GenVisR 基因组数据可视化实战(三) 11的雾
3.genCov画每个突变位点附件的coverage，跟igv有点相似。这个操作起来很复杂，但是图还是挺有用的。可以考虑。由于我的referencegenomebuild是hg38BiocManager::install(c("TxDb.Hsapiens.UCSC.hg38.knownGene","BSgenome.Hsapiens.UCSC.hg38"))library(TxDb.Hsapien
【RabbitMQ 项目】服务端：数据管理模块之绑定管理月夜星辉雪 rabbitmq 分布式
文章目录一.编写思路二.代码实践一.编写思路定义绑定信息类交换机名称队列名称绑定关键字：交换机的路由交换算法中会用到没有是否持久化的标志，因为绑定是否持久化取决于交换机和队列是否持久化，只有它们都持久化时绑定才需要持久化。绑定就好像一根绳子，两端连接着交换机和队列，当一方不存在，它就没有存在的必要了定义绑定持久化类构造函数：如果数据库文件不存在则创建，打开数据库，创建binding_table插入
html页面js获取参数值 0624chenhong html
1.js获取参数值js function GetQueryString(name) { var reg = new RegExp("(^|&)"+ name +"=([^&]*)(&|$)"); var r = windo
MongoDB 在多线程高并发下的问题 BigCat2013 mongodb DB 高并发重复数据
最近项目用到 MongoDB , 主要是一些读取数据及改状态位的操作. 因为是结合了最近流行的 Storm进行大数据的分析处理，并将分析结果插入Vertica数据库，所以在多线程高并发的情境下, 会发现 Vertica 数据库中有部分重复的数据. 这到底是什么原因导致的呢？笔者开始也是一筹莫展，重复去看 MongoDB 的 API , 终于有了新发现： com.mongodb.DB 这个类有
c++ 用类模版实现链表(c++语言程序设计第四版示例代码) CrazyMizzz 数据结构 C++
#include<iostream> #include<cassert> using namespace std; template<class T> class Node { private: Node<T> * next; public: T data;
最近情况麦田的设计者感慨考试生活
在五月黄梅天的岁月里，一年两次的软考又要开始了。到目前为止，我已经考了多达三次的软考，最后的结果就是通过了初级考试（程序员）。人啊，就是不满足，考了初级就希望考中级，于是，这学期我就报考了中级，明天就要考试。感觉机会不大，期待奇迹发生吧。这个学期忙于练车，写项目，反正最后是一团糟。后天还要考试科目二。这个星期真的是很艰难的一周，希望能快点度过。
linux系统中用pkill踢出在线登录用户被触发 linux
由于linux服务器允许多用户登录，公司很多人知道密码，工作造成一定的障碍所以需要有时踢出指定的用户 1/#who 查出当前有那些终端登录（用 w 命令更详细） # who root pts/0 2010-10-28 09:36 (192
仿QQ聊天第二版肆无忌惮_ qq
在第一版之上的改进内容: 第一版链接: http://479001499.iteye.com/admin/blogs/2100893 用map存起来号码对应的聊天窗口对象,解决私聊的时候所有消息发到一个窗口的问题. 增加ViewInfo类,这个是信息预览的窗口,如果是自己的信息,则可以进行编辑. 信息修改后上传至服务器再告诉所有用户,自己的窗口
java读取配置文件知了ing
1，java读取.properties配置文件 InputStream in; try { in = test.class.getClassLoader().getResourceAsStream("config/ipnetOracle.properties");//配置文件的路径 Properties p = new Properties()
__attribute__ 你知多少？矮蛋蛋 C++gcc
原文地址: http://www.cnblogs.com/astwish/p/3460618.html GNU C 的一大特色就是__attribute__ 机制。__attribute__ 可以设置函数属性（Function Attribute ）、变量属性（Variable Attribute ）和类型属性（Type Attribute ）。 __attribute__ 书写特征是：
jsoup使用笔记 alleni123 java 爬虫 JSoup
<dependency> <groupId>org.jsoup</groupId> <artifactId>jsoup</artifactId> <version>1.7.3</version> </dependency> 2014/08/28 今天遇到这种形式，
JAVA中的集合 Collectio 和Map的简单使用及方法百合不是茶 list map set
List ,set ,map的使用方法和区别 java容器类类库的用途是保存对象，并将其分为两个概念： Collection集合：一个独立的序列，这些序列都服从一条或多条规则;List必须按顺序保存元素，set不能重复元素；Queue按照排队规则来确定对象产生的顺序（通常与他们被插入的
杀LINUX的JOB进程 bijian1013 linux unix
今天发现数据库一个JOB一直在执行，都执行了好几个小时还在执行，所以想办法给删除掉系统环境： ORACLE 10G Linux操作系统操作步骤如下：第一步.查询出来那个job在运行，找个对应的SID字段 select * from dba_jobs_running--找到job对应的sid &n
Spring AOP详解 bijian1013 java spring AOP
最近项目中遇到了以下几点需求，仔细思考之后，觉得采用AOP来解决。一方面是为了以更加灵活的方式来解决问题，另一方面是借此机会深入学习Spring AOP相关的内容。例如，以下需求不用AOP肯定也能解决，至于是否牵强附会，仁者见仁智者见智。 1.对部分函数的调用进行日志记录，用于观察特定问题在运行过程中的函数调用
[Gson六]Gson类型适配器(TypeAdapter) bit1129 Adapter
TypeAdapter的使用动机 Gson在序列化和反序列化时，默认情况下，是按照POJO类的字段属性名和JSON串键进行一一映射匹配，然后把JSON串的键对应的值转换成POJO相同字段对应的值，反之亦然，在这个过程中有一个JSON串Key对应的Value和对象之间如何转换(序列化/反序列化)的问题。以Date为例，在序列化和反序列化时，Gson默认使用java.
【spark八十七】给定Driver Program，如何判断哪些代码在Driver运行，哪些代码在Worker上执行 bit1129 driver
Driver Program是用户编写的提交给Spark集群执行的application，它包含两部分作为驱动： Driver与Master、Worker协作完成application进程的启动、DAG划分、计算任务封装、计算任务分发到各个计算节点(Worker)、计算资源的分配等。计算逻辑本身，当计算任务在Worker执行时，执行计算逻辑完成application的计算任务
nginx 经验总结 ronin47 nginx 总结
　　　深感nginx的强大，只学了皮毛，把学下的记录。　　　获取Header 信息，一般是以$http_XX（ＸＸ是小写）获取body,通过接口，再展开，根据Ｋ取Ｖ　　　获取uri,以$arg_XX &n
轩辕互动-1.求三个整数中第二大的数2.整型数组的平衡点 bylijinnan 数组
import java.util.ArrayList; import java.util.Arrays; import java.util.List; public class ExoWeb { public static void main(String[] args) { ExoWeb ew=new ExoWeb(); System.out.pri
Netty源码学习-Java-NIO-Reactor bylijinnan java 多线程 netty
Netty里面采用了NIO-based Reactor Pattern 了解这个模式对学习Netty非常有帮助参考以下两篇文章： http://jeewanthad.blogspot.com/2013/02/reactor-pattern-explained-part-1.html http://gee.cs.oswego.edu/dl/cpjslides/nio.pdf
AOP通俗理解 cngolon spring AOP
1.我所知道的aop 初看aop,上来就是一大堆术语，而且还有个拉风的名字，面向切面编程，都说是OOP的一种有益补充等等。一下子让你不知所措，心想着：怪不得很多人都和我说aop多难多难。当我看进去以后，我才发现：它就是一些java基础上的朴实无华的应用，包括ioc，包括许许多多这样的名词，都是万变不离其宗而已。 2.为什么用aop&nb
cursor variable 实例 ctrain variable
create or replace procedure proc_test01 as type emp_row is record( empno emp.empno%type, ename emp.ename%type, job emp.job%type, mgr emp.mgr%type, hiberdate emp.hiredate%type, sal emp.sal%t
shell报bash: service: command not found解决方法 daizj linux shell service jps
今天在执行一个脚本时，本来是想在脚本中启动hdfs和hive等程序，可以在执行到service hive-server start等启动服务的命令时会报错，最终解决方法记录一下：脚本报错如下： ./olap_quick_intall.sh: line 57: service: command not found ./olap_quick_intall.sh: line 59
40个迹象表明你还是PHP菜鸟 dcj3sjt126com 设计模式 PHP 正则表达式 oop
你是PHP菜鸟，如果你：1. 不会利用如phpDoc 这样的工具来恰当地注释你的代码2. 对优秀的集成开发环境如Zend Studio 或Eclipse PDT 视而不见3. 从未用过任何形式的版本控制系统，如Subclipse4. 不采用某种编码与命名标准，以及通用约定，不能在项目开发周期里贯彻落实5. 不使用统一开发方式6. 不转换（或）也不验证某些输入或SQL查询串（译注：参考PHP相关函
Android逐帧动画的实现 dcj3sjt126com android
一、代码实现： private ImageView iv; private AnimationDrawable ad; @Override protected void onCreate(Bundle savedInstanceState) { super.onCreate(savedInstanceState); setContentView(R.layout
java远程调用linux的命令或者脚本 eksliang linux ganymed-ssh2
转载请出自出处： http://eksliang.iteye.com/blog/2105862 Java通过SSH2协议执行远程Shell脚本(ganymed-ssh2-build210.jar) 使用步骤如下： 1.导包官网下载: http://www.ganymed.ethz.ch/ssh2/ ma
adb端口被占用问题 gqdy365 adb
最近重新安装的电脑，配置了新环境，老是出现： adb server is out of date. killing... ADB server didn't ACK * failed to start daemon * 百度了一下，说是端口被占用，我开个eclipse，然后打开cmd，就提示这个，很烦人。一个比较彻底的解决办法就是修改
ASP.NET使用FileUpload上传文件 hvt .net C#hovertree asp.net webform
前台代码： <asp:FileUpload ID="fuKeleyi" runat="server" /> <asp:Button ID="BtnUp" runat="server" onclick="BtnUp_Click" Text="上传" />
代码之谜（四）- 浮点数（从惊讶到思考） justjavac 浮点数精度代码之谜 IEEE
在『代码之谜』系列的前几篇文章中，很多次出现了浮点数。浮点数在很多编程语言中被称为简单数据类型，其实，浮点数比起那些复杂数据类型（比如字符串）来说，一点都不简单。单单是说明 IEEE浮点数就可以写一本书了，我将用几篇博文来简单的说说我所理解的浮点数，算是抛砖引玉吧。一次面试记得多年前我招聘 Java 程序员时的一次关于浮点数、二分法、编码的面试，多年以后，他已经称为了一名很出色的
数据结构随记_1 lx.asymmetric 数据结构笔记
第一章 1.数据结构包括数据的逻辑结构、数据的物理/存储结构和数据的逻辑关系这三个方面的内容。 2.数据的存储结构可用四种基本的存储方法表示，它们分别是顺序存储、链式存储、索引存储和散列存储。 3.数据运算最常用的有五种，分别是查找/检索、排序、插入、删除、修改。 4.算法主要有以下五个特性：输入、输出、可行性、确定性和有穷性。 5.算法分析的
linux的会话和进程组网络接口 linux
会话：一个或多个进程组。起于用户登录，终止于用户退出。此期间所有进程都属于这个会话期。会话首进程：调用setsid创建会话的进程1.规定组长进程不能调用setsid，因为调用setsid后，调用进程会成为新的进程组的组长进程.如何保证？先调用fork，然后终止父进程，此时由于子进程的进程组ID为父进程的进程组ID，而子进程的ID是重新分配的，所以保证子进程不会是进程组长，从而子进程可以调用se
二维数组元素的连续求解 1140566087 二维数组 ACM
import java.util.HashMap; public class Title { public static void main(String[] args){ f(); } // 二位数组的应用 //12、二维数组中，哪一行或哪一列的连续存放的0的个数最多，是几个0。注意，是“连续”。 public static void f(){
也谈什么时候Java比C++快 windshome java C++
刚打开iteye就看到这个标题“Java什么时候比C++快”，觉得很好笑。你要比，就比同等水平的基础上的相比，笨蛋写得C代码和C++代码，去和高手写的Java代码比效率，有什么意义呢？我是写密码算法的，深刻知道算法C和C++实现和Java实现之间的效率差，甚至也比对过C代码和汇编代码的效率差，计算机是个死的东西，再怎么优化，Java也就是和C