louyingxin001

Why Does Unsupervised Pre-training Help Deep Learning?

为什么无监督预训练有助于深度学习？

翻译：娄英欣

摘要：

很多最近的研究都致力于学习深层结构的算法，例如深度置信网络(DBN)和堆叠自动编码器的变形，他们在不同的领域成果斐然，大部分建立在视觉和语言数据集。监督学习任务获得的最好的结果均包括无监督学习成分，通常是在无监督预训练阶段。即使这些算法已经应用于训练深度模型，但是对于原始的学习依旧存在许多问题。最主要的问题如下：无监督预训练是怎么工作的？对于深层结构学习的提高，这个问题的答案是很重要的。我们提出了几种假设，并通过大量的仿真进行测试。我们展示了预训练对于结构的深度、模型的能力和训练样本数量的影响。实验结果证实了无监督预训练的好处。结果显示在训练数据集中，无监督预训练使得学习走向吸引盆的最小值处，支持更好的泛化；该结果支持预训练正则化作用的解释。

关键词：

深层结构无监督预训练深度置信网络堆叠降噪自动编码器非凸最优化

1. 前言

深度学习思想旨在采用由低层特征组成的高层特征来学习特征层次结构。包括的学习思想有：深层结构的广义数组(Bengio, 2009)，多隐层的神经网络(Bengio, 2007)和多层隐藏变量的图解模型(Hinton, 2006)。一些理论成果(Yao, 1985)，Bengio和LeCun在2007年进行了回顾和讨论，建议为了学习能表达高层抽象的复杂函数，需要深层结构。最近该领域的学习浪潮似乎支持这个观点，尤其是与人工智能相关的课题，例如计算机视觉(Bengio, 2007)，自然语言处理((Collobert and Weston,2008)和信息检索(Salakhutdinov and Hinton, 2007)。深度学习思想明显优于同类竞争者，经常打败最先进的技术。

尽管深度学习中训练模型需要多层自适应参数是严峻的挑战，但是最近已经证明可以达到标准。几乎在深度学习所有的例子中，目标函数都是一个高度非凸参数函数，因此在模型的参数空间可能会存在多个不同的局部最小值。最主要的问题是并不是所有的这些最小值均提供相等的泛化误差，因此我们建议对于深层结构，标准的训练准则（基于随机初始化）趋向于将参数放置于泛化较差的参数空间区域，这个结果根据经验可以经常观察到但是很少被报道(Bengio and LeCun, 2007)。

深层结构有效训练策略的突破是在2006年，出现了2种训练算法：深度置信网络(Hinton, 2006)和堆叠自动编码器(Bengio, 2007)，二者均基于相似的方法：先进行逐层贪婪无监督预训练，然后进行监督微调。每层均采用无监督学习算法进行预训练，学习输入（前一层的输出）的非线性变换，捕获输入的主要变化。无监督预训练有益于最终的训练阶段，最终深层结构通过基于梯度优化的监督训练准则进行微调。虽然对于深度模型预训练的性能很好，但是很少有人知道成功背后隐藏的机制。

本文通过大量的实验来探索无监督预训练如何使得深层结构更有效和为什么比传统神经网络训练方法更好。本文提出了几个合理的预训练作用的假设。第一个假设，无监督预训练作为一种网络的预处理器，为了将来的监督训练将参数值放在适当的范围。第二个假设，无监督预训练初始化模型到参数空间的一个点，致使优化过程更有效，从某种意义上说实现了最低的经验代价函数(Bengio, 2007)。

本文中我们的实验结果显示，无监督预训练作为正则化的一种特殊形式：最小化方差和引入对无监督学习有帮助的带偏差的参数空间结构。这个观点使得无监督预训练包含在最近发展的半监督思想中。然而，无监督预训练方法在半监督训练策略中是唯一的，它是对于标准的监督训练定义了一个特殊的初始化点，而不是修改监督目标函数(Barron, 1991)或在整个训练中加上对参数的限制(Lasserre et al., 2006)。这种初始化-正则化的思想早在神经网络文献中提到，即早期停止思想(Sjöberg and Ljung, 1995)。我们建议在高度非凸的情况下训练深层结构，定义一个特殊的初始化点，隐性地在参数上加限制，使得成本函数最低。通过这种方法，可以认为无监督预训练和Lasserre的方法相关联。

另一个重要的、明显的无监督预训练的特征是，在标准的训练中使用随机梯度下降法，且即使样本数量大量增长，预训练产生的有益的泛化效果也不会减少。我们认为这是由于非凸目标函数的组合和随机梯度下降法对样本顺序的依赖性。我们发现参数的早期变化对最终学习结束的区域（下降过程中的吸引盆）有很大的影响。特别地就泛化而言，无监督预训练设置参数在能达到更好的吸引盆的区域。因此，尽管无监督预训练作为正则化矩阵，但是当训练数据很大的时候，它对训练目标有积极的影响。

正如上文所言，本文通过大量的实验来评估无监督预训练有助于深度学习的多种假设。为此，我们设计了一系列实验来排除一些假设，试图验证无监督预训练的神秘效果。
在第一组实验中（第6部分），我们验证无监督预训练对提高训练好的深层结构的泛化误差的影响。在这部分我们也会利用降维技术来说明无监督预训练是怎样影响参数空间的局部最小。

在第二组实验中（第7部分），我们直接比较之前的两种假设（预训练作为预处理器和预训练作为优化方案）与无监督预训练作为正则化假设。在最后一部分实验中（第8部分），我们探索无监督预训练对训练数据非常多的在线学习的影响。在这些实验中，我们探索了本文假设关于代价函数拓扑的关键因素和无监督预训练在操作监督训练开始处的参数空间区域中扮演的角色。

在深入研究之前，我们先看一下训练深层结构中的挑战和我们认为无监督预训练如何克服这些挑战。

2. 深度学习的挑战

在这部分，我们提出了一个观点关于为什么基于梯度反向传播的标准训练深度模型很艰难。首先，建立我刚才陈述的训练困难观点是很重要的。我们坚信训练深层结构的核心挑战是处理训练中层间参数存在的依赖性。一种方法来设想这个问题的难度就是我们必须同时：

1. 适应底层以提供足够的输入给最后（训练结束）上层的设置
2. 适应上层以充分利用最后（结束训练）底层的设置

第二个问题比较简单，第一个问题的难度还不清楚，我们猜想当两套层共同学习时会产生特定的困难，因为目标函数的梯度受限于给定当前其他参数设置的局部测量。而且，由于最高两层有足够的能力可以很容易过拟合训练集，因此训练误差不一定揭示了优化底层的难度。我们的实验显示，标准的训练准则趋向于将参数放置于泛化较差的参数空间区域。

如果我们重点关注基于随机梯度下降的传统训练思想，那么就会产生一个独立却相关的问题。在线梯度下降过程中的样本定义了参数空间的轨迹，在某种意义上会收敛（误差不再提高，可能因为接近局部最小值）。有一假设，轨迹中小的扰动（初始化或变化）对早期影响很大。在接下来的早期随机梯度下降过程中，权重的变化会增加数量级，因此非线性网络的数量增加。当出现上述情况，由训练样本分布随机梯度下降可达到的区域的集合会变得更小。早期训练的小扰动使得模型参数从一个盆转换到附近的一个，然而后来（通常用于较大的参数值）似乎很难逃脱这样的一个吸引盆。因此早期的样本有更大的影响，而且在实践中，在对于训练样本特定和任意排序的特定参数空间区域诱捕模型参数。这个现象的一个重要结论是即使面对大量的监督数据，在早期的训练过程中，随机梯度下降法受到一定程度的过拟合训练数据的影响。在这层意义上，无监督预训练与优化过程相互作用密切，而且当训练样本的数量非常大的时候，无监督预训练的积极影响不仅体现在泛化误差，还体现在泛化误差上。

3. 无监督预训练的正则化作用

正如前言所述，通过在监督微调训练过程前引入逐层贪婪预训练可以克服深度学习的挑战。正则化效果是预训练过程的结果，建立在参数空间内部区域微调过程的初始化点，在参数空间中参数从此受限。参数被限制到相对小体积的参数空间中，这个空间描述为监督微调代价函数局部吸引盆的边界。

预训练过程增加了权重的大小，且在标准的深层模型中采用S非线性和更多的拓扑特征如峰、谷和平稳，可以使得函数更非线性和本地代价函数更复杂。这些拓扑特性的存在使得本地参数空间通过梯度下降过程更难达到有效的距离。这是预训练过程所施加的限制属性的核心，是正则化特性的基础。

但是无监督预训练限制参数到特定区域：捕获输入分布结构P(X)。预训练作为正则化一定程度上削弱了其有效性。并不是所有的正则化矩阵都是平等的，相比于标准的正则化如L1和L2参数惩罚项，无监督预训练有意想不到的效果。我们认为它的成功归功于无监督预训练过程中无监督训练标准的优化。

在贪婪无监督训练的每个阶段，每层被训练来表示数据变化现存的主导因素。在每层，根据X的统计可靠特征来预测输出Y。这个观点使得非监督预训练与半监督的学习策略方法一致。正如最近其他的研究成果一样，我们在正则化模型参数中来证明半监督思想的有效性，无监督预训练的限制范围为学习P(X)有助于学习P(Y|X)。我们发现X的变形-学习的特征-是P(X)中预测的变化的主要因素，当预训练有效，这些X学习到的特征也可以预测Y。在深度学习的背景下，贪婪无监督策略可能也有特殊函数。在一定程度上，通过引入一个代理标准解决了不同层同时学习参数（在第2部分提到过）的问题。这个代理标准鼓励输入数据变化的显著因素，以便于在中间层显示。

为了说明这段推理，我们引入了参数的先验分布来使无监督预训练的效果形式化。我们假设参数选定在有界区域。让S 在区域中分割，该区域是在训练误差中下降过程的吸引盆（注意依赖于训练集，随着实例的增加依赖性降低）。对于i,j不相等，我们有。表示区域的体积(θ是模型参数)。是中纯随机初始化的概率，是中预训练的概率，即。我们考虑初始化过程为正则化项：

对于预训练模型，先验概率为：

对于没有预训练的模型，先验概率为：

我们可以证明。当非常小，无监督预训练中惩罚项很高。正则化的导数几乎处处为0，因为我们在区域中选择了统一的先验概率。因此考虑正则化和生成模型，需要选择一个合理的初始化点θ（从这个点开始，在训练标准的迭代最小化中，惩罚项不会增加），这就是我们实验中预训练模型是怎样构建的。

注意形式化只是一个说明：我们只是简单展示一下如何概念性的考虑初始化点的正则化作用，而不能认为是正则化实现的文字解释，因为我们没有计算的解析式。相反，这些是无监督预训练过程的隐函数。

4. 之前相关的工作

我们先回顾一下文献中的半监督学习(SSL)，因为SSL框架也是我们所研究的。

4.1 相关半监督方法

人们认为生成模型比判别模型更不容易过拟合(Ng, 2002)。考虑输入变量X和目标变量Y，判别模型关注P(Y|X)，生成模型关注P(X, Y)(经常参数化为P(X|Y) P(Y))，也就是说它也关注P(X)的正确性，因为当最终目标只是给定X 预测Y，P(X)可以减少拟合数据的自由度。

探索P(X)的信息可以提高分类的泛化，已经成为半监督学习之后的另一类思想(Chapelle, 2006)。例如，我们可以采用无监督学习将X映射为一个表示法（也叫嵌入），例如两个实例X1和X2属于相同的群集，那么它们最终会有相近的嵌入。然后在那个新的空间使用监督学习（例如线性分类器）实现很多情况下更好的泛化(Belkin, 2002)。这种方法采用主成分分析作为分类器前的一个预处理步骤。在这些模型中，首先采用无监督学习将数据转换为新的表示，然后采用监督学习分类器，学习将新表现形式的数据映射到类预测。

在模型中监督和非监督组件不是分开的，我们可以考虑模型中的P(X)共享参数，而且我们可以交换监督标准和无监督或生成模型。生成模型是先验的一种特殊形式。通过控制总的标准中的生成标准，我们可以更好的权衡纯生成或纯判别准则(Lasserre, 2006)。
在深层结构中，一个非常有趣的应用是将每层无监督嵌入准则加到传统的监督训练(Weston, 2008)。这就是一个强大的半监督策略，也是本文中描述和评估的一种替代算法，组合了无监督学习和监督学习。

在缺乏标签数据（充足的无标签数据）的情况下，深层结构表现突出。Salakhutdinov and Hinton (2008)提出了学习高斯过程协方差矩阵的思想，使用无标签数据模型化P(X)提高P(Y|X)效果非常明显。注意结果是预料的：用少量的标签样本建模P(X)很有帮助。我们的结果显示即使有丰富的标签数据，无监督预训练仍对泛化有明显的积极影响：一个有点令人吃惊的结论。

4.2 过早停止是正则化的一种形式

我们认为预训练作为初始化可以看作限制优化过程在一个相对小体积的参数空间中，相当于监督代价函数的局部吸引盆。限制初始化过程到参数空间中靠近初始配置的区域，过早停止和其有相似的影响。τ表示迭代的次数，η表示更新过程中的学习率，τη可被视为正则化参数的倒数。事实上，限制了参数空间中从起始点可达区域的数量。至于使用二次误差函数和简单梯度下降的简单线性模型（初始化在原点）的优化，过早停止与传统的正则化有相同的作用。

因此，在预训练和过早停止中，监督代价函数参数限制接近它们的初始值。更正式的正则化过早停止处理由Sjöberg and Ljung (1995)提出。与预训练处理不相同，本文阐明了深层结构中初始化的效果。

5. 实验装置和方法论

在这部分，我们会描述用来测量第3部分和之前提出的假设的实验装置。这部分描述了使用的深层结构、数据集和重现我们结果的必要细节。

5.1 模型

所有文献中训练深层结构的方法都有一些共同点：他们依赖无监督学习算法在每层提供一个训练信号。主要工作分为两个阶段。第一阶段，无监督预训练，所有层均采用逐层无监督学习信号来初始化。第二阶段，微调，全局训练标准（预测误差，在监督任务下使用标签）最小化。在最初提出的算法中(Hinton, 2006; Bengio, 2007; Ranzato, 2007)，无监督预训练采用逐层贪婪：在第k阶段，第k层训练采用前一层的输出作为输入，且前一层保持固定。
我们将考虑深度学习文献中两个具有代表性的深层结构。

5.1.1 深度置信网络(DBN)

第一个模型是Hinton(2006)提出的深度置信网络，采用限制玻尔兹曼机(RBM)训练和逐层堆叠起来。一旦堆叠的RBM经过训练，它可以用来初始化一个多层分类神经网络。

DBN是多层生成模型，包括参数h0、h1、h2等。最高两层（即RBM）有联合分布，因此2层的DBN即为RBM，在一个DBN中，堆叠的RBM共享参数。对比分歧更新方向可以用来初始化DBN的每层作为一个RBM，如下所示。考虑DBN第1层作为RBM P1进行训练，隐藏层h1，可见层为v1。当我们训练另外一个RBM P2，样本h1取自P1 (h1|v1)，样本v1取自训练数据集。可以看出，在模型顶层添加训练好的RBM，可以获得P(h_k | h_k−1)中前一层的h_k−1，上述可以最大化DBN的对数似然函数的下界。

5.1.2 堆叠降噪自动编码器(SDAE)

第二个模型是Vincent(2008)提出的堆叠降噪自动编码器，采用了DBN的贪婪原则，但是使用降噪自动编码器作为无监督模型的框架。自动编码器的编码器h()和解码器g()的组合可以确定训练集中的样本，即g(h(x))≈x。
假设有一些限制条件阻止g(h())确定任意参数，自动编码器需要捕获训练集中的统计结构来最小化重建误差。然而，对于高容量的代码（h(x)维数多），自动编码器可以学习到一个简单的编码。注意到，最小化自动编码器的重建误差和RBM训练的对比分歧有一个亲密的关联：二者均可以近似对数似然梯度(Bengio, 2009)。
降噪自动编码器(Vincent, 2008)是普通自动编码器的随机变量，即使在高容量模型中，它也不能学习恒等映射。降噪自动编码器可以对输入的破损数据进行降噪，训练标准可以认为是特定生成模型的似然函数的变分下界。它已经被证明性能明显比普通自动编码器好，在深层监督结构中与RBM性能相似或者更好(Vincent, 2008)。另一种方法限制自动编码器的编码单元比输入的方式：通过编码稀疏来限制容量(Ranzato, 2008)。
现在我们总结一下堆叠降噪自动编码器的训练算法。降噪自动编码器从随机破损变换中重构x，输出为编码向量h(x)，在我们的实验中为普通的神经网络层，隐层单元偏置为b，权重矩阵为W。
采用DBN或SDAN，监督训练后输出的逻辑回归层相加。整体的网络像普通多层感知器一样进行训练来最小化输出（负对数似然）预测误差。

5.2 数据集

本文实验基于3个数据集，我们的实验结果将有助理解之前深层结构的结果，大部分基于MNIST数据集和其变形：
MNIST LeCun(1998)提出的数字分类数据，包含了60000个训练样本和10000个测试样本，均为28*28灰度手写数字
InfiniteMNIST Loosli (2007)提出的数据集，是MNIST的扩展，可以获得恰似无限的样本。样本的获得是通过对原始的MNIST数字进行随机的弹性变形。在这个数据集，只有一组实例，我们将会比较模型的在线性能
Shapeset 一个具有几何不变性的综合数据集，对10*10的三角形和正方形图像进行二元分类。实例显示图像的形状有很多变化，例如大小、方向和灰度级。数据集由50000训练、10000验证和10000测试图像组成。

5.3 装置

使用的模型：
1. 包含伯努利RBM层的DBN
2. 基于伯努利输入单元的堆叠降噪自动编码器(SDAE)
3. 标准前馈多层神经网络
每个模型均包含1-5个隐藏层，每个隐藏层都包含相同的隐藏单元，是一个超参数。其他超参数为无监督和监督学习率、L2惩罚项/权重衰减和SDAE中随机破损输入的百分数。对于MNIST，每层监督和无监督通过的数据为50。对于InfiniteMNIST，有250万无监督更新，然后是750万监督更新。标准前馈多层神经网络采用100万监督更新进行训练。对于MNIST，
模型选择是根据能优化验证集中监督错误的超参数。对于InfiniteMNIST，超参数的选择是根据最后一百万样本的平均在线误差。所有的情况下均采用了纯随机梯度更新。
实验基于深层结构，包含预训练和没有预训练和采用不同的训练层数。对于给定的层，权重初始化采用均匀随机样本，k表示一个单元与前一层的连接数。监督梯度下降和无监督预训练均采用上述标准。
在大多数情况下(MNIST)，我们首先做了一组实验，采用10个不同的随机初始化种子计算超参数值的向量积，然后根据有/无预训练模型、层数和训练标准数，选出验证误差最小的超参数。基于这些超参数，我们又采用额外的400个初始化种子做实验。对于InfiniteMNIST，只考虑一个随机选择的种子。
在接下来的讨论中我们会经常用到一个词：明显的局部最小值，意味着当通过随机梯度下降法再有明显的进步，训练结束后得到的解决方案。可能这不是真正的局部最小值（），但是很明显这些终止点代表着梯度下降“卡/陷”在了某一区域。同时要注意，我们所说的层数是指网络中的隐藏层数。

6. 无监督预训练的影响

我们首先会呈现大量的仿真实验，来证实之前所说的关于深层结构的结论。在分析实验结果的过程中，我们开始关联本文的假设，然后针对本文假设做实验。

6.1 更好的泛化

当我们选择每层的单元数、学习速率和训练迭代次数来优化验证集中分类误差，相比于没有预训练、相同深度或较浅深度的比MNIST小的不同视觉数据集，无监督预训练大幅度减小了测试分类误差。
上述工作建立在一个或少量不同随机初始化种子，因此本文研究的其中一个目标就是确定当初始化一般神经网络（深或浅）和预训练过程的时候，使用随机种子产生的影响。为此，在MNIST数据集选择了50-400个不同的种子来获得图像。

Why Does Unsupervised Pre-training Help Deep Learning?_第1张图片

图1 左无预训练，右有预训练

Why Does Unsupervised Pre-training Help Deep Learning?_第2张图片

图2

图1中显示了基于有/无预训练且增加网络的深度，测试分类误差的分布。图2中显示了1层和4层的分布直方图。在图1中，从1层到4层，无监督预训练使得分类误差稳步下降，
然而没有预训练误差在第2层后开始上升。我们应该注意到，如果不采用无监督预训练，无法有效训练第5层模型。无监督预训练的平均误差较低，且似乎有很健壮的随机初始化。无监督预训练在达到4隐层后方差仍保持相同水平，且离群的数量也增长缓慢。
形成鲜明对比的无预训练：当增加层数超过2后，方差和离群数量急剧增长。图2中显示，当我们增加层数，无监督预训练的效果更明显，随机初始化的健壮性也更好。无预训练更深层结构的误差方差和均值都增长，说明了当我们开始于随机初始化，增加深度意味着增加了找到差的明显局部最小值的可能性。还有一个很有趣的事，无监督预训练中采用400个种子得到低方差和小的传播误差：因此对于随机初始化种子，无监督预训练具有健壮性。
实验表明采用随机初始化种子，没有预训练最终的测试误差的方差较大，且对于更深结构效果会放大。我们同时也要注意到这项技术的成功有一个限制因素：在第5层性能下降。

6.2 特征可视化

图3显示了监督微调前/后DBN第一层的权重（滤波器）。为了可视化第2、3层单元的作用，我们使用了激活最大化技术(Erhan, 2009)：为了可视化单元的最大响应，该思想通过寻找有界输入模式来最大化激活给定单元。这是一个优化问题，通过在输入空间中执行梯度上升算法来寻找激活函数的局部最大值。有趣的是，从大部分随机初始化的输入模式中可以获得几乎相同的最大激活函数输入模式。

Why Does Unsupervised Pre-training Help Deep Learning?_第3张图片

图3 上：预训练下：预训练+监督微调从左到右：1/2/3层

作为比较，我们也做了无预训练网络1-3层滤波器可视化（图4）。第1层滤波器似乎与局部特征相关，2、3层则无法解释。定性地说，图3最下面一行的滤波器与图4有些相似，这是一个有趣的结论。此外，利用无监督预训练学习网络中的视觉特征似乎更有趣。
从图3中我们可以得到一些有趣的结论。首先，经过预训练的监督微调，即使有750万更新，也没有明显的改变权重（至少在视觉上）：它们似乎“卡”在了一个特定的权重空间区域，监督微调后权重也没有明显改变（视觉上两行形式相同）。其次，不同层改变不同：第1层改变最少，监督训练对第3层影响更大。观测结果和我们的预测相一致：即早期的动态随机梯度下降法，由无监督预训练引起的动态可以将训练“锁”在参数空间的区域，使用纯监督方式训练本质上是不可达的。
最后，增加更多层使得特征的复杂度增加。第1层权重编码基础检测器，第2层权重检测数字部分，第3层权重检测整个数字。当增加层数特征会更复杂，对于每个特征只用一幅图片来显示，这样不能处理好特征的非线性特性。例如，当特征高度活跃（或高度不活跃），它不能显示模式集。
图3、4显示了基于InfiniteMNIST的滤波器，与应用于MNIST的可视化类似。同样，SDAE获得的特征有类似定性的结论。

Why Does Unsupervised Pre-training Help Deep Learning?_第4张图片

图4 无预训练+监督微调

6.3 学习轨迹模型可视化

学习特征的可视化允许我们对深层结构的训练策略做定性的比较。然而我们无法调查这些策略是如何受随机初始化影响的，因为从多种初始化学习来的特征看起来都很相似。如果我们可以同时可视化多个模型，这样我们就可以探索我们的假设，且确认预训练模型和没有预训练的模型之间的区别。这两组模型在参数空间中覆盖的不同区域吗？参数轨迹会卡在很多明显不同的局部最小值吗？
不幸的是，不可能直接比较两种结构的参数值，因为相同模型会采用很多相同参数的变换。然而，我们可以采用函数逼近方法来比较每个网络的函数（输入到输出），而不是比较参数。
函数是对于所有的输入有无限有序输出值，可以用有限输入近似。为了可视化训练过程的轨迹，我们采用下面的步骤。对于一个给定的模型，我们计算和连接测试集的所有输出作为一个长向量，来总结它所在的“函数空间”。对于每个部分训练的模型都得到一个这样的向量。使用降维方法可以将这些向量映射到二维空间来可视化。图5和图6显示了使用降维技术得到的结果，分别得到局部和全局的结构。根据训练规则每个点均着色来帮助根据轨迹移动。

Why Does Unsupervised Pre-training Help Deep Learning?_第5张图片

图5 tSNE局部结构

可视化得到的结论：
1. 预训练和无预训练模型的开始和保持在函数空间的不同区域；
2. 局部结构的可视化（图5）：给定模型（预训练和无预训练）的轨迹最初一起移动。然而在某一时刻（大约7之后），轨迹发散，且不会再互相靠近（无预训练模型更明显）。这表明每个轨迹都会移动到明显不同的局部最小值；
3. 整体结构的可视化（图6）：预训练模型与无预训练模型不相交，且区域小得多。事实上，从没有预训练的函数角度，预训练看起来一样，且训练期间他们的自相似性在增加（种子方差下降），这与第3部分预训练的形式一致，即我们描述了观测无监督预训练的正则化作用的理论依据，在这里，预训练参数落在吸引盆的概率很小。
训练轨迹的可视化似乎证实了我们的猜想。很难保证每条轨迹都在不同的局部最小值结束（对不同的参数和不同的函数）。

Why Does Unsupervised Pre-training Help Deep Learning?_第6张图片

图6 ISOMAP整体结构

我们也分析了训练结束后的模型，可视化参数向量附近的训练标准。通过随机采样方向v，画出在v方向的训练标准，即。其可视化如图7所示。误差无限近似二次函数，似乎在所有方向都有局部最小值，而不是鞍点或平原。通过计算黑塞矩阵，可以得到更明确的答案。图7显示了在无监督与训练下和更深层结构下，误差更小。

Why Does Unsupervised Pre-training Help Deep Learning?_第7张图片

图7 基于Shapeset的训练误差

6.4 启示

到现在为止，一系列的结果与我们的假设相一致。预训练可以得到更好的泛化使得随机初始化具有鲁棒性，无监督学习P(X)有助于P(Y|X)的学习。我们所观测到的函数空间显示有很多明显的局部最小值。预训练模型似乎结束在这些误差空间的不同区域（参数空间的不同区域）。这个结果是从函数空间轨迹得到的，而且对于可视化学习特征，可以定性的观察到有/无预训练的模型有明显的不同。

7. 无监督预训练的角色

目前本文可以证实，开始于预训练权重的监督优化比随机初始化权重能更好的进行分类。为了更好的理解这一优势从哪里来的，需要知道监督目标优化在两种情况下是一样的。基于梯度的优化过程也是一样的。唯一的不同点是参数空间中的起始点：随机选择还是经过无监督预训练后获得（也开始于随机初始化）。
深层结构建立于几层非线性组合，产生的误差面是非凸且由于疑似存在很多局部最小值导致很难优化。居于梯度的优化应该结束在明显的局部最小值（也可从上面的可视化得到），无论我们从吸引盆的哪里开始。从这个角度来讲，无监督预训练的优势为放置于吸引盆更深的参数空间区域，比随机选择开始参数要好。这个优势源于更好的优化。
当无监督预训练将我们放置在训练误差并不比随机开始好（或更差）的参数空间区域，但是会得到更好的泛化（测试误差）。这个现象即为正则化的影响。注意这两种解释并不是相互排斥的。
最后，有一个很简单且很明显的解释：即监督训练开始时权重大小的不同（或者更通俗的说权重的边缘分布）。我们首先分析（排除）第一个假设。

7.1 实验1：无监督预训练对监督学习提供了一个更好的调整过程吗？

典型的深度模型梯度下降训练采用随机分配权重进行初始化，小到可以在参数空间的线性区域（对于大部分神经网络和DBN模型接近为0）。我们有理由质疑是否最初的无监督预训练阶段的优势只是由于权重更大，因此在某种意义上提供了优化过程更好的调整的初始值，我们想排除这个可能性。
通过调整，我们从初始的权重求得范围和边缘分布的平均值。换言之，如果我们仍采用独立的初始权重，但是使用一个更合适的分布而不是均匀分布，这样我们能得到与无监督预训练相同的优势吗？为了证明上述猜想，我们计算了无监督预训练中每层受训的权重和偏差的边缘直方图。根据这些直方图我们重新采样得到初始随机权重，并进行微调。结果显示参数与无监督预训练得到参数有相同的边缘统计特性，但是不一样的联合分布。
想象两个场景。第一个场景，边缘初始化比标准初始化（无预训练）有明显更好的性能。这就意味着无监督预训练可以提供更好的权重边缘条件。第二个场景，相比于无预训练，边缘使得性能更相近或更差。

表1

我们观察表1可以发现结论属于第一种场景。然而，对于基于MNIST的2个隐藏层，在预训练结束后初始化权重匹配的边缘分布似乎稍微提高了泛化误差，差别并不明显，对有/无预训练的结果影响不大。
实验结果推翻了预处理假设，但并不排除优化假设和正则化假设。

7.2 实验2：预训练对训练误差的影响

优化和正则化假设在预测无监督预训练如何影响训练误差方面是有分歧的：前者预测无监督预训练会导致较低的训练误差，然后后者的预测是相反的。为了验证这两种假设的影响，我们来看一下基于训练代价函数的测试代价（测试数据的福对数似然函数），即优化过程中参数空间的轨迹。图8显示了参数空间中开始于同一随机初始化点的400条曲线，即蓝色的无预训练，红色的有预训练。
实验基于网络的1/2/3隐藏层。正如图8所示，1个隐藏层时，无监督预训练有更小的训练代价，暗示着有更好的优化，对深层网络并不一定成立。可以观察到，相同的训练代价，预训练模型比随机初始化模型有更低的测试代价。因此，优势是一种更好的泛化而不是仅仅一个更好的优化过程。
因此得到如下结论：无监督预训练和正则化有相同的影响，或参数好的“prior”，即使在优化代价中没有明显的正则化术语。正如假设中所说，可以推断在无监督预训练标准(SDAE)中，限制参数空间中可能的起始点对限制最后的配置参数值有影响。像一般的正则化矩阵，无监督预训练因此被视为减少方差和引入偏差。与一般的正则化矩阵不同，无监督预训练有依赖数据行为。

Why Does Unsupervised Pre-training Help Deep Learning?_第8张图片

图8

7.3 实验3：层数的影响

正则化的另外一个本质特征是容量（例如隐藏单元数）增加，正则化效果增加，有效地将模型复杂度约束转换为另外一个。在这个实验中我们探索每层的单元数和无监督预训练效果之间的关系。无监督预训练正则化作用的假设使得当每层单元数增加的时候，我们会看到无监督预训练有效性有增加的趋势。
我们采用MNIST训练模型进行有/无预训练，过程增加层数量：每层25,50,100,200,400,800个单元，结果如图9所示。在SDAE中，我们期望降噪预训练过程何以帮助多层分类，因为降噪预训练在层比输入大的时候，允许在过完成的情况下学习有用的表达(Vincent, 2008)。我们观察到的是一个更系统的结果：无监督预训练对多层和更深层网络有帮助，但它似乎对太小的网络有伤害。
图9表明DBN与SDAE的性能相似，实验结果再次验证了我们的正则化假设。在这种情况下，对于DBN和SDAE模型，无监督预训练表现为一个额外的正则化矩阵—在小型隐藏层的正则化之上。随着模型大小从800个隐藏单元减少，泛化误差增加，由于额外的正则化影响，对于无监督预训练增长的更多：小网络的容量有限导致泛化误差增加（引入的偏差），
该结论与纯优化影响不兼容。

Why Does Unsupervised Pre-training Help Deep Learning?_第9张图片

图9 基于MNIST

该影响可以解释为，无监督预训练作为提高输入变换的角色，可以有效捕获输入分布P(X)的主要变量。可能只有小部分变量与预测类标签Y有关。当隐藏层很小，通过无监督预训练学习不太可能得到预测Y的变换。

7.4 实验4：挑战优化假设

实验1 – 3的结果与正规化假设是一致的，实验2 – 3似乎直接支持正则化假说。
在文献中有一些支持优化的假设。Bengio(2007)限制深层网络的最顶层只有20个单元，然后测量了有/无预训练的训练误差。该思想是防止网络由于顶部隐藏层而过拟合训练误差，因此可以看出是否底层的优化影响是存在的。报告中训练和测试误差均比预训练网络低。存在一个问题就是他们使用了过早停止，这样是有问题的，因为正如之前所说，过早停止本身就是正则化，它可以影响训练误差。可以想象如果Bengio(2007)使得模型收敛，结果会不同。我们需要证明一下。
图10显示了没有过早停止产生的结果。尽管泛化误差较低，对于预训练网络训练误差仍旧较高。这个结果支持正则化假设，反对优化假设。可能发生的事：过早停止阻止了无预训练网络朝着明显的局部最小值移动太多。

Why Does Unsupervised Pre-training Help Deep Learning?_第10张图片

图10

7.5 实验5：对比预训练和L1/L2正则化

另外一种假设是经典的正则化可能和无监督预训练具有相同的影响。我们研究了没有预训练的网络采用L1/L2正则化的影响，发现基于MNIST的小惩罚起作用，但是增益远没有预训练大。对于InfiniteMNIST，L1/L2正则化的最佳值为0。
这不是一个完全令人惊讶的发现：并不是所有的正则化矩阵都是相等的，这与半监督训练的文献相一致，即无监督预训练可以被看作为正则化的一种特别有效的形式。

7.6 总结实验1-5

到目前为止，之前试验获得的结果对无监督预训练的影响有非常清晰的解释：正则化作用。我们可以看到采样使用相同的权重大小是不够的：无监督初始化是至关重要的。而且我们观察到，标准的L1/L2正则化达不到预训练的水平。
最引人注目的正则化假设的证据是图8和9，优化假设Bengio(2007)不成立。

8. 在线学习设置

我们的假设不仅包括统计/现象学的假设：无监督预训练起正则化作用，也包含了一种机制：这样的行为出现也作为一系列训练动态性—在训练阶段和非凸监督目标函数中使用随机梯度。
在我们的假设中，我们提出早期的样例会引发权重大小的改变，增加网络的非线性，相反会减少随机梯度下降过程可得到的区域。这就意味着早期的样例决定着剩余训练样例的吸引盆；同时意味着早期的样例对训练模型的配置参数有不成比例的影响。
一个假设是是我们将会预测采用无限的或者非常大的数据集在线设置，无监督预训练的行为与标准的L1/L2正则化产生分歧。这是因为当数据增加时，标准的L1/L2正则化影响减小；然而当数据增加时，无监督预训练的影响保持不变。
需要注意在线学习的随机梯度下降是泛化误差的随机梯度下降优化，所以在线错误比较好意味着对于泛化误差优化的好。
在本部分，我们经验性地挑战一下这方面的假设，显示出证据支持我们的假设，即正则化。

8.1 实验6：在大数据集下预训练的效果

本部分实验结果可能是这篇文章最惊人的发现。图11显示基于InifiteMNIST 6种结构的在线分类错误：1-3层DBN，1-3层SDAE，1-3层无预训练网络。
从这些实验中我们可以观察到以下几点。首先，无预训练的3层网络比无预训练的1层网络泛化误差较差。该现象证明了即使在线设置假设依旧成立，优化深层网络比浅层网络难。其次，3层SDAE模型比3层DBN模型泛化更好。最后且最重要，当训练样例数量增加，相反，预训练的优势不消失。
注意到每个模型的隐藏单元数都是一个超参数。所以理论结果显示，当容量和数据增加，1层无预训练网络原则上应该可以代表输入分布。相反，没有预训练，网络将不会利用额外的容量，这一现象再次指向了优化解释。然而很明显，非凸优化问题的起点很重要，即便对于那些看起来很容易优化的网络，这个现象支持我们的假设。

Why Does Unsupervised Pre-training Help Deep Learning?_第11张图片

图11

另外一个实验在图12中显示了大规模在线随机非凸优化的影响。基于InifiteMNIST，按照模型样例的顺序计算训练集的错误。我们观察到几个有趣的结论：首先，两种模型均更擅长分类更近可见的样例。这是拥有不变学习率的随机梯度下降的自然效应（指数的给最近的样例更大的权重）。同时，也要注意对于两种模型在训练开始的样例，就误差来说，本质上与测试样例类似。最后，我们观察到在训练集上，预训练模型整体表现更好。这与优化假设一致，即它表明无监督预训练有优化效果。
在线设置中，训练和泛化误差收敛，正如经验分布收敛于真是的数据分布。这些结果都表明随着数据集的增加，无监督预训练的影响不会消失。对于无监督预训练正则化作用，我们如果仅从表面理解，是预料不到这个结果的。然而它和我们对在线设置中无监督预训练基于非凸目标函数的随机梯度下降训练的解释相一致，阐明了我们的假设。

Why Does Unsupervised Pre-training Help Deep Learning?_第12张图片

图12

8.2实验7：样例顺序的影响

本文假设的机制暗示着由于学习的动态性（权重大小的增加和训练过程的非线性），和依赖于吸引盆的早期数据（当基于随机梯度下降训练，早期样例敏感性增强）。基于InifiteMNIST我们操作于在线随机优化体制，在这我们试图找到一个高度非凸目标函数的局部最小值。然后，需要学习这种优化输出多大程度受训练过程中在不同点可见样例的影响，和是否早期样例有更大的影响。

为了量化训练过程中在不同点训练样例的输出方差，和比较有/无预训练模型的方差，我们进行了如下实验。给定100万样例的数据集，我们变化第100万个样例且保持其他不变。训练好10组模型后，测量出基于固定数据集网络的输出方差。接着同样改变下100万样例，观察哪组训练组对最终函数影响最大。

图13显示了实验结果，开始的样本比后面的样本更能影响网络的输出。然而，方差比预训练网络低。除此之外，我们应该注意到预训练网络的方差在0.25（开始预训练点）之后比监督网络在0.0的方差要小。这个结果意味着无监督预训练可以被视为一种方差减小技术，与正则化假设一致。最后，两个网络均受用于优化的最后一组样例的影响较大，这是由于在随机梯度中我们使用了固定学习率，最近期的样本梯度有更大的影响。

这些结果均与我们的假设一致：早期样本有更大的影响（方差更高），且预训练模型在我们的预期下可以减小方差。

图13 在0.25开始预训练

8.3 实验8：预训练前k层

从图11我们可以看到对于3层网络无监督预训练的影响是不同的。在图14中，我们探索了深度和无监督预训练的关系，设置如下：基于MNIST和InifiteMNIST，我们只预训练底部k层，对顶部n-k层像平时一样随机初始化。在这个实验中，n=3且k从0（无预训练）变化到n（正常预训练）。
对于MNIST，我们画出了log(train NLL) vs. log(test NLL)的轨迹，每个点代表着一定数量epochs后的测量。轨迹大致从右到左、从上到下，对应着训练和测试误差的减少。我们也可以看到模型从某一点开始过拟合。

Why Does Unsupervised Pre-training Help Deep Learning?_第14张图片

图14 左： MNIST 右 InifiteMNIST

对于InifiteMNIST，优化低层/高层困难度的结果很模糊。我们预期最大增量增益来自于预训练的前1/2层，事实上对于前2层是成立的，对于1层是不成立的。但我们预训练更多层，模型的泛化更好。对于MNIST，预训练更多层，最终的训练误差变得更差。该现象同样支持正则化假设。

9 讨论和总结

我们已经证明无监督预训练可以增加深层网络的鲁棒性，结果同样显示增加无预训练结构的深度，会增加找到差的明显局部最小值的可能性。预训练网络可以始终有更好的泛化，预训练网络比没有预训练网络可以定性地学习到不同的特征。而且，拥有不同初始化种子的网络的轨迹似乎落入很多明显不同的局部最小值，结果再次不同，依赖于是否使用了预训练。
无监督预训练不单单只是一种能得到好的初始化边缘分布的方法，它还能捕获参数间复杂的依赖关系。我们发现有无监督预训练的深层网络似乎表现出一些正则化的特性：对于足够小的层数，预训练深层结构比随机初始化的深层结构更差。而且，当层数足够大，预训练模型的训练误差大，但是泛化性能好。此外，我们重做了一个实验，据说可以得到无监督预训练的优化假设解释，但是相反我们观测到的是正则化影响。我们也展示了经典的正则化技术如L1/L2正则化达不到无监督预训练的效果，且随着数据的增加无监督预训练的效果不消失，所以如果无监督预训练是正则化矩阵，那么它一定是截然不同的一种正则化。
本文考虑了2中无监督预训练模型—降噪自动编码器和受限玻尔兹曼机，两种模型有相似的结果。我们很惊讶的观察到，即使在非常大的训练集中预训练的优势依旧存在，指出结论：非凸优化问题的开始点真的很重要，这个结论是通过观察不同层的可视化滤波器验证的。最后，无监督预训练作为方差减少技术，但是在大数据集中预训练网络有较低训练误差，这一结果支持优化解释。
我们如何理解所有这些结果？正则化和优化影响表面上是矛盾的。在第3部分，我们描述了一个假设：结构的动态学习分为两阶段，无监督预训练和有监督的微调，这个假设与上述结果一致。
这个假设显示监督目标函数的非线性有很多影响。其中的一个影响是早期的样例对训练输出有很大的影响，这也是为什么在大规模数据集下无监督预训练的影响依然存在。通过这篇文章，我们探究出由早期样例引发的吸引盆，监督训练无法逃脱。
无监督预训练作为正则化矩阵，只影响监督训练的开始点，与典型正则化不同的是，数据增加正则化作用不消失。
我们的结果中最重要的一个是基于随机梯度下降非凸目标函数的优化分析具有挑战性，尤其在大数据中。我们的分析到目前为止显示网络受早期样例的影响更多。这使得我们想要网络在后面的样例中捕获更多的信息，即训练非常大的数据集时试图捕获更多的信息。
一个有趣的实现，采用小的训练集，我们不用关注最小化训练误差，因为过拟合是主要的问题；对于两种模型的泛化性能，训练误差并不是一个好方法来区分它们。在上述设置中，无监督预训练可以帮助找到泛化误差更小的明显局部最小值。大训练集中见图12，经验和真实分布收敛。在这样的场景，找到一个更好的局部最小值很重要，在大训练集下更好的优化策略应该对泛化有明显的影响。注意在深度自编码器中有一个瓶颈，即之前的结果显示训练误差和测试误差经过预训练都会减少，这一现象支持优化假设，我们假设这个瓶颈是区分深度自编码器和深度分类器的关键因素。
尽管对于这个实验跑了几个月的CPU，使得我们能更好的理解这些结果。我们的最初目标是控制实验量来更好地理解数据集。然而，我们的结果受限于数据集，但是结果是合理的。
我们结果显示深层网络的优化是一个复杂的问题，受训练中早期样例的严重影响，未来的工作应该证明这个假设。如果这是真的，我们希望学者捕获真实复杂的分布，这可能意味着我们应该考虑学习算法来减少早期样例的影响，当现有的学习卡住时，使得参数能够逃脱吸引盆。
除了上述的假设，未来的工作应该调查本文结果与Hinton and Salakhutdinov (2006)结果之间的关联，Hinton表示在深度自编码器中，很难得到好的训练重构误差。未来工作还可以包括分析和理解深度半监督技术，即预训练过程和监督过程不分离。我们期望尽管分析结果和我们的类似，但是可能会暴露出一些问题。
对于理解和提高深层结构仍有许多开放性问题。我们的信念是深层机构学习的提高策略需要对现有的问题有更深的理解，同时通过大量仿真提出无监督预训练背后训练机制的解释。

你可能感兴趣的:(深度学习,深度学习,DL,无监督预训练,非凸最优化)

从实验到文化 - “混沌日”与持续混沌 weixin_42587823 混沌数据库混沌
从实验到文化-“混沌日”与持续混沌第一部分：锻炼团队的“免疫系统”-混沌日(GameDay)什么是“混沌日”？混沌日是一场有计划、有组织的演习活动。在活动中，团队成员们齐聚一堂（无论是线上还是线下），在一个受控的环境中（理想情况是生产环境，但从预生产环境开始是更安全的选择），主动触发一次模拟的真实故障场景。它就像一次针对技术团队和系统的消防演习。它的价值何在？混沌实验不仅仅测试机器，它同样也测试人
Zsh中PATH环境变量错误的报错与别名配置实战指南喜欢编程就关注我 java python 前端 Zsh中PATH环境变量错误的报错与别名配置实战指南代码
Zsh中PATH环境变量错误的报错与别名配置实战指南一、PATH环境变量错误诊断矩阵1.1常见错误类型错误现象典型报错信息根本原因解决方案命令未找到zsh:commandnotfound:xxxPATH未包含命令所在目录检查PATH配置路径重复无报错但路径列表冗余多次添加相同路径使用数组去重权限问题zsh:permissiondenied:/usr/local路径目录无执行权限调整目录权限特殊字符
windows中dify本地部署，非docker环境
第一章win11中安装配置Archlinux文章目录第一章win11中安装配置Archlinux一、安装Archlinux1.直接在wsl中安装2.本地镜像安装3.wsl中卸载archlinux二、在Archlinux中创建新用户1.包管理工具升级2.使用useradd创建用户3.设置新用户密码4.测试用户5.删除用户三、其他设置1.wsl的互作性2.systemd支持四、安装vim1.安装前准备
clickhouse分布式表插入数据不用带ON CLUSTER 时时刻刻看着自己的心 clickhouse 分布式
向分布式表插入数据时，通常不需要使用ONCLUSTER，因为分布式表的写入操作会自动将数据分发到底层表（bm_online_user_count_part）的对应节点。但对于DDL（数据定义语句，例如ALTERTABLE）操作，在分布式环境中修改底层表时，建议使用ONCLUSTER，以确保所有相关节点上的表结构和数据同步。区分DDL和DMLDML（数据操作语句，例如INSERT）向分布式表插入数据
Readr 项目安装与配置指南芮奕滢Kirby
Readr项目安装与配置指南readr项目地址:https://gitcode.com/gh_mirrors/rea/readr1.项目基础介绍readr是一个R语言的开源项目，由HadleyWickham创建和维护。该项目的主要目的是提供一种快速且友好的方式来读取分隔文件（如CSV和TSV）中的矩形数据。readr能够解析多种数据类型，并在解析过程中提供详细的错误报告，以便用户能够快速识别和解决
手机FunASR识别SIM卡通话占用内存和运行性能分析
手机FunASR识别SIM卡通话占用内存和运行性能分析--本地AI电话机器人上一篇：手机无网离线使用FunASR识别SIM卡语音通话内容下一篇：手机通话语音离线ASR识别商用和优化方向一、前言书接上一文《阿里FunASR本地断网离线识别模型简析》，我们其实在2023年底的时候输出过一版基于离线FunASR的ASR转文字方案。当时为了减少模型文件的数量和大小，只引入了【vad_res】、【asr_o
SpringBoot ThreadLocal 全局动态变量设置 xdscode spring boot java ThreadLocal
需求说明：现有一个游戏后台管理系统，该系统可管理多个大区的数据，但是需要使用大区id实现数据隔离，并且提供了大区选择功能，先择大区后展示对应的数据。需要实现一下几点：1.前端请求时，area_id是必传的1.数据隔离，包括查询及增删改：使用mybatis拦截器实现2.多个用户同时操作互不影响3.非前端调用场景的处理：定时任务、mq1.前端决定area_id为了解决多个用户可以互不影响的使用不同的a
SpringBoot AOP+注解全局日志记录 xdscode spring boot java AOP
一、需求描述如何优雅地记录用户操作日志？网站后台，功能开发完成后，新增了一个需求，即需要记录用户的各种操作记录。由于是在开发后期，如果针对每一个功能都去添加一段记录日志的代码，工作量较大、代码侵入性太强，因此采用AOP+注解的方式实现。可读性大大提高，且便于维护和扩展。AOP：面向切面编程，在不修改现有逻辑代码的情况下，增强功能，恰好体现了spring的理念：无入侵式自定义注解：当被注解的方法执行
Arduino学习-按键灯
哎，别笑，总比刷抖音强点吧1、效果2、代码constintbuttonPin=2;constintledPin=13;intbuttonState=0;voidsetup(){//putyoursetupcodehere,torunonce:pinMode(buttonPin,INPUT);pinMode(ledPin,OUTPUT);}voidloop(){//putyourmaincodehe
Android Java 版本与 Gradle 版本兼容问题：use incompatible Java 21.0.3 and Gradle 7.2 我命由我12345 Android -问题清单 android java 开发语言安卓 android runtime android jetpack java-ee
在AndroidStudio中，打开项目时，出现如下错误信息YourbuildiscurrentlyconfiguredtouseincompatibleJava21.0.3andGradle7.2.Cannotsynctheproject.WerecommendupgradingtoGradleversion8.9.TheminimumcompatibleGradleversionis8.5.T
oracle批量插入优化,oracle批量插入优化方案 Eric Q oracle批量插入优化
今天听DBA说如果从一个表批量查询出一批数据之后批量插入另外一张表的优化方案：1)不写归档日志；2)采用独占关于insert/*+append*/我们需要注意以下三点：a、非归档模式下，只需append就能大量减少redo的产生；归档模式下，只有append+nologging才能大量减少redo。b、insert/*+append*/时会对表加锁(排它锁)，会阻塞表上的除了select以外所有D
有效避免 Cannot read property ‘xxx‘ of undefined 这类运行时错误。避免因数据字段缺失导致的报错 @Dream_Chaser vue前端前端 javascript 开发语言
‌hasOwnProperty方法‌是JavaScript对象的内置方法用于检测对象自身（非原型链）是否包含指定属性返回布尔值（true/false）constfetchedData={"order":"21570921","orderType":"1",//其他属性...};constitem={value:"orderType"//我们想检查fetchedData是否有这个属性};if(fet
提出一个好问题比得到一个好答案更加深刻 Leekwen 认知笔记生活学习认识你自己审视自己思考
概述我们都从学生时代里走过，解决过很多问题，也得到过很多种答案，标准答案的重要性不言而喻，但当我们长大成人，走在生活的路途上时，发现生活中遇到的各种问题，却好似没有一个是标准答案的。因此，当我们跳出学生时代的框架，会发现生活的“无标准答案”特性，其实藏着更复杂的生存逻辑——它考验的不是“找答案”的能力，而是“定义问题”的智慧。但是，当下我们自己很少有人能静下心来去思考问题，可能是注意力稀缺，亦或是
神经网络初步学习3——数据与损失 X Y O 神经网络学习人工智能
一、传统机器学习与神经网络前言：该部分需要一定的机器学习与数学基础（很浅的基础），如果有不理解的地方可以自行查阅。（1）区别这里不妨以图像识别为例子：（1）在传统的机器学习视角中：我们需要人工手动去设置并提取我们的特征量，例如常见的SIFT、SURF和HOG等，随后需要我们选择合适的分类器（例如：SVM、KNN等分类器）,接着把我们的参数训练出来。（2）而在神经网络的视角中：我们只需要把图片喂给它
【单片机】51单片机练习代码 iFulling 单片机笔记单片机 51单片机嵌入式硬件
【单片机】51单片机练习代码1.端口定义LED灯端口蜂鸣器端口2.独立按键程序编写3.数码管显示4.外部中断初始化5.中断函数程序编写6.串口程序初始化7.LCD602写数据和写命令8.用定时器实现秒表9.流水灯（数组实现）10.花样流水两边往中间（数组实现）11.用定时器编写等宽方波12.用定时器编写非等宽方波1.端口定义LED灯端口#includesbitled0=P1^0;//定义LED灯端
【目标检测】Yolov7 的 ELAN 和 E-ELAN 模块演进（涉及到分组卷积，cardinality，梯度路径） Jiangnan_Cai 深度学习目标检测 YOLO 人工智能
感觉从YOLOv6开始，YOLOv6系列感觉优化点都着重于推理速度上面，YOLOv6的RepBlock重参数化，给我的感觉就是算子融合进行加速。而YOLOv7，为了在各种架构的边缘设备上获得极致的推理速度。YOLOv7的工作：新的bagoffreebies（有效的训练技巧，不会增加推理的计算量）有规划的重参数化模型（不同边缘设备架构，不同的重参数化方法）新的动态标签分配方法为了更好的理解YOLOv
量化价值投资中的深度学习技术：TensorFlow实战
量化价值投资中的深度学习技术：TensorFlow实战关键词：量化价值投资,深度学习,TensorFlow,股票预测,因子模型,LSTM神经网络,量化策略摘要：本文将带你走进"量化价值投资"与"深度学习"的交叉地带，用小学生都能听懂的语言解释复杂概念，再通过手把手的TensorFlow实战案例，教你如何用AI技术挖掘股票市场中的价值宝藏。我们会从传统价值投资的痛点出发，揭示深度学习如何像"超级分析
计算机网络8832号答案,2013年4月份自考试计算机网络原理04741答案.doc
2013年4月份自考试计算机网络原理04741答案全国2013年4月高等教育自学考试计算机网络原理试题课程代码：04741请考生按规定用笔将所有试题的答案涂、写在答题纸上。选择题部分1.无线应用协议WAP的特点是A.支持手机上网B.不需要基站C.基于分组交换D.无固定路由器2.智能大厦及计算机网络的信息基础设施是A.通信自动化B.楼宇自动化C.结构化综合布线D.现代通信网络3.因特网工程特别任务组
底层解剖ThreadLocal及其引发的内存泄漏问题我认为可以！ jvm java ThreadLocal ThreadLocalMap 内存泄漏
首先我们先明确一点，这里我们谈论的是比如线程池中的核心线程的情况，而不是普通的run完就销毁的线程。后面会继续说明为什么。关于ThreadLocal和ThreadLocalMap假设线程run()这样：publicvoidrun(){ThreadLocalthreadLocal=newThreadLocal()就只是new了一个这个工具类，其他的什么都没有发生。并不是每个线程都有一个它，不要混淆了
ResNet：深度卷积神经网络的里程碑心想事“程” 小知识点 cnn 人工智能神经网络
一、引言在深度学习的发展历程中，深度卷积神经网络（CNN）不断演进，旨在提升对图像等数据的特征提取与分类能力。然而，随着网络层数的增加，传统CNN面临着梯度消失、梯度爆炸以及退化等棘手问题，训练变得愈发困难。2015年，由微软研究院提出的ResNet（ResidualNetworks，残差网络）横空出世，它以独特的残差学习思想，成功攻克了这些难题，在ImageNet竞赛中大放异彩，开创了深度神经网
视觉算法之卷积神经网络清风AI 深度学习算法详解及代码复现计算机视觉 cnn 神经网络深度学习 python 课程设计毕业设计
定义与特点卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种专为处理具有网格结构的数据而设计的深度学习模型。其独特的结构和功能使其在图像处理、语音识别等领域展现出卓越的性能:CNN的核心设计理念源于对生物视觉系统的模仿。通过模拟大脑皮层中视网膜和视觉皮层的层次化结构,CNN能够有效地捕捉图像中的局部特征并逐步抽象为高层语义信息。这种设计使得CNN特别擅长处理图像和音
卷积神经网络架构的演进：从AlexNet到EfficientNet t0_54manong 大数据与人工智能 cnn 架构人工智能个人开发
在过去的8.5年里，深度学习取得了飞速的进步。回溯到2012年，AlexNet在ImageNet上的Top-1准确率仅为63.3%，而如今，借助EfficientNet架构和师生训练法，我们已经能达到超过90%的准确率。本文将聚焦于卷积神经网络（CNN）架构的演变，深入探究其背后的基本原理。一些关键术语在深入了解各种架构之前，我们需要明确几个关键术语。更宽的网络意味着卷积层中有更多的特征图（滤波器
第二十六：Fiddler抓包-抓取Android7.0以上的Https包(一)-root手机+低版本安卓7.0以下+targetSdkVersion设置为23+设置信任用户证书卢卡平头哥 Fiddler fiddler https android
一.简介1.假如设备是android7.0+的系统同时应用设targetSdkVersion>=24的话那么应用默认是不信任安装的Fiddler用户证书的所以你就没法抓到应用发起的https请求然后你在Fiddler就会看到一堆200HTTPTunneltoxxx.xxx.xxx:443的请求日志这些都是没有成功抓取的https请求
第二十八：Fiddler抓包-抓取Android7.0以上的Https包(三)-夜神模拟器+Xposed+JustTrustMe 卢卡平头哥 Fiddler fiddler https android
一.简介1.二次加密：有的APP，在涉及到关键数据通信时，会将正文二次加密后才通过HTTPS发送1.1.抓包抓到的是一堆二进制base642.自带HTTPClient：像支付宝那样的变态，自己带一个基于so的HTTPClient库2.1.对于关键数据，都不走URLConnection和OkHttp，而是走自己的HTTPClient库2.2.甚至一些
抓包工具fiddler详细使用教程金丝猴也是猿 http udp https websocket 网络安全网络协议 tcp/ip
抓包工具的使用技巧与配置指南各位做测试的同学想必对抓包工具并不陌生，Fiddler是大家常用的工具之一，但除了Fiddler，还有一款功能强大的抓包工具——SniffMaster（抓包大师），它在某些场景下表现尤为出色。今天我们将结合Fiddler和SniffMaster的使用技巧，为大家提供一份全面的抓包配置指南。Web端抓包配置Fiddler的HTTPS配置打开Fiddler，进入Tools-
【AI大模型】PyTorch Lightning 简化工具我爱一条柴ya 学习AI记录人工智能 pytorch python ai AI编程
PyTorchLightning是一个轻量级的PyTorch封装库，它通过抽象训练循环的工程细节，让研究人员可以专注于模型设计和实验。以下是PyTorchLightning的核心概念和实战指南。核心优势基础使用：三步搭建训练流程1.定义LightningModuleimporttorchimporttorch.nnasnnimportpytorch_lightningasplfromtorchme
【AI大模型】Transformer架构位置编码我爱一条柴ya 学习AI记录人工智能神经网络 ai AI编程
Transformer架构中的位置编码(PositionalEncoding)是其核心设计之一，用于解决一个关键问题：Self-Attention机制本身对输入元素的顺序是“无感知”的(permutationinvariant)。问题：为什么需要位置编码？Self-Attention的本质缺陷：Self-Attention通过计算所有元素对之间的关联来工作。然而，它只关心元素是什么(x_i的内容)
【AI大模型】深入解析预训练：大模型时代的核心引擎我爱一条柴ya 学习AI记录深度学习人工智能 ai python AI编程算法
预训练已成为现代人工智能，尤其是自然语言处理和计算机视觉领域的基石技术。它彻底改变了模型开发范式，催生了BERT、GPT等革命性模型。本文将系统阐述预训练的核心概念、原理、方法、应用及挑战。一、预训练的本质：为何需要它？核心问题：数据标注的瓶颈监督学习依赖海量高质量标注数据，获取成本极高（时间、金钱、专业知识）。对于复杂任务（如理解语义、生成文本），标注难度呈指数级上升。标注数据稀缺导致模型泛化能
毫秒级断电+AI预警：广州曼顿智能空开如何重新定义电气安全？ mdkk678 人工智能安全
在智慧城市、工业4.0与“双碳”目标的推动下，电力系统正经历从传统被动响应向主动智能防控的深刻变革。广州曼顿科技推出的智能空气开关，凭借毫秒级断电技术与AI预警系统的深度融合，不仅填补了传统断路器在响应速度、故障预判和能效管理上的技术空白，更以“零时差守护”理念重塑了电气安全的新范式。一、技术突破：毫秒级断电的“物理屏障”传统断路器依赖机械结构实现过载保护，其响应时间通常在数十毫秒以上，难以应对瞬
【车载测试之CAPL编程系列】：【16】函数定义(2)
车载测试CAPL编程系列：CAPL中的函数定义(2)目录函数定义的基本形式参数类型与返回值函数重载（Overload）返回值限制：不能返回数组AI总结函数定义的基本形式CAPL函数定义具有灵活性，可根据需求设计无返回值、无参数的函数。无返回值、无参数的函数返回值类型：若函数无返回值，可声明为void，且void关键字可省略（CAPL特性，区别于C语言）。参数：允许无参数，但必须保留空括号()。示例
tomcat基础与部署发布暗黑小菠萝 Tomcat java web
从51cto搬家了，以后会更新在这里方便自己查看。做项目一直用tomcat，都是配置到eclipse中使用，这几天有时间整理一下使用心得，有一些自己配置遇到的细节问题。 Tomcat：一个Servlets和JSP页面的容器，以提供网站服务。一、Tomcat安装安装方式：①运行.exe安装包 &n
网站架构发展的过程 ayaoxinchao 数据库应用服务器网站架构
1.初始阶段网站架构：应用程序、数据库、文件等资源在同一个服务器上 2.应用服务和数据服务分离：应用服务器、数据库服务器、文件服务器 3.使用缓存改善网站性能：为应用服务器提供本地缓存，但受限于应用服务器的内存容量，可以使用专门的缓存服务器，提供分布式缓存服务器架构 4.使用应用服务器集群改善网站的并发处理能力：使用负载均衡调度服务器，将来自客户端浏览器的访问请求分发到应用服务器集群中的任何
[信息与安全]数据库的备份问题 comsci 数据库
如果你们建设的信息系统是采用中心-分支的模式,那么这里有一个问题如果你的数据来自中心数据库,那么中心数据库如果出现故障,你的分支机构的数据如何保证安全呢? 是否应该在这种信息系统结构的基础上进行改造,容许分支机构的信息系统也备份一个中心数据库的文件呢? &n
使用maven tomcat plugin插件debug关联源代码商人shang maven debug 查看源码 tomcat-plugin
*首先需要配置好'''maven-tomcat7-plugin'''，参见[[Maven开发Web项目]]的'''Tomcat'''部分。 *配置好后，在[[Eclipse]]中打开'''Debug Configurations'''界面，在'''Maven Build'''项下新建当前工程的调试。在'''Main'''选项卡中点击'''Browse Workspace...'''选择需要开发的
大访问量高并发 oloz 大访问量高并发
大访问量高并发的网站主要压力还是在于数据库的操作上，尽量避免频繁的请求数据库。下面简要列出几点解决方案： 01、优化你的代码和查询语句，合理使用索引 02、使用缓存技术例如memcache、ecache将不经常变化的数据放入缓存之中 03、采用服务器集群、负载均衡分担大访问量高并发压力 04、数据读写分离 05、合理选用框架，合理架构(推荐分布式架构)。
cache 服务器小猪猪08 cache
Cache 即高速缓存.那么cache是怎么样提高系统性能与运行速度呢？是不是在任何情况下用cache都能提高性能？是不是cache用的越多就越好呢？我在近期开发的项目中有所体会，写下来当作总结也希望能跟大家一起探讨探讨，有错误的地方希望大家批评指正。　　1.Cache 是怎么样工作的? 　　Cache 是分配在服务器上
mysql存储过程香水浓 mysql
Description:插入大量测试数据 use xmpl; drop procedure if exists mockup_test_data_sp; create procedure mockup_test_data_sp( in number_of_records int ) begin declare cnt int; declare name varch
CSS的class、id、css文件名的常用命名规则 agevs JavaScript UI 框架 Ajax css
CSS的class、id、css文件名的常用命名规则 (一)常用的CSS命名规则　　头：header 　　内容：content/container 　　尾：footer 　　导航：nav 　　侧栏：sidebar 　　栏目：column 　　页面外围控制整体布局宽度：wrapper 　　左右中：left right
全局数据源 AILIKES java tomcat mysql jdbc JNDI
实验目的：为了研究两个项目同时访问一个全局数据源的时候是创建了一个数据源对象，还是创建了两个数据源对象。 1：将diuid和mysql驱动包（druid-1.0.2.jar和mysql-connector-java-5.1.15.jar）copy至%TOMCAT_HOME%/lib下；2：配置数据源，将JNDI在%TOMCAT_HOME%/conf/context.xml中配置好,格式如下：&l
MYSQL的随机查询的实现方法 baalwolf mysql
MYSQL的随机抽取实现方法。举个例子，要从tablename表中随机提取一条记录，大家一般的写法就是：SELECT * FROM tablename ORDER BY RAND() LIMIT 1。但是，后来我查了一下MYSQL的官方手册，里面针对RAND()的提示大概意思就是，在ORDER BY从句里面不能使用RAND()函数，因为这样会导致数据列被多次扫描。但是在MYSQL 3.23版本中，
JAVA的getBytes()方法 bijian1013 java eclipse unix OS
在Java中，String的getBytes()方法是得到一个操作系统默认的编码格式的字节数组。这个表示在不同OS下，返回的东西不一样！ String.getBytes(String decode)方法会根据指定的decode编码返回某字符串在该编码下的byte数组表示，如： byte[] b_gbk = "
AngularJS中操作Cookies bijian1013 JavaScript AngularJS Cookies
如果你的应用足够大、足够复杂，那么你很快就会遇到这样一咱种情况：你需要在客户端存储一些状态信息，这些状态信息是跨session(会话)的。你可能还记得利用document.cookie接口直接操作纯文本cookie的痛苦经历。幸运的是，这种方式已经一去不复返了，在所有现代浏览器中几乎
[Maven学习笔记五]Maven聚合和继承特性 bit1129 maven
Maven聚合在实际的项目中，一个项目通常会划分为多个模块，为了说明问题，以用户登陆这个小web应用为例。通常一个web应用分为三个模块： 1. 模型和数据持久化层user-core, 2. 业务逻辑层user-service以 3. web展现层user-web， user-service依赖于user-core user-web依赖于user-core和use
【JVM七】JVM知识点总结 bit1129 jvm
1. JVM运行模式 1.1 JVM运行时分为-server和-client两种模式，在32位机器上只有client模式的JVM。通常，64位的JVM默认都是使用server模式，因为server模式的JVM虽然启动慢点，但是，在运行过程，JVM会尽可能的进行优化 1.2 JVM分为三种字节码解释执行方式：mixed mode, interpret mode以及compiler
linux下查看nginx、apache、mysql、php的编译参数 ronin47
在linux平台下的应用，最流行的莫过于nginx、apache、mysql、php几个。而这几个常用的应用，在手工编译完以后，在其他一些情况下（如：新增模块），往往想要查看当初都使用了那些参数进行的编译。这时候就可以利用以下方法查看。 1、nginx [root@361way ~]# /App/nginx/sbin/nginx -V nginx: nginx version: nginx/
unity中运用Resources.Load的方法？ brotherlamp unity视频 unity资料 unity自学 unity unity教程
问：unity中运用Resources.Load的方法？答：Resources.Load是unity本地动态加载资本所用的方法,也即是你想动态加载的时分才用到它,比方枪弹,特效,某些实时替换的图像什么的,主张此文件夹不要放太多东西,在打包的时分,它会独自把里边的一切东西都会集打包到一同,不论里边有没有你用的东西,所以大多数资本应该是自个建文件放置 1、unity实时替换的物体即是依据环境条件
线段树-入门 bylijinnan java 算法线段树
/** * 线段树入门 * 问题：已知线段[2,5] [4,6] [0,7]；求点2,4,7分别出现了多少次 * 以下代码建立的线段树用链表来保存，且树的叶子结点类似[i,i] * * 参考链接：http://hi.baidu.com/semluhiigubbqvq/item/be736a33a8864789f4e4ad18 * @author lijinna
全选与反选 chicony 全选
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <html> <head> <title>全选与反选</title>
vim一些简单记录 chenchao051 vim
mac在/usr/share/vim/vimrc linux在/etc/vimrc 1、问：后退键不能删除数据，不能往后退怎么办？答：在vimrc中加入set backspace=2 2、问：如何控制tab键的缩进？答：在vimrc中加入set tabstop=4 (任何
Sublime Text 快捷键 daizj 快捷键 sublime
[size=large][/size]Sublime Text快捷键：Ctrl+Shift+P：打开命令面板Ctrl+P：搜索项目中的文件Ctrl+G：跳转到第几行Ctrl+W：关闭当前打开文件Ctrl+Shift+W：关闭所有打开文件Ctrl+Shift+V：粘贴并格式化Ctrl+D：选择单词，重复可增加选择下一个相同的单词Ctrl+L：选择行，重复可依次增加选择下一行Ctrl+Shift+L：
php 引用(&)详解 dcj3sjt126com PHP
在PHP 中引用的意思是：不同的名字访问同一个变量内容. 与Ｃ语言中的指针是有差别的．Ｃ语言中的指针里面存储的是变量的内容在内存中存放的地址变量的引用 PHP 的引用允许你用两个变量来指向同一个内容复制代码代码如下: <? $a="ABC"; $b =&$a; echo
SVN中trunk,branches,tags用法详解 dcj3sjt126com SVN
Subversion有一个很标准的目录结构，是这样的。比如项目是proj，svn地址为svn://proj/，那么标准的svn布局是svn://proj/|+-trunk+-branches+-tags这是一个标准的布局，trunk为主开发目录，branches为分支开发目录，tags为tag存档目录（不允许修改）。但是具体这几个目录应该如何使用，svn并没有明确的规范，更多的还是用户自己的习惯。
对软件设计的思考 e200702084 设计模式数据结构算法 ssh 活动
软件设计的宏观与微观软件开发是一种高智商的开发活动。一个优秀的软件设计人员不仅要从宏观上把握软件之间的开发，也要从微观上把握软件之间的开发。宏观上，可以应用面向对象设计，采用流行的SSH架构，采用web层，业务逻辑层，持久层分层架构。采用设计模式提供系统的健壮性和可维护性。微观上，对于一个类，甚至方法的调用，从计算机的角度模拟程序的运行情况。了解内存分配，参数传
同步、异步、阻塞、非阻塞 geeksun 非阻塞
同步、异步、阻塞、非阻塞这几个概念有时有点混淆，在此文试图解释一下。同步：发出方法调用后，当没有返回结果，当前线程会一直在等待（阻塞）状态。场景：打电话，营业厅窗口办业务、B/S架构的http请求-响应模式。异步：方法调用后不立即返回结果，调用结果通过状态、通知或回调通知方法调用者或接收者。异步方法调用后，当前线程不会阻塞，会继续执行其他任务。实现：
Reverse SSH Tunnel 反向打洞實錄 hongtoushizi ssh
實際的操作步驟： # 首先，在客戶那理的機器下指令連回我們自己的 Server，並設定自己 Server 上的 12345 port 會對應到幾器上的 SSH port ssh -NfR 12345:localhost:22 [email protected] # 然後在 myhost 的機器上連自己的 12345 port，就可以連回在客戶那的機器 ssh localhost -p 1
Hibernate中的缓存 Josh_Persistence 一级缓存 Hiberante缓存查询缓存二级缓存
Hibernate中的缓存一、Hiberante中常见的三大缓存：一级缓存，二级缓存和查询缓存。 Hibernate中提供了两级Cache，第一级别的缓存是Session级别的缓存，它是属于事务范围的缓存。这一级别的缓存是由hibernate管理的，一般情况下无需进行干预；第二级别的缓存是SessionFactory级别的缓存，它是属于进程范围或群集范围的缓存。这一级别的缓存
对象关系行为模式之延迟加载 home198979 PHP 架构延迟加载
形象化设计模式实战 HELLO!架构一、概念 Lazy Load：一个对象，它虽然不包含所需要的所有数据，但是知道怎么获取这些数据。延迟加载貌似很简单，就是在数据需要时再从数据库获取，减少数据库的消耗。但这其中还是有不少技巧的。二、实现延迟加载实现Lazy Load主要有四种方法：延迟初始化、虚
xml 验证 pengfeicao521 xml xml解析
有些字符，xml不能识别，用jdom或者dom4j解析的时候就报错 public static void testPattern() { // 含有非法字符的串 String str = "Jamey친Ñ&#1282
div设置半透明效果 spjich css 半透明
为div设置如下样式： div{filter:alpha(Opacity=80);-moz-opacity:0.5;opacity: 0.5;} 说明： 1、filter：对win IE设置半透明滤镜效果，filter:alpha(Opacity=80)代表该对象80%半透明，火狐浏览器不认2、-moz-opaci
你真的了解单例模式么？ w574240966 java 单例设计模式 jvm
单例模式，很多初学者认为单例模式很简单，并且认为自己已经掌握了这种设计模式。但事实上，你真的了解单例模式了么。一，单例模式的5中写法。（回字的四种写法，哈哈。） 1，懒汉式（1）线程不安全的懒汉式 public cla