魏晓蕾

【FractalNet】Ultra-Deep Neural Networks Without Residuals (2017) 全文翻译

作者

Gustav Larsson（University of Chicago，[email protected]）
Michael Maire（TTI Chicago，[email protected]）
Gregory Shakhnarovich（TTI Chicago，[email protected]）

摘要

提出了一种基于自相似性的神经网络宏结构设计策略。重复应用一个简单的扩展规则生成深层网络，其结构布局是精确截断的分形。这些网络包含不同长度的相互作用子路径，但不包括任何通过或残余连接；每个内部信号在被后续层看到之前都经过滤波器和非线性变换。在实验中，分形网络在CIFAR和ImageNet分类任务中都与标准残差网络的优异性能相匹配，从而证明了残差表示可能不是极深卷积神经网络成功的基础。相反，关键可能是在训练过程中，从浅到深的过渡能力。我们注意到与学生-教师行为的相似性，并开发了辍学的自然延伸-辍学路径，以规范分形结构中各子路径的共同适应。这种正则化允许提取高性能的固定深度子网络。此外，分形网络还表现出一种“随时”的特性：浅层的子网提供快速的答案，而较深的子网，具有更高的延迟，可以提供更准确的答案。

1. 引言

残差网络（He et al.，2016a）或ResNets，通过约束网络学习残差，使得卷积神经网络的深度和精确度都有了显著的提高。ResNet变体（He et al.，2016a；b；Huang et al.，2016b）和相关架构（Srivastava et al.，2015）采用了通过直通通道初始化和锚定网络到身份功能的常用技术。现在的训练在两个方面有所不同。首先，目标变为学习剩余输出，而不是无参考的绝对映射。其次，这些网络表现出一种深度监督（Lee et al.，2014），因为近身份层有效地缩短了与损失的距离。他等。（2016a）推测前者，即剩余配方本身，至关重要。
相反，我们通过构建一个不依赖残差的极具竞争力的深度架构来展示。我们的设计原则足够纯粹，可以用一个单词、分形和一个简单的图表来交流（图1）。然而，分形网络隐含地再现了许多硬连接到以前成功的架构中的属性。深度监督不仅会自动产生，而且会推动网络内部的一种学生-教师学习（Ba&Caruana，2014；Urban et al.，2017）。其他设计的模块化构建块（Szegedy et al.，2015；Liao&Carneiro，2015）类似于分形网络嵌套子结构的特殊情况。
对于分形网络，训练的简单性反映了设计的简单性。附加到最后一层的单一损失就足以驱动内部行为模仿深度监管。参数是随机初始化的。由于分形网络包含许多深度的子网络，因此它们对总体深度的选择是鲁棒的；使它们足够深，训练将形成一个有用的子网络集合。
分形设计所产生的全部突发行为可能会削弱对近期工程技巧的需求，以达到类似的效果。这些技巧包括身份初始化的剩余函数形式、手动深度监督、手工构建的体系结构模块和学生-教师培训制度。第2节回顾了大量相关技术。混合设计当然可以将它们中的任何一个都与分形结构相结合；我们对这种混合体在多大程度上的协同作用没有定论。

图1. 分形结构。 左图：一个简单的扩展规则生成了一个由C交织的列组成的分形结构。基本情况f 1 pzq在输入和输出之间有一个选定类型的单层（例如卷积）。连接层计算元素平均值。右图：深卷积网络通过合流定期降低空间分辨率。分形版本使用fc作为池层之间的构建块。叠加B这样的块产生一个网络，其总深度（以卷积层为单位）为B2C-1。本例深度为40（B=5，C=4）

我们的主要贡献有两个方面：

我们引入分形网络，它是ResNet的第一个简单替代方案。分形网络表明，显式残差学习不是构建超深神经网络的必要条件。
通过分析和实验，我们阐明了分形网络与先前深层网络设计中的一系列现象之间的联系。

作为另一个贡献，我们开发了drop-path，一种用于超深分形网络的正则化协议。在没有数据扩充的情况下，使用下降路径和丢失训练的分形网络（Hinton等人，2012年）超过了通过随机深度正则化的剩余网络的性能（Huang等人，2016b）。尽管，像随机深度一样，它随机删除宏尺度的组件，drop path进一步利用我们的分形结构来选择要禁用的组件。
Drop-path不仅构成了一种正则化策略，而且还提供了一种任意赋予分形网络任何时间行为的方法。在学习过程中，特定的丢弃路径调度阻止了不同深度的子网络的协同适应。因此，浅层和深层子网都必须各自产生正确的输出。因此，在完成整个网络之前，对浅层子网的查询会产生一个快速而适度准确的结果。
第三节详细阐述了分形网络和下降路径的技术细节。第4节提供了在CIFAR-10、CIFAR-100（Krizhevsky，2009）、SVHN（Netzer等人，2011）和ImageNet（Deng等人，2009）数据集中的残差网络的实验比较。我们还评估了正则化和数据扩充策略，调查了子网学生-教师在培训期间的行为，并对使用drop-path获得的任何时候的网络进行了基准测试。第5节提供了综合。由于封装了许多已知的，但看似不同的设计原则，自相似结构可能成为神经结构的一个基本组成部分。

2. 相关工作

不断深化的前馈神经网络通常在性能上有所回报。Glenziegy等人，2015年《从计算机到计算机的改进》等（2015年）。不幸的是，更大的深度也使训练更具挑战性，至少在使用随机初始化层的一阶优化方法时是如此。随着网络越来越深和非线性，梯度步长的线性近似变得越来越不合适。克服这些困难的愿望推动了优化技术和网络体系结构的研究。
在优化方面，最近的工作取得了改进。为了防止梯度消失，ReLU激活函数现在广泛取代了乙状结肠和tanh单位（Nair&Hinton，2010）。这个主题仍然是一个活跃的研究领域，对ReLUs进行了各种调整，例如PReLUs（Heetal.，2015）和ELUs（Clevert et al.，2016）。即使使用ReLUs，使用批处理标准化（Ioffe&Szegedy，2015）也可以通过减少内部协变量的偏移来加快训练速度。良好的初始化也可以改善这个问题（Glorot&Bengio，2010；Mishkin&Matas，2016）。Path SGD（Neyshabur等人，2015）提供了一种替代的标准化方案。优化方面的进展与我们的架构关注点有些正交，期望两者中的任何一个方面的进展都是成熟的组合。
体系结构中值得注意的思想可以追溯到跳过连接，这是神经网络中非平凡路由模式的最早例子。最近的工作进一步阐述了这些问题（Maire et al.，2014；Hariharan et al.，2015）。公路网（Srivastava et al.，2015）和ResNet（He et al.，2016a；b）以参数化通过和选通的形式提供额外的扭曲。在我们自己的后续工作中，黄等。（2016a）研究具有显式跳过连接的ResNet变体。这些方法与其他被证明可以扩展到数百层及以上的设计一样，有着共同的区别。ResNet的构建块使用身份映射作为定位点，并显式地参数化一个附加的校正项（残差）。身份初始化也出现在循环网络的背景下（Le等人，2015）。ResNet和公路网倾向于回到同一地图上，这可能使它们的有效深度远小于其标称深度。
一些先前的结果暗示了我们在第4节中的实验结果。也就是说，有效深度的减少是训练极深网络的关键；残差是偶然的。Huang等人。（2016b）在他们关于随机深度的研究中提供了一条线索：在训练期间随机地从ResNet中删除层，从而以恒定的因子收缩网络深度，从而提供额外的性能优势。我们通过下降路径来建立这种直觉，它使深度大大缩小。
深度监督的成功（Lee et al.，2014）提供了另一条线索，即有效深度至关重要。在这里，一个从中层分叉出来的辅助损耗，在反向传播过程中引入了一个较短的路径。分叉处的层接收来自主损耗和辅助损耗的两个渐变，它们相加在一起。深度监督现在很普遍，例如，被GoogLeNet采用（Szegedy等人，2015）。然而，辅助损耗在测试时的无关性引入了一个缺点，即实际目标与用于培训的目标不一致。
对学生-教师范式的探索（Ba&Caruana，2014）揭示了不同深度网络之间相互作用的潜力。在模型压缩场景中，一个更深层次的网络（之前经过培训）可以引导和改进更浅、更快的学生网络的学习（Ba&Caruana，2014；Urban等人，2017）。教师通过未标记的模拟数据来完成教师的预测。FitNets（Romero et al.，2015）明确地将学生和教师结合起来，强迫学生在网络中的几个中间点模仿行为。我们的分形网络以隐式耦合的形式捕捉了另一种选择，即在浅层和深层子网之间进行双向信息流。
通过使用更大的模块代替单个层来扩展网络，也带来了性能提升。例如，起始模块（Szegedy等人，2015）将不同感受野大小的卷积层的结果串联起来。将这些模块堆叠起来就形成了GoogLeNet体系结构。Liao和Carneiro（2015）采用了maxout代替串联的变体。图1显示了我们与这些工作的联系。随着分形网络的加深，它也会变宽。此外，注意，用相同的空间感受野（例如3×3）堆叠两个2D卷积层可获得更大的（5×5）感受野。分形网络的水平横截面使人想起初始模块，但递归结构导致的附加连接除外。

3. 分形网络

我们从图1所示的更正式的想法开始。卷积神经网络作为我们的运行示例，在接下来的部分中，我们将使用我们的实验平台。然而，值得强调的是，我们的框架更具普遍性。原则上，图1中的卷积层可以替换为不同的层类型，甚至是定制设计的模块或子网，以生成其他分形结构。
设C表示截断分形fC（）的指数。我们的网络结构、连接和层类型由fC（）定义。由单个卷积层组成的网络是基本情况：
$f_1(z)=conv(z)................(1)$
我们递归地定义连续分形：
$f_{C+1}(z)=[(f_C\circ f_C)(z)]\oplus[conv(z)]..............(2)$
其中 $\circ$ 表示组合， $\oplus$ 表示连接操作。当以图1的样式绘制时，C对应于网络 $f_C(\cdot)$ 的列数或宽度。深度，定义为输入和输出之间最长路径上的conv层数，按 $2^{C-1}$ 缩放。用于分类的卷积网络通常分布在池层中。我们通过使用 $f_C(\cdot)$ 作为构建块并将其与随后的池层B次叠加，得到总深度 $B\cdot 2^{C-1}$ 。
join操作 $\oplus$ 将两个特性blob合并为一个。在这里，blob是conv层的结果：一个张量在一个空间域上保持固定数量通道的激活。通道计数对应于前一个conv层中过滤器集的大小。随着分形的扩展，我们将相邻的连接折叠成一个跨越多个列的单个连接层，如图1右侧所示。连接层将其所有输入特性blob合并为单个输出blob。
对于连接层的操作，有几个选择似乎是合理的，包括连接和添加。我们实例化每个连接来计算其输入的元素平均值。这适用于卷积网络，其中对于分形块内的所有conv层，信道计数设置为相同的。平均值可能看起来类似于ResNet的加法运算，但有关键区别：

ResNet明确区分直通信号和剩余信号。在分形网络中，没有信号是特权的。连接层的每个输入都是前一个conv层的输出。仅网络结构无法将任何标识为主节点。
删除路径正则化，如第3.1节所述，强制连接的每个输入单独可靠。这就减少了即使是含蓄地学习分配一个信号的一部分作为另一个信号的残差的回报。
实验表明，我们可以提取由单个列组成的高性能子网（第4.2节）。这样的子网实际上没有连接，因为只有一条路径是活动的。它们不会产生可以加上残差的信号。

这些属性共同确保连接层不是残差学习的替代方法。

3.1 通过Drop-Path进行正则化

Dropout（Hinton et al.，2012）和drop connect（Wan et al.，2013）修改顺序网络层之间的交互，以阻止协同适应。由于分形网络包含额外的宏观尺度结构，我们建议用类似的粗尺度正则化方案来补充这些技术。
图2说明了放置路径。正如dropout防止激活的协同适配一样，drop path通过随机丢弃连接层的操作数来防止并行路径的协同适配。这不鼓励网络使用一个输入路径作为锚点，而将另一个输入路径用作校正项（如果不加以阻止，这种配置很容易过度拟合）。我们考虑两种抽样策略：

局部：join以固定的概率丢弃每个输入，但我们确保至少有一个输入存活。
全局：为整个网络选择单一路径。我们将此路径限制为单个列，从而将单个列提升为独立的强预测因子。

图2. 放置路径。分形网络块的功能，层之间的某些连接被禁用，前提是输入到输出的某些路径仍然可用。Drop path保证至少有一个这样的路径，同时在禁用许多其他路径的子网中进行采样。在训练过程中，将不同的活动子网络呈现给每个小批量，可以防止并行路径的协同适应。全局采样策略返回单列作为子网。交替使用它和本地采样鼓励将单个列开发为性能独立的子网

与dropout一样，信号可能需要适当的重新缩放。对于元素级的平均值，这是微不足道的；每个连接只计算其活动输入的平均值。
在实验中，我们使用辍学和50%局部和50%全局采样的混合模型对滴路进行训练。我们在每一个小批量中抽取一个新的子网络。在有足够的内存的情况下，我们可以通过保持独立的网络并通过权重共享将它们连接在一起，从而同时评估每个小批次的一个局部样本和所有全局样本。
尽管分形连通性允许使用任何长度的路径，但全局滴路径强制使用许多长度相差数量级（2的幂次）的路径。通过滴路采样的子网络具有较大的结构多样性。这一特性与ResNet的随机深度正则化相反，后者通过对链中的每一层使用固定的下降概率，对具有集中深度分布的子网络进行抽样（Huang等人，2016b）。
全局下降路径不仅可以作为正则化器，而且可以作为诊断工具。如第4.3节更详细地讨论的那样，监视单个列的性能可以深入了解网络和培训机制。在速度（浅）和精度（深）之间进行权衡时，不同深度的单独强列也给用户提供了选择。

3.2 数据增强

数据扩充可以减少正则化的需要。ResNet证明了这一点，在CIFAR-100上实现了27.22%的错误率，而没有增强的CIFAR-100错误率为44.76%（Huang等人，2016b）。虽然增加有利于分形网络，但我们表明drop-path提供了高效的正则化，允许它们在没有数据扩充的情况下也能获得竞争性的结果。

3.3 实现细节

我们使用Caffe实现分形网络（Jia等人，2014）。纯粹为了方便起见，我们在图1中的块末尾翻转池和连接层的顺序。我们在跨所有列的连接之前立即对单个列进行池化，而不是在它们之后立即池化一次。
我们利用动量随机梯度下降训练分形网络。作为现在的标准，我们将批量标准化与每个conv层（卷积、批处理规范、然后是ReLU）一起使用。

表1. CIFAR-100/CIFAR-10/SVHN。我们将测试误差（%）与其他领先的方法进行比较，这些方法要么没有数据增强，要么转换/镜像（+），要么更大幅度地增加（++）。我们的主要比较点是ResNet。我们使用数据扩充技术与它的基准结果紧密匹配，在没有数据扩充的情况下，我们的表现大大优于它。使用drop-path训练，我们可以从竞争激烈的FractalNet单列（plain）网络中提取
（1 密集连接网络（DenseNets）是并行工作，出现在arXiv关于分形网的原始论文之后。残差连接形式的残差交换。我们报告了其250层DenseNet-BC网络的性能，增长率为k“24。
2 这个更深的（4列）分形网的参数较少。我们首先改变列宽：（128，64，32，16）个通道跨越列，除了最后一个外，每个块加倍。线性投影在连接之前暂时加宽较薄的柱。如Iandola等人（2016年）所述，我们切换到1×1和3×3卷积滤波器的混合。）

4. 实验

CIFAR、SVHN和ImageNet数据集用作与先前工作进行比较和FractalNet内部行为分析的试验台。我们评估与每个数据集相关联的标准分类任务的性能。对于由32×32幅图像组成的CIFAR和SVHN，我们将我们的分形网络设置为5个块（B=5），每个块之后应用2×2非重叠最大池和子采样。这将在整个网络过程中将输入的32×32空间分辨率降低到1×1。softmax预测层连接在网络的末端。除非另有说明，我们将块1到块5内的滤波器信道数设置为（64，128，256，512，512），这主要与将空间分辨率减半后信道数加倍的约定相匹配。
对于ImageNet，我们选择分形结构，以便于与He等人的34层ResNet进行直接比较。（2016a）。我们使用与ResNet-34相同的第一层和最后一层，但是将网络的中间部分改为由4个块组成（B=4），每个块包含8个层（C=4列）。我们在块1到块4中使用（128，256，512，1024）的滤波器通道级数。

4.1 训练

对于使用辍学的实验，我们将每个区块的下降率固定为（0%、10%、20%、30%、40%），类似于Clevert等人（2016年）。本地丢弃路径在整个网络中使用15%的丢弃率。

表2. ImageNet（验证集，10个裁剪）

表3. 超深分形网络（CIFAR-100++）。增加深度可以大大提高精度，直到最终收益递减。与普通网络相比，如果制作得太深，则无法训练（表4）

表4. 分形结构作为训练设备（CIFAR-100++）。普通网络在中等深度时表现良好，但在训练过程中表现出较差的收敛性。然而，当一个列在具有混合下降路径的分形网络中训练并提取出来时，我们恢复了一个克服这种深度限制（可能是由于学生-教师效应）的普通网络

我们在CIFAR上运行了400个epoch，在SVHN上运行了20个epoch，在ImageNet上运行了70个epoch。我们的学习率从0.02开始（ImageNet为0.001），我们使用随机梯度下降法进行训练，批次大小为100（ImageNet为32），动量为0.9。对于CIFAR/SVHN，只要剩余的时代数减半，学习率就会降低10倍。对于ImageNet，我们在第50和第65时代下降了10倍。我们使用Xavier初始化（Glorot和Bengio，2010）。
广泛采用的CIFAR数据增强方案（Lin et al.，2013；Clevert et al.，2016；Srivastava et al.，2015；He et al.，2016a；b；Huang et al.，2016b；Targ et al.，2016）仅包括水平镜像和平移（r´4,4s中的均匀偏移），在进行平均减法后，图像在需要时进行零填充。我们通过在数据集名称（例如CIFAR-100+）后面添加“+”来表示使用不超过此程度的扩充所获得的结果。“++”表示依赖于更多数据扩充的结果；在这里，确切的方案可能会有所不同。我们在这个类别中的条目是适度的，只是改变零填充以反映填充。

4.2 结果

表1比较了分形网络在CIFAR和SVHN上与竞争方法的性能。FractalNet（depth 20）的性能优于原始ResNet。通过数据扩充，我们的CIFAR-100精度接近于最好的ResNet变体。在没有增强和正则化的情况下，分形网络在CIFAR上的性能优于ResNet和随机深度的ResNet，这表明分形网络可能不太容易过度拟合。大多数方法在SVHN上执行类似的操作。将深度增加到40，同时借用一些参数缩减技巧（Iandola et al.，2016），揭示了FractalNet在一系列配置选择中的性能是一致的。
没有数据扩充的实验突出了drop-path正则化的能力。在CIFAR-100上，下降路径将fractallnet的错误率从35.34%降低到28.20%。未经规范的ResNet远远落后于（44.76%），随机深度的ResNet（37.80%）没有赶上我们未经规范的起点35.34%。CIFAR-10反映了这一点。通过数据扩充，drop path提供了一个提升（CIFAR-10），或者不会显著影响FractalNet的性能（CIFAR-100）。
请注意，分形网络的最深列的性能与完整网络的性能相近（在CIFAR-10上统计上是等效的）。这表明分形结构作为学习框架可能比作为最终模型架构更重要。
表2显示了分形网络缩放到ImageNet，与ResNet（He et al.，2016a）在相同深度匹配。注意，与我们的工作同时，对剩余网络范式的改进进一步改进了ImageNet的最新技术。34层的宽残差网络（Zagoruyko和Komodakis，2016年）通过将每层的特征通道加倍，使单个作物Top-1和Top-5验证误差分别减少约2%和1%。DenseNets（Huang等人，2016a）通过构建连接而不是添加特征信道的剩余块来显著提高性能。

图3. 隐性深层监督。左图：在CIFAR-100上训练的深度为5、10、20和40的平原网络的损耗演变。对于更深层次的网络来说，培训变得越来越困难。在40层，我们无法令人满意地训练网络。右图：我们训练了一个具有混合滴路的4列分形网络，监测其损耗以及与平面网络相同深度的各个列对应的四个子网络的损耗。当20层子网开始稳定时，drop path给40层的列施加压力，使其适应，而网络的其余部分是它的老师。这解释了第4列的肘部形状的学习曲线发生在25个时代左右

表3表明，当我们增加C以获得非常深的网络（C=6为160层）时，分形网能够抵抗性能下降。本表得分与表1不可比。为了提高时间和内存效率，我们将分块特征通道减少到（16,32,64128128），并将批量大小减少到50，以支持表3和表4中的实验。
表4提供了一个基线，表明平原深层网络的训练在其深度达到40层时开始退化。根据我们的经验，一个普通的160层完全不能收敛。此表还强调了使用分形网和拖放路径作为引擎提取训练网络（列）的能力，这些网络具有与普通网络相同的拓扑结构，但测试性能要高得多。

4.3 思考

在图3中，我们检查了训练期间40层分形网的演化。单独跟踪列（记录其作为独立网络运行时的损失），我们观察到40层的列最初改善缓慢，但一旦网络其余部分的损失开始稳定，就会恢复。与单纯的40层网络（蓝色虚线）相比，它永远不会取得快速的进展。该柱具有相同的初始平台，但随后在25个时期之后有所改善，产生了一个与平原网络不一样的损耗曲线。
我们假设分形结构触发了类似于深度监督和横向学生-教师信息流的效应。列#4与列#3每隔一层连接，并且在每四层中这种连接不涉及其他列。一旦分形网络部分依赖于通过第#3列的信号，下降路径对第#4列施加压力，以在第#3列下降时产生一个替代信号。此任务的范围受到限制。一个特定的下降只需要第4列中的两个连续层来代替第3列中的一个（一个小型的学生-教师问题）。
分形网络动力学的这种解释与Greff等人在并行工作中的解释是一致的。（2017）ResNet索赔。具体来说，Greff等人。（2017）建议残差网络学习展开迭代估计，每个层对其输入表示进行逐步细化。最深的分形网络柱也可以以同样的方式工作，网络的其余部分作为脚手架，通过从一个柱到下一个柱的两层来构建更小的细化步骤。
这些解释似乎与Veit等人的结论不一致。（2016年），他们声称，ResNet成功的基础是类似于整体的行为。对于一些非常深层的网络来说，这当然是不真实的，因为FractalNet提供了一个反例：我们可以提取一个单列（纯网络拓扑），而它本身（没有感知）的性能几乎和整个网络一样好。此外，渐进精细化的观点可以为Veit等人的实验提供另一种解释。（2016年）。如果每一层只做了一个小的修改，那么移除一个可能会看起来像是在网络的后续部分注入少量的输入噪声。也许噪声容忍度解释了Veit等人。（2016）移除ResNet层时观察。

5. 结论

我们的分形网络实验提供了强有力的证据，路径长度是训练超深神经网络的基础；残差是偶然的。关键是分形网和ResNet的共同特点：名义网络深度大，但在训练过程中有效地缩短了梯度传播的路径。分形结构可以说是满足这一要求的最简单的方法，并在实验性能上与剩余网络相匹配。分形网络不能太深；额外的深度可能会减慢训练速度，但不会影响准确性。
对于滴路径，极深分形网络的正则化是直观和有效的。作为一种实现速度（延迟）与精度权衡的方法，丢弃路径加倍。对于快速响应有实用价值的应用，我们可以得到分形网络，其部分评估会产生良好的结果。
我们的分析将分形网络的内部行为与设计到其他网络中的现象联系起来。它们的子结构类似于手工制作的模块，在以前的工作中用作组件。他们的培训演变可以模仿深度监督和学生-教师学习。

致谢

我们非常感谢英伟达公司对本研究所用GPU的捐赠。这项工作部分得到了国家科学基金会奖RI:1409837的支持。

参考文献

你可能感兴趣的:(Deep,Learning,Research,Deep,Learning)

机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
JavaScript 中，深拷贝（Deep Copy）和浅拷贝（Shallow Copy）跳房子的前端前端面试 javascript 开发语言 ecmascript
在JavaScript中，深拷贝（DeepCopy）和浅拷贝（ShallowCopy）是用于复制对象或数组的两种不同方法。了解它们的区别和应用场景对于避免潜在的bugs和高效地处理数据非常重要。以下是对深拷贝和浅拷贝的详细解释，包括它们的概念、用途、优缺点以及实现方式。1.浅拷贝（ShallowCopy）概念定义：浅拷贝是指创建一个新的对象或数组，其中包含了原对象或数组的基本数据类型的值和对引用数
深度 Qlearning：在直播推荐系统中的应用 AGI通用人工智能之禅程序员提升自我硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
深度Q-learning：在直播推荐系统中的应用关键词：深度Q-learning,强化学习,直播推荐系统,个性化推荐1.背景介绍1.1问题的由来随着互联网技术的飞速发展,直播平台如雨后春笋般涌现。面对海量的直播内容,用户很难快速找到自己感兴趣的内容。因此,个性化推荐系统在直播平台中扮演着越来越重要的角色。1.2研究现状目前,主流的个性化推荐算法包括协同过滤、基于内容的推荐等。这些方法在一定程度上缓
深度学习-点击率预估-研究论文2024-09-14速读 sp_fyf_2024 深度学习人工智能
深度学习-点击率预估-研究论文2024-09-14速读1.DeepTargetSessionInterestNetworkforClick-ThroughRatePredictionHZhong,JMa,XDuan,SGu,JYao-2024InternationalJointConferenceonNeuralNetworks,2024深度目标会话兴趣网络用于点击率预测摘要：这篇文章提出了一种新
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构汤萌妮Margaret
探索未来，大规模分布式深度强化学习——深入解析IMPALA架构scalable_agent项目地址:https://gitcode.com/gh_mirrors/sc/scalable_agent在当今的人工智能研究前沿，深度强化学习（DRL）因其在复杂任务中的卓越表现而备受瞩目。本文要介绍的是一个开源于GitHub的重量级项目：“ScalableDistributedDeep-RLwithImp
云服务业界动态简报-20180128 Captain7
一、青云青云QingCloud推出深度学习平台DeepLearningonQingCloud，包含了主流的深度学习框架及数据科学工具包，通过QingCloudAppCenter一键部署交付，可以让算法工程师和数据科学家快速构建深度学习开发环境，将更多的精力放在模型和算法调优。二、腾讯云1.腾讯云正式发布腾讯专有云TCE(TencentCloudEnterprise)矩阵，涵盖企业版、大数据版、AI
机器学习VS深度学习 nfgo 机器学习
机器学习（MachineLearning,ML）和深度学习（DeepLearning,DL）是人工智能（AI）的两个子领域，它们有许多相似之处，但在技术实现和应用范围上也有显著区别。下面从几个方面对两者进行区分：1.概念层面机器学习：是让计算机通过算法从数据中自动学习和改进的技术。它依赖于手动设计的特征和数学模型来进行学习，常用的模型有决策树、支持向量机、线性回归等。深度学习：是机器学习的一个子领
ResNet的半监督和半弱监督模型 Valar_Morghulis
Billion-scalesemi-supervisedlearningforimageclassificationhttps://arxiv.org/pdf/1905.00546.pdfhttps://github.com/facebookresearch/semi-supervised-ImageNet1K-models/权重在timm中也有：https://hub.fastgit.org/r
联邦学习 Federated learning Google I/O‘19 笔记努力搬砖的星期五笔记联邦学习机器学习机器学习 tensorflow
FederatedLearning:MachineLearningonDecentralizeddatahttps://www.youtube.com/watch?v=89BGjQYA0uE文章目录FederatedLearning:MachineLearningonDecentralizeddata1.DecentralizeddataEdgedevicesGboard:mobilekeyboa
PCL 怎样可视化深度图像 LeonDL168 PCL 计算机视觉人工智能视觉检测图像处理算法
本小节讲解如何可视化深度图像的两种方法，在3D视窗中以点云形式进行可视化（深度图像来源于点云），另一种是，将深度值映射为颜色，从而以彩色图像方式可视化深度图像。代码首先，在PCL（PointCloudLearning）中国协助发行的书提供光盘的第7章例2文件夹中，打开名为range_image_visualization.cpp的代码文件，同文件夹下可以找到相关的测试点云文件room_scan1.
el-dialog高度设置夏之小星星前端 vue.js elementui css
el-dialog高度设置::v-deep.el-dialog{height:78vh;overflow:auto;}
elementuiPlus取消el-input的边框 qq_39016177 elementui
elementuiPlus取消el-input的边框1.通常取消边框的方法设置border为none2.还有其他类似边框的例如outlinebox-shadow这两个属性都是会产生边框效果3.el-input需要更改的话–如下需要修改box-shadow为空即可上代码:deep(.el-input__wrapper){align-items:center;background-color:#F7F
全球核酸样品制备市场展望：2030年预计达到6387.4百万美元恒州诚思CC 人工智能大数据数据库数据分析
随着全球生物技术和生物医药行业的迅速发展，核酸样品制备市场正逐渐成为一个重要的生命科学领域。据恒州恒思（YHresearch）团队的研究数据显示，2023年全球核酸样品制备市场规模已达到4158.5百万美元，并预计在未来六年内，该市场将以年复合增长率（CAGR）6.5%的速度增长，到2030年市场规模预计将达到6387.4百万美元。核酸样品制备主要用于提取和纯化DNA和RNA样本，以供后续的分子生
【双语新闻】AGI安全与对齐，DeepMind近期工作曲奇人工智能安全 agi 安全 llama 人工智能
我们想与AF社区分享我们最近的工作总结。以下是关于我们正在做什么，为什么会这么做以及我们认为它的意义所在的一些详细信息。我们希望这能帮助人们从我们的工作基础上继续发展，并了解他们的工作如何与我们相关联。byRohinShah,SebFarquhar,AncaDragan21stAug2024AIAlignmentForumWewantedtosharearecapofourrecentoutput
Awesome TensorFlow weixin_30594001 人工智能移动开发大数据
AwesomeTensorFlowAcuratedlistofawesomeTensorFlowexperiments,libraries,andprojects.Inspiredbyawesome-machine-learning.WhatisTensorFlow?TensorFlowisanopensourcesoftwarelibraryfornumericalcomputationusin
【ShuQiHere】探索人工智能核心：机器学习的奥秘 ShuQiHere 人工智能机器学习
【ShuQiHere】什么是机器学习？机器学习（MachineLearning,ML）是人工智能（ArtificialIntelligence,AI）中最关键的组成部分之一。它使得计算机不仅能够处理数据，还能从数据中学习，从而做出预测和决策。无论是语音识别、自动驾驶还是推荐系统，背后都依赖于机器学习模型。机器学习与传统的编程不同，它不再依赖于人类编写的固定规则，而是通过数据自我改进模型，从而更灵活
综述论文“A Survey of Zero-Shot Learning: Settings, Methods, and Applications” 硅谷秋水机器学习机器学习神经网络深度学习
该零样本学习综述，发表于ACMTrans.Intell.Syst.Technol.10,2,Article13(January2019)摘要：大多数机器学习方法着重于对已经在训练中看到其类别的实例进行分类。实际上，许多应用程序需要对实例进行分类，而这些实例的类以前没有见过。零样本学习（Zero-ShotLearning）是一种强大而有前途的学习范例，其中训练实例涵盖的类别与想分类的类别是不相交的。
机器学习 VS 表示学习 VS 深度学习 Efred.D 人工智能机器学习深度学习人工智能
文章目录前言一、机器学习是什么?二、表示学习三、深度学习总结前言本文主要阐述机器学习,表示学习和深度学习的原理和区别.一、机器学习是什么?机器学习(machinelearning),是从有限的数据集中学习到一定的规律,再把学到的规律应用到一些相似的样本集中做预测.机器学习的历史可以追溯到20世纪40年代McCulloch提出的人工神经元网络,目前学界大致把机器学习分为传统机器学习和机器学习两个类别
端到端的自动驾驶论文与代码整理大别山伧父自动驾驶
LearningbyCheatinggithubcodearxivpaperconferenceonrobotlearning最新进展(May2021)Checkoutourlatestfollow-upwork:WorldonRails(2020)Checkoutoursubmissiontothe2020CARLAChallenge!pass
2024全球数字电影摄像机、相机、广播摄像机市场报告 8K超高清数码相机人工智能科技
一、全球数字电影摄像机市场规模①全球数字电影摄像机市场销售额市场调研机构恒州博智QYResearch统计，2022年全球数字电影摄像机市场销售额达到31.19亿元，2023年全球数字电影摄像机市场销售额达到33.7亿元，预计未来将持续保持平稳增长的态势，到2030年市场规模将接近53亿元，未来六年CAGR为6.3%。②全球主要数字电影摄像机制造商品牌全球主要的数字电影摄像机制造商包括阿莱、索尼、佳
Lt-8 Multithreading yanlingyun0210 java
IntendedLearningOutcomesTounderstandtheconceptofconcurrency.Tounderstandthedifferenceofaprocessandathread.TodefineathreadusingtheThreadclassandRunnableinterface.TocontrolthreadswithvariousThreadmethod
如何使用Pytorch-Metric-Learning？鱼儿也有烦恼 PyTorch pytorch
文章目录如何使用Pytorch-Metric-Learning？1.Pytorch-Metric-Learning库9个模块的功能1.1Sampler模块1.2Miner模块1.3Loss模块1.4Reducer模块1.5Distance模块1.6Regularizer模块1.7Trainer模块1.8Tester模块1.9Utils模块2.如何使用PyTorchMetricLearning库中的
[Kaiming]Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification MTandHJ neural networks
文章目录概主要内容PReLUKaiming初始化ForwardcaseBackwardcaseHeK,ZhangX,RenS,etal.DelvingDeepintoRectifiers:SurpassingHuman-LevelPerformanceonImageNetClassification[C].internationalconferenceoncomputervision,2015:1
深度神经网络详解：原理、架构与应用阿达C 活动 dnn 计算机网络人工智能神经网络机器学习深度学习
深度神经网络（DeepNeuralNetwork，DNN）是机器学习领域中最为重要和广泛应用的技术之一。它模仿人脑神经元的结构，通过多层神经元的连接和训练，能够处理复杂的非线性问题。在图像识别、自然语言处理、语音识别等领域，深度神经网络展示了强大的性能。本文将深入解析深度神经网络的基本原理、常见架构及其实际应用。一、深度神经网络的基本原理1.1神经元和感知器神经元是深度神经网络的基本组成单元。一个
前端开发需要了解的算法知识史努比的大头算法前端
手写深拷贝functiondeepClone(obj){//处理基础数据类型和函数if(obj===null||typeofobj!=='object'){returnobj;}//处理数组if(Array.isArray(obj)){returnobj.map(item=>deepClone(item));}//处理对象constclonedObj={};for(constkeyinobj){i
推荐开源项目：PyTorch-Metric-Learning 潘惟妍
推荐开源项目：PyTorch-Metric-Learningpytorch-metric-learningTheeasiestwaytousedeepmetriclearninginyourapplication.Modular,flexible,andextensible.WritteninPyTorch.项目地址:https://gitcode.com/gh_mirrors/py/pytorc
推荐：FastAPI驱动的稳定扩散LLMs演示项目褚知茉Jade
推荐：FastAPI驱动的稳定扩散LLMs演示项目FastAPI-for-Machine-Learning-Live-DemoThisrepositorycontainsthefilestobuildyourveryownAIimagegenerationwebapplication!OutlinedarethecorecomponentsoftheFastAPIwebframework,anda
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs