Joney Feng

注意力机制是否比矩阵分解更好？——IS ATTENTION BETTER THAN MATRIX DECOMPOSITION?

原文链接：https://openreview.net/pdf?id=1FvkSpWosOlhttps://openreview.net/pdf?id=1FvkSpWosOl

代码库：GitHub - Gsunshine/Enjoy-Hamburger: [ICLR 2021 top 3%] Is Attention Better Than Matrix Decomposition?[ICLR 2021 top 3%] Is Attention Better Than Matrix Decomposition? - GitHub - Gsunshine/Enjoy-Hamburger: [ICLR 2021 top 3%] Is Attention Better Than Matrix Decomposition?https://github.com/Gsunshine/Enjoy-Hamburger

0.摘要

作为现代深度学习中的重要组成部分，特别是自注意力机制，在全局相关性发现中起着至关重要的作用。然而，在建模全局上下文时，手工设计的注意力机制是否不可替代？我们有趣的发现是，自注意力并不比20年前开发的矩阵分解（MD）模型在编码长距离依赖性方面的性能和计算成本更好。我们将全局上下文问题建模为一个低秩完成问题，并展示其优化算法能够帮助设计全局信息块。本文提出了一系列汉堡包，其中我们利用优化算法来解决MD，将输入表示分解为子矩阵并重建一个低秩嵌入。当仔细处理通过MD反向传播的梯度时，具有不同MD的汉堡包可以在与流行的全局上下文模块自注意力竞争时表现出色。我们在需要学习全局上下文的视觉任务中进行了全面的实验，包括语义分割和图像生成，在性能上显著优于自注意力及其变种。代码已经提供。

1.引言

自从自注意力和Transformer（Vaswani et al.,2017）在捕捉长距离依赖性方面显示出明显优势后，注意力机制被广泛应用于计算机视觉（Wang et al.,2018; Zhang et al.,2019a）和自然语言处理（Devlin et al.,2019）中，用于全局信息挖掘。然而，在建模全局上下文时，手工设计的注意力机制是否不可替代？本文重点研究了一种设计全局上下文模块的新方法。关键思想是，如果我们将像全局上下文这样的归纳偏置形式化为目标函数，则最小化目标函数的优化算法可以构建一个计算图，即我们在网络中所需要的架构。我们通过为最具代表性的全局上下文模块自注意力开发一个对应模块来具体化这个思想。考虑到在网络中提取全局信息就像找到一个字典和相应的编码来捕捉内在关联性，我们将上下文发现建模为输入张量的低秩完成问题，并通过矩阵分解来解决。本文提出了一个全局相关性模块，即汉堡包，通过采用矩阵分解将学习到的表示分解为子矩阵，以恢复干净的低秩信号子空间。解决矩阵分解的迭代优化算法定义了中心计算图，即汉堡包的架构。我们的工作利用矩阵分解模型作为汉堡包的基础，包括向量量化（Vector Quantization，VQ）(Gray & Neuhoff,1998)，概念分解（Concept Decomposition，CD）(Dhillon & Modha,2001)和非负矩阵分解（Non-negative Matrix Factorization，NMF）(Lee & Seung,1999)。此外，我们采用截断BPTT（Back-Propagation Through Time）算法（Werbos et al.,1990）而不是直接应用于迭代优化的BPTT算法，即一步梯度，以有效地反向传播梯度。我们在全局信息被证明至关重要的基本视觉任务中，包括语义分割和图像生成，展示了汉堡包的优势。实验证明，经过优化设计的汉堡包在避免通过MD的迭代计算图反向传播的不稳定梯度时，可以与最先进的注意力模型竞争。汉堡包在PASCAL VOC数据集（Everingham et al.,2010）和PASCAL Context数据集（Mottaghi et al.,2014）上为语义分割设立了新的最先进记录，并在ImageNet（Deng et al.,2009）上的大规模图像生成中超越了现有的注意力模块。

本文的贡献如下：

我们展示了一种白盒方法来设计全局信息模块，即通过将最小化目标函数的优化算法转化成架构，其中将全局相关性建模为低秩完成问题。
我们提出了一种轻量而强大的全局上下文模块Hamburger，其复杂度为O(n)，在语义分割和图像生成等任务上超越了各种注意力模块。
我们发现将MD应用于网络中的主要障碍是其迭代优化算法中不稳定的反向梯度。作为一种实用的解决方案，我们提出的一步梯度有助于使用MD训练Hamburger。

2.方法学

2.1.预热

矩阵分解在提出的Hamburger中起着关键作用，我们首先回顾一下矩阵分解的思想。常见的观点是，矩阵分解将观察到的矩阵分解为几个子矩阵的乘积，例如奇异值分解。然而，更有启发性的观点是，通过假设生成过程，矩阵分解作为生成的逆过程，将组成复杂数据的原子分解开来。通过重建原始矩阵，矩阵分解可以恢复观察到的数据的潜在结构。假设给定的数据被排列成一个大矩阵X=[x1;···;xn]∈R^d×n，一个通用的假设是，存在一个低维子空间或多个子空间的并集隐藏在X中。也就是说，存在一个字典矩阵D=[d1;···;dr]∈R^d×r和相应的编码C=[c1;···;cn]∈R^r×n，使得X可以表示为其中，X̄ ∈ Rd×n 是输出的低秩重建矩阵，E ∈ Rd×n 是要丢弃的噪声矩阵。我们假设恢复的矩阵X̄具有低秩性质，即 rank(X̄) ≤ min(rank(D), rank(C)) ≤ r ≤ min(d, n)。通过对矩阵D、C和E假设结构，可以得到不同的矩阵分解方法 (Kolda & Bader, 2009; Udell et al., 2016)。矩阵分解通常被建模为具有各种约束的目标函数，并通过优化算法进行求解，经典应用包括图像去噪 (Wright et al., 2009; Lu et al., 2014)、修复 (Mairal et al., 2010)和特征提取 (Zhang et al., 2012)。

2.2.提出的方法

我们专注于为无需费力手工设计的网络构建全局上下文模块。在开始讨论之前，我们简要回顾了代表性的手工设计的上下文块——自注意力机制。注意机制旨在从大量无意识的上下文中找到一组概念，以进行进一步的有意识推理 (Xu et al., 2015; Bengio, 2017; Goyal et al., 2019)。作为一个代表性的例子，自注意力机制 (Vaswani et al., 2017) 被提出用于学习机器翻译中的长程依赖关系。其中，Q、K、V ∈ R^n×d 是通过线性变换从输入中投影出来的特征。自注意力机制通过同时关注所有标记，而不是逐一处理的循环神经网络，从而提取全局信息。尽管自注意力及其变种取得了巨大的成功，但研究人员面临两个问题：一是基于自注意力进行新的全局上下文模块开发，通常需要手工设计；二是解释当前注意力模型的工作原理。本文绕过这两个问题，并找到了一种通过定义明确的白盒工具包来轻松设计全局上下文模块的方法。我们试图将人类归纳偏见（如全局上下文）形式化为一个目标函数，并使用优化算法来解决这个问题，以设计模块的架构。优化算法创建一个计算图，接受一些输入，并最终输出解决方案。我们将优化算法的计算图应用于我们上下文模块的核心部分。基于这种方法，我们需要将网络的全局信息问题建模为一个优化问题。以卷积神经网络（CNN）为例进行进一步讨论。在我们将图像输入网络后，网络输出一个张量X∈R^C×H×W。由于张量可以看作是一个HW个C维超像素的集合，我们将张量展开成一个矩阵X∈R^C×HW。当模块学习长程依赖或全局上下文时，隐藏的假设是超像素之间存在固有的相关性。为了简化起见，我们假设超像素是线性相关的，这意味着X中的每个超像素都可以表示为基向量的线性组合，而基向量的元素通常远小于HW。在理想情况下，X中隐藏的全局信息可以是低秩的。然而，由于传统CNN对于建模全局上下文的能力较差（Wang et al., 2018; Zhang et al., 2019a），学习得到的X通常会受到冗余信息或不完整性的干扰。上述分析提出了一种潜在的方法来建模全局上下文，即通过完成展开矩阵X中的低秩部分X̄，丢弃噪声部分E，使用Eq.(1)中描述的经典矩阵分解模型来同时过滤冗余和不完整性。因此，我们将学习全局上下文建模为一个低秩完成问题，并将矩阵分解作为其解决方案。根据第2.1节的概念，矩阵分解的一般目标函数为其中，L是重构损失，R1和R2是字典D和代码C的正则化项。将最小化Eq.(4)的优化算法表示为M。M是我们在全局上下文模块中使用的核心架构。为了帮助读者进一步理解这个建模过程，我们在附录G中提供了更直观的说明。在后面的章节中，我们介绍了我们的全局上下文块Hamburger，并讨论了M的详细MD模型和优化算法。最后，我们解决了通过矩阵分解进行反向传播的梯度问题。

2.2.1.Hambuger

Hamburger由一片“火腿”（矩阵分解）和两片“面包”（线性变换）组成。顾名思义，Hamburger首先通过线性变换Wl将输入Z∈R^{dz×n}映射到特征空间中，即“下面包”，然后使用矩阵分解M来解决低秩信号子空间，对应于“火腿”，最后使用另一个线性变换Wu将提取的信号转换为输出，称为“上面包”。其中，矩阵分解M用于恢复清晰的潜在结构，起到全局非线性的作用。关于M的详细架构，即分解X的优化算法，在2.2.2节中进行了讨论。图1描述了Hamburger的架构，它通过批量归一化（BN）（Ioffe＆Szegedy，2015）、跳跃连接与网络协作，并最终输出Y。

2.2.2.Hams

本节描述了“ham”的结构，即Eq.(5)中的M。如前一节所讨论的，通过将全局信息发现形式化为MD的优化问题，自然地可以将解决MD的算法组合成M。M以“下面包”的输出作为输入，并计算一个低秩重构作为其输出，分别表示为X和X̄。我们研究了两种MD模型来解决D和C并重构X̄，分别为向量量化（VQ）和非负矩阵分解（NMF），而将概念分解（CD）留给附录B。选定的MD模型仅作简要介绍，因为我们致力于阐明低秩归纳偏差和基于优化的设计方法对全局上下文模块的重要性，而不是特定的MD模型。在本文的上下文中，更倾向于将MD部分作为一个整体，即M，并重点关注Hamburger如何展现其整体上的优势。

向量量化（Vector Quantization，VQ）（Gray＆Neuhoff，1998）是一种经典的数据压缩算法，可以通过矩阵分解的形式来表述为一个优化问题：其中ei是单位基向量，ei =[0;···;1;···;0]>ith。为了最小化Eq.(8)中的目标函数，解决方案是K-means算法（Gray＆Neuhoff，1998）。然而，为了确保VQ是可微的，我们用softmax和余弦相似度替换了硬arg min和欧氏距离，得到Alg.1，其中cosine(D;X)是一个相似度矩阵，其元素满足cosine(D;X)ij =kdd>ikkxxjk，softmax是逐列应用的，并且T是温度参数。当T不等于0时，我们可以通过一个one-hot向量得到一个硬分配。如果我们对字典D和编码C施加非负约束，就得到了非负矩阵分解（Non-negative Matrix Factorization，NMF）（Lee＆Seung，1999）：为了满足非负约束，在将X输入NMF之前，我们在其上添加了ReLU非线性函数。我们采用了乘法更新（Multiplicative Update）规则（Lee＆Seung，2001）来解决NMF，这保证了收敛性。作为白盒全局上下文模块，VQ、CD和NMF都直观且轻量，表现出了显著的效率。它们被转化为主要由矩阵乘法组成的优化算法，其复杂度为O(ndr)，比自注意力中的O(n2d)复杂度要低得多，其中r << n。这三种MD都很友好地使用内存，因为它们避免生成一个大的n×n矩阵作为中间变量，就像自注意力中的Q和K的乘积在Eq.(3)中一样。在后面的部分，我们的实验证明，尽管M的架构是通过优化创建的，并且与经典的点积自注意力看起来不同，但MD至少与自注意力不相上下。

2.3.一步梯度

由于M涉及到一个优化算法作为其计算图，将其融入网络的关键是如何迭代算法进行梯度反向传播。优化的类似RNN行为暗示了通过时间反向传播（Back-Propagation Through Time，BPTT）算法（Werbos et al.，1990）作为区分迭代过程的标准选择。我们首先回顾一下BPTT算法。然而，在实践中，BPTT带来的不稳定梯度对Hamburger的性能有害。因此，我们建立了一个抽象模型来分析BPTT的缺点，并尝试在考虑MD作为优化算法的性质时找到一个实用的解决方案。如图2所示，x，y和ht分别表示时间步t的输入、输出和中间结果，F和G是运算符。在每个时间步，模型接收由底层网络处理的相同输入x。所有的中间结果hi都被丢弃了，只有最后一步的输出ht经过G生成输出y。在BPTT算法中，根据链式法则，可以得到从输出y到输入x的梯度。一个思维实验是考虑t趋向于无穷大，导致完全收敛的结果h∗和方程（12）中的无限项。我们假设F和G对于h具有常数Lh的Lipschitz连续性，对于x和LG的常数Lx和LG的Lipschitz连续性，且Lh < 1。需要注意的是，这些假设适用于很多优化或数值方法。然后我们有：当Lh接近0时，很容易导致相对于h0的梯度消失，当Lh接近1时，很容易导致相对于x的梯度爆炸。此外，雅可比矩阵 @@yx 在Lh接近1时会出现病态条件的项(I −@@hF∗)−1，即@@Fh的最大特征值，即F相对于h的Lipschitz常数接近1，而其最小特征值通常接近0，从而限制了梯度在参数空间中搜索良好泛化解的能力。梯度通过优化算法反向传播的不规则尺度和频谱表明，直接将BPTT应用于Hamburger是不可行的，这在使用与第3.1节相同的消融设置的实验中得到了证实（见表1）。这种分析启发了我们一个可能的解决方案。需要注意的是，在BPTT算法中，存在多个雅可比矩阵的乘法 @hj @hj−@hj @hj−1 和无穷级数的求和，导致梯度的尺度无法控制。这启示我们在保留主导项的同时去除一些次要项，以确保梯度的方向大致正确。考虑将式（12）的项视为级数，即f@@hyt Qt j−=1t−i @@hhj+1 j @h@tx−i gi，如果其项的尺度按算子范数衡量以指数形式衰减，那么使用这个级数的第一项来近似梯度是有意义的。梯度的第一项来自于优化的最后一步，导致了一步梯度。根据命题2，当t趋向于无穷大时，一步梯度是BPTT算法的线性近似。它很容易实现，只需要在PyTorch中进行no_grad操作（Paszke等，2019），或在TensorFlow中进行stop_gradient操作（Abadi等，2016），并将时间和空间复杂度从BPTT的O(t)降低到O(1)。我们测试了将更多的项添加到梯度中，但其性能比使用一步梯度要差。根据实验结果，一步梯度可以接受地通过MD进行梯度反向传播。

表2：对Hamburger的NMF Ham组件进行消融实验。

3.实验

在本节中，我们提供了实验结果，以展示上述技术的效果。我们选择了两个需要全局信息和注意机制的视觉任务进行实验，包括语义分割（超过50篇使用注意力的论文）和深度生成模型，如GAN（自注意力自SAGAN以来，大多数最先进的GAN都采用了自注意力）（Zhang等，2019a）。这两个任务具有很高的竞争性，足以用来比较Hamburger和自注意力。消融研究表明了Hamburger中MD的重要性以及一步梯度的必要性。我们强调Hamburger在建模全局上下文方面的优越性，无论是在性能还是在计算成本上。

3.1.消融实验

我们选择在PASCAL VOC数据集（Everingham等，2010）上进行所有消融实验，用于语义分割，并以最佳（均值）的形式报告验证集上5次运行的mIoU。对于所有消融实验，ResNet-50（He等，2016）是骨干网络，输出步幅为16。我们使用一个3×3的带有BN（Ioffe＆Szegedy，2015）和ReLU的卷积层将通道数从2048减少到512，然后在与语义分割中常见的注意力位置添加Hamburger。有关详细的训练设置，请参见附录E.1。

面包和火腿我们对Hamburger的每个部分进行消融实验。移除MD（ham）导致性能的严重下降，证明了MD的重要性。即使只添加了无参数的MD（只有ham），性能也可以明显提高。参数化还有助于Hamburger处理提取的特征。面包，特别是上层面包，对性能有相当大的贡献。

值得注意的是，latent dimension（潜在维度）d和r之间的关系与mIoU测量的性能之间没有简单的线性关系，尽管d = 8r是一个令人满意的选择。实验证明，即使r = 8也表现良好，这表明对于建模全局上下文来说，它可能非常廉价。

3.2.仔细观察Hamburger

为了理解Hamburger在网络中的行为，我们在PASCAL VOC验证集上可视化了Hamburger之前和之后的表示的频谱。输入和输出张量被展开成RC×HW。在展开矩阵中，最大r个奇异值的平方之和与总奇异值的平方之和的累积比例在图5中显示。由于低秩重构，经典矩阵分解模型的结果通常观察到截断的频谱。在网络中，Hamburger也通过跳跃连接提升了能量的集中，同时保留了信息丰富的细节。另外，我们在图6中可视化了Hamburger之前和之后的特征图。MD通过将无信息的通道清零，去除不规则的噪声，并根据上下文完善细节，帮助Hamburger学习可解释的全局信息。

3.3.与注意力的比较

本节展示了基于MD的Hamburger在计算成本、内存消耗和推理时间方面相对于注意力相关的上下文模块的优势。我们将Hamburger（Ham）与自注意力（SA）（Vaswani等，2017）、DANet中的双注意力（DA）模块（Fu等，2019）、A2 Net中的双重注意力模块（Chen等，2018b）、APCNet中的APC模块（He等，2019b）、DMNet中的DM模块（He等，2019a）、CFNet中的ACF模块（Zhang等，2019b）进行比较，并在表3中报告了处理一个张量Z（大小为1×512×128×128）的参数和成本。在实际应用中，过多的内存使用是与注意力协作的关键瓶颈。因此，我们还提供了在NVIDIA TITAN Xp上的GPU负载和推理时间。总体而言，与注意力相关的全局上下文模块相比，Hamburger在计算和内存方面轻量级。

3.4.语义分割

我们在PASCAL VOC数据集（Everingham等，2010）和PASCAL Context数据集（Mottaghi等，2014）上对Hamburger进行了基准测试，并与最先进的注意力模型进行了比较。我们使用ResNet-101（He等，2016）作为我们的主干网络。主干网络的输出步幅为8。分割头与消融实验中的相同。在消融研究中，NMF通常比CD和VQ表现更好（参见表1）。因此，我们在后续实验中主要测试NMF。我们使用HamNet来表示带有Hamburger的ResNet。在PASCAL VOC测试集和PASCAL Context验证集上的结果分别在表4和表5中显示。我们将所有基于注意力的模型标记为∗，其中多样的注意力组成了分割头。尽管语义分割是一个饱和的任务，并且大多数现代发布的工作具有近似的性能，但Hamburger在以前的最先进的注意力模块上显示出了相当大的改进。

3.5.图像生成

在深度生成模型（如GANs）中，注意力作为全局上下文描述块存在。自从SAGAN（Zhang等，2019a）之后，大多数用于条件图像生成的最先进的GANs都将自注意力集成到它们的架构中，例如BigGAN（Brock等，2018）、S3GAN（Lucić等，2019）和LOGAN（Wu等，2019）。在具有挑战性的ImageNet（Deng等，2009）条件图像生成任务中，对基于MD的Hamburger进行基准测试是有说服力的。我们进行了实验，比较了Hamburger和自注意力在ImageNet 128×128上的表现。在特征分辨率为32×32的生成器和判别器中，自注意力被NMF Hamburger替代，命名为HamGAN-baby。HamGAN在Frechet Inception Distance（FID）（Heusel等，2017）上相对于SAGAN取得了可观的改善。此外，我们还使用最近开发的注意力变体Your Local GAN（YLG）（Daras等，2020）的代码库和相同的训练设置来比较Hamburger，命名为HamGAN-strong。HamGAN-strong在FID上提供了超过5%的改善，同时在总训练时间上快了15%，模块时间快了3.6倍（HamGAN的1.54 iters/sec，YLG的1.31 iters/sec，没有任何上下文模块的平均值为1.65 iters/sec，基于1000次迭代）。这些实验在相同的TPUv3训练平台上进行。

4.相关工作

在深度学习领域，过去五年见证了注意力机制（Bahdanau等，2015；Mnih等，2014；Xu等，2015；Luong等，2015）取得了巨大的成功。粗略地说，注意力机制是根据需求自适应地生成目标权重以进行关注。它的架构多种多样，其中最著名的是点积自注意力（Vaswani等，2017）。注意力机制有广泛的应用领域，从单一来源（Lin等，2017）到多源输入（Luong等，2015；Parikh等，2016），从全局信息发现（Wang等，2018；Zhang等，2019a）到局部特征提取（Dai等，2017；Parmar等，2019）。以往的研究人员尝试从多个方面解释注意力机制的有效性。捕捉长程依赖关系（Wang等，2018）、顺序分解视觉场景（Eslami等，2016；Kosiorek等，2018）、推断部分和整体之间的关系（Sabour等，2017；Hinton等，2018）、模拟对象之间的交互（Greff等，2017；van Steenkiste等，2018）以及学习环境的动态（Goyal等，2019）通常被认为是注意力的潜在机制。

从生物学角度来看，一个常见的观点是注意力模拟了许多无意识情境中的关注点的出现（Xu等，2015）。一些工作试图通过可视化或攻击注意力权重（Serrano和Smith，2019；Jain和Wallace，2019；Wiegreffe和Pinter，2019）来解释注意力机制，而其他人则将注意力形式化为非局部操作（Wang等，2018）或扩散模型（Tao等，2018；Lu等，2019），或者通过最大期望算法（Greff等，2017；Hinton等，2018；Li等，2019）或变分推断（Eslami等，2016）在混合模型上构建类似于注意力的模型。还讨论了Transformer和图神经网络之间的连接（Liang等，2018；Zhang等，2019c）。总体而言，关于注意力的讨论仍然远未达成一致意见或一致结论。

最近的研究通过低秩逼近在计算机视觉（Chen等，2018b；Zhu等，2019；Chen等，2019；Li等，2019）和自然语言处理（Mehta等，2019；Katharopoulos等，2020；Wang等，2020；Song等，2020）中开发了高效的注意力模块。从技术上讲，低秩逼近通常针对相关矩阵，即softmax操作后的Q和K的乘积，使用两个较小矩阵的乘积来逼近相关矩阵，并应用结合律来节省内存和计算成本，其中逼近涉及核函数或其他相似性函数。其他研究（Babiloni等，2020；Ma等，2019）努力将注意力形式化为张量形式，但可能会生成大型中间变量。本文不对注意力进行逼近或使其高效。本文将建模全局上下文视为低秩完成问题。计算和内存效率是对干净信号子空间的低秩假设和优化算法作为架构的副产品。

在深度学习中，矩阵分解与深度学习的结合有着悠久的历史。研究人员通过对权重进行因式分解来减少网络中的参数，包括softmax层（Sainath等，2013）、卷积层（Zhong等，2019）和嵌入层（Lan等，2019）。Tariyal等（2016）尝试构建深度字典学习用于特征提取，并通过贪婪训练模型。本文试图对表示进行因式分解，以恢复干净信号子空间作为全局上下文，并通过矩阵分解提供了一种建模长程依赖关系的新方法。

5.总结

本文研究了在网络中建模长程依赖关系。我们将学习全局上下文的过程形式化为一个低秩完成问题。受到低秩形式化的启发，我们基于广为研究的矩阵分解模型开发了Hamburger模块。通过特定的矩阵分解目标函数，其优化算法创建的计算图自然地定义了Hamburger的核心架构。Hamburger通过去噪和完成其输入来学习可解释的全局上下文，并改善谱的集中度。令人惊讶的是，当谨慎处理反向梯度时，即使是20年前提出的简单矩阵分解在具有挑战性的视觉任务（如语义分割和图像生成）中也能与自注意力一样强大，而且轻量、快速和内存高效。我们计划通过整合位置信息和设计类似Transformer的解码器，将Hamburger扩展到自然语言处理领域，为一步梯度技巧建立理论基础，或找到更好的区分矩阵分解的方法，并在未来整合先进的矩阵分解方法。

# -*- coding: utf-8 -*-
"""
Hamburger for Pytorch

@author: Gsunshine
"""

from functools import partial

import numpy as np
import settings
import torch
from sync_bn.nn.modules import SynchronizedBatchNorm2d
from torch import nn
from torch.nn import functional as F
from torch.nn.modules.batchnorm import _BatchNorm

norm_layer = partial(SynchronizedBatchNorm2d, momentum=settings.BN_MOM)


class ConvBNReLU(nn.Module):
    @classmethod
    def _same_paddings(cls, kernel_size):
        if kernel_size == 1:
            return 0
        elif kernel_size == 3:
            return 1

    def __init__(self, in_c, out_c,
                 kernel_size=1, stride=1, padding='same',
                 dilation=1, groups=1):
        super().__init__()

        if padding == 'same':
            padding = self._same_paddings(kernel_size)

        self.conv = nn.Conv2d(in_c, out_c,
                              kernel_size=kernel_size, stride=stride,
                              padding=padding, dilation=dilation,
                              groups=groups,
                              bias=False)
        self.bn = norm_layer(out_c)
        self.act = nn.ReLU(inplace=True)

    def forward(self, x):
        x = self.conv(x)
        x = self.bn(x)
        x = self.act(x)
        
        return x

# -*- coding: utf-8 -*-
"""
Hamburger for Pytorch

@author: Gsunshine
"""

import numpy as np
import torch
from torch import nn
from torch.nn import functional as F
from torch.nn.modules.batchnorm import _BatchNorm

from .bread import ConvBNReLU, norm_layer
from .ham import get_hams


class HamburgerV1(nn.Module):
    def __init__(self, in_c, args=None):
        super().__init__()

        ham_type = getattr(args, 'HAM_TYPE', 'NMF')

        D = getattr(args, 'MD_D', 512)

        if ham_type == 'NMF':
            self.lower_bread = nn.Sequential(nn.Conv2d(in_c, D, 1),
                                             nn.ReLU(inplace=True))
        else:
            self.lower_bread = nn.Conv2d(in_c, D, 1)

        HAM = get_hams(ham_type)
        self.ham = HAM(args)
        
        self.upper_bread = nn.Sequential(nn.Conv2d(D, in_c, 1, bias=False),
                                         norm_layer(in_c))
        
        self.shortcut = nn.Sequential()
        
        self._init_weight()
        
        print('ham', HAM)

    def _init_weight(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                N = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                m.weight.data.normal_(0, np.sqrt(2. / N))
            elif isinstance(m, _BatchNorm):
                m.weight.data.fill_(1)
                if m.bias is not None:
                    m.bias.data.zero_()

    def forward(self, x):
        shortcut = self.shortcut(x)

        x = self.lower_bread(x)
        x = self.ham(x)
        x = self.upper_bread(x)

        x = F.relu(x + shortcut, inplace=True)

        return x

    def online_update(self, bases):
        if hasattr(self.ham, 'online_update'):
            self.ham.online_update(bases)


class HamburgerV2(nn.Module):
    def __init__(self, in_c, args=None):
        super().__init__()

        ham_type = getattr(args, 'HAM_TYPE', 'NMF')

        C = getattr(args, 'MD_D', 512)

        if ham_type == 'NMF':
            self.lower_bread = nn.Sequential(nn.Conv2d(in_c, C, 1),
                                             nn.ReLU(inplace=True))
        else:
            self.lower_bread = nn.Conv2d(in_c, C, 1)

        HAM = get_hams(ham_type)
        self.ham = HAM(args)

        self.cheese = ConvBNReLU(C, C)
        self.upper_bread = nn.Conv2d(C, in_c, 1, bias=False)

        self.shortcut = nn.Sequential()

        self._init_weight()

        print('ham', HAM)

    def _init_weight(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                N = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                m.weight.data.normal_(0, np.sqrt(2. / N))
            elif isinstance(m, _BatchNorm):
                m.weight.data.fill_(1)
                if m.bias is not None:
                    m.bias.data.zero_()

    def forward(self, x):
        shortcut = self.shortcut(x)

        x = self.lower_bread(x)
        x = self.ham(x)
        x = self.cheese(x)
        x = self.upper_bread(x)

        x = F.relu(x + shortcut, inplace=True)

        return x

    def online_update(self, bases):
        if hasattr(self.ham, 'online_update'):
            self.ham.online_update(bases)


class HamburgerV2Plus(nn.Module):
    def __init__(self, in_c, args=None):
        super().__init__()

        ham_type = getattr(args, 'HAM_TYPE', 'NMF')

        S = getattr(args, 'MD_S', 1)
        D = getattr(args, 'MD_D', 512)
        C = S * D

        self.dual = getattr(args, 'DUAL', True)
        if self.dual:
            C = 2 * C

        if ham_type == 'NMF':
            self.lower_bread = nn.Sequential(nn.Conv2d(in_c, C, 1),
                                             nn.ReLU(inplace=True))
        else:
            self.lower_bread = nn.Conv2d(in_c, C, 1)

        HAM = get_hams(ham_type)
        if self.dual:
            args.SPATIAL = True
            self.ham_1 = HAM(args)
            args.SPATIAL = False
            self.ham_2 = HAM(args)
        else:
            self.ham = HAM(args)

        factor = getattr(args, 'CHEESE_FACTOR', S)
        if self.dual:
            factor = 2 * factor

        self.cheese = ConvBNReLU(C, C // factor)
        self.upper_bread = nn.Conv2d(C // factor, in_c, 1, bias=False)

        zero_ham = getattr(args, 'ZERO_HAM', True)
        if zero_ham:
            coef_ham_init = 0.
        else:
            coef_ham_init = 1.

        self.coef_shortcut = nn.Parameter(torch.tensor([1.]))
        self.coef_ham = nn.Parameter(torch.tensor([coef_ham_init]))

        self.shortcut = nn.Sequential()

        self._init_weight()

        print('ham', HAM)
        print('dual', self.dual)

    def _init_weight(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                N = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                m.weight.data.normal_(0, np.sqrt(2. / N))
            elif isinstance(m, _BatchNorm):
                m.weight.data.fill_(1)
                if m.bias is not None:
                    m.bias.data.zero_()

    def forward(self, x):
        shortcut = self.shortcut(x)

        x = self.lower_bread(x)

        if self.dual:
            x = x.view(x.shape[0], 2, x.shape[1] // 2, *x.shape[2:])
            x_1 = self.ham_1(x.narrow(1, 0, 1).squeeze(dim=1))
            x_2 = self.ham_2(x.narrow(1, 1, 1).squeeze(dim=1))
            x = torch.cat([x_1, x_2], dim=1)
        else:
            x = self.ham(x)
        x = self.cheese(x)
        x = self.upper_bread(x)
    
        x = self.coef_ham * x + self.coef_shortcut * shortcut
        x = F.relu(x, inplace=True)

        return x

    def online_update(self, bases):
        if hasattr(self.ham, 'online_update'):
            self.ham.online_update(bases)


def get_hamburger(version):
    burgers = {'V1':HamburgerV1,
               'V2':HamburgerV2,
               'V2+': HamburgerV2Plus}

    assert version in burgers

    return burgers[version]

# -*- coding: utf-8 -*-
"""
Hamburger for Pytorch

@author: Gsunshine
"""

import torch
from torch import nn
from torch.nn import functional as F
from torch.nn.modules.batchnorm import _BatchNorm


class _MatrixDecomposition2DBase(nn.Module):
    def __init__(self, args):
        super().__init__()

        self.spatial = getattr(args, 'SPATIAL', True)

        self.S = getattr(args, 'MD_S', 1)
        self.D = getattr(args, 'MD_D', 512)
        self.R = getattr(args, 'MD_R', 64)

        self.train_steps = getattr(args, 'TRAIN_STEPS', 6)
        self.eval_steps  = getattr(args, 'EVAL_STEPS', 7)

        self.inv_t = getattr(args, 'INV_T', 100)
        self.eta   = getattr(args, 'ETA', 0.9)

        self.rand_init = getattr(args, 'RAND_INIT', True)

        print('spatial', self.spatial)
        print('S', self.S)
        print('D', self.D)
        print('R', self.R)
        print('train_steps', self.train_steps)
        print('eval_steps', self.eval_steps)
        print('inv_t', self.inv_t)
        print('eta', self.eta)
        print('rand_init', self.rand_init)

    def _build_bases(self, B, S, D, R, cuda=False):
        raise NotImplementedError

    def local_step(self, x, bases, coef):
        raise NotImplementedError

    @torch.no_grad()
    def local_inference(self, x, bases):
        # (B * S, D, N)^T @ (B * S, D, R) -> (B * S, N, R)
        coef = torch.bmm(x.transpose(1, 2), bases)
        coef = F.softmax(self.inv_t * coef, dim=-1)

        steps = self.train_steps if self.training else self.eval_steps
        for _ in range(steps):
            bases, coef = self.local_step(x, bases, coef)

        return bases, coef

    def compute_coef(self, x, bases, coef):
        raise NotImplementedError

    def forward(self, x, return_bases=False):
        B, C, H, W = x.shape

        # (B, C, H, W) -> (B * S, D, N)
        if self.spatial:
            D = C // self.S
            N = H * W
            x = x.view(B * self.S, D, N)
        else:
            D = H * W
            N = C // self.S
            x = x.view(B * self.S, N, D).transpose(1, 2)

        if not self.rand_init and not hasattr(self, 'bases'):
            bases = self._build_bases(1, self.S, D, self.R, cuda=True)
            self.register_buffer('bases', bases)

        # (S, D, R) -> (B * S, D, R)
        if self.rand_init:
            bases = self._build_bases(B, self.S, D, self.R, cuda=True)
        else:
            bases = self.bases.repeat(B, 1, 1)

        bases, coef = self.local_inference(x, bases)

        # (B * S, N, R)
        coef = self.compute_coef(x, bases, coef)

        # (B * S, D, R) @ (B * S, N, R)^T -> (B * S, D, N)
        x = torch.bmm(bases, coef.transpose(1, 2))

        # (B * S, D, N) -> (B, C, H, W)
        if self.spatial:
            x = x.view(B, C, H, W)
        else:
            x = x.transpose(1, 2).view(B, C, H, W)

        # (B * H, D, R) -> (B, H, N, D)
        bases = bases.view(B, self.S, D, self.R)

        if not self.rand_init and not self.training and not return_bases:
            self.online_update(bases)

        # if not self.rand_init or return_bases:
        #     return x, bases
        # else:
        return x

    @torch.no_grad()
    def online_update(self, bases):
        # (B, S, D, R) -> (S, D, R)
        update = bases.mean(dim=0)
        self.bases += self.eta * (update - self.bases)
        self.bases = F.normalize(self.bases, dim=1)


class VQ2D(_MatrixDecomposition2DBase):
    def __init__(self, args):
        super().__init__(args)

    def _build_bases(self, B, S, D, R, cuda=False):
        if cuda:
            bases = torch.randn((B * S, D, R)).cuda()
        else:
            bases = torch.randn((B * S, D, R))

        bases = F.normalize(bases, dim=1)

        return bases

    @torch.no_grad()
    def local_step(self, x, bases, _):
        # (B * S, D, N), normalize x along D (for cosine similarity)
        std_x = F.normalize(x, dim=1)

        # (B * S, D, R), normalize bases along D (for cosine similarity)
        std_bases = F.normalize(bases, dim=1, eps=1e-6)

        # (B * S, D, N)^T @ (B * S, D, R) -> (B * S, N, R)
        coef = torch.bmm(std_x.transpose(1, 2), std_bases)

        # softmax along R
        coef = F.softmax(self.inv_t * coef, dim=-1)

        # normalize along N
        coef = coef / (1e-6 + coef.sum(dim=1, keepdim=True))

        # (B * S, D, N) @ (B * S, N, R) -> (B * S, D, R)
        bases = torch.bmm(x, coef)

        return bases, coef

    def compute_coef(self, x, bases, _):
        with torch.no_grad():
            # (B * S, D, N) -> (B * S, 1, N)
            x_norm = x.norm(dim=1, keepdim=True)

        # (B * S, D, N) / (B * S, 1, N) -> (B * S, D, N)
        std_x = x / (1e-6 + x_norm)

        # (B * S, D, R), normalize bases along D (for cosine similarity)
        std_bases = F.normalize(bases, dim=1, eps=1e-6)

        # (B * S, N, D)^T @ (B * S, D, R) -> (B * S, N, R)
        coef = torch.bmm(std_x.transpose(1, 2), std_bases)

        # softmax along R
        coef = F.softmax(self.inv_t * coef, dim=-1)

        return coef


class CD2D(_MatrixDecomposition2DBase):
    def __init__(self, args):
        super().__init__(args)

        self.beta = getattr(args, 'BETA', 0.1)
        print('beta', self.beta)

    def _build_bases(self, B, S, D, R, cuda=False):
        if cuda:
            bases = torch.randn((B * S, D, R)).cuda()
        else:
            bases = torch.randn((B * S, D, R))

        bases = F.normalize(bases, dim=1)

        return bases

    @torch.no_grad()
    def local_step(self, x, bases, _):
        # normalize x along D (for cosine similarity)
        std_x = F.normalize(x, dim=1)

        # (B * S, N, D) @ (B * S, D, R) -> (B * S, N, R)
        coef = torch.bmm(std_x.transpose(1, 2), bases)

        # softmax along R
        coef = F.softmax(self.inv_t * coef, dim=-1)

        # normalize along N
        coef = coef / (1e-6 + coef.sum(dim=1, keepdim=True))

        # (B * S, D, N) @ (B * S, N, R) -> (B * S, D, R)
        bases = torch.bmm(x, coef)

        # normalize along D
        bases = F.normalize(bases, dim=1, eps=1e-6)

        return bases, coef

    def compute_coef(self, x, bases, _):
        # [(B * S, R, D) @ (B * S, D, R) + (B * S, R, R)] ^ (-1) -> (B * S, R, R)
        temp = torch.bmm(bases.transpose(1, 2), bases) \
            + self.beta * torch.eye(self.R).repeat(x.shape[0], 1, 1).cuda()
        temp = torch.inverse(temp)

        # (B * S, D, N)^T @ (B * S, D, R) @ (B * S, R, R) -> (B * S, N, R)
        coef = x.transpose(1, 2).bmm(bases).bmm(temp)

        return coef


class NMF2D(_MatrixDecomposition2DBase):
    def __init__(self, args):
        super().__init__(args)

        self.inv_t = 1

    def _build_bases(self, B, S, D, R, cuda=False):
        if cuda:
            bases = torch.rand((B * S, D, R)).cuda()
        else:
            bases = torch.rand((B * S, D, R))

        bases = F.normalize(bases, dim=1)

        return bases

    @torch.no_grad()
    def local_step(self, x, bases, coef):
        # (B * S, D, N)^T @ (B * S, D, R) -> (B * S, N, R)
        numerator = torch.bmm(x.transpose(1, 2), bases)
        # (B * S, N, R) @ [(B * S, D, R)^T @ (B * S, D, R)] -> (B * S, N, R)
        denominator = coef.bmm(bases.transpose(1, 2).bmm(bases))
        # Multiplicative Update
        coef = coef * numerator / (denominator + 1e-6)

        # (B * S, D, N) @ (B * S, N, R) -> (B * S, D, R)
        numerator = torch.bmm(x, coef)
        # (B * S, D, R) @ [(B * S, N, R)^T @ (B * S, N, R)] -> (B * S, D, R)
        denominator = bases.bmm(coef.transpose(1, 2).bmm(coef))
        # Multiplicative Update
        bases = bases * numerator / (denominator + 1e-6)

        return bases, coef

    def compute_coef(self, x, bases, coef):
        # (B * S, D, N)^T @ (B * S, D, R) -> (B * S, N, R)
        numerator = torch.bmm(x.transpose(1, 2), bases)
        # (B * S, N, R) @ (B * S, D, R)^T @ (B * S, D, R) -> (B * S, N, R)
        denominator = coef.bmm(bases.transpose(1, 2).bmm(bases))
        # multiplication update
        coef = coef * numerator / (denominator + 1e-6)

        return coef


def get_hams(key):
    hams = {'VQ':VQ2D,
            'CD':CD2D,
            'NMF':NMF2D}

    assert key in hams

    return hams[key]

import math
import os.path as osp
from functools import partial

import numpy as np
import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.nn.modules.batchnorm import _BatchNorm

import settings
from hamburger import ConvBNReLU, get_hamburger
from sync_bn.nn.modules import SynchronizedBatchNorm2d

norm_layer = partial(SynchronizedBatchNorm2d, momentum=settings.BN_MOM)


class Bottleneck(nn.Module):
    expansion = 4
    def __init__(self, inplanes, planes, stride=1, dilation=1,
                 downsample=None, previous_dilation=1):
        super().__init__()
        self.conv1 = nn.Conv2d(inplanes, planes, 1, bias=False)
        self.bn1 = norm_layer(planes)
        self.conv2 = nn.Conv2d(planes, planes, 3, stride, dilation, dilation,
                               bias=False)
        self.bn2 = norm_layer(planes)
        self.conv3 = nn.Conv2d(planes, planes * 4, 1, bias=False)
        self.bn3 = norm_layer(planes * 4)
        self.relu = nn.ReLU(inplace=True)
        self.downsample = downsample
        self.dilation = dilation
        self.stride = stride

    def forward(self, x):
        residual = x

        out = self.conv1(x)
        out = self.bn1(out)
        out = self.relu(out)

        out = self.conv2(out)
        out = self.bn2(out)
        out = self.relu(out)

        out = self.conv3(out)
        out = self.bn3(out)

        if self.downsample is not None:
            residual = self.downsample(x)

        out += residual
        out = self.relu(out)

        return out


class ResNet(nn.Module):
    def __init__(self, block, layers, num_classes=1000, stride=8):
        self.inplanes = 128
        super().__init__()
        self.conv1 = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=3, stride=2, padding=1, bias=False),
            norm_layer(64),
            nn.ReLU(inplace=True),
            nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1, bias=False),
            norm_layer(64),
            nn.ReLU(inplace=True),
            nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1, bias=False))

        self.bn1 = norm_layer(self.inplanes)
        self.relu = nn.ReLU(inplace=True)
        self.maxpool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        self.layer1 = self._make_layer(block, 64, layers[0])
        self.layer2 = self._make_layer(block, 128, layers[1], stride=2)

        if stride == 16:
            self.layer3 = self._make_layer(block, 256, layers[2], stride=2)
            self.layer4 = self._make_layer(
                    block, 512, layers[3], stride=1, dilation=2, grids=[1,2,4])
        elif stride == 8:
            self.layer3 = self._make_layer(
                    block, 256, layers[2], stride=1, dilation=2)
            self.layer4 = self._make_layer(
                    block, 512, layers[3], stride=1, dilation=4, grids=[1,2,4])

        self.avgpool = nn.AvgPool2d(7, stride=1)
        self.fc = nn.Linear(512 * block.expansion, num_classes)

        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                n = m.kernel_size[0] * m.kernel_size[1] * m.out_channels
                m.weight.data.normal_(0, math.sqrt(2. / n))
            elif isinstance(m, _BatchNorm):
                m.weight.data.fill_(1)
                if m.bias is not None:
                    m.bias.data.zero_()

    def _make_layer(self, block, planes, blocks, stride=1, dilation=1,
                    grids=None):
        downsample = None
        if stride != 1 or self.inplanes != planes * block.expansion:
            downsample = nn.Sequential(
                nn.Conv2d(self.inplanes, planes * block.expansion,
                          kernel_size=1, stride=stride, bias=False),
                norm_layer(planes * block.expansion))

        layers = []
        if grids is None:
            grids = [1] * blocks

        if dilation == 1 or dilation == 2:
            layers.append(block(self.inplanes, planes, stride, dilation=1,
                                downsample=downsample,
                                previous_dilation=dilation))
        elif dilation == 4:
            layers.append(block(self.inplanes, planes, stride, dilation=2,
                                downsample=downsample,
                                previous_dilation=dilation))
        else:
            raise RuntimeError('=> unknown dilation size: {}'.format(dilation))

        self.inplanes = planes * block.expansion
        for i in range(1, blocks):
            layers.append(block(self.inplanes, planes,
                                dilation=dilation*grids[i],
                                previous_dilation=dilation))

        return nn.Sequential(*layers)

    def forward(self, x):
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu(x)
        x = self.maxpool(x)

        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        x = self.avgpool(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)

        return x


def resnet(n_layers, stride):
    layers = {
        50: [3, 4, 6, 3],
        101: [3, 4, 23, 3],
        152: [3, 8, 36, 3],
    }[n_layers]
    pretrained_path = {
        50:  osp.join(settings.MODEL_DIR, 'resnet50-ebb6acbb.pth'),
        101: osp.join(settings.MODEL_DIR, 'resnet101-2a57e44d.pth'),
        152: osp.join(settings.MODEL_DIR, 'resnet152-0d43d698.pth'),
    }[n_layers]

    net = ResNet(Bottleneck, layers=layers, stride=stride)
    state_dict = torch.load(pretrained_path)
    net.load_state_dict(state_dict, strict=False)

    return net


class CrossEntropyLoss2d(nn.Module):
    def __init__(self, weight=None, reduction='none', ignore_index=-1):
        super(CrossEntropyLoss2d, self).__init__()
        self.nll_loss = nn.NLLLoss(weight, reduction=reduction,
                                   ignore_index=ignore_index)

    def forward(self, inputs, targets):
        loss = self.nll_loss(F.log_softmax(inputs, dim=1), targets)
        return loss.mean(dim=2).mean(dim=1)


class HamNet(nn.Module):
    def __init__(self, n_classes, n_layers):
        super().__init__()
        backbone = resnet(n_layers, settings.STRIDE)
        self.backbone = nn.Sequential(
            backbone.conv1,
            backbone.bn1,
            backbone.relu,
            backbone.maxpool,
            backbone.layer1,
            backbone.layer2,
            backbone.layer3,
            backbone.layer4)

        C = settings.CHANNELS

        self.squeeze = ConvBNReLU(2048, C, 3)

        Hamburger = get_hamburger(settings.VERSION)
        self.hamburger = Hamburger(C, settings)
        
        self.align = ConvBNReLU(C, 256, 3)
        self.fc = nn.Sequential(nn.Dropout2d(p=0.1),
                                nn.Conv2d(256, n_classes, 1))

        # Put the criterion inside the model to make GPU load balanced
        self.crit = CrossEntropyLoss2d(ignore_index=settings.IGNORE_LABEL,
                                       reduction='none')

    def forward(self, img, lbl=None, size=None):
        x = self.backbone(img)

        x = self.squeeze(x)
        x = self.hamburger(x)
        x = self.align(x)
        x = self.fc(x)

        if size is None:
            size = img.size()[-2:]

        pred = F.interpolate(x, size=size, mode='bilinear', align_corners=True)

        if self.training and lbl is not None:
            loss = self.crit(pred, lbl)
            return loss
        else:
            return pred


def test_net():
    model = HamNet(n_classes=21, n_layers=50)
    model.eval()
    print(list(model.named_children()))
    image = torch.randn(1, 3, 513, 513)
    label = torch.zeros(1, 513, 513).long()
    pred = model(image, label)
    print(pred.size())


if __name__ == '__main__':
    test_net()

你可能感兴趣的:(矩阵,线性代数,python,计算机视觉,深度学习)

Python网络编程05----django与数据库的交互翻滚吧挨踢男 Python python 网络编程
介绍Django为多种数据库后台提供了统一的调用API，在Django的帮助下，我们不用直接编写SQL语句。Django将关系型的表(table)转换成为一个类(class)。而每个记录(record)是该类下的一个对象(object)。我们可以使用基于对象的方法，来操纵关系型数据库。设置数据库设置数据库需要修改settings.py文件如果使用的数据库是mysql：[python]viewpla
Python爬虫：高效获取1688商品详情的实战指南数据小爬虫@ python 爬虫开发语言
在电商行业，数据是商家制定策略、优化运营的核心资源。1688作为国内领先的B2B电商平台，拥有海量的商品信息。通过Python爬虫技术，我们可以高效地获取这些商品详情数据，为商业决策提供有力支持。一、为什么选择Python爬虫？Python以其简洁易读的语法和强大的库支持，成为爬虫开发的首选语言之一。利用Python爬虫，可以快速实现从1688平台获取商品详情的功能，包括商品标题、价格、图片、描述
python模块triton安装教程 2401_85863780 1024程序员节 triton whl
Triton是一个用于高性能计算的开源库，特别适用于深度学习和科学计算。通过预编译的whl文件安装Triton可以简化安装过程，尤其是在编译时可能会遇到依赖问题的情况下。以下是详细的安装步骤：安装前准备：Python环境：确保已经安装了Python，并且Python版本与whl文件兼容。pip：确保已经安装了pip，这是Python的包管理器，用来安装外部库。下载whl文件：从可靠的来源下载适用于
python模块mediapipe安装教程 2401_85863780 python 开发语言 mediapipe
安装MediaPipe通过.whl文件的方法与安装其他Python库相似。下面是详细的步骤，指导你如何通过.whl文件安装MediaPipe。1.确认Python和pip已经安装首先，确保你的系统上已经安装了Python和pip。你可以通过打开命令行（对于Windows用户，这可以是CMD或PowerShell；对于macOS和Linux用户，这可以是终端）并运行以下命令来检查：python--v
【whl文件】python各版本whl下载地址汇总 2401_85863780 python linux 开发语言
whl文件，全称为wheel文件，是Python分发包的一种标准格式。它是预编译的二进制包，包含了Python模块的压缩形式（如.py文件和编译后的.pyd文件）以及这些模块的元数据，通常通过Zip压缩算法进行压缩。whl文件的出现，使得Python包的安装过程变得更为简单和高效，因为它允许用户快速安装Python包及其依赖项，而无需从源代码开始编译。此外，whl文件还具有良好的跨平台兼容性，可以
第六篇：数字逻辑的“矩阵革命”——域控制器中的组合电路设计天天爱吃肉8218 学习笔记矩阵线性代数汽车笔记
副标题：用卡诺图破解车身域控制器的逻辑迷宫，揭秘华为DriveONE的“数字特工”▍开篇：黑客帝国世界观映射>"WelcometotheRealWorld."——Morpheus>在数字逻辑的世界里，组合电路就是构建Matrix的底层代码。当新能源汽车的域控制器需要同时处理车门锁、灯光控制、热管理信号时，就像Neo同时躲避多个特工的追击——只有最优化的逻辑设计，才能让系统在纳秒级响应中游刃有余。核
Ubuntu下 Python 版本切换 Tobey袁 Ubuntu shell ubuntu linux
在Ubuntu的开发环境下，由于Python2和Python3很多不兼容，经常会需要我们手动切换Python版本。sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python2100sudoupdate-alternatives--install/usr/bin/pythonpython/usr/bin/python315
python中set的用法_Python中set的用法 weixin_39876645 python中set的用法
python的集合类型和其他语言类似,是一个无序不重复元素集,我在之前学过的其他的语言好像没有见过这个类型，基本功能包括关系测试和消除重复元素.集合对象还支持union(联合),intersection(交),difference(差)和sysmmetricdifference(对称差集)等数学运算,和我们初中数学学的集合的非常的相似。1先看下python集合类型的不重复性，这方面做一些去重处理非
python set用法小结 Super_Meredith pandas set
1.创建集合set()>>>set('python'){'o','p','h','n','t','y'}>>>set(['python']){'python'}#去重>>>list1=[11,11,12,13,14,14,15]>>>set(list1){11,12,13,14,15}2.添加add()，update()#add():把传入的元素做为一个整体添加到集合中>>>set1=set('p
python 集合概念set用法 shuwenting python 基础
Python中set的用法python的集合类型和其他语言类似,是一个无序不重复元素集,我在之前学过的其他的语言好像没有见过这个类型，基本功能包括关系测试和消除重复元素.集合对象还支持union(联合),intersection(交),difference(差)和sysmmetricdifference(对称差集)等数学运算,和我们初中数学学的集合的非常的相似。1先看下python集合类型的不重复
python set operation screaming Python Set
Setcanbeconvertedtolistbylist(set)add(elem)¶Addelementelemtotheset.remove(elem)Removeelementelemfromtheset.RaisesKeyErrorifelemisnotcontainedintheset.discard(elem)Removeelementelemfromthesetifitispres
Python Web开发记录 Day12：Django part6 用户登录 Code_流苏 #---Python Web开发---#Django 项目探索实验室 python 前端 django
名人说：东边日出西边雨，道是无晴却有晴。——刘禹锡《竹枝词》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录1、登录界面2、用户名密码校验3、cookie与session配置①cookie与session②配置4、登录验证5、注销登录6、图片验证码①Pillow库②图片验证码的实现7、补充：图片验证码的作用和扩展①作用②其他类型的验证码8、验证码校验在上一篇博客中我们实现
Ubuntu中如何使用pip切换不同的python版本建立虚拟环境挪威的深林【Linux】操作命令 linux问题 python教程 pip virtualenv python
一.前言最近遇到非常头疼的问题,在ubuntu中运行不同的项目或者downloadgithub的项目时,总是需要不同版本的python,不同版本的pkgs.因此,为不同的项目建立各自的虚拟环境是一个比较方便的事情.对于建立虚拟环境,目前本人所掌握的主要是conda,以及pip,如果使用conda去建立虚拟环境,则需要安装anaconda,或则minianaconda.在安装anaconda后才能够
代码随想录day3 mvufi python 开发语言
203.移除链表元素虚拟头结点：增加删除都很容易python不用new，直接=ListNode(...)#Definitionforsingly-linkedlist.#classListNode:#def__init__(self,val=0,next=None):#self.val=val#self.next=nextclassSolution:defremoveElements(self,h
[LeetCode-Python版]Hot100（2/100）——128. 最长连续序列古希腊掌管学习的神 LeetCode-Python leetcode python 算法
题目给定一个未排序的整数数组nums，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为O(n)的算法解决此问题。示例1：输入：nums=[100,4,200,1,3,2]输出：4解释：最长数字连续序列是[1,2,3,4]。它的长度为4。示例2：输入：nums=[0,3,7,2,5,8,4,6,0,1]输出：9题目链接思路因为题目要求O（n）的时间复杂度，所以
[LeetCode-Python版]Hot100（1/100）——49. 字母异位词分组古希腊掌管学习的神 LeetCode-Python leetcode python 算法
题目给你一个字符串数组，请你将字母异位词组合在一起。可以按任意顺序返回结果列表。字母异位词是由重新排列源单词的所有字母得到的一个新单词。示例1:输入:strs=[“eat”,“tea”,“tan”,“ate”,“nat”,“bat”]输出:[[“bat”],[“nat”,“tan”],[“ate”,“eat”,“tea”]]示例2:输入:strs=[“”]输出:[[“”]]示例3:输入:strs=
ubuntu系统切换python版本的方法 lkasi Ubuntu ubuntu linux 运维
1.查看所有的python版本终端输入ls/usr/bin/python*结果2.切换版本终端输入sudoupdate-alternatives--configpython结果输入对应的选择编号即可切换python版本
python版本升级 HiSiri~ python python 开发语言
python版本升级背景在对centos机器升级Python版本从3.6到3.10后，pip安装出现了一些问题[解决pipisconfiguredwithlocationsthatrequireTLS/SSL问题]操作下载在官方主站找到合适的版本，并下载https://www.python.org/ftp/python/wgethttps://www.python.org/ftp/python/3
Python集合之set()使用方法详解 lmseo5hy python培训 python集合
set是一个无序且不重复的元素集合，它有可变集合(set())和不可变集合(frozenset)两种，可以对set()集合进行创建、添加、删除、交集、并集和差集的操作，非常实用，以下是具体用法：一、创建集合setpythonset类是在python的sets模块中，新的python版本可以直接创建集合，不需要导入sets模块。具体用法：1.set('old')2.set(‘o’,’l’,’d’)二
【机器学习】逻辑回归(LogisticRegression)原理与实战 GentleCP 机器学习(深度学习)逻辑回归 logistic regression 原理与实战机器学习
文章目录前言一、什么是逻辑回归1.1逻辑回归基础概念1.2逻辑回归核心概念二、逻辑回归Demo2.1数据准备2.2创建逻辑回归分类器2.3分类器预测三、逻辑回归实战3.1数据准备3.2数据划分与模型创建3.3预测数据评估模型四、参数选择五、总结六、参考资料本文属于我的机器学习/深度学习系列文章，点此查看系列文章目录前言本文主要通过文字和代码样例讲述逻辑回归的原理（包含逻辑回归的基础概念与推导）和实
[LeetCode-Python版]动态规划——0-1背包和完全背包问题总结古希腊掌管学习的神 LeetCode-Python leetcode python 动态规划
0-1背包有n个物品，第i个物品的体积为wiw_iwi，价值为viv_ivi，每个物品至多选一个，求体积和不超过capacity时的最大价值和状态转移：dfs(i,c)=max(dfs(i−1,c),dfs(i−1,c−w[i])+v[i]dfs(i,c)=max(dfs(i-1,c),dfs(i-1,c-w[i])+v[i]dfs(i,c)=max(dfs(i−1,c),dfs(i−1,c−w[
ipykernel-4.10.0-py2-none-any.whl文件解析与安装指南嗹国学长
本文还有配套的精品资源，点击获取简介：PyPI是Python的软件包仓库，本篇将解析一个特定Python包——ipykernel的4.10.0版本。ipykernel是Jupyter项目的核心组件，用于创建和运行交互式Python内核。本指南将介绍其功能、特点和安装过程，并强调其在跨语言支持、异步I/O处理、调试和交互式通信等方面的重要性。用户可通过pip安装该版本，以支持Python2环境中的J
[解决ERROR]VScode中运行ipynb文件报错缺少ipykernel 又困又爱睡 vscode jupyter
[解决ERROR]VScode中运行ipynb文件报错缺少ipykernel1.在VScode中添加jupyter插件2.建议大家安装python版本目前不要大于3.93.在环境中安装jupyter的包，同时会帮我们下载好ipykernel的包4.如果你不幸发现自己的pyzmq包已经下载且版本是23.3.1或以上版本导致FailedtostarttheKernel5.结语前言：最近帮大家配置ana
python字典的嵌套计算机小白的爬坑之路 python基础 python
字典嵌套及打印题目：城市创建一个名为cities的字典，其中将三个城市名用作键；对于每座城市，都创建一个字典，并在其中包含该城市所属的国家、人口约数以及一个有关该城市的事实。在表示每座城市的字典中，应包含country、population和fact等键。将每座城市的名字以及有关它们的信息都打印出来。代码如下所示：cities={'北京':{'country':'China','populatio
w224疫情管理系统设计与实现卓怡学长计算机毕业设计 java spring spring boot 数据库 intellij-idea
作者简介：多年一线开发工作经验，原创团队，分享技术代码帮助学生学习，独立完成自己的网站项目。代码可以查看文章末尾⬇️联系方式获取，记得注明来意哦~赠送计算机毕业设计600个选题excel文件，帮助大学选题。赠送开题报告模板，帮助书写开题报告。作者完整代码目录供你选择：《Springboot网站项目》400套《ssm网站项目》800套《小程序项目》300套《App项目》500套《Python网站项目
Python:字典嵌套 lcqin111 python
可以在列表中嵌套字典、在字典中嵌套列表甚至在字典中嵌套字典alien_0={'color':'green','points':5}alien_1={'color':'yellow','points':10}alien_2={'color':'red','points':15}aliens=[alien_0,alien_1,alien_2]foralieninaliens:print(alien)这
Conda添加新的Kernel _TFboy conda python 开发语言
官方说明:https://ipython.readthedocs.io/en/stable/install/kernel_install.html要向Conda添加一个新的内核（kernel），你可以按照以下步骤进行操作：确保你已经激活了你想要添加内核的Conda环境。运行以下命令激活环境：condaactivateyour_environment_name将“your_environment_n
探索IPykernel：Python交互式计算的核心引擎解然嫚Keegan
探索IPykernel：Python交互式计算的核心引擎项目地址:https://gitcode.com/gh_mirrors/ip/ipykernel是一个开放源代码项目，它是IPythonNotebook和JupyterNotebook背后的驱动力，使得在Python环境中进行交互式计算成为可能。本文将带你深入了解IPykernel的技术特性、应用及优势，引导你更有效地利用它提升开发效率。项目
《深度Q网络优化：突破高维连续状态空间的束缚》人工智能深度学习
在人工智能的发展历程中，深度Q网络（DQN）作为强化学习与深度学习融合的关键成果，为解决复杂决策问题开辟了新路径。但当面对高维连续状态空间时，DQN会出现训练不稳定、收敛速度慢等问题，严重限制了其应用范围。如何优化DQN以适应高维连续状态空间，成为当下研究的热点。深度Q网络基础回顾深度Q网络结合了深度学习强大的特征提取能力与Q学习的决策优化思想。在传统强化学习中，Q学习通过Q表记录每个状态-动作对
GCN推导合集 mumukehao 研究生笔记异配图深度学习
读论文,发现看论文最重要的是推导,因此写了这篇文章,记录重要的推导过程(个人人为的)(持续更新)SGC以及最常见优化的推到邻接矩阵归一化:A~=D~−1/2A~D~−1/2\tilde{A}=\tilde{D}^{-1/2}\tilde{A}\tilde{D}^{-1/2}A~=D~−1/2A~D~−1/2对应::A=In+D−1/2AD−1/2A=I_{n}+D^{-1/2}AD^{-1/2}A
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "13241153187@163.com" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多