快乐小胡！

【论文阅读】DenseNet：Densely Connected Convolutional Network

CSDN话题挑战赛第2期
参赛话题：学习笔记

学习之路，长路漫漫，写学习笔记的过程就是把知识讲给自己听的过程。这个过程中，我们去记录思考的过程，便于日后复习，梳理自己的思路。学习之乐，独乐乐，不如众乐乐，把知识讲给更多的人听，何乐而不为呢?

论文

DenseNet：Densely Connected Convolutional Network

论文地址

https://openaccess.thecvf.com/content_cvpr_2017/papers/Huang_Densely_Connected_Convolutional_CVPR_2017_paper.pdf

摘要

最近的工作表明，如果卷积网络在靠近输入的层和靠近输出的层之间包含较短的连接，那么卷积网络可以更深入、更精确、更高效地进行训练。在本文中，我们介绍了密集卷积网络（DenseNet），它以前馈方式将每一层与每一层连接起来。传统的L层卷积网络在每层及其后续层之间有L个连接，而我们的网络有L（L+1）/2个直接连接。对于每个层，前面所有层的特征图用作输入，而其自身的特征图则用作所有后续层的输入。DenseNets有几个引人注目的优点：它们可以缓解消失梯度问题，加强特征传播，鼓励特征重用，并大大减少参数的数量。在四个竞争激烈的对象识别基准任务（CIFAR-10、CIFAR-100、SVHN和ImageNet）上评估了我们提出的架构。DenseNets在大多数方面都比最先进的技术有了显著的改进，同时需要更少的计算来实现高性能。

1 介绍

卷积神经网络（CNN）已成为视觉对象识别的主要机器学习方法。最初的LeNet5[19]由5层组成，VGG的特点由19层组成[28]，只有Highway Networks[33]和残差网络（ResNets）[11]才超过了100层的屏障。

当CNN变得越来越深入，一个新的研究问题出现了：当输入或梯度信息通过许多层时，当它到达网络的末端（或起点）时，它可能会消失。ResNets[11]和Highway Networks[33]通过identity连接将信号从一层绕过到下一层。Stochastic depth [13]通过在训练过程中随机丢弃层来缩短ResNets，以获得更好的信息和梯度流。FractalNets[17]反复将多个并行层序列与不同数量的卷积块组合，以获得较大的标称深度，同时在网络中保持许多短路径。尽管这些不同的方法在网络拓扑和训练过程中有所不同，但它们都有一个关键特征：它们创建了从早期层到后期层的短路径。

在本文中，我们提出了一种架构，将这种洞察力提取为一种简单的连接模式：为了确保网络中各层之间的信息流最大化，我们将所有层（具有匹配的特征图大小）直接相互连接。为了保持前馈性质，每个层都从所有前面的层获得额外的输入，并将其自身的特征映射传递给所有后面的层。与ResNets相比，我们从不在将特征传递到层之前通过求和来组合特征；相反，我们通过连接功能来组合它们。因此第ℓth层具有ℓ 输入，由所有先前卷积块的特征映射组成。它自己的特征图被传递给所有L−ℓ 后续层。这在L层网络中引入了L（L+1）/2连接，而不是传统架构中的L连接。由于其密集连接模式，我们将其称为密集卷积网络（DenseNet）。

这种密集连接模式它比传统的卷积网络需要更少的参数，因为不需要重新学习冗余特征图。传统的前馈体系结构可以被视为具有状态的算法，状态在层与层之间传递。每个层从其前一层读取状态并写入下一层。它改变了状态，但也传递了需要保留的信息。我们提出的DenseNet体系结构明确区分了添加到网络中的信息和保留的信息。DenseNet层非常窄，仅在网络的“集体知识”中添加一小组特征图，并保持其余特征图不变，最终分类器根据网络中的所有特征地图做出决策。

除了更好的参数效率外，DenseNets的一大优势是改进了整个网络中的信息流和梯度，使其易于训练。每一层都可以从损失函数和原始输入信号直接访问梯度，从而实现隐式深层监督[20]。这有助于培训更深入的网络架构。密集连接具有正则化效果，这可以减少训练集规模较小的任务的过拟合。我们在四个极具竞争力的基准数据集（CIFAR-10、CIFAR-100、SVHN和ImageNet）上评估了DenseNets。我们的模型往往需要比现有算法更少的参数，精度相当。此外，在大多数基准任务中，我们的表现明显优于当前最先进的结果。

2 相关工作

最近，提出了用批梯度下降法训练全连接级联网络[39]。尽管这种方法对小数据集有效，但它只能扩展到几百个参数的网络。在[9，23，30，40]中，通过跳跃连接利用CNN中的多级特征已被发现对各种视觉任务有效。与我们的工作类似，[1]推导出了与我们类似的跨层连接网络的纯理论框架。

Highway Networks[33]是首批提供有效训练100层以上端到端网络的架构之一。使用旁路路径和选通单元，可以轻松优化具有数百层的公路网络。旁路路径被认为是简化这些深度网络训练的关键因素。ResNets[11]进一步支持了这一点，其中纯身份映射（identity）被用作旁路路径。最近，Stochastic depth被提出作为一种成功训练1202层ResNet的方法[13]。Stochastic depth通过在训练过程中随机丢弃层来改进深度剩余网络的训练。这表明并非所有层都是必需的，并强调了深层（剩余）网络中存在大量冗余。论文部分受到了这一观察的启发，具有预激活功能的ResNets也有助于培训超过1000层的一流网络[12]。

GoogLeNet[35,36]使用了一个“Inception模块”，它将不同大小的过滤器生成的特征映射连接起来。在[37]中，提出了一种具有广义残差块的ResNets变体。事实上，只要增加ResNets每层中过滤器的数量，只要深度足够就可以提高其性能。FractalNets还使用广泛的网络结构在多个数据集上取得了竞争结果[17]。Network in Network（NIN）[22]结构将微多层感知器包含在卷积层的滤波器中，以提取更复杂的特征。在Deeply Supervised Network（DSN）[20]中，内部层由辅助分类器直接监督，可以加强早期层接收到的梯度。Ladder Networks梯形网络[26，25]将横向连接引入自动编码器，在半监督学习任务中产生令人印象深刻的精度。在[38]中，提出了深度融合网络（DFN），通过结合不同基础网络的中间层来改善信息流。通过将重建损失降至最低的路径增强网络，也可以改善图像分类模型[42]。

DenseNets没有从极深或极广的体系结构中汲取具有代表性的力量，而是通过功能重新挖掘网络的潜力，从而生成易于训练且参数效率高的浓缩模型。将不同层学习的特征地图串联起来会增加后续层输入的变化，并提高效率。这是DenseNets和ResNets之间的主要区别。与Inception网络[35,36]相比，DenseNets更简单、更高效，后者还连接了不同层的特征。

3 密集卷积网络（DenseNet）

通过卷积网络的单个图像x0。网络由L层组成，每个层实现非线性转换Hℓ(·)。Hℓ(·)可以是操作的复合函数，例如批量归一化（BN）[14]、校正线性单元（ReLU）[6]、Pooling[19]或卷积（Convolution）。我们将第ℓth层的输出表示为xℓ。
ResNets: 传统的卷积前馈网络将ℓth层的输出变为（ℓ+1）th层的输入，引起以下层转换：xℓ = Hℓ(xℓ −1)。ResNets[11]添加了一个跳过连接，该连接使用identity函数绕过非线性变换：xℓ = Hℓ(xℓ-1) + xℓ−1。 ResNets的优点是梯度可以直接通过identity函数从后面的层流向前面的层。然而，恒等函数和H的输出ℓ 通过求和组合，这可能会阻碍网络中的信息流动。

Dense connectivity：为了进一步改善层之间的信息流，我们提出了一种不同的连接模式：我们引入了从任何层到所有后续层的直接连接。前图展示列DenseNet的布局。因此第ℓth层接收所有前一层的特征图，x0，…，xℓ−1，作为输入:xℓ = Hℓ([x0, x1, . . . , xℓ−1]) 由于其密集连接，我们将此网络架构称为密集卷积网络（DenseNet）。为了便于实现，我们将Hℓ(·)的多个输入连接起来转化成单个张量。

Composite function：受[12]的启发，我们定义了Hℓ(·)作为三个连续操作的复合函数：批次归一化（BN）[14]，然后是校正线性单元（ReLU）[6]和3×3卷积（Conv）

Pooling layers：当特征图的大小发生变化时，Hℓ(·)中使用的串联操作是不可行的。然而，卷积网络的一个重要部分是向下采样层，这会改变特征图的大小。为了便于在我们的架构中进行向下采样，我们将网络划分为多个密集连接的密集块。我们将块之间的层称为过渡层，它执行卷积和池化层。使用的过渡层包括一个批处理归一化层（BN层）和一个1×1卷积层，然后是一个2×2平均池层（Avg Pooling）。

Growth rate：如果每个功能Hℓ生成k个特征映射，因此第ℓth层具有k0+k×(ℓ − 1）输入特征映射，其中k0是输入层中的通道数。DenseNet与现有网络架构之间的一个重要区别是，DenseNet可以具有非常窄的层，例如k=12。我们将超参数k称为网络的增长率。相对较小的增长率足以在我们测试的数据集上获得最先进的结果。

Bottleneck layers：每个层仅生成k个输出特征图，但它通常有更多的输入。在[36，11]中已经注意到，可以在每个3×3卷积之前引入1×1卷积作为瓶颈层，以减少输入特征映射的数量，从而提高计算效率，我们发现这种设计对DenseNet特别有效。BN ReLU Conv（1×1）-BN ReLU Conv（3×3）版本的Hℓ 作为DenseNet-B。在我们的实验中，我们让每个1×1卷积产生4k个特征映射。

Compression：为了进一步提高模型的紧凑性，我们可以减少过渡层的特征图数量。如果稠密块包含m个特征图，我们将生成以下过渡层[θm] 输出特征点，其中0<θ≤1被称为压缩系数。当θ=1时，跨过渡层的要素图数量保持不变。我们将θ<1的DenseNet称为DenseNet-C，并在实验中设置θ=0.5。当同时使用θ<1的瓶颈层和过渡层时，将我们的模型称为DenseNet BC。

Implementation Details：在除ImageNet之外的所有数据集上，我们实验中使用的DenseNet有三个密集块，每个块都有相等数量的层。在进入第一个密集块之前，对输入图像执行16个（或DenseNet BC增长率的两倍）输出通道的卷积。对于内核大小为3×3的卷积层，输入的每一侧都用一个像素进行零填充，以保持特征图大小不变。我们使用1×1卷积和2×2平均池作为两个相邻致密块体之间的过渡层。在最后一个密集块的末尾，执行全局平均池，然后附加一个softmax分类器。三个密集区块的特征图大小分别为32×32、16×16和8×8。我们用基本的DenseNet结构进行实验，其配置为{L=40，k=12}，{L=100，k=12]和{L=100,k=24}。对于DenseNet-BC，评估配置为{L=100，k=12}，{L=250，k=24}和{L=190，k=40}的网络。在ImageNet上的实验中，我们使用了一个DenseNet-BC结构，在224×224个输入图像上有4个密集块。初始卷积层包括2k个卷积，大小为7×7，步长为2；所有其他层中的特征地图数量也取决于设置k。我们在ImageNet上使用的确切网络配置如表。

4 实验

证明了DenseNet在几个基准数据集上的有效性，并与最先进的体系结构进行了比较，特别是与ResNet及其变体。

4.1 数据集

CIFAR：两个CIFAR数据集[15]由32×32像素的彩色自然图像组成。CIFAR-10（C10）由从10类中提取的图像和从100个类中提取的CIFAR-100（C100）组成。训练集和测试集分别包含50000和10000张图像，我们提供5000张训练图像作为验证集。采用了一种广泛用于这两个数据集的标准数据增强方案（镜像/移位）[11,13,17,22,27,20,31,33]。我们在数据集名称的末尾（例如C10+）用“+”标记来表示此数据增强方案。对于预处理，我们使用通道平均值和标准偏差来归一化数据。对于最终运行，我们使用所有50000张培训图像，并在培训结束时报告最终测试错误。
SVHN：包含32×32个彩色数字图像。训练集中有73257幅图像，测试集中有26032幅图像，还有531131幅图像用于其他训练。按照常见做法[7、13、20、22、29]，我们使用所有训练数据，而不进行任何数据扩充，从训练集中分割出一个包含6000张图像的验证集。我们在培训期间选择验证误差最小的模型，并报告测试误差。我们遵循[41]，将像素值除以255，使其在[0,1]范围内。
ImageNet：ILSVRC 2012分类数据集[2]包含120万张用于训练的图像，以及50000张用于验证的图像，这些图像来自1000个类。我们对训练图像采用与[8，11，12]相同的数据增强方案，并在测试时应用大小为224×224的单个或10个crops。在[11,12,13]之后，我们报告了验证集的分类错误。

4.2 训练

所有网络都使用随机梯度下降（SGD）进行训练。
在CIFAR和SVHN上，我们分别使用批次大小64进行300和40个周期的培训。初始学习率设置为0.1，并在培训总学时数的50%和75%时除以10。
在ImageNet上，我们对批次大小为256的90个epoch的模型进行训练。最初，学习率设置为0.1，在epoch 30和60时降低了10倍。由于GPU内存限制，我们对最大的模型（DenseNet-161）进行了小批次大小128的训练。为了补偿较小的批次大小，我们对该模型进行了100个epochs的训练，并在epoch 90时将学习率除以10。
我们使用10−4的权重衰减，Nesterov动量[34]为0.9，无dampening。我们采用了[10]介绍的权重初始化。对于三个没有数据增强的数据集，即C10、C100和SVHN，我们在每个卷积层（第一个除外）之后添加一个dropout层[32]，并将dropout率设置为0.2。对于每个任务和模型设置，测试错误仅评估一次。

4.3 CIFAR和SVHN分类结果

对DenseNets进行了不同深度L和增长率k的培训。下表显示了CIFAR和SVHN的主要结果。为了突出总体趋势，我们用粗体标记了所有优于现有最先进水平的结果，用蓝色标记了总体最佳结果。

Accuracy：最明显的趋势可能来自表的最下面一行，这表明L=190和k=40的DenseNet BC在所有CIFAR数据集上都始终优于现有的最先进技术。其在C10+上的错误率为3.46%，在C100+上为17.18%，大大低于宽ResNet架构实现的错误率[41]。两者都比经过dropout path正则化的FractalNet低近30%。在SVHN上，由于dropout正则化，L=100和k=24的DenseNet也超过了宽ResNet目前取得的最佳结果。在250层DenseNet-BC与较短的同类产品相比，性能没有进一步提高。这可以解释为SVHN是一项相对简单的任务，而非常深入的模型可能会超出训练集。

Capacity：在没有压缩层或瓶颈层的情况下，随着L和k的增加，DenseNets的性能通常会更好。我们将这主要归因于模型容量的相应增长，C10+和C100+列最能说明这一点。在C10+上，随着参数数量从1.0M增加到27.2M，误差从5.24%下降到4.10%，最后下降到3.74%。在C100+上，我们观察到类似的趋势。这表明，DenseNets可以利用更大和更深模型的更强代表力。它还表明，它们没有受到过拟合或残差网络优化困难的影响[11]。

Parameter Efficiency：DenseNets比其他架构（尤其是ResNets）更有效地利用参数。具有瓶颈结构和过渡层降维的DenseNetBC的参数效率特别高。例如，我们的250层模型只有15.3M个参数，但它始终优于其他参数超过30M的模型，如FractalNet和Wide ResNets。我们还强调，L=100和k=12的DenseNet BC与使用较少90%参数的1001层预激活ResNet相比，具有可比的性能（例如，C10+上4.51%对4.62%的误差，C100+上22.27%对22.71%的误差）图右侧面板显示了C10+上这两个网络的训练loss和测试error。1001层深的ResNet收敛到较低的训练损失值，但测试错误类似。只有0.8M可训练参数的DenseNet BC能够达到与具有10.2M参数的1001层（预激活）ResNet[12]相当的精度。

Overfitting：更有效地使用参数的一个积极副作用是，DenseNets不太容易出现过拟合。在未进行数据增强的数据集上，DenseNet体系结构相对于先前工作的改进尤为显著。在C10上，改进表明误差相对减少29%，从7.33%降至5.19%。在C100上，降幅约为30%，从28.20%降至19.64%。在C10上，通过将k=12增加到k=24而产生的参数增长了4倍，导致误差从5.77%适度增加到5.83%。DenseNet BC瓶颈和压缩层似乎是应对这一趋势的有效方法（从5.92%到5.19%）。

4.4 ImageNet上的分类结果

在ImageNet分类任务中评估具有不同深度和增长率的DenseNet BC，并将其与最先进的ResNet架构进行比较。为了确保两种架构之间的公平比较，我们通过[8]ResNet采用公开可用的Torch实现，消除了数据预处理和优化设置方面的差异等所有其他因素。我们只需将ResNet模型替换为DenseNet BC网络，并使所有实验设置与用于ResNet的设置完全相同。唯一的例外是，由于GPU内存限制，我们最大的DenseNet模型的训练最小批量为128；我们针对100个epoch对该模型进行训练，在epoch 90之后第三次学习速率下降，以补偿较小的批量大小。

上表报告了ImageNet上DenseNets的单次裁剪和10次裁剪验证错误。下图显示了DenseNetworks和ResNets的单个裁剪top-1验证错误，它是参数（左）和FLOP（右）数量的函数。图中显示的结果表明，DenseNets的性能与最先进的ResNets相当，同时需要更少的参数和计算来实现可比性能。具有20M参数的DenseNet-201模型产生的验证错误与具有40M以上参数的101层ResNet类似。从右侧图可以观察到类似的趋势，该图将验证误差绘制为FLOP数量的函数：DenseNet-201需要的计算量与ResNet-50相当，与ResNet-101相当，后者需要两倍的计算量。实验设置意味着我们使用针对ResNets而非DenseNets优化的超参数设置。可以想象，更广泛的超参数搜索可能会进一步提高DenseNet在ImageNet上的性能。

5 讨论

DenseNets与ResNets非常相似：xℓ = Hℓ([x0, x1, . . . , xℓ−1])与xℓ = Hℓ(xℓ-1) + xℓ−1的不同之处仅在于H的输入ℓ(·)是串联的，而不是求和的。然而，这一看似微不足道的修改所带来的影响导致了这两种网络体系结构的本质不同的行为。

模型紧凑度：作为输入串联的直接结果，任何DenseNet层学习的特征地图都可以被所有后续层访问。这鼓励了整个网络中的功能重用，并导致更紧凑的模型。
图中左边的两个图显示了一个实验的结果，该实验旨在比较DenseNets所有变体的参数效率（左）和一个可比较的ResNet架构（右）。我们在C10+上训练多个不同深度的小型网络，并将其测试精度绘制为网络参数的函数。与其他流行的网络架构（如AlexNet[16]或VGG net[28]）相比，具有预激活功能的ResNets使用更少的参数，同时通常会获得更好的结果[12]。因此，我们将DenseNet（k=12）与此架构进行比较。DenseNet的训练设置与上一节中的相同。DenseNet BC始终是DenseNetwork的参数效率最高的变体。此外，为了达到相同的精度水平，DenseNet BC只需要ResNets（右图）大约1/3的参数。

隐性深度监督：密集卷积网络精度提高的一种解释可能是，通过较短的连接，各层从损耗函数中获得额外的监督。人们可以将DenseNets解释为执行一种“深度监督”。深度监督的好处以前已经在深度监督网络（DSN；[20]）中显示出来，它将分类器连接到每个隐藏层，强制中间层学习区分特征。网络顶部的单个分类器最多通过两个或三个过渡层对所有层进行直接监督。然而，由于所有层之间共享相同的损耗函数，因此DenseNets的损耗函数和梯度基本上不那么复杂。
随机与确定性关系：密集卷积网络和随机深度残差网络的正则化之间有一个有趣的联系[13]。在随机深度中，残差网络中的层被随机丢弃，从而在周围层之间创建直接连接。由于从不丢弃池化层，因此网络会产生与DenseNet类似的连接模式：如果随机丢弃所有中间层，则相同池化层之间的任何两个层直接连接的可能性很小。尽管这些方法最终大不相同，但DenseNet对随机深度的解释可以为该正则化器的成功提供见解。
特征重用：在设计上，DenseNets允许图层从其之前的所有图层访问要素图（尽管有时通过过渡图层）我们进行了一项实验，以调查受过训练的网络是否利用了这个机会。我们首先在C10+上训练DenseNet，L=40，k=12。对于每个卷积层ℓ 在一个块内，我们计算分配给与层s连接的平均（绝对）权重。下图显示了所有三个密集块的热图。平均绝对权重作为卷积层对其前几层依赖性的替代。位置上有一个红点(ℓ, s）图层ℓ分利用了之前生成的s层特征图。从图中可以观察到以下几点：
1、所有层都将其权重分布在同一块中的许多输入上。这表明早期地层提取的特征确实被同一密集块体的深层直接使用。
2、过渡层的权重也将其权重分布在前面密集块内的所有层上，表明信息通过几个间接方向从DenseNet的第一层流向最后一层。
3、第二和第三密集块内的层始终为过渡层的输出（三角形的顶行）分配最小权重，这表明过渡层输出了许多冗余特征（平均权重较低）。这与DenseNet BC的强大结果是一致的，正是这些输出被压缩了。
4、虽然最后的分类层（如右图所示）也在整个密集区块中使用权重，但似乎集中在最终特征图上，这表明网络后期可能会产生一些更高层次的特征。

6 结论：

提出了一种新的卷积网络结构，我们称之为密集卷积网络（DenseNet）。它引入了具有相同要素图大小的任意两个图层之间的直接连接。我们表明，DenseNets可以自然扩展到数百层，而不会出现优化困难。在我们的实验中，随着参数数量的增加，DenseNets趋向于在精度上持续改进，而没有任何性能下降或过拟合的迹象。在多种设置下，它在几个竞争激烈的数据集上取得了最先进的结果。DenseNets需要更少的参数和更少的计算来实现最先进的性能。因为我们在研究中采用了针对残差网络优化的超参数设置，通过更详细地调整超参数和学习速率计划，可以进一步提高DenseNets的精度。在遵循简单的连接规则的同时，DenseNets自然地集成了identity映射、深度监控和多样化深度的属性。它们允许在整个网络中重用特征，因此可以学习更紧凑的模型，根据我们的实验，也可以学习更精确的模型。由于其紧凑的内部表示和减少的特征冗余，对于基于卷积特征的各种计算机视觉任务，例如[4，5] DenseNets可能是很好的特征提取器。我们计划在未来的工作中使用DenseNets研究此类特征转移。

你可能感兴趣的:(论文阅读)

[论文阅读]Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smal 0x211 论文阅读语言模型人工智能自然语言处理
中文译名：逐步蒸馏！以较少的训练数据和较小的模型规模超越较大的语言模型发布链接：http://arxiv.org/abs/2305.02301AcceptedtoFindingsofACL2023阅读原因：近期任务需要用到蒸馏操作，了解相关知识核心思想：改变视角。原来的视角：把LLMs视为噪声标签的来源。现在的视角：把LLMs视为能够推理的代理。方法好在哪？需要的数据量少，得到的结果好。文章的方法
【论文阅读】【IEEE TCYB 2023】Edge-Guided Recurrent Positioning Network forSalient Object Detection in Opt
引言任务：光学遥感图像中显著目标检测论文地址：Edge-GuidedRecurrentPositioningNetworkforSalientObjectDetectioninOpticalRemoteSensingImages|IEEEJournals&Magazine|IEEEXplore代码地址：前置知识一、摘要目前由于光学rsi中目标类型多样、目标尺度多样、目标方向众多以及背景杂乱，现有S
大模型服务的推理优化探索半吊子全栈工匠
【引】有的事情别人不问时我们明白，一旦要我们解释它我们就不明白了，而这正是我们必须留心思索的东西。于是，开启了一次又一次的论文阅读之旅。开发并部署大模型应用肯定要考虑它们的服务成本。然而，钱并不是唯一的考虑因素，如果不能解决模型性能方面的问题，即使有很大的预算，大模型服务仍会受到影响。本文尝试讨论将LLM推理服务更改为高吞吐量引擎的挑战与应对方法。1.大模型服务面临的挑战大模型的能力令人惊叹，但其
ER综述论文阅读-Emotion recognition in EEG signals using deep learning methods: A review 今天早睡了情绪识别Emotion Recognition 论文阅读深度学习人工智能
EmotionrecognitioninEEGsignalsusingdeeplearningmethods:AreviewQ1期刊，2023论文链接：https://d1wqtxts1xzle7.cloudfront.net/105887899/emotionreview-libre.pdf?1695460941=&response-content-disposition=inline%3B+f
【论文阅读】AdaCtrl: Towards Adaptive and Controllable Reasoning via Difficulty-Aware Budgeting quintus0505 LLM 论文阅读语言模型
AdaCtrl:TowardsAdaptiveandControllableReasoningviaDifficulty-AwareBudgeting3Method3.1长度触发标签作为控制接口（Length-TriggerTagsasControllingInterface）3.2冷启动微调（Cold-startfine-tuning）3.3难度感知的强化学习框架（Difficulty-awar
【论文阅读笔记】TimesURL: Self-supervised Contrastive Learning for Universal Time Series 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
TimesURL:Self-supervisedContrastiveLearningforUniversalTimeSeriesRepresentationLearning摘要学习适用于多种下游任务的通用时间序列表示，并指出这在实际应用中具有挑战性但也是有价值的。最近，研究人员尝试借鉴自监督对比学习（SSCL）在计算机视觉（CV）和自然语言处理（NLP）中的成功经验，以解决时间序列表示的问题。
【论文阅读】Decoupled Knowledge Distillation Bosenya12 论文阅读
摘要：最先进的蒸馏方法主要基于从中间层蒸馏出深层特征，而logit蒸馏的重要性则被大大忽视了。为了提供研究logit蒸馏的新观点，我们将经典的KD损失重新表述为两部分，即目标类知识蒸馏（TCKD）和非目标类知识蒸馏（NCKD）。我们实证调查并证明了两部分的效果：TCKD传递了有关训练样本“困难”的知识，而NCKD是logit蒸馏起作用的突出原因。更重要的是，我们揭示了经典的KD损失是一个耦合公式，
【论文阅读】Transfer Learning for Automatic Modulation Recognition Using a Few Modulated Signal Samples
摘要：这封信提出了一种用于自动调制识别（AMR）的迁移学习模型，该模型仅具有少量调制信号样本。传输模型以音频信号UrbanSound8K作为源域进行训练，然后以一些调制信号样本为目标域进行微调。为了提高分类性能，信噪比（SNR）被用作一个功能来促进信号的分类。仿真结果表明，迁移模型在分类精度方面具有显著优势。这篇文章的核心内容是提出了一种基于迁移学习（TransferLearning）的自动调制识
【论文阅读】Meta-SE: A Meta-Learning Framework for Few-Shot Speech Enhancement Bosenya12 论文阅读
这篇文章介绍了一个名为Meta-SE的元学习框架，专门用于少样本（few-shot）语音增强问题。文章的核心目标是解决在实际应用中，由于训练样本有限而导致传统深度神经网络（DNN）模型性能受限的问题。Meta-SE通过元学习的方法，利用先验的元知识快速适应新的任务和噪声类型，即使只有少量训练样本也能表现出色。背景知识与研究动机语音增强技术旨在从带噪语音信号中恢复目标语音，提升语音质量和可懂度。深度
【论文阅读】SASLN：小样本条件下机械故障诊断的信号增强自学习网络
SASLN:SignalsAugmentedSelf-TaughtLearningNetworksforMechanicalFaultDiagnosisUnderSmallSampleCondition本文介绍了一种名为SASLN（SignalsAugmentedSelf-TaughtLearningNetworks）的方法，专门用于在小样本条件下对风力发电机（WT）的发电机轴承故障进行诊断。该方
【论文阅读】SSCL-AMC：一种基于动态增强和集成学习的自监督自动调制分类方法
SSCL-AMC:ASelf-supervisedAutomaticModulationClassificationMethodviaDynamicAugmentationandEnsembleLearning摘要：与传统的手工自动调制分类（AMC）方法相比，深度学习已经显示出有希望的结果，AMC作为信号检测和调制之间的中间步骤发挥着关键作用。然而，获取大规模标记数据仍然具有挑战性，因为数据质量和
[论文阅读] 人工智能 + 软件工程 | 当 LLM 写代码时，它的 “思考过程” 靠谱吗？—— 揭秘 CoT 质量的那些事儿张较瘦_ 前沿技术论文阅读人工智能软件工程
当LLM写代码时，它的“思考过程”靠谱吗？——揭秘CoT质量的那些事儿论文标题：AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenerationarXiv:2507.06980[pdf,html,other]AreTheyAllGood?EvaluatingtheQualityofCoTsinLLM-basedCodeGenera
[论文阅读] 人工智能 + 软件工程 | 需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破
需求获取访谈中LLM生成跟进问题研究：来龙去脉与创新突破论文标题：RequirementsElicitationFollow-UpQuestionGenerationarXiv:2507.02858RequirementsElicitationFollow-UpQuestionGenerationYuchenShen,AnmolSinghal,TravisBreauxComments:13page
Prompt相关论文阅读(02)--Auto-CoT(2024-11-25) zhilanguifang 论文 prompt engineering 论文阅读笔记
论文阅读笔记2024-11-24~2024-11-25Auto-CoT:AutomaticChainofThoughtPromptinginLargeLanguageModels(ICLR2023)碎碎念：复现代码和笔记保存到gitee仓库上海交通大学的学生在亚马逊实习的时候的成果ICLR2023摘要：LLM能够通过生成中间推理步骤执行复杂的推理。提供这些步骤用于提示演示叫做思维链提示CoT。Co
【论文阅读】Dynamic Few-Shot Visual Learning without Forgetting Bosenya12 论文阅读
系统概述如下：(a)一个基于卷积神经网络（ConvNet）的识别模型，该模型包含特征提取器和分类器；(b)一个少样本分类权重生成器。这两个组件都是在一组基础类别上训练的，我们为这些类别准备了大量训练数据。在测试阶段，权重生成器会接收少量新类别的训练数据以及基础类别的分类权重向量（分类器框内的绿色矩形），并为新类别生成相应的分类权重向量（分类器框内的蓝色矩形）。这样，卷积神经网络就能同时识别基础类别
【论文阅读】Few-Shot PPG Signal Generation via Guided Diffusion Models Bosenya12 论文阅读
从少量样本数据选择到后处理的整体框架。首先，扩散模型在N样本数据集和指导下的训练。接着，模型生成一个增强的数据集，并进一步优化以提高保真度。最后，这些合成数据与少量样本训练数据集结合，用于基准模型的训练和评估。数据分布从最初的红色变为保真度增强的蓝色，这表明模型与真实数据更加吻合，如简化后的数据分布示意图所示。这篇文章的核心内容是介绍了一种名为BG-Diff（Bi-GuidedDiffusion）
[论文阅读] 人工智能 | 读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法张较瘦_ 前沿技术论文阅读人工智能
读懂Meta-Fair：让LLM摆脱偏见的自动化测试新方法论文标题：Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsarXiv:2507.02533Meta-Fair:AI-AssistedFairnessTestingofLargeLanguageModelsMiguelRomero-Arjona,JoséA.Parejo,Jua
【LLM论文阅读】一只齐刘海的猫论文阅读
LLM论文阅读论文重点论文链接RopeRoFormer:EnhancedTransformerwithRotaryPositionEmbeddingRoPE论文阅读YarnUnderstandingYaRN:ExtendingContextWindowofLLMs论文YaRN笔记T5ExploringtheLimitsofTransferLearningwithaUnifiedText-to-Te
Segment Anything in High Quality之SAM-HQ论文阅读 qq_41627642 深度学习论文阅读论文阅读
摘要最近的SegmentAnythingModel（SAM）在扩展分割模型规模方面取得了重大突破，具备强大的零样本能力和灵活的提示机制。尽管SAM在训练时使用了11亿个掩码，其掩码预测质量在许多情况下仍不理想，尤其是对于结构复杂的目标。我们提出了HQ-SAM，使SAM能够精确地分割任意目标，同时保留其原有的可提示设计、高效性和零样本泛化能力。我们的设计充分复用并保留了SAM预训练的模型权重，仅引入
yolov算法详解_yolo 目标检测算法个人总结（yolov1） CHAO JIANG yolov算法详解
yolo目标检测算法个人总结目前yolo目标检测有两个版本，分别为v1和v2。因工作需要用yolo算法检测人物，所以这段时间重点看了这两篇论文，并实现了对应的tensorflow代码。这里记录下在论文阅读过程中的一些细节信息，留给自己，同时也希望各位能指出本人理解错误的地方，谢谢！一：yolov1关于yolov1算法的详解在网上已经非常多了，在这里我大概叙述下算法的流程，以及在开发过程中遇到的一些
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量 ICCL 2022 365JHWZGo 情感对话论文阅读 gpt-3 共情回复上下文学习提示学习大模型
《论文阅读》GPT-3是否会产生移情对话？一种新的情境示例选择方法和用于生成同理心对话的自动评估度量ICCL2022前言贡献PromptIn-contextlearningSITSMEMOSITSM新的自动指标实验前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《DoesGPT-3GenerateEmpatheticDialogues
[论文阅读] 人工智能 + 软件工程 | 揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究张较瘦_ 前沿技术论文阅读人工智能软件工程
揭秘ChatGPT在软件开发问题解决中的有效性：一项实证研究论文：WhatMakesChatGPTEffectiveforSoftwareIssueResolution?AnEmpiricalStudyofDeveloper-ChatGPTConversationsinGitHubarXiv:2506.22390WhatMakesChatGPTEffectiveforSoftwareIssueRe
[论文阅读] 人工智能 + 软件工程 | 代码注释不一致问题研究：从数据革新到端到端解决方案张较瘦_ 前沿技术论文阅读人工智能软件工程
代码注释不一致问题研究：从数据革新到端到端解决方案原文：CCISOLVER:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyarXiv:2506.20558CCISolver:End-to-EndDetectionandRepairofMethod-LevelCode-CommentInconsistencyRe
Learning Fully Convolutional Networks for Iterative Non-blind Deconvolution论文阅读青铜锁00 #退化论文阅读深度学习论文阅读图像处理
LearningFullyConvolutionalNetworksforIterativeNon-blindDeconvolution1.研究目标与实际问题1.1研究目标1.2实际意义2.创新方法与模型设计2.1核心框架：迭代式梯度域处理2.1.1模型架构2.2关键技术实现2.2.1梯度域去噪网络2.2.2解卷积模块（核心公式实现）2.2.3损失函数设计2.2.4超参数端到端学习2.3与传统方法
KAIST数据集及使用草莓奶忻 SLAM基础 #SLAM数据集 ubuntu
文章目录KAIST复杂城市数据集KAIST数据集转换为rosbag1.将.gz.tar文件解压到其文件夹中2.克隆并构建此存储库3.使用路径和所需主题编辑配置文件4.为每种传感器类型创建一个rosbag文件5.将所有bag合并为一个参考KAIST复杂城市数据集KAIST-Urban-数据集-论文阅读数据集下载：ComplexUrbanDataset复杂城市数据集KAIST数据集转换为rosbag1
[论文阅读] 软件工程 | 需求工程中领域知识研究：系统映射与创新突破张较瘦_ 前沿技术论文阅读软件工程
需求工程中领域知识研究：系统映射与创新突破论文信息DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyarXiv:2506.20754DomainKnowledgeinRequirementsEngineering:ASystematicMappingStudyMarinaAraújo,JúliaAraújo,RomeuO
论文阅读：2025 arxiv Qwen3 Technical Report
https://arxiv.org/pdf/2505.09388https://www.doubao.com/chat/9918384373236738文章目录论文翻译Qwen3技术报告摘要1引言论文翻译Qwen3技术报告Qwen团队摘要在这项工作中，我们介绍了Qwen模型家族的最新版本Qwen3。Qwen3包含一系列大型语言模型（LLM），旨在提升性能、效率和多语言能力。Qwen3系列包括密集型
[论文阅读] 软件工程 | 探索软件生态系统中的开发者体验关键因素
探索软件生态系统中的开发者体验关键因素：从研究到实践引文格式@article{Zacarias2025,title={ExploringDeveloperExperienceFactorsinSoftwareEcosystems},author={Zacarias,RodrigoOliveiraandAntunes,L{\'e}oCarvalhoRamosandBarros,M{\'a}rciod
Fast Image Deconvolution using Hyper-Laplacian Priors论文阅读青铜锁00 #退化论文阅读论文阅读图像处理
FastImageDeconvolutionusingHyper-LaplacianPriors1.论文的研究目标与实际意义2.论文的创新方法2.1核心框架：交替最小化（AlternatingMinimization）2.2x子问题：频域FFT加速2.3w子问题：高效求解的核心创新2.3.1问题形式2.3.2查找表法（LUT）2.3.3解析解法（特定α\alphaα）2.3.4通用α\alphaα
[论文阅读] 人工智能 + 软件工程 | AI 与敏捷开发的破局之路：从挫败到成功的工作坊纪实张较瘦_ 前沿技术论文阅读人工智能软件工程
AI与敏捷开发的破局之路：从挫败到成功的工作坊纪实论文信息arXiv:2506.20159AIandAgileSoftwareDevelopment:FromFrustrationtoSuccess–XP2025WorkshopSummaryTomasHerda,VictoriaPichler,ZheyingZhang,PekkaAbrahamsson,GeirK.HanssenSubjects:
java杨辉三角 3213213333332132 java基础
package com.algorithm; /** * @Description 杨辉三角 * @author FuJianyong * 2015-1-22上午10:10:59 */ public class YangHui { public static void main(String[] args) { //初始化二维数组长度 int[][] y
《大话重构》之大布局的辛酸历史白糖_ 重构
《大话重构》中提到“大布局你伤不起”，如果企图重构一个陈旧的大型系统是有非常大的风险，重构不是想象中那么简单。我目前所在公司正好对产品做了一次“大布局重构”，下面我就分享这个“大布局”项目经验给大家。背景公司专注于企业级管理产品软件，企业有大中小之分，在2000年初公司用JSP/Servlet开发了一套针对中
电驴链接在线视频播放源码 dubinwei 源码电驴播放器视频 ed2k
本项目是个搜索电驴（ed2k）链接的应用,借助于磁力视频播放器（官网： http://loveandroid.duapp.com/ 开放平台），可以实现在线播放视频，也可以用迅雷或者其他下载工具下载。项目源码： http://git.oschina.net/svo/Emule,动态更新。也可从附件中下载。项目源码依赖于两个库项目，库项目一链接： http://git.oschina.
Javascript中函数的toString()方法周凡杨 JavaScript js toString function object
简述 The toString() method returns a string representing the source code of the function. 简译之，Javascript的toString()方法返回一个代表函数源代码的字符串。句法 function.
struts处理自定义异常 g21121 struts
很多时候我们会用到自定义异常来表示特定的错误情况，自定义异常比较简单，只要分清是运行时异常还是非运行时异常即可，运行时异常不需要捕获，继承自RuntimeException，是由容器自己抛出，例如空指针异常。非运行时异常继承自Exception，在抛出后需要捕获，例如文件未找到异常。此处我们用的是非运行时异常，首先定义一个异常LoginException: /** * 类描述：登录相
Linux中find常见用法示例 510888780 linux
Linux中find常见用法示例 ·find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数；
SpringMVC的各种参数绑定方式 Harry642 springMVC 绑定表单
1. 基本数据类型(以int为例，其他类似)： Controller代码： @RequestMapping("saysth.do") public void test(int count) { } 表单代码： <form action="saysth.do" method="post&q
Java 获取Oracle ROWID aijuans java oracle
A ROWID is an identification tag unique for each row of an Oracle Database table. The ROWID can be thought of as a virtual column, containing the ID for each row. The oracle.sql.ROWID class i
java获取方法的参数名 antlove java jdk parameter method reflect
reflect.ClassInformationUtil.java package reflect; import javassist.ClassPool; import javassist.CtClass; import javassist.CtMethod; import javassist.Modifier; import javassist.bytecode.CodeAtt
JAVA正则表达式匹配查找替换提取操作百合不是茶 java 正则表达式替换提取查找
正则表达式的查找;主要是用到String类中的split(); String str; str.split();方法中传入按照什么规则截取,返回一个String数组常见的截取规则: str.split("\\.")按照.来截取 str.
Java中equals()与hashCode()方法详解 bijian1013 java set equals()hashCode()
一.equals()方法详解 equals()方法在object类中定义如下： public boolean equals(Object obj) { return (this == obj); } 很明显是对两个对象的地址值进行的比较（即比较引用是否相同）。但是我们知道，String 、Math、I
精通Oracle10编程SQL(4)使用SQL语句 bijian1013 oracle 数据库 plsql
--工资级别表 create table SALGRADE ( GRADE NUMBER(10), LOSAL NUMBER(10,2), HISAL NUMBER(10,2) ) insert into SALGRADE values(1,0,100); insert into SALGRADE values(2,100,200); inser
【Nginx二】Nginx作为静态文件HTTP服务器 bit1129 HTTP服务器
Nginx作为静态文件HTTP服务器在本地系统中创建/data/www目录，存放html文件(包括index.html) 创建/data/images目录，存放imags图片在主配置文件中添加http指令 http { server { listen 80; server_name
kafka获得最新partition offset blackproof kafka partition offset 最新
kafka获得partition下标，需要用到kafka的simpleconsumer import java.util.ArrayList; import java.util.Collections; import java.util.Date; import java.util.HashMap; import java.util.List; import java.
centos 7安装docker两种方式 ronin47
第一种是采用yum 方式 yum install -y docker
java-60-在O(1)时间删除链表结点 bylijinnan java
public class DeleteNode_O1_Time { /** * Q 60 在O(1)时间删除链表结点 * 给定链表的头指针和一个结点指针(!!)，在O(1)时间删除该结点 * * Assume the list is: * head->...->nodeToDelete->mNode->nNode->..
nginx利用proxy_cache来缓存文件 cfyme cache
user zhangy users; worker_processes 10; error_log /var/vlogs/nginx_error.log crit; pid /var/vlogs/nginx.pid; #Specifies the value for ma
[JWFD开源工作流]JWFD嵌入式语法分析器负号的使用问题 comsci 嵌入式
假如我们需要用JWFD的语法分析模块定义一个带负号的方程式，直接在方程式之前添加负号是不正确的，而必须这样做： string str01 = "a=3.14;b=2.71;c=0;c-((a*a)+(b*b))" 定义一个0整数c,然后用这个整数c去
如何集成支付宝官方文档 dai_lm android
官方文档下载地址 https://b.alipay.com/order/productDetail.htm?productId=2012120700377310&tabId=4#ps-tabinfo-hash 集成的必要条件 1. 需要有自己的Server接收支付宝的消息 2. 需要先制作app，然后提交支付宝审核，通过后才能集成调试的时候估计会真的扣款，请注意
应该在什么时候使用Hadoop datamachine hadoop
原帖地址：http://blog.chinaunix.net/uid-301743-id-3925358.html 存档，某些观点与我不谋而合，过度技术化不可取，且hadoop并非万能。 --------------------------------------------万能的分割线-------------------------------- 有人问我，“你在大数据和Hado
在GridView中对于有外键的字段使用关联模型进行搜索和排序 dcj3sjt126com yii
在GridView中使用关联模型进行搜索和排序首先我们有两个模型它们直接有关联: class Author extends CActiveRecord { ... } class Post extends CActiveRecord { ... function relations() { return array( '
使用NSString 的格式化大全 dcj3sjt126com Objective-C
格式定义The format specifiers supported by the NSString formatting methods and CFString formatting functions follow the IEEE printf specification; the specifiers are summarized in Table 1. Note that you c
使用activeX插件对象object滚动有重影蕃薯耀 activeX插件滚动有重影
使用activeX插件对象object滚动有重影 <object style="width:0;" id="abc" classid="CLSID:D3E3970F-2927-9680-BBB4-5D0889909DF6" codebase="activex/OAX339.CAB#
SpringMVC4零配置 hanqunfeng springmvc4
基于Servlet3.0规范和SpringMVC4注解式配置方式，实现零xml配置，弄了个小demo，供交流讨论。项目说明如下： 1.db.sql是项目中用到的表，数据库使用的是oracle11g 2.该项目使用mvn进行管理，私服为自搭建nexus,项目只用到一个第三方 jar，就是oracle的驱动； 3.默认项目为零配置启动，如果需要更改启动方式，请
《开源框架那点事儿16》：缓存相关代码的演变 j2eetop 开源框架
问题引入上次我参与某个大型项目的优化工作，由于系统要求有比较高的TPS，因此就免不了要使用缓冲。该项目中用的缓冲比较多，有MemCache，有Redis，有的还需要提供二级缓冲，也就是说应用服务器这层也可以设置一些缓冲。当然去看相关实现代代码的时候，大致是下面的样子。 [java] view plain copy print ? public vo
AngularJS浅析 kvhur JavaScript
概念 AngularJS is a structural framework for dynamic web apps. 了解更多详情请见原文链接：http://www.gbtags.com/gb/share/5726.htm Directive 扩展html，给html添加声明语句，以便实现自己的需求。对于页面中html元素以ng为前缀的属性名称，ng是angular的命名空间
架构师之jdk的bug排查(一)---------------split的点号陷阱 nannan408 split
1.前言. jdk1.6的lang包的split方法是有bug的,它不能有效识别A.b.c这种类型,导致截取长度始终是0.而对于其他字符,则无此问题.不知道官方有没有修复这个bug. 2.代码 String[] paths = "object.object2.prop11".split("'"); System.ou
如何对10亿数据量级的mongoDB作高效的全表扫描 quentinXXZ mongodb
本文链接: http://quentinXXZ.iteye.com/blog/2149440 一、正常情况下，不应该有这种需求首先，大家应该有个概念，标题中的这个问题，在大多情况下是一个伪命题，不应该被提出来。要知道，对于一般较大数据量的数据库，全表查询，这种操作一般情况下是不应该出现的，在做正常查询的时候，如果是范围查询，你至少应该要加上limit。说一下，
C语言算法之水仙花数 qiufeihu c 算法
/** * 水仙花数 */ #include <stdio.h> #define N 10 int main() { int x,y,z; for(x=1;x<=N;x++) for(y=0;y<=N;y++) for(z=0;z<=N;z++) if(x*100+y*10+z == x*x*x
JSP指令 wyzuomumu jsp
jsp指令的一般语法格式： <%@ 指令名属性 =”值 ” %> 常用的三种指令： page,include,taglib page指令语法形式： <%@ page 属性 1=”值 1” 属性 2=”值 2”%> include指令语法形式： <%@include file=”relative url”%> (jsp可以通过 include