zz的大穗禾

阅读类比-细节双通道神经网络论文

摘要
引言
Analogy-Detail Networks
- 相关工作
- ADNet的结构
实验
- 实验配置
- 数据库
- CIFAR10上的实验结果分析
- CIFAR100上的实验结果分析
- SVHN上的实验结果分析
- ImageNet上的实验结果分析
- 纹理偏差抑制的效果
- 类比-细节机制分析
- 可视化
结论

论文原文： Analogy-Detail Networks for Object Recognition.
提取码：tote

摘要

人类的视觉系统可以准确、高效地识别物体的类别，可以不被复杂的纹理所干扰。认知科学研究中发现了一种类比-细节（analogy-detail）双通道的人类视觉认知机制。受其启发，我们在论文中为精确物体识别提出了一种新的CNN结构，命名为Analogy-Detail网络（ADNets）。ADNets从两个路径分别处理视觉信息：类比（analogy）路径提取能表达物体形状、结构的粗略、全局的特征；细节（detail）路径提取能表达决定物体分类的物体纹理、边缘等细致、局部特征。我们将其结构进行模块化，把两个路径的处理实现为一个Analogy-Detail块，它能作为CNN的块参与ADNets的构建。在具体实现时，我们提出了一个普遍原则，它能使典型的CNN结构变形、应用到ADNet网络结构。在数据集CIFAR10、CIFAR100、SVHN、ImageNet上的实验验证了ADNets 能显著减少baseline CNNs的测试错误率，最高可达5.76%。从后来的分析和可视化中，可以看出ADNets易于理解、在识别有复杂纹理的物体方面更出色，因为它能平衡形状-纹理关系。

引言

卷积神经网络（CNNs）已经在计算机视觉任务，如图像识别、物体识别、语义分割等获得巨大成功。早期结构性研究集中于加深网络深度以增强特征的区别度。但网络加深也带来梯度问题使得优化变难。因此后来的研究工作引入了捷径（shortcut）的概念，使得网络可以很深（resnet-1001）.然而，深度也带来计算力增加的问题。所以已知的CNN模型在改善性能方面遇到瓶颈。

随着计算力问题的提高。当网络到达一定深度，识别效果趋于饱和。
纹理偏置问题。经过训练的CNN模型更倾向于根据局部纹理而不是全局物体形状来确定物体类别。纹理偏置问题主要是由数据驱动的训练过程导致的。

我们从人类视觉认知机制研究的最新进展中获得灵感，找到一种新的CNN架构。

人类视觉系统处理信息并识别分类的过程

传统上认为人体物体识别是由自下而上的腹侧流（ventral stream）来完成的，腹侧流主要由V1、V2、V4和IT四个视觉区域组成。但认知科学近期的研究发现有一个更快的路径专门处理粗略而全局的信息并形成物体类别的粗略表达。这个路径被命名为analogy路径¹，它与腹侧流（ventral stream）平行或更超前进行。在腹侧流（ventral stream）中，V1、V2区域首先从视觉刺激中同时提取高、低空间频率信号。粗略信息包含在低空间频率（LFs）²中，且被映射到前额皮质（PFC）形成粗略表达，再反向投影（back-projected）到IT叶。同时细节信息（纹理、边缘）包含在高空间频率信号中，由腹侧流（ventral stream）处理，形成细节表达。我们将处理细节的“较慢”腹侧流称为细节路径。最终，analogy路径中得出的粗糙表达以一种从上到下的方式帮助detail路径中的细致表达形成对物体分类更准确的表示。如此一来，物体类别相关的形状和纹理被保留，不相关的干扰也被抑制。

ADNets思路
本文Analogy-Detail Networks(ADNet)也因此产生。ADNet首先处理得到LF和HF两部分的视觉信息。其次，通过两种路径我们可以分别得到物体的粗略信息和细节信息。analogy路径快速提取LF（低空间频率）中的粗略、全局信息；detail路径提取HF（高空间频率）中的细节、局部信息。然后，两条路径获取的特征用一种top-down模块融合，思路为粗略的特征作为权重赋予细节特征。
我们将Analogy-Detail路径浓缩为一个CNN building block，这个块也被称为AD block。当需要增加ADNet网络深度的时候，只需要堆叠AD block即可。由AD block 组成的链被放在网络的中间层去处理中间级的特征。

本文的主要贡献：

通过提出了能利用粗略类比和细节信息的ADNet 结构，我们首次为analogy-detail认知过程提供了一个可计算模型。
我们使ADNet结构模块化，使得深度神经网络可以通过堆叠AD block来构建。
我们提出一个一般性的原则来将典型CNN结构变形以融入ADNet框架。我们论证了3种（ResNet、MobileNet、ResNeXT）

Analogy-Detail Networks

ADNet的结构

AD block定义的特征映射转换如下：

X，Z分别为输入特征矩阵和输出特征矩阵。
定义将X分解为LFs和HFs的频率分解器：
首先在输入的X上使用大小为ｋ的低通滤波器得到LFs。通常为均值滤波器/高斯滤波器。实验显示这两个滤波器的效果差不多。为了使得到的LFs的特征映射L的高宽深与X一致，通过对X进行填充，每一边填充ｋ／２（往下取整）个像素,并设置步长为1。然后通过从X中减去L得到HFs的特征映射H:

u是一个向量,长度为C(L的通道数也为C). u与L之间的运算是channel-wise乘法。u表示LFs从X中减去的比例. 通常, u=0, 表示保留所有频率; 而u=1, 表示只保留高频空间信号。**当令u为learnable, 频率在两个路径的分配就可以随着任务不同而变化. 这就使得可能在不同的building block中有不同的频率分配。
Analogy路径:
我们为其设计了一个轻量的结构, 将C-channel的L通过1x1的卷积转为C’-channel
"v"表示1x1的卷积核, "*"表示卷积操作, g()表示resize的函数(通常是池化/ 双线性插值). 我们设置卷积的步长为2, 以减少计算量。
Detail路径:
用现成的CNN building block实现。
融合Top-Down Modulator
这个Modulator用来融合从两个路径中提取的粗略和细节的特征映射。
我们首先将F_L正规化到（0,1）以便于作为F_H的权重。利用以下公式：

下图为ADNet网络结构示意图。

实验

我们使用三个具有代表性的CNN结构来验证AD 变形过程，它们分别是ResNet, ResNeXt，和 MobileNet (v1)。我们选择它们作为多分支和普通拓扑结构的范例。
变形为AD_ResNet、AD_ResNeXt、AD_MobileNet图示如下：

实验配置

我们设置f_LPF低通滤波器的大小k = 3, stride s = 2，并使比例向量u作为频率分解器的可学习参数。
在实验中，不同ADNet对应的数据库如下：

对于CIFAR10/100和SVHN，我们对模型进行200个epoch的训练，而对于ImageNet，我们使用8个Titan Xp GPU卡并行地对模型进行120个epoch的训练。为了消除意外因素造成的性能波动，我们用不同的随机种子对每个模型运行5次进行初始化，并报告平均测试结果。对于比较方法，我们直接在他们的原始论文(如果有的话)中报告错误率进行比较。

数据库

CIFAR10/100: CIFAR10和CIFAR100都包含60,000张32×32像素的天然RGB图像，这些图像被分割为50,000张图像的训练集和10,000张图像的测试集。CIFAR10有10个对象类，而CIFAR100有100个对象类。对于两个数据集，我们通过减去均值和除以每个RGB像素的方差对每个图像进行归一化。在训练CNN模型时，我们采用了常用的数据增强技术：首先在训练图像的每边填充4个像素，然后随机裁剪翻转一个32×32的patch作为输入到网络。在测试模型时，我们使用原始的测试图像作为输入。
SVHN(街景房屋编号)数据集包括73,257张训练图像和26,032张测试图像，涵盖从0到9的10个数字类别。每个图像都在
RGB格式，大小为32×32。对于SVHN的训练，我们通过减去像素的均值和除以像素的方差对每幅图像进行归一化。实验中没有使用数据扩充法。在测试阶段，我们对原始测试集上的模型进行评估。
ImageNet图像分类数据集是ImageNet竞赛使用的1000类版本。它由1.28亿张图像的训练集、5万张图像的验证集和15万张图像的测试集组成。对于ImageNet的训练，我们使用[43]、[51]中的尺度和长宽比增强技术，从缩放后的图像中随机裁剪并翻转一个224×224的patch。对于测试集的评估，我们调整每个测试图像的大小，使其较短的边为256，然后从中心区域裁剪一块224×224的patch作为网络的输入。

CIFAR10上的实验结果分析

上表是CIFAR10测试集上的对比结果。首先我们将我们的ADNet模型与不同深度对应的ResNet模型进行比较。值得注意的是，对于更浅的ResNet-20模型，AD-ResNet-20达到了top1分类误差7.31%，超过基线ResNet20 (8.75%) 1.54%;而对于更深层次的ResNet-56模型，AD-ResNet-56错误率为6.37%，比ResNet-56(6.97%)降低了0.60%。此外，我们比较ADNet与最先进的SENets。可以观察到ADNet在不同深度(如ResNet-20和ResNet-56)和架构(即ResNet和ResNeXt)上优于SENet。此外，ADNet的附加参数个数比SENets的要少，特别是对于具有瓶颈结构的CNNs(如ResNet-56, ResNeXt)。最后，AD-ResNeXt-29错误率最好，为2.57%，比ResNeXt-29的错误率(3.58%)降低了1.01%，优于其他最先进的架构。

CIFAR100上的实验结果分析

下表是CIFAR100测试集的对比结果，我们观察到结果与CIFAR10上的结果一致，总结如下:

ADNets显著降低基线的错误率
具有不同深度(ResNet-20或ResNet-56)和结构(ResNet或ResNeXt)的CNNs高达2.82%。
ADNet优于最先进的SENets与不同的深度和架构高达1.98%。
通过与ResNeXt-29集成，我们的AD-ReNeXt-29优于所有其他最先进的架构，并达到最好的15.65% top-1错误。

SVHN上的实验结果分析

下表给出了SVHN测试集上的对比结果。由于该数据集上的测试错误率接近饱和，为了消除偏差对测试精度的影响,我们进行t检验,以表明性能的提高是否重要。具体地说,我们选择了一个CNN和一个相应的ADNet,在相同的训练设置5次,使用不同的随机种子进行初始化,然后在相同的测试集测试每个模型。通过与ResNeXt29集成，AD-ResNeXt-29优于所有其他CNNs，实现了最先进的识别性能。

ImageNet上的实验结果分析

下表报告了ImageNet验证集上top-1和top-5分类错误率的比较结果。为了进行公平的比较，我们对所有模型进行单剪裁测试，其中中心224×224图像块被裁剪作为网络的输入。

对于较浅的ResNet-18和较深的ResNet-50模型，ADNets减少了基准CNNs的前1和前5错误，最多可减少2.33%和1.48%，并优于先进的SENets。
对于ResNeXt-50,识别性能往往会饱和,ADNet仍然可以减少1.47%和0.54%的前5个错误。
AD-MobileNet达到了top-1和top-5的误差,达到了24.90%和7.71%,超过MobileNet(v1) 4.2%、2.29%,
有更多的参数量的AD-MobileNet*达到top-1和top-5的误差为23.34%和6.81%,超过了原MobileNet(v1)5.76%和3.19%。AD-MobileNet的设置优于SENets,将top-1和top-5错误减少了1.96%和1.09%。

表VIII和表IX报告了在训练和测试期间计算单个小批的时间。我们在Titan Xp GPU卡和英特尔Xeon E5-上运行每个模型2687w CPU，在每次小批量迭代结束时以毫秒为单位记录时间，然后使用100次迭代的记录计算平均时间。我们发现CIFAR10/100、SVHN有相似的运行时间，大概是因为这些数据集的输入图像大小相同和使用相同的系列CNN主干。从这两个表中可以看出，ADNet模型比基准CNNs耗时稍长，但识别性能的相对改善要大得多。

纹理偏差抑制的效果

在以上对比实验中，我们证明了ADNet具有优越的识别性能。为了研究纹理偏差的有效抑制是否会提高性能，我们在具有复杂纹理的ImageNet验证集子集上对模型进行评估。首先，我们手动从ImageNet验证集中选取500幅具有复杂纹理的图像。然后，我们选择预先训练好的MobileNet和AD-MobileNet结构进行分析。在500张测试图像上对模型进行评价，并计算每个模型的误分类测试样本数目。我们计算出排名前1的错误率，并记录在表X中。从表X可以看出AD-MobileNet的平均错误率比MobileNet低13.86%。我们进一步进行t检验，以显示错误率的降低是否显著。我们拒绝H₀假设，得出结论:AD-MobileNet可以显著降低MobileNet在复杂纹理图像上的错误率。

图5可视化了MobileNet和AD-MobileNet在具有复杂纹理的图像的预测结果。如上所述，ADNet在优化过程中分解形状和纹理信息。我们选取了几个误分类案例，发现这些图像被误分类为另一类具有相似纹理的图像。例如，具有棒球纹理的“pillow”图像被错误地归类为“baseball”。为了研究原因，我们搜索训练集中的棒球图像，挑选出倒数第二层fc层的特征向量与枕头的特征向量最接近的那一张。不出所料，误分类后的“pillow”图像与选取的包含一堆棒球的棒球图像具有相似的纹理模式，如图5中的第一组图像所示。虽然人类通过物体的形状来识别类别，但经过图像网训练的MobileNet模型倾向于根据纹理来推断类别。相比之下，AD-MobileNet增强了形状信息的贡献，使得识别对复杂易混淆的纹理具有鲁棒性。这证明了模拟-细节机制在协调形状和纹理偏差方面的有效性。

类比-细节机制分析

我们通过研究AD模块中中间模块的性质来研究所提出的类比-细节机制。我们使用AD-ResNet-20模型对CIFAR10数据集进行实验，并将不同设置下的学习特征可视化。

首先，我们研究了频率分解器D的行为。D采用低通滤波函数f_LPF得到低频特征图L。默认情况下，我们使用均值滤波器从输入特征映射中提取低频信号，这可以通过平均池化实现。我们还尝试了不同精度σ_g ={1, 2, 3}的高斯分布所产生的高斯滤波器。为了评估dual-frequency机制的贡献，我们实现了一个“ResNet-20”作为其中一条基线，输入X直接由f_L和f_H两路处理而不分解为双频。
表11给出了AD-ResNet20模型在不同滤波器类型下的对比结果。我们可以得知:(1) 性能的提高主要是由双频机制带来的，而网络容量的增加有助于性能的提高;(2)不同的低通滤波器性能相似。对于大方差σ_g = 3的高斯滤波器，其性能接近均值滤波器。

如Eq.(7)所示，用f_LPF提取L后，D减去L乘以向量u得到H。我们将u设置为可学习参数，并在优化过程中约束u数值的取值范围，使其可以自由调整。或者，我们可以将u设为常数标量，以获得不同的频率分配，如u = 0或u = 1。我们比较了不同u设置下的识别性能，见表12。

当u = 1时，X减去所有LFs形成H，性能变差。这可能是因为LFs主导中高层信号的分布。减去所有LFs可能会导致空的激活映射，从而留给分类的信息更少。由于特征的频率分布因层而异、因域而异，因此允许每个AD块自动确定两个频率的分配是灵活的。
图6展示了所有AD块的u的学习值。我们用不同的初始化u执行5次运行，以消除偶然性。
为了简单起见，我们通过对所有通道上的元素求平均值来显示u的值。我们将一个特定的AD块标记为“ADx_y”，其中x_y表示阶段x的第y层。在每个阶段的开始(或结束)，特征映射被降采样到分辨率的一半。

上图可知高低频率的分配策略。u的值分布在(- 1,1)范围内，表明网络已经学会了双频的合理分配。我们注意到u趋近于零，甚至在AD2_1和AD3_1处有负值，这意味着LFs在细节通路中被保留甚至增强。这是由于在每个阶段开始时的降采样操作，所有的频率都被减半到较低的水平。因此，每一阶段的第一个AD块都需要保留细节路径的LFs，作为对降采样导致的信息丢失的补偿。但是，对于同一阶段的AD块，随着深度的增加，分配给细节通路的LFs更少，说明双频信号的解缠更好。结果清楚地显示了类比-细节分解的基本原理，作为该方法的基础。
接下来，我们讨论自顶向下调制器M用于融合特征映射F_L和F_H的两种实现，即元素层面 gating (参见Eq.(9))和adding⊕。表十三显示了不同设置的top-1的错误率。可以看出gating操作和adding操作都能改善基线性能，而gating操作的错误率低于adding操作。我们可以把gating函数看作是在空间维度上对精细特征的重加权，其中从LFs中提取的粗糙表示用于指导这一过程。将保留那些与类别相关的精确特征，同时抑制那些不相关的特征。

可视化

为了说明AD模块学习了哪些特征，我们选择了经过imagenet训练的AD- mobilenet模型进行可视化。我们可视化了第一个AD块的中间特征映射，包括X、F_L、F_H和Z。图8显示了输入“羊毛衫”图像的AD块产生的激活映射。该图像最初包含背景中的高频噪声，并被MobileNet模型误分类为“连指手套”。在激活映射中，较浅的颜色表示较强的激活。为了便于观察，我们使用sigmoid函数对每个特征映射通道进行归一化，并选择三个具有代表性的特征映射通道进行可视化。

我们可以看到图案(即形状、边缘、纹理)最初是纠缠在x的激活映射中。经过频率分解和类比-细节处理后，FL对细节的响应较弱，但对粗花纹(即形状)的响应较强，而FH则充满了精细的细节(例如,纹理)。粗糙特征和细节特征以自上而下的gating方式融合得到Z，它具有干净的物体轮廓和不纠结的形状和纹理。前景区域的高频纹理与背景纹理很好地分离，尽管它们有相似的模式。这种形状-纹理解纠缠有助于识别具有复杂上下文纹理的对象。我们进一步比较AD-MobileNet的Z值与基线MobileNet对应的激活图，如图9所示。直观上，对于大多数的MobileNet激活图，高频信号主导激活，前景和背景纹理是纠缠的。

H_F模式引起的强烈反应可能导致偏向具有相似模式的某些类。在这个例子中, MobileNet将“羊毛衫”图像误分类为“连指手套”，如图5所示。相比之下，ADMobileNet的激活图要清晰得多，它保留了类别相关的模式，同时显著抑制了无关纹理和背景噪声的响应。因此ADMobileNet预测图像的一个正确的类标签。我们利用公式30计算降维到1维后的特征Z的稀疏性s。

其中n表示z的维数。我们有MobileNet s= 0.24, AD-MobileNet s = 0.67。ADMobileNet产生的激活要少得多，通过它我们可以很容易地区分前景和背景模式。图7可视化地显示了分解后的特征映射的变化。
L和H随AD模块深度的增加而增加。随着深度的加深，L显示出了较强的针织衫对象的类比模式，如运动衫的轮廓，中间的纽扣，代表性的零件。同时，H展示了更多抽象的细节来进行识别。

结论

在这篇论文中，我们从认知科学中最近发现的人体物体识别机制中得到启发，以指导新的CNN架构的设计。我们提出类比-细节网络(ADNets)作为类比-细节认知模型[2]的计算解，该模型分解了低频和高频信号中包含的不同视觉模式，并利用类比和细节路径相应地提取粗糙表征和细节表征。为了构建ADNet，我们将类比和细节路径封装到一个CNN构建块中，命名为Analogy-Detail(AD) 模块，并且通过堆叠AD模块构建ADNet。为了实现，我们提出了将典型CNN结构转换为我们的ADNet架构的一般原则，并将这种转换应用于三个表示基线CNN结构。实验结果表明，我们的ADNets取得了优于基准CNNs的识别精度，并优于其他最先进的方法。可视化结果进一步证明adnet具有良好的可解释性，对纹理复杂、容易混淆的目标图像具有鲁棒性。
在未来的工作中，我们将把ADNets应用到更多的计算机视觉任务中，如目标检测、语义分割、图像质量评估、人群计数等。这些任务对输入信号频率分布的变化很敏感，并且更容易偏向于特定的频率。所提出的模拟细节机制能够处理这些问题。此外，我们将进一步降低ADNet的计算复杂度和内存成本，以供实际使用。

3 ↩︎
1 ↩︎
25 ↩︎
24 ↩︎
54 ↩︎
17 ↩︎

你可能感兴趣的:(Paper,Paper)

语言大模型综述
Paper:ASurveyofLargelanguageModels目录Paper:ASurveyofLargelanguageModels综述概要LLM关键技术规模定律（ScalingLaws）预训练与微调对齐调优（AlignmentTuning）外部工具集成GPT系列模型的技术演进模型检查点和APIPre-Training数据准备和处理数据准备数据预处理数据调度架构EmergentArchit
Aurora中插入伪代码的字体设置
中文：宋体英文：TimesNewRoman公式：LatinModernMath，跟包newtxmath有关word里面插入对象-->选择AuroraEquation-->Properties-->Packages，复制以下代码：%!TEXprogram=xelatex%强制使用XeLaTeX引擎\documentclass[a4paper]{article}%\usepackage{mathptm
SurveyForge：AI自动撰写综述论文的革命性工具，助力科研效率跃升花生糖@ AIGC学习资料库人工智能 AI论文 AI助手
在学术研究领域，综述论文（SurveyPaper）的撰写是一项耗时且复杂的任务，通常需要数周甚至数月的文献调研与内容整合。如今，上海人工智能实验室、复旦大学与上海交通大学联合开源的SurveyForge，通过创新的AI技术，将这一过程压缩至10分钟内，且生成质量接近人工水平，成为科研人员的得力助手。项目简介SurveyForge是一款基于大语言模型（LLM）的自动综述论文生成工具，专为计算机科学领
2025年电子工程、计算机应用与信号处理国际会议（EECASP 2025）学术交流国际学术会议论文征稿 EI会议
2025年电子工程、计算机应用与信号处理国际会议（EECASP2025）2025InternationalConferenceonElectronicEngineering,ComputerApplications,andSignalProcessing一、大会信息会议简称：EECASP2025大会地点：中国·苏州审稿通知：投稿后2-3日内通知投稿邮箱：[email protected]二、
CHES2024 issue-1文章总结打工小熊猫密码学文献分类总结 arm开发同态加密零知识证明密码学网络攻击模型安全威胁分析计算机网络
来源：https://ches.iacr.org/2024/acceptedpapers.php简要分类：分类文章编号后量子密码软硬件加速相关无侧信道攻防相关1、10、11、12、14、15同态相关18、19、201.Gadget-basedMaskingofStreamlinedNTRUPrimeDecapsulationinHardwareGeorgLand,AdrianMarotzke,Ja
2025年数字信号、计算机通信与软件工程国际会议（DSCCSE 2025）学术交流国际学术会议论文征稿 EI会议
2025年数字信号、计算机通信与软件工程国际会议（DSCCSE2025）2025InternationalConferenceonDigitalSignal,ComputerCommunication,andSoftwareEngineering一、大会信息会议简称：DSCCSE2025大会地点：中国·北京审稿通知：投稿后2-3日内通知投稿邮箱：[email protected]二、会议简介
推荐文章：探索深度学习的不确定性边界 —— SDE-Net 开源项目解析史多苹Thomas
推荐文章：探索深度学习的不确定性边界——SDE-Net开源项目解析SDE-NetCodeforpaper:SDE-Net:EquippingDeepNeuralnetworkwithUncertaintyEstimates项目地址:https://gitcode.com/gh_mirrors/sd/SDE-Net在当今的人工智能领域，深度神经网络(DNN)已经成为推动技术创新的基石。然而，其预测的
长尾形分布论文速览三十篇【60-89】木木阳 Long-tailed 人工智能
长尾形分布速览（60-89）这些研究展示了LLMs在长尾数据分布、持续学习、异常检测、联邦学习、对比学习、知识图谱、推荐系统、多目标跟踪、标签修复、对象检测、医疗生物医学以及其他应用中的广泛应用。通过优化和创新，LLMs在这些领域展现了卓越的性能，并为解决长尾问题提供了有效的工具和方法。1.长尾持续学习与对抗学习长尾持续学习(Paper60):通过优化器状态重用来减少遗忘，提高在长尾任务中的持续学
长尾形分布论文速览【80-119】木木阳 Long-tailed 人工智能
为便于理解和应用，以下将30篇关于长尾分布的研究文献按主题进行分类整理。每一大类包含相应的工作，帮助我们从整体上把握各方向的研究进展。1.长尾半监督学习与伪标签优化Paper90:Uncertainty-awareSamplingforLong-tailedSemi-supervisedLearning提出了一种动态阈值选择方法（UDTS），能有效改善尾部分类性能，适用于不平衡类别的半监督学习。P
CVPR2024无监督Unsupervised论文17篇速览木木阳 CVPR 无监督 unsupervised
Paper1GuidedSlotAttentionforUnsupervisedVideoObjectSegmentation摘要小结:这段话的中文翻译如下：无监督视频对象分割旨在分割视频序列中最突出的对象。然而，复杂的背景和多个前景对象的存在使这项任务变得具有挑战性。为了解决这一问题，我们提出了一种引导式槽注意力网络，以加强空间结构信息并获得更好的前景-背景分离。初始化时带有查询引导的前景和背景
CVPR2024 分割Segmentation相关论文37篇速览木木阳 CVPR2024 Segmentation 分割论文
Paper1MFP:MakingFullUseofProbabilityMapsforInteractiveImageSegmentation摘要小结:最近的交互式分割算法中，将先前的概率图作为网络输入，以帮助当前分割轮次的预测。然而，尽管使用了先前的掩膜，概率图中包含的有用信息并没有很好地传播到当前预测中。在本文中，为了克服这一局限性，我们提出了一种新颖有效的基于点击的交互式图像分割算法MFP，
Paper Reading《SoK: Prudent Evaluation Practices for Fuzzing》小苑同学安全性测试网络安全
论文链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=10646824IEEESSP20241Introduction（背景意义）模糊测试是发现软件漏洞的高效方法，被Meta、Google等企业广泛应用，且大量学术研究持续改进其技术（如覆盖反馈、领域扩展）。过去六年（2018-2023）中，顶级安全与软件工程会议上发表了超280
如何在 Android 14系统中修改默认锁屏壁纸(非桌面壁纸) 熊熊饲养员 Android开发笔记 android
如何在Android14系统中修改默认锁屏壁纸本文介绍如何通过修改LockscreenWallpaper.java文件，实现针对默认锁屏壁纸定制化需求。以下是具体实现方法和代码逻辑分析。需求背景客户要求在X设备上更换默认锁屏壁纸，其他设备保持原有壁纸不变。修改涉及系统UI模块的LockscreenWallpaper.java文件，通过条件判断实现差异化配置。代码修改步骤在LockscreenWal
不是只有写稿能用AI！教你用AI“模拟审稿人”帮论文过关学境思源AcademicIdeas AI写作学境思源 ChatGPT 人工智能
在AI辅助写作火遍学术圈之后，学境思源，越来越多作者开始发现：AI的真正威力，并不只是帮你一键生成论文初稿！“写”，而是可以反过来“像审稿人一样看你的论文”。acaids.com。这种“反向应用”，正成为提高论文录用率的关键利器。今天这篇文章就告诉你：如何用AI模拟审稿人视角，检查论文的逻辑漏洞、结构混乱、语言问题，甚至帮助你发现数据论证不足，提前做出修改。我们会重点介绍Paperpal、Writ
FB-OCC: 3D Occupancy Prediction based on Forward-BackwardView Transformation justtoomuchforyou 智驾
NVidia，CVPR20233DOccupancyPredictionChallengeworkshoppaper：https://arxiv.org/pdf/2307.1492code：https://github.com/NVlabs/FB-BEV大参数量imagebackboneInternImage-H，1B外部数据集预训练：object365nuscenes：有点云label，强化网络
PillarNet: Real-Time and High-PerformancePillar-based 3D Object Detection justtoomuchforyou 目标检测人工智能计算机视觉智驾
ECCV2022paper：[2205.07403]PillarNet:Real-TimeandHigh-PerformancePillar-based3DObjectDetectioncode：https://github.com/VISION-SJTU/PillarNet-LTS纯点云基于pillar3D检测模型网络比较SECOND基于voxel，one-stage，基于sparse3Dc
CCF推荐会议计算机体系结构/并行与分布计算/存储系统领域3月份截稿资讯汇总! 会议之眼人工智能深度学习阿里云云计算计算机网络
会议之眼快讯会议之眼精心汇总了以下CCF推荐会议之计算机十大领域之一：计算机体系结构/并行与分布计算/存储系统领域，2024年度3月份会议截稿资讯！为你第一时间进行播报！让广大科研学者及时了解最新的学术进展，助力学者们在专业领域保持竞争优势！会议简称：ISLPED会议全称：InternationalSymposiumonLowPowerElectronicsandDesignFullPaperDe
python做生物信息学分析_Python从零开始第五章生物信息学①提取差异基因吴敬欣 python做生物信息学分析
目前来说，做生物信息学的人越来越多，但是我觉得目前而言做生信的主要有三类人：老本行是做实验的，做生信可能是为了辅助研究或者是为了发paper(有非常多的临床生选择趟生信这波水)主要是做生信的，主要涵盖高通量测序数据分析，组学数据分析等等，专门从事生物学数据分析的这群人，其大部分也是本科生物狗作为强大的生力军，以调包写R，python为主。那么这群人就要熟悉看各种包的tutorial以及如何进行常规
python 在线预览文件_OFFICE 文档转换为html在线预览苏橙橙 python 在线预览文件
OFFICE文档转换为html在线预览OFFICE文档在线预览方案很多：服务器先转换为PDF，再转换为SWF，最后通过网页加载Flash预览，比如flexpaperOffice文档直接转换为SWF，通过网页加载Flash预览微软的Office365在浏览器中直接打开转换为html今天，我们要用的方案是转换为html来预览。技术方案：office文档转换为pdf：使用libreofficepdf转h
Android 14.0 默认壁纸不好看，客户要换成他们喜欢的壁纸，Android 14.0 更换默认壁纸的方法 zzq1996 android
Android14.0默认壁纸不好看，客户要换成他们喜欢的壁纸，Android14.0更换默认壁纸的方法替换如下framework路径的壁纸图片。diff--gita/frameworks/base/core/res/res/drawable-nodpi/default_wallpaper.pngb//frameworks/base/core/res/res/drawable-nodpi/defa
转 Totally Data-Driven Automated Testing black_sam QTP测试框架 testing payment application subroutine spreadsheet function
TotallyData-DrivenAutomatedTestingAWhitePaperByKeithZambelichSr.SoftwareQualityAssuranceAnalystAutomatedTestingEvangelistProfessionalHistoryandCredentials:IhavebeeninvolvedinSoftwareTestingandSoftware
Cross-stitch Networks for Multi-task Learning 项目教程童香莺Wyman
Cross-stitchNetworksforMulti-taskLearning项目教程Cross-stitch-Networks-for-Multi-task-LearningATensorflowimplementationofthepaperarXiv:1604.03539项目地址:https://gitcode.com/gh_mirrors/cr/Cross-stitch-Network
探索多任务学习的新维度：Cross-stitch Networks 计蕴斯Lowell
探索多任务学习的新维度：Cross-stitchNetworksCross-stitch-Networks-for-Multi-task-LearningATensorflowimplementationofthepaperarXiv:1604.03539项目地址:https://gitcode.com/gh_mirrors/cr/Cross-stitch-Networks-for-Multi-t
资源分享 | 一、盘点高清壁纸网站雨中散步撒哈拉资源壁纸高清
资源分享|一、盘点高清壁纸网站1.wallroom2.极简壁纸3.高清壁纸库4.动漫图片和壁纸5.WallpaperAbyss资源分享|一、盘点无版权图片网站作者：1024导航网址：https://shanhaigo.cn备注：1024导航致力于收集高质量网站，内容持续更新中....本文内容，已收录至1024导航：https://shanhaigo.cn1.wallroom高分辨率高质量壁纸2.极
SAM2论文解读-既实现了视频的分割一切，又比图像的分割一切SAM更快更好 ↣life♚ 计算机视觉大模型通用模型人工智能计算机视觉深度学习通用分割视频分割算法
code：https://github.com/facebookresearch/sam2/tree/maindemo:https://sam2.metademolab.com/paper:https://ai.meta.com/research/publications/sam-2-segment-anything-in-images-and-videos/这是SAM这是SAM2Facebook
字节Bagel多模态大模型解读小李飞刀李寻欢 OpenSource 大模型 paper github 代码解读
github：https://github.com/bytedance-seed/BAGELpaper：https://arxiv.org/pdf/2505.14683本文是一篇关于多模态预训练模型BAGEL的论文，由来自字节跳动、深圳先进技术研究院、莫纳什大学、香港科技大学和加州大学圣克鲁兹分校的研究人员共同撰写。BAGEL是一个开源的基础模型，支持多种模态的理解和生成，包括文本、图像和视频。该
[paper] Look Into Person AlgoComp paper reading 计算机视觉
(CVPR2017)LookintoPerson:Self-supervisedStructure-sensitiveLearningandANewBenchmarkforHumanParsingPaper:http://www.linliang.net/files/CVPR17_LIP.pdfProject:http://hcp.sysu.edu.cn/lip/index.phpCode:htt
CHES 2022 issue-4文章总结打工小熊猫密码学文献分类总结同态加密网络安全可信计算技术密码学安全威胁分析网络攻击模型
来源：https://ches.iacr.org/2022/acceptedpapers.php简要分类：分类文章编号后量子密码软硬件加速相关13,22,26侧信道攻防相关3,6,8-12,14,15,17,18,20,21,23,25,27,28,29,31,32同态相关241.WhenBadNewsBecomeGoodNews:TowardsUsableInstancesofLearningw
【论文解读】s3: 仅 2.4K 数据即可 RL 训练Search Agent
1stauthro:PatrickJiangpaper:[2505.14146]s3:YouDon’tNeedThatMuchDatatoTrainaSearchAgentviaRLcode:pat-jj/s3:s3-EfficientYetEffectiveSearchAgentTrainingviaRLforRAG5.总结(结果先行)s3框架以其“解耦搜索与生成、仅训练搜索代理、采用GBR奖励
Grounding Language Model with Chunking‑Free In‑Context Retrieval (CFIC) steven~~~ nlp 语言模型人工智能自然语言处理
一读即懂这篇ACL2024文章介绍了CFIC，一种新的无块文档上下文检索方法，用于提升Retrieval‑Augmented Generation（RAG）任务的“证据定位”能力。问题是什么？传统RAG会先将文档分块（chunk）再检索，但这种分块会打断语义连贯性、引入噪音，并限制检索精度([aclanthology.org][1],[chatpaper.com][2])。CFIC的创新做法？跳过
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

阅读类比-细节双通道神经网络论文