Mr，yu

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记

1. Motivation

声音频段中有高频部分和低频部分，图片像素中也可以将信息分为高频信息和低频信息，低频信息中包含那些缓慢变化的、结构性的信息，而高频信息一般包含那些变化较大、包含图片细节的信息，因此我们可以把一张图片认为是高频信息和低频信息的混合表示。下图是一个图像的高频信息和低频信息分离表示。

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第1张图片

为了提高CNN的性能和准确率，有很多的工作致力于减少模型参数内在的冗余，在加快训练速度的同时能够获得更多正交的高级特征从而提高模型的表示能力，但是实际上每一层CNN输出的特征图也存在着大量的冗余，我们以原始输入为例，图片的每一个像素之间并不是孤立的，相邻的元素之间存在着密切的联系，将它们联合在一起存储表示往往能够更加准确的描述图片的信息，所以我们以单一像素的形式存储是及其浪费存储和计算资源的。

因此，我们可以将特征图按照频率分成两部分，一部分是高频信息，一部分是低频信息，然后我们可以将低频信息的数据通过使相邻元素之间共享信息来降维，进而降低其空间冗余性。在对低维数据进行处理的时候，我们还相当于变相的扩大了其感受野，使得网络能够学习到更加高级的特征，有助于提高网络的准确性。

本文的贡献如下：

提出将卷积特征图按照不同的频率分成两组，并对不同频率的数据进行不同的卷积处理。因为低频信息可以被安全的压缩而不用担心影响网络的准确率，所以这可以使得我们节省大量的存储和计算资源；
设计了一个名为OctConv的即插即用的运行单元，可以直接作为普通CNN卷积运算单元的替换，OctConv可以直接处理我们提出的新的特征图表示并且降低了低频数据的冗余性；
使用上面设计的OctConv实现流行的CNN框架，并与当前最好结果进行对比，同时和当前最好的AutoML框架进行了对比。

2. 相关工作

2.1 提高CNN框架的效率

自从AlexNet、VGG等框架使用堆叠大量卷积层的方法构架网络并取得了巨大的成绩之后，研究者们为了提高CNN的效率做出了很多的努力。

ResNet、DenseNet通过增加跨越多层的快捷连接来加强特征的重用，同时也是为了减轻梯度消失问题，降低了优化的困难。如下图所示：

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第2张图片

因为我们可以在现有网络结构上直接堆叠一个恒等映射层，也就是一个什么都不做的层，而不影响整体的效果，所以深层网络不应该比稍浅一些的网络造成更大的误差，所以ResNet引入了残差块，并且希望该结构能够fit剩余映射，而不是直接去fit底层映射。ResNet并不是第一个利用快捷连接的神经网络，Highway Network首次引入了Gated shortcut connections，用于控制通过该连接的信息量，同样的思想我们还可以在LSTM的设计中发现，它利用不同的门控单元来控制信息的流动。
ResNeXt和ShuffleNet框架利用稀疏连接的分组卷积方法来降低不同通道之间的冗余性，如下图所示：

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第3张图片

Xception和MobileNet使用深度可分离卷积层来减小连接的密集程度。

2.2 多尺度表示学习

本文提出的OctConv在不同的空间分辨率下对特征图进行卷积，得到了具有较大接收域的多尺度特征表示。尺度空间很早就被用于局部特征提取，比如之前很流行的SIFT特征，在深度学习领域，现有方法主要聚焦于融合多尺度特征，更好的获取全局信息。然而类似的这些方法大多只在网络结构的某些曾或者网络的末端加入提出的新的结构，bL-Net和ELASTIC-Net使用频繁的对特征图进行上采样和下采样来捕获多尺度特征。但是以上这些方法都是设计为残差块的替代品，当被用于不同的网络结构时需要额外的专业知识和更多的超参数优化。

3 网络结构

3.1 Octave特征表示

对于一般的CNN来说，输入和输出特征图的空间分辨率是相同的，然而对于空间频率模型，即本文提出的方法来说，一个自然图片可以被因式分解成捕获全局信息和粗略架构的低频信号和捕获优化细节的高频信号。我们认为存在一个特征图的子集可以表示空间中的低频信号的变化和冗余信息。

为了减少这种空间冗余性，我们引入了Octave特征表示，显示的将特征图分成了高频和低频两部分。假设输入特征图为 $\in R^{c*h*w}$ ，其中c是通道数，h、w是特征图的尺寸，我们在通道维度将特征图分为两部分，即 $X=\{X^H, X^L\}$ ，其中， $X^H \in R^{(1-\alpha)c*h*w}，X^L \in R^{\alpha c * \frac{h} {2}* \frac{w}{2}}, \ \ \alpha \in \{0,1\}$ ， $\alpha$ 表示通道被分配到低频部分的比例。如下图所示：

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第4张图片

3.2 Octave 卷积

上面介绍的Octave特征表示降低了低频信息的空间冗余性，并且比正常CNN特征表示更加复杂，所以不能直接被正常的CNN所处理，一直比较Naive的做法是对低频表示进行上采样使其达到和高频信息一致的尺寸然后组合这两个部分，就可以得到能够被普通CNN处理的数据格式，但是这种做法即增加了内存的消耗，也增加了大量的计算。因此，本文设计了可以直接处理 $X=\{X^H, X^L\}$ 这种特征表示的卷积层：Octave Convolution。

Vanilla Convolution：
设 $\in R^{c*k*k}$ 表示一个卷积核， $\in R^{c*h*w}$ 表示输入和输出张量，那么输出特征 $Y_{p,q} \in R^c$ 可以表示为：
$Y_{p,q}=\sum_{i, j \in N_k} W_{(i + \frac{k-1}{2}, j + \frac{k-1}{2})}^T X_{(p+i, q+j)}$
上式比较简单，这里不多做解释。

Octave Convolution：
我们的目标是在分别对高频和低频信息进行卷积处理的同时还允许二者之间进行有效的信息交互。因此由上面的介绍我们可以得到：
$Y^H=Y^{H\rightarrow H} + Y^{L \rightarrow H}\\ Y^L=Y^{L\rightarrow L} + Y^{H \rightarrow L}\\$
如下图所示：

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第5张图片

为了上面的计算，我们将卷积核W分成四个部分 $W=\{W^H, W^L\}=\{W^{H\rightarrow H}, W^{H\rightarrow L}, W^{L\rightarrow L}, W^{L\rightarrow H}\}$ ，如下图所示：

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第6张图片

对于频内信息交流，我们直接使用普通的CNN卷积计算，对于频间的信息交流，我们将上/下采样和卷积操作放在一起，避免了显示的计算和存储采样结果。公式如下：
$\begin{aligned} Y_{p,q}^H&=Y_{p,q}^{H\rightarrow H} + Y_{p, q}^{L\rightarrow H}\\ &=\sum_{i,j \in N_k}{W_{i+\frac{k-1}{2}, j +\frac{k-1}{2}}^{H\rightarrow H}}^T X_{p+i, q+j}^H\\ &+\sum_{i,j \in N_k}{W_{i+\frac{k-1}{2}, j +\frac{k-1}{2}}^{L\rightarrow H}}^TX_{\lfloor \frac{p}{2} \rfloor +i, \lfloor \frac{q}{2} \rfloor+j}^L \end{aligned}$
$\begin{aligned} Y_{p,q}^L&=Y_{p,q}^{L\rightarrow L} + Y_{p, q}^{H\rightarrow L}\\ &=\sum_{i,j \in N_k}{W_{i+\frac{k-1}{2}, j +\frac{k-1}{2}}^{L\rightarrow L}}^T X_{p+i, q+j}^L\\ &+\sum_{i,j \in N_k}{W_{i+\frac{k-1}{2}, j +\frac{k-1}{2}}^{H\rightarrow L}}^TX_{2*p+0.5+i, 2*q+0.5+j}^H \end{aligned}$

上式中的 $\lfloor \frac{p}{2} \rfloor$ 是为了上采样，同样的， $2 * p + 0.5 + i$ 的目的是下采样，加上0.5度目的是为了保证下采样之后的输出特征图分布不偏移，相当于平均池化。

通过设置不同的 $\alpha$ 值，我们可以将数据进行不同程度的压缩，同时节省了大量的计算，下面是一个统计表：

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第7张图片

3.3实现细节

上一节中我们提到下采样时使用平均池化的思想，而不是一般的Strided convolution，具体原因如下图：

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第8张图片

如文中所述，使用Strided convolution会导致输出的特征图偏移。

这样，我们可以将Octave Convolution的计算表示如下：
$\begin{aligned} Y^{H} &=f\left(X^{H} ; W^{H \rightarrow H}\right)+\text { upsample }\left(f\left(X^{L} ; W^{L \rightarrow H}\right), 2\right) \\ Y^{L} &=f\left(X^{L} ; W^{L \rightarrow L}\right)+f\left(\operatorname{pool}\left(X^{H}, 2\right) ; W^{H \rightarrow L}\right) ) \end{aligned}$

Octave Convolution还适用于一些常见变种卷积类型，比Group Convoolution和Depthwise Conolution。这里多介绍一下这两种卷积的工作方式：

Group Convoolution：分组卷积最早在AlexNet中出现，由于当时的硬件资源有限，训练AlexNet时卷积操作不能全部放在同一个GPU处理，因此作者把feature maps分给多个GPU分别进行处理，最后把多个GPU的结果进行融合。
具体来说就是对于输入 $\in \mathcal{R}^{c_1*h*w}$ ，普通卷积方式是用 $c_2$ 个大小为 $c_1*k*k$ 的卷积核对输入进行卷积计算，其中 $c_2$ 是输出通道数， $c_1$ 是输入通道数，h,w是输入特征图大小， $k * k$ 是卷积核大小，当输入规模很大时，这个计算需要很大的存储，因此我们可以将它分成两部分来计算，我们将输入和输出在通道那个维度切分成两个部分，将输入数据分成了2组（组数为g），需要注意的是，这种分组只是在深度上进行划分，即某几个通道编为一组，这个具体的数量由 $c_1/g$ 决定。因为输出数据的改变，相应的，卷积核也需要做出同样的改变。即每组中卷积核的深度也就变成了 $c_1/g$ ，而卷积核的大小是不需要改变的，此时每组的卷积核的个数就变成了 $c_2/g$ 个，而不是原来的 $c_2$ 了。然后用每组的卷积核同它们对应组内的输入数据卷积，得到了输出数据以后，再用concatenate的方式组合起来，最终的输出数据的通道仍旧是 $c_2$ 。

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第9张图片

我们可以看到分组卷积减少了大量的计算，但是同时由于直接简单的将输入按照通道分成了多个组，而多个组之间没有任何的信息交流，所以对特征的捕获是不利的。

Depthwise Conolution：Depthwise(DW)卷积与Pointwise(PW)卷积，合起来被称作Depthwise Separable Convolution(参见Google的Xception)，该结构和常规卷积操作类似，可用来提取特征，但相比于常规卷积操作，其参数量和运算成本较低。所以在一些轻量级网络中会碰到这种结构如MobileNet。
不同于常规卷积操作，Depthwise Convolution的一个卷积核负责一个通道，一个通道只被一个卷积核卷积。上面所提到的常规卷积每个卷积核是同时操作输入图片的每个通道。同样是对于一张5×5像素、三通道彩色输入图片（shape为5×5×3），Depthwise Convolution首先经过第一次卷积运算，不同于上面的常规卷积，DW完全是在二维平面内进行。卷积核的数量与上一层的通道数相同（通道和卷积核一一对应）。所以一个三通道的图像经过运算后生成了3个Feature map(如果有same padding则尺寸与输入层相同为5×5)，如下图所示：

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第10张图片

Depthwise Convolution完成后的Feature map数量与输入层的通道数相同，无法扩展Feature map。而且这种运算对输入层的每个通道独立进行卷积运算，没有有效的利用不同通道在相同空间位置上的feature信息。因此需要Pointwise Convolution来将这些Feature map进行组合生成新的Feature map。

Pointwise Convolution的运算与常规卷积运算非常相似，它的卷积核的尺寸为 1×1×M，M为上一层的通道数。所以这里的卷积运算会将上一步的map在深度方向上进行加权组合，生成新的Feature map。有几个卷积核就有几个输出Feature map。如下图所示。

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第11张图片

对于Group Convolution，我们看可以简单的把Octave Convolution的四个卷积操作都替换成Group Convolution，同样的，对于Depthwise Convolution也可以这样做。

4 实验

4.1 实验设置

选取了一些比较流行的CNN框架，并将它们的出了第一层卷积层之外的卷积层替换为Octave Convolution，并增加了一个超参数 $\alpha$ ，表示低频信息的比例。

4.2 模型简化测试

探究了两个问题：

OctConv是否比普通CNN能够更好的权衡算力和准确率？
OctConv适合在什么样的情形下使用？

在几个流行框架上的测试结果如下图所示：

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第12张图片

观察结果如下：

flops-accuracy权衡曲线为凹曲线，精度先上升后缓慢下降。
我们主要观察到两个特殊的点：第一个在α= 0.5，网络得到类似或者更好的结果;第二个在α= 0.125，网络达到最好的精度,比baseline高出1.2%。

我们将准确度的提高归功于OctConv对高低频信息处理的有效设计以及相应的扩大低频信息的感受野，它提供了更多的上下文信息。准确率达在到最高点之后并没有突然下降，表明对低频信息的高度压缩不会导致重大的信息丢失。有趣的是，75%的feature map可以压缩到一半的分辨率，而准确率只有0.4%的下降，这证明了对平滑变化的feature map进行分组和压缩的有效性，可以减少CNNs中的空间冗余。

4.3 和当前在ImageNet上SOTAs相比

见下图：

Reducing Spatial Redundancy in Convolutional Neural Networks with Octave Convolution——论文笔记_第13张图片

5 总结

本文所做的工作主要解决了普通CNN中feature map中的信息冗余问题，并提出了OctConv，其可以非常方便的用于其他比较流行的CNN架构，在节省了大量的计算和存储资源的同时，通过不同频率之间的信息交换和感受野的夸大，对模型的精度有些许的提高。

[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案心心喵论文笔记剪枝算法机器学习
https://github.com/sramshetty/ShortGPT/tree/mainMy剪枝方案（暂定）：剪枝目标：1.5B—>100～600M剪枝方法：层粒度剪枝1、基于BI分数选择P%的冗余层，P=60~802、对前N%冗余层，直接删除fulllayer。N=20（N：剪枝崩溃临界点，LLaMA2在45%，Mistral-7B在35%，Qwen在20%，Phi-2在25%）对后(P
Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记 Im Bug 3d 论文阅读
Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对
论文笔记（七十二）Reward Centering（一）墨绿色的摆渡人文章论文阅读
RewardCentering（一）文章概括摘要1奖励中心化理论文章概括引用：@article{naik2024reward,title={RewardCentering},author={Naik,AbhishekandWan,YiandTomar,MananandSutton,RichardS},journal={arXivpreprintarXiv:2405.09999},year={202
论文笔记：Enhancing Sentence Embeddings in Generative Language Models UQI-LIUWJ 论文阅读语言模型人工智能
2024ICIC1INTRO对于文本嵌入，过去几年的相关研究主要集中在像BERT和RoBERTa这样的判别模型上。这些模型固有的语义空间各向异性，往往需要通过大量数据集进行微调，才能生成高质量的句子嵌入。——>需要较大的训练批次，这会消耗大量的计算资源一些前沿的工作将焦点转向了最近开发的生成模型，期望利用其先进的文本理解能力，直接对输入句子进行编码，而无需额外的反向传播由于句子表示和自回归语言建模
LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理深度学习笔记
Arxiv日期：2024.2.14机构：GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加
多模态论文笔记——DiT（Diffusion Transformer）好评笔记多模态论文笔记深度学习 transformer DiT 人工智能机器学习 aigc stable diffusion
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。文章目录论文定义架构与传统(U-Net)扩散模型区别架构噪声调度策略与传统扩散的相同输入图像/条件信息的Patch化（Pat
LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和
LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，但在实践中能力受到位置不变性和有限记忆的限制2.Transformer在一些任务中表现较差，例如正则语言任务（如ParityCheck），表明其与Chomsky层级的对齐性不佳3.Transform
[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化心心喵论文笔记论文阅读语言模型人工智能
成本效益高的大型语言模型生成推理的超参数优化https://openreview.net/pdf?id=DoGmh8A39OChiWang1,SusanXueqingLiu2,AhmedH.Awadallah11微软研究院，雷德蒙德2史蒂文斯理工学院摘要大型语言模型（LLMs）因其生成能力引发了广泛关注，催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 大表哥汽车人人工智能大语言模型学习笔记论文阅读人工智能 deepseek
DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：research@deepseek.com）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe
论文笔记《基于深度学习模型的药物-靶标结合亲和力预测》 I_dyllic 深度学习论文阅读深度学习人工智能
基于深度学习模型的药物-靶标结合亲和力预测这是一篇二区的文章，算是一个综述，记录一下在阅读过程中遇到的问题。文章目录基于深度学习模型的药物-靶标结合亲和力预测前言一、蛋白质接触图谱二、为什么蛋白质图谱的准确性对DTA模型预测结果没有影响1.对这段话的解释2.关于Alphafold3三、随机配体与随机配体节点属性（配体一般指药物）1.什么是随机配体与配体节点属性四、关于深度学习模型对特征的自动学习过
TC-LLaVA论文笔记 0yumiwawa0 计算机视觉论文阅读
RoPE介绍理解LLM位置编码:RoPE|LinsightMotivation在基于视频的multimodallargelanguagemodel中，更好地利用视频提供的时序信息。MethodTemporal-AwareDualRoPE之前的RoPE公式：A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)−P(FnVz))θ]A_{(q_{T_m},k_{F_nV_z})}=Re[q
CNN-day5-经典神经网络LeNets5 谢眠深度学习深度学习计算机视觉人工智能
经典神经网络-LeNets51998年YannLeCun等提出的第一个用于手写数字识别问题并产生实际商业（邮政行业）价值的卷积神经网络参考：论文笔记：Gradient-BasedLearningAppliedtoDocumentRecognition-CSDN博客1网络模型结构整体结构解读：输入图像：32×32×1三个卷积层：C1：输入图片32×32，6个5×5卷积核，输出特征图大小28×28（3
[论文笔记] llama3.2 蒸馏心心喵论文笔记论文阅读
参考链接：LLaMA3.2技术报告：GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac
[论文笔记] Deepseek技术报告心心喵论文笔记论文阅读人工智能
1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。介绍了两代模型：DeepSeek-R1-Zero（纯RL，无SFT冷启动数据）和DeepSeek-R1（在RL前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。核心思路直接在基础模型上应用大规模强化学习，利用
【论文笔记】基于图神经网络的多视角视觉重定位 GRNet CVPR 2020 论文笔记 phy12321 相机重定位
GRNet:LearningMulti-viewCameraRelocalizationwithGraphNeuralNetworks驭势科技,北京大学机器感知重点实验室,北京长城航空测控技术研究所本文提出了一种使用多视角图像进行相机重定位的图神经网络。该网络可以使得不连续帧之间进行信息传递，相比于只能在相邻前后帧之间进行信息传递的序列输入和LTSM，其能捕获更多视角信息以进行重定位。因此LSTM
论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）墨绿色的摆渡人文章论文阅读
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning（二）文章概括摘要：2.方法2.3.DeepSeek-R1：冷启动强化学习2.3.1.冷启动2.3.2.面向推理的强化学习2.3.3.拒绝采样与监督微调2.3.4.面向所有场景的强化学习2.4.蒸馏：赋予小模型推理能力文章概括引用：@article{g
[论文总结] 深度学习在农业领域应用论文笔记14 落痕的寒假论文总结深度学习论文阅读人工智能
当下，深度学习在农业领域的研究热度持续攀升，相关论文发表量呈现出迅猛增长的态势。但繁荣背后，质量却不尽人意。相当一部分论文内容空洞无物，缺乏能够落地转化的实际价值，“凑数”的痕迹十分明显。在农业信息化领域的顶刊《ComputersandElectronicsinAgriculture》中也大面积存在。众多论文在研究方法上存在严重缺陷，过于简单粗放。只是机械地把深度学习方法生硬地套用到特定农业问题中
[论文笔记] llama-factory 微调qwen2.5、llama3踩坑心心喵论文笔记深度学习人工智能
一、bug1、pre-tokenize的时候,会OOM解决：在yaml文件中添加streaming参数#tokenizestreaming:Truemax_steps:10000https://github.com/hiyouga/LLaMA-Factory/blob/3a023bca2a502810a436cfba7708df164754ea62/src/llamafactory/hparams
[论文笔记] Megatron: mistral sliding window（ImportError: /workspace/venv/lib/python3.10/site-packag报错解决）心心喵论文笔记论文阅读
pyTorch—TransformerEngine1.2.1documentation论文：https://arxiv.org/pdf/2310.06825.pdftransformerengine的slidingwindow是用了flashatttention（新版本2以上，这里用的最新版本2.5.2）里对sliding_window的实现。所以不需要用transformerengine。直接用
[论文笔记]自监督sketch-to-image生成：Self-Supervised Sketch-to-Image Synthesis 沉迷单车的追风少年深度学习-计算机视觉 sketch 深度学习计算机视觉
前言：2020年顶会同时出现了两篇很有意思的论文《Self-SupervisedSketch-to-ImageSynthesis》和《UnsupervisedSketch-to-PhotoSynthesis》，分别用自监督和无监督的方法做sketch-to-image生成，可以说是GANs在这一任务中表现的巅峰。目录主要贡献主要工作域转换模型TOMPS：边缘图、铅笔画图、草图sketch之间的区别
【论文笔记】：DuBox: No-Prior Box Objection Detection via Residual Dual Scale Detectors Activewaste #Anchor-free #特征层面 #小目标检测 DuBox anchor-free
&Title:DuBox:No-PriorBoxObjectionDetectionviaResidualDualScaleDetectorsGithubaddrNone&Summary介绍了一种新的一阶段检测方法Dubox，它可以在没有先验框的情况下检测物体。设计的双尺度残差单元具有多尺度特性，使双尺度检测器不再独立运行。高层检测器学习低层检测器的残差。Dubox增强了启发式引导的能力，进一步使
【论文笔记】AutoML: A survey of the state-of-the-art（下篇） pip install USART 学习笔记论文阅读记录论文阅读算法深度学习
目录4.ModelGeneration模型生成4.1SearchSpace搜索空间4.1.1Entire-structuredsearchspace基于整个架构的4.1.2Cell-basedsearchspace基于Cell的空间4.1.3Hierarchicalsearchspace层次化的空间4.1.3Morphism-basedsearchspace基于“态射”的空间4.2网络优化方法（搜
论文笔记 U-Net: Convolutional Networks for Biomedical Image Segmentation 城南皮卡丘 #深度学习 caffe 人工智能
摘要：人们普遍认为，深度网络的成功训练需要数千个带注释的训练样本。在本文中，我们提出了一种网络和训练策略，该策略依赖于大量使用数据增强来更有效地使用可用的注释样本。该体系结构包括用于捕获上下文的收缩路径和用于实现精确定位的对称扩展路径。我们表明，这样的网络可以从很少的图像进行端到端训练，并且在ISBI挑战中优于先前的最佳方法（滑动窗口卷积网络）,用于分割电子显微堆栈中的神经元结构。使用在透射光显微
AIGC视频生成模型：Meta的Emu Video模型好评笔记 #Meta AIGC-视频 AIGC 机器学习人工智能 transformer 论文阅读深度学习面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Meta的视频生成模型EmuVideo，作为Meta发布的第二款视频生成模型，在视频生成领域发挥关键作用。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言相关工作文本到图像（T2I）扩散模型视频生成/预测文本到视频（T2V）生成分解生成方法预备知识EmuVideo生成步骤图
AIGC视频生成国产之光：ByteDance的PixelDance模型好评笔记 AIGC-视频补档 AIGC 计算机视觉人工智能深度学习机器学习论文阅读面试
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录论文摘要引言输入训练和推理时的数据处理总结相关工作视频生成长视频生成方法模型架构
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet ：通过低成本操作获得更多特征 (论文笔记+引入代码) YOLO大师 YOLO 论文阅读
YOLO目标检测创新改进与实战案例专栏专栏目录：YOLO有效改进系列及项目实战目录包含卷积，主干注意力，检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLO基础解析+创新改进+实战案例介绍摘要在嵌入式设备上部署卷积神经网络（CNNs）由于有限的内存和计算资源而变得困难。特征图中的冗余是那些成功的CNNs的一个重要特性，但在神经架构设计中很少被研究。本文提出了一种新颖的Ghost模块，
论文笔记—NDT-Transformer: Large-Scale 3D Point Cloud Localization using the Normal Distribution Transfor 入门打工人笔记 slam 定位算法
论文笔记—NDT-Transformer:Large-Scale3DPointCloudLocalizationusingtheNormalDistributionTransformRepresentation文章摘要~~~~~~~在GPS挑战的环境中，自动驾驶对基于3D点云的地点识别有很高的要求，并且是基于激光雷达的SLAM系统的重要组成部分（即闭环检测）。本文提出了一种名为NDT-Transf
[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization 愤怒的可乐 #文本匹配[论文]论文翻译/笔记自然语言处理论文阅读人工智能
引言为了理解CoSENT的loss，今天来读一下CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。这篇论文从对深度特征学习的成对相似度优化角度出发，旨在最大化同类之间的相似度sps_ps
【论文笔记】Multi-Task Learning as a Bargaining Game xhyu61 机器学习学习笔记论文笔记论文阅读人工智能深度学习
Abstract本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaininggame)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(NashBargainingSolution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。1Introduction大部分MTL优化算法遵循一个通用方案。计算所有任务的梯度g
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 (quickselect@163.com), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu