flyminnnnn

论文笔记：NSGA-Net: Neural Architecture Search using Multi-Objective Genetic Algorithm

NSGA-Net: Neural Architecture Search using Multi-Objective Genetic Algorithm

来源：paper, code, MSU, GECCO-2019, first Submitted on 8 Oct 2018

词汇：

Words Meaning

genetic algorithm 遗传算法

mutation 突变

crossover 互换，交叉

population 种群

Words	Meaning
genetic algorithm	遗传算法
mutation	突变
crossover	互换，交叉
population	种群

摘要

设计目标：

考虑多重和复杂目标的方法
有效平衡在神经网络潜在空间中的探索和利用
在一次运行中寻找多个不同的权衡网络架构

NSGA-Net 是一个基于种群的搜索算法，分三步探索可能的神经网络结构空间

种群初始化，基于来自人工设计结构的先验知识
探索，比较结构之间的互换与突变
利用，通过贝叶斯网络的形式使用存储在整个神经结构评价历史中的隐藏的有用信息

希望同时优化错误评价函数和计算复杂性

Introduction

此前使用的 NAS 方法：

STOA 的增强学习方法需要消耗大量的计算，对于都多空间的利用是低效的
基于梯度下降的方法只关注单目标的评价函数最小化，多余多重的、复杂的目标不是很适合
大多数 STOA 方法搜索一个计算 block，然后通过足够次数的重复来完成网络

NSGA-Net 的显著特征在于：

多目标优化：现实应用中 NAS 需要小的网络，同时保证准确性
灵活的结构搜索空间：NSGA-Net 在整个网络结构中搜索，通过重复 block 对于不同的任务可能得不到最优解
非主导排序：NSGA-Net 最核心的模块就是 Non-Dominated Sorting Genetic Algorithm Ⅱ (NSGA-Ⅱ)，一个多目标优化算法
高效再结合：相比较之前的方法，本文在使用突变（mutation）的同时还使用了互换（crossover），来向着多目标进行网络结合
贝叶斯学习：使用贝叶斯优化算法（BOA）来完全利用搜索历史存档中有希望的解决方案，以及网络结构层之间的相互关联

Related Work

县有关的 NAS 方法可以大体被分为两种：进化算法（evolutionary algorithm） 和 增强学习（reinforcement learning） 。

进化算法将网络结构设计看做组合优化问题，考虑多重目标得到的方案作为一个种群（population），在这个种群上做小的突变和迁移，得到最优化的方案
增强学习将网络构建看做一个决策问题，训练一个代理（agent）以特定的顺序最优化地选择网络

Reinforcement Learning

Q-learning -> MetaQNN ( $\epsilon$ -贪心 Q-learning方法) -> BlockQNN (设计计算 block，通过重复 block 提高精度)

一种策略梯度方法试图近似一些不可区分的回馈函数来训练要求参数梯度的模型。训练一个递归神经网络控制器来构建网络，原始的方法使用控制器一次生成整个网络。这个方法超越了前人的方法——设计一个卷积核pooling的 block 进行重复来构建网络（NASNet）。

NSGA-Net 区别于 RL 方法在于使用了不止一个选择评价方式，即使用对于任务的准确性（而不是估计准确性）以及计算复杂度。NSGA-Net 不仅搜索 block，而且搜索 block 之间的组合。

Evolutionary Algorithms

neuroevolution of augmenting topologies (NEAT) algorithm

AmoebaNet，概率的引入使得简单的进化算法的大规模应用成为可能，这个方法比 RL 和随机搜索有更快的收敛速度。

从理念上来讲，NSGA-Net更接近 Genetic CNN 算法，使用二值编码表示卷积 block 之间的链接。在 NSGA-Net 中，通过以下两种方式增加了原有的编码和遗传操作：

对于残差链接增加额外的位
使用成对的互换（crossover）

此外，本文还引入了基于多目标的选择框架。相较于 Genetic CNN，本文还使用了贝叶斯网络来完全利用历史的种群知识

进化式多目标优化（EMO）方法——NSGA-Ⅱ 在本文中广泛使用。提出者只使用此方法在超参数和小的结构集合中搜索。网络态射（morphism）使得网络在保持功能等价性的前提下被扩展和加深，这对于结构搜索来讲，使得网络结构发生微小扰动之后的参数共享变得简单。

态射（morphism） 是两个数学结构之间保持结构的一种过程抽象。

最常见的这种过程的例子是在某种意义上保持结构的函数或映射。例如，在集合论中，态射就是函数；在群论中，它们是群同态；而在拓扑学中，它们是连续函数；在泛代数（universal algebra）的范围，态射通常就是同态。

NSGA-Ⅱ算法

讲解及图片来源：遗传算法关于多目标优化python（详解）

其他方法

渐进式扩张网络，从简单的 cell 开始，并且只训练通过 RNN meta-model 得到的编码空间中预测结果中最好的 K 个网络
将上述方法扩展到多目标，基于网络的帕累托最优性（Pareto-optimality）比较网络
使用 meta-modeling 方法生成模型，这样的模型可能是临时的，并不分析渐进式搜索如何影响权衡边界
使用上坡算法和网络态射，在有限的资源上快速优化网络
结合 RL 和 EA 的思想，考虑大量网络的突变和联赛选择（tournament selection），并设置递归网络作为控制器，对这些网络施加突变效果
扩展式的随机搜索优化，针对易于分割应用
基于高斯过程的网络结构优化方法，通过贝叶斯优化的角度来观察

以上，作者对多种方法进行了简要介绍。综合来看，作者的思路来源有以下几个方面

RL 方法，评价方式的拓展，此前很少有考虑多目标优化的，即使有效果也不理想

NASNet，模块化的思考方式是对问题的简化，但作者加入了衡量模块间结合方式的因素

Genetic CNN，二值的encoding方法，并且针对一些特殊的部分调整的encoding（残差和crossover）

贝叶斯网络，这一点应该是借鉴自RL但和EA显著不同

NSGA-Ⅱ，这个算法的使用似乎和网络态射有关，能够更加有效地完成模型调整时的参数迁移问题

方法

NSGA-Net 一个基于遗传算法的架构搜索方法，可以自动生成一个 DNN 架构的集合，在图像分类任务上逼近一个性能和复杂性的帕累托最优。

帕雷托最优的状态就是不可能再有更多的帕雷托改善的状态；换句话说，不可能在不使任何其他人不受损的情况下再改善某些人的境况。即 trade-off 影响下的最优模式。

整体的网络结构为：

编码（Encoding）

和其他生物启发的搜索算法一样，遗传算法不直接在表型上进行操作。

将DNN结构看做表现型（phenotype）
将映射到相应结构的表征作为基因型（genotype）
将表现型和基因型之间的接口称作编码（encoding）

NSGA-Net 中将每一个计算块称作 phase，使用 Genetic CNN 中提出的方法，在其基础上增加了一位表示跳过链接。本文将这个操作称为 Operation Encoding $\mathbf{x_{o}}$ 。

Operation Encoding $\mathbf{x_{o}}$

本文中并不使用重复单一模块的方式构建网络，网络中的操作被编码表示为 $\mathbf{x_{o}=\big(x_{o}^{(1)},x_{o}^{(2)},...,x_{o}^{(n_{p})}\big)}$ ，其中 $n_{p}$ 表示 phase 的数量，每一个 $\mathbf{x_{o}^{(i)}}$ 对一个有向无环图进行编码，这个图中包含 $n_{o}$ 个节点，每个节点使用一个二值串描述一个 phase 中的操作。即，一个节点就是一个基本的运算单元：卷积，池化，BN 或者顺序操作 。

这样的编码方式为网络结构提供了一种紧凑的编码，并且对于表示现有的手工设计的网络来讲足够的灵活。

编码方式：由有向无环图的拓扑排序性质，将节点进行排序，按照排序先后分别进行编码，节点 $n$ 使用 $n - 1$ 位表示，每一位表示该节点与前 $n - 1$ 个节点是否连接（1/0）；最后一位表示整个 block 是否包含跳过链接

这张图展示的是遗传算法的交叉机制，即通过两个 parent 结构得到 child 结构——保留相同的部分，不同的部分随机选择 parent 一方的连接方式。

Search Space

通过余弦定义的空间分辨率降低方式，整个搜索空间的基因型由操作编码表示：
$\Omega_{\mathbf{x}}=\Omega_{\mathbf{x_{o}}}=n_{p}\times{2^{n_{o}(n_{o}-1)/2+1}}$

即：每个 block 可能数量的和

处于计算复杂性的考虑，本文限制每个节点中的顺序操作是一致的，比如R-N-A。因此，节点和节点之间都是相同的，即每个节点都可以互换，这样就使得 编码不再具有一一映射的性质，而是一个多对一的映射（编码->结构） 。因为多对一映射的性质，消除映射到统一结构的编码（文中描述为相同表现型的不同基因型）变得比较关键。文中作者设计了一个 去重算法 （文章附录）。

每个 phase 的节点最大数量为 $n_{o}$

搜索步骤 Search Procedure

NSGA-Net 是一个迭代的步骤，利用种群使得初始的解决方案逐渐变得更好。在每次迭代中，从种群中选择 parents 产生相同数量的后代，每一个种群成员都要计算下一次迭代的 survival 和 reproduction。初始的种群被随机产生或者使用先验知识。然后采用 exploration 和 exploitation 两步完成。

探索 Exploration

这步的目标是发现多种不同的节点连接方式来形成 phase。通过遗传操作——交叉和变异——来实现。

交叉 Crossover

基于种群的搜索方法中，潜在的并行在种群成员高效的共享 构造单元（building-block） 的过程中（通过 crossover）可以被利用。在 NAS 的背景下，phase 或者 phase 中的子结构可以被看做是构造单元。

本文设计了一个同质的交叉算子，将两个选中的种群成员作为 parents，通过对来自 parents 的构造单元的继承和结合来产生后代。其关键点在于：

通过在编码向量中继承父母相同的位来保持父母共享的构造单元
相对地保持父母和后代之间相同的计算复杂度，通过限制后代二值串中的1的数量实现，要求1的数量介于父母的数量之间

变异 Mutation

目的：增强种群的多样性（能够包含更多的网络结构）；增强跳出局部最优值的能力
方法：使用 位反转的变异算子，这在二值编码的遗传算法中经常使用。由于编码的特点，一位的反转就有能力得到一个完全不同的表现型结构，因此 限制一次变异操作中能够反转的位数目最多为一。这样一来，一次最多有一个 phase 结构发生变异

应用 Exploitation

目标：应用和强化一些模式，这些模式是在前一个步骤中发现的，在历史中成功的结构中普遍存在的。
思路来源：受 贝叶斯优化算法（BOA） 的启发。贝叶斯优化算法是被设计用于有内在关联的变量之间进行优化的算法。
方法：在NAS的背景下，关联关系体现在 block 和穿越不同 phase 的 path。这步使用过去评价过的所有网络的信息来指导搜索的最后一步。
示例：我们有一个三阶段的网络， $\mathbf{x_{o}^{(1)},x_{o}^{(2)},}$ and $\mathbf{x_{o}^{(3)}}$ ，希望知道三个阶段的关系。为了达到这个目的，构建了贝叶斯网络（BN）将三个变量关联起来，针对， $\mathbf{x_{o}^{(1)}}$ 出现在第一位， $\mathbf{x_{o}^{(2)}}$ 出现在 $\mathbf{x_{o}^{(1)}}$ 之后，以及 $\mathbf{x_{o}^{(3)}}$ 出现在 $\mathbf{x_{o}^{(2)}}$ 之后的可能性分别建模，即使用种群的历史对 $p\big(\mathbf{x_{o}^{(1)}}\big),p\big(\mathbf{x_{o}^{(2)}}|\mathbf{x_{o}^{(1)}}\big),p\big(\mathbf{x_{o}^{(3)}}|\mathbf{x_{o}^{(2)}}\big)$ 进行估计，在应用过程中进行更新。新的后代从这个 BN 中抽样得到。

问题：上图就是对这个例子的说明，贝叶斯网络是一种概率关系的表示方法，我理解为一种求特定概率的分析工具。既然这样的一个概率分布是描述三个阶段关系的，那么是怎样和后代选取相互联系起来的？

实验 Experiments

性能评价 Performance Metrics

使用两个目标来指导网络搜索：分类错误率 和 计算复杂性。

对于计算复杂性，作者比较了“活跃节点的数量，节点之间活跃链接的数量，参数量，前向传播时间和浮点运算的数量”，发现浮点运算数量（FLOPs）是最能够代表计算复杂性的。

为了衡量多目标下的综合效果，作者使用了 hypervolume (HV) performance metric，即相较于一系列体现最低标准的方案，在帕累托平面的面积。最大化 HV 就能使得方案达到帕累托边界。

问题：多目标的评价方式具体是如何衡量和计算的？

实现细节 Implement Details

Dataset

使用 CIFAR-10 数据集，将原始的训练集分成训练和验证（80%-20%），测试集只用于搜索结论获取模型的测试准确性。

NSGA-Net hyper-parameters

$n_{p}=3, n_{o}=6$ ，分辨率降低和此前的实验设置保持一致——stride 2 的最大值池化被放置在第一和第二个 phase 后面，最后一个 phase 接平均池化
初始种群通过均匀随机抽样得到，交叉概率为0.9，变异概率为0.02，种群大小为40，探索阶段共生成20次，应用阶段的生成10次，因此总共有1200个网络被搜索到。

从这个计算方法来看，种群数量中不包括 parents，即每次生成 40 个新的网络。

问题：这里的 40 应该不是种群数量，应该是生产量，种群数量应该结合死亡量进行计算（前文提到 reproduction 和 survival）。

Network training during searching

搜索阶段，限制每个节点的 channel 为 16，通过标准的 SGD 优化方法和余弦退火学习率规划(SGDR) 来训练生成的结构。初始的学习率是 0.025，作者训练了 25 个 epoch。在 1080Ti 上用时约 9min

结构验证 Architecture Validation

作者将选出来的模型训练了 600 epoch，使用 bs = 96。同时，使用了 cutout 和 scheduled path dropout。除此之外，为了进一步改进训练过程，在 2/3 深度处，即第二次分辨率降低的位置上，增加了一个辅助的头分类器（head classifier）。这个分类器的 loss 使用了 0.4 的权重因子，其他超参数设置不变。

作者引入了 NASNet-A cell，AmoebaNet-A cell 和 DARTS cell 作为对比。

结果分析 Results Analysis

上图展示的是多目标优化的结果，其中不同的颜色表示不同的优化阶段结果，可以看到随着优化阶段的进行，整个种群的表现都是有所提升的。

上图展示了随着生成的进行，两个参数的变化情况，HV 的上升情况表明网络搜索到了大量的 trade-off 架构，而survival 下降表明很难找到比 parents 更好的后代。

作者说可以使用阈值限制后代存活率，用这个终止当前流程和在探索-应用之间切换的准则。

对比实验中，作者选择了错误率最低的和其他网络进行比较，这个网络的结构在 Figure2 中，增加了每个节点的 channel 数量，并且在整个 CIFAR-10 的训练集上进行训练。对比结果见下表，这里作者之和其他多目标的方法进行了对比。作者未能提供 HV 对比的结果。

上表展示了更多错误率对比结果，可以看到针对 RL 和 evolution 的方法，本文的方案都有明显的提升。但并没有超过基于梯度的方法，仅仅在错误率上有较小的提升。

问题：作者在开头提到了单一 block 重复构建的方式具有很多弊端，可是这里对于 test error，为什么 repeat 的方式比作者设计的方式效果更好？、

难道说作者设计的方式只在多目标是 work 的，只是更有利于控制计算复杂性？

macro search space 上搜索到的网络结构见 Figure2，NASNet micro search space 搜索到的网络结构为

可迁移性 Transferability

作者通过将搜索到的模型用于 CIFAR-100 数据集来验证结构的可迁移性，结果如下

这里作者对比的点主要在于参数的减少，准确率并没有明显提升。

切割分析 Ablation Studies

作者首先对比了均匀随机搜索结果，证明了搜索方案的有效性。图b 展示了有无 Crossover Operator 操作的效果。图c 展示了 Bayesian Network (BN) based Offspring Creation 的效果，对比试验在应用阶段采用均匀随机选取。

可以看出来 Crossover 的效果实际上并不大，而对比a c两图，先使用遗传算法在随机选取的结果似乎还不如直接随机选择，但第一阶段的遗传算法应该是有效的（其实作者也并未做这样的对比，但至少有先例是这样做的）。这可能是因为图c样本点较少，训练不完全的原因，或者是后期的随机生成破坏了遗传算法的有效性。

讨论

通过减少高分辨率背景下的运算来降低运算复杂度（如 Figure2，靠近输入的 phase 中的 node 少）
单一 block 重复多次的构建方式中，复杂度的控制只能通过 block 的重复次数来控制

结论 Conclusion

NSGA-Net 具有以下优势

可以有效地控制复杂度并进行权衡
基于种群的算法比目标之间线性加权组合的优化方式更加有效
更有效地探索阶段和应用阶段的设计，使用 crossover 框架并通过 BOA 利用了整个搜索历史
能够一次性输出一个网络集合，能够适应多种目标场景

整体来看：

作者在使用遗传算法的基础上，引入了交叉机制，但我认为从结果上来说不能作为一个强有力的优化点

作者立足于多目标的 NAS ，希望能够尽力权衡复杂性和准确度，这在之前的工作来说是有的，作者在这方面的对比不够完全（一份强调 trade-off 的工作就应该证明自己在限制下结果更优，而对比中更多的关注点在准确率而非 trade-off 本身）

对于多目标如何综合影响网络搜索过程讲述的不是很详细

贝叶斯推理部分的引入应该是比较关键的一点，作者描述这个可以考虑到全局的搜索历史

还有一个关键点在于作者打破了重复 block 的限制，同时增加了整个 block 跳过链接结构的考虑。（这一点关键在于node之间共享参数的解决）问题是在对比中作者又使用了重复 block 的方式而且结果更优（?）。但无论如何，采用 block 应该只是降低训练复杂性的一种折中方式，创造更大的搜索空间应该是能够带来更好地结果的。

论文笔记-Contrastive Learning for Unpaired Image-to-Image Translation kingsleyluoxin 计算机视觉论文笔记深度学习 python 计算机视觉机器学习人工智能深度学习
论文信息标题：ContrastiveLearningforUnpairedImage-to-ImageTranslation作者：TaesungPark,AlexeiA.Efros,RichardZhang,Jun-YanZhu机构：UniversityofCalifornia,Berkeley;AdobeResearch代码链接https://github.com/taesungp/contra
论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring 爱学习的小菜鸡论文笔记去模糊图像处理神经网络
这是一篇CVPR2020的去模糊论文，主要是通过传统与深度相结合，将迭代次数变成神经网络的层数，使网络结构的网络结构更加具有解释性。主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法(generalizedTV-regularizeda
A survey on instance segmentation: state of the art——论文笔记栀子清茶 1024程序员节论文阅读计算机视觉人工智能笔记学习
摘要这篇论文综述了实例分割的研究进展，定义其为同时解决对象检测和语义分割的问题。论文讨论了实例分割的背景、面临的挑战、技术演变、常用数据集，并总结了相关领域的最新成果和未来研究方向。实例分割的发展从粗略的对象分类逐步演变为更精细的像素级别推理，广泛应用于自动驾驶、机器人等领域。论文为研究人员提供了对实例分割领域的全面了解和有价值的参考。一、简介第一部分“简介”主要介绍了实例分割的背景、定义和挑战。
AIGC视频生成模型：ByteDance的PixelDance模型好评笔记 AIGC 音视频机器学习人工智能深度学习计算机视觉 transformer
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍ByteDance的视频生成模型PixelDance，论文于2023年11月发布，模型上线于2024年9月，同时期上线的模型还有Seaweed（论文未发布）。热门专栏机器学习机器学习笔记合集深度学习深度学习笔记合集优质专栏回顾：机器学习笔记深度学习笔记多模态论文笔记AIGC—图像文章目录热门专栏机器学习深度学习
LLM论文笔记 20: How to think step-by-step: A mechanistic understanding of chain-of-thought reasoning Zhouqi_Hua 大模型论文阅读人工智能 chatgpt 论文阅读机器学习深度学习语言模型
Arxiv日期：2024.5.16机构：IIT关键词CoT本质LLM推理本质核心结论1.CoT推理的功能组件尽管不同阶段的推理任务具有不同的推理需求，模型内部的功能组件几乎是相同的（共享而非独享）不同的神经算法实际上是由类似归纳头（inductionheads）等机制组合而成2.注意力机制中的信息流动attentionheads在不同的模型层之间传递信息，特别是当它们涉及到本体论相关（ontolo
[论文笔记] LLaMA3.1与Qwen2与Apple 技术报告中预训练方案对比心心喵论文笔记论文阅读深度学习人工智能
https://arxiv.org/pdf/2407.21075https://arxiv.org/pdf/2407.10671https://arxiv.org/pdf/2407.21783LLaMA3.1LLaMA3.1技术报告：https://ai.meta.com/blog/meta-llama-3-1/
LLM时代的小模型思考：《What is the Role of Small Models in the LLM Era: A Survey》论文笔记 FrancisQiu learning nlp paper reading 论文阅读
论文：WhatistheRoleofSmallModelsintheLLMEra:ASurvey作者：LihuChenetal.单位：ImperialCollegeLondonAbstract问题：扩大模型大小会导致计算成本和能耗呈指数级增长，这使得这些模型对于学术研究人员和资源有限的企业来说不切实际小型模型（SMs）经常用于实际环境中，引发了关于小模型在LLM时代的作用的重要问题，且关注有限方法
【论文笔记】3DGS压缩相关工作2篇 AndrewHZ 深度学习新浪潮论文阅读 3DGS 计算机图形学算法三维高斯飞溅压缩方法
1.背景介绍：NVS神经辐射场（NeRFs）引入了一种基于多层感知机（MLP）的新型隐式场景表示方法，它将体密度编码作为几何形状和方向辐射的代理量。渲染通过光线行进的方式来执行。这一解决方案为新视图合成（NVS）带来了前所未有的视觉质量，但代价是训练多层感知机的优化过程极为耗时，且渲染速度很慢。有几种方法加速了训练和渲染过程，通常是利用空间数据结构或者像哈希这样的编码方式，不过牺牲了视觉质量。近期
[论文笔记] LLM大模型剪枝篇——2、剪枝总体方案心心喵论文笔记剪枝算法机器学习
https://github.com/sramshetty/ShortGPT/tree/mainMy剪枝方案（暂定）：剪枝目标：1.5B—>100～600M剪枝方法：层粒度剪枝1、基于BI分数选择P%的冗余层，P=60~802、对前N%冗余层，直接删除fulllayer。N=20（N：剪枝崩溃临界点，LLaMA2在45%，Mistral-7B在35%，Qwen在20%，Phi-2在25%）对后(P
Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记 Im Bug 3d 论文阅读
Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对
论文笔记（七十二）Reward Centering（一）墨绿色的摆渡人文章论文阅读
RewardCentering（一）文章概括摘要1奖励中心化理论文章概括引用：@article{naik2024reward,title={RewardCentering},author={Naik,AbhishekandWan,YiandTomar,MananandSutton,RichardS},journal={arXivpreprintarXiv:2405.09999},year={202
论文笔记：Enhancing Sentence Embeddings in Generative Language Models UQI-LIUWJ 论文阅读语言模型人工智能
2024ICIC1INTRO对于文本嵌入，过去几年的相关研究主要集中在像BERT和RoBERTa这样的判别模型上。这些模型固有的语义空间各向异性，往往需要通过大量数据集进行微调，才能生成高质量的句子嵌入。——>需要较大的训练批次，这会消耗大量的计算资源一些前沿的工作将焦点转向了最近开发的生成模型，期望利用其先进的文本理解能力，直接对输入句子进行编码，而无需额外的反向传播由于句子表示和自回归语言建模
LLM论文笔记 15: Transformers Can Achieve Length Generalization But Not Robustly Zhouqi_Hua 大模型论文阅读论文阅读语言模型自然语言处理深度学习笔记
Arxiv日期：2024.2.14机构：GoogleDeepMind/UniversityofToronto关键词长度泛化位置编码数据格式核心结论1.实验结论：十进制加法任务上的长度泛化最佳组合：FIRE位置编码随机化位置编码反向数据格式索引提示（indexhints，辅助定位）2.在适当的配置下，Transformer模型可以泛化到训练序列长度的2.5倍（例如从40位加法训练成功泛化到100位加
多模态论文笔记——DiT（Diffusion Transformer）好评笔记多模态论文笔记深度学习 transformer DiT 人工智能机器学习 aigc stable diffusion
大家好，这里是好评笔记，公主号：Goodnote，专栏文章私信限时Free。本文详细介绍Transformer架构图像生成方面的应用，将Diffusion和Transformer结合起来的模型：DiT。目前DiT已经成为了AIGC时代的新宠儿，视频和图像生成不可缺少的一部分。文章目录论文定义架构与传统(U-Net)扩散模型区别架构噪声调度策略与传统扩散的相同输入图像/条件信息的Patch化（Pat
LLM论文笔记 14: The Impact of Positional Encoding on Length Generalization in Transformers Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2023.12.15机构：McGillUniversity/IBM/Facebook/ServiceNow关键词长度泛化位置编码CoT核心结论1.decoder-only中不显式使用位置编码（NoPE）可以提高长度泛化性能2.（证明了）decoder-onlytransformer如果NoPE同时具备绝对APE和RPE的能力3.暂存器（cot）对于长度泛化和任务相关，同时关注短期和
LLM论文笔记 9: Neural Networks and the Chomsky Hierarchy Zhouqi_Hua 大模型论文阅读论文阅读人工智能深度学习笔记语言模型
Arxiv日期：2022.9.29机构：GoogleDeepMind/Stanford关键词transformer架构原理乔姆斯基体系长度泛化核心结论1.虽然Transformer理论上具有图灵完备性，但在实践中能力受到位置不变性和有限记忆的限制2.Transformer在一些任务中表现较差，例如正则语言任务（如ParityCheck），表明其与Chomsky层级的对齐性不佳3.Transform
[论文笔记] Cost-Effective Hyperparameter Optimization for Large Language Model Generation 大型语言模型生成推理超参优化心心喵论文笔记论文阅读语言模型人工智能
成本效益高的大型语言模型生成推理的超参数优化https://openreview.net/pdf?id=DoGmh8A39OChiWang1,SusanXueqingLiu2,AhmedH.Awadallah11微软研究院，雷德蒙德2史蒂文斯理工学院摘要大型语言模型（LLMs）因其生成能力引发了广泛关注，催生了各种商业应用。使用这些模型的高成本驱使应用构建者在有限的推理预算下最大化生成的价值。本文
【deepseek】论文笔记--DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning 大表哥汽车人人工智能大语言模型学习笔记论文阅读人工智能 deepseek
DeepSeek-R1论文解析1.论文基本信息标题：DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning作者：DeepSeek-AI团队（联系邮箱：[email protected]）发表时间与出处：2024年，AIME2024（人工智能与数学教育国际会议）关键词：ReinforcementLe
论文笔记《基于深度学习模型的药物-靶标结合亲和力预测》 I_dyllic 深度学习论文阅读深度学习人工智能
基于深度学习模型的药物-靶标结合亲和力预测这是一篇二区的文章，算是一个综述，记录一下在阅读过程中遇到的问题。文章目录基于深度学习模型的药物-靶标结合亲和力预测前言一、蛋白质接触图谱二、为什么蛋白质图谱的准确性对DTA模型预测结果没有影响1.对这段话的解释2.关于Alphafold3三、随机配体与随机配体节点属性（配体一般指药物）1.什么是随机配体与配体节点属性四、关于深度学习模型对特征的自动学习过
TC-LLaVA论文笔记 0yumiwawa0 计算机视觉论文阅读
RoPE介绍理解LLM位置编码:RoPE|LinsightMotivation在基于视频的multimodallargelanguagemodel中，更好地利用视频提供的时序信息。MethodTemporal-AwareDualRoPE之前的RoPE公式：A(qTm,kFnVz)=Re[qTmkFnVzei(P(Tm)−P(FnVz))θ]A_{(q_{T_m},k_{F_nV_z})}=Re[q
CNN-day5-经典神经网络LeNets5 谢眠深度学习深度学习计算机视觉人工智能
经典神经网络-LeNets51998年YannLeCun等提出的第一个用于手写数字识别问题并产生实际商业（邮政行业）价值的卷积神经网络参考：论文笔记：Gradient-BasedLearningAppliedtoDocumentRecognition-CSDN博客1网络模型结构整体结构解读：输入图像：32×32×1三个卷积层：C1：输入图片32×32，6个5×5卷积核，输出特征图大小28×28（3
[论文笔记] llama3.2 蒸馏心心喵论文笔记论文阅读
参考链接：LLaMA3.2技术报告：GitHub-meta-llama/llama-stack:ModelcomponentsoftheLlamaStackAPIs[2407.21783]TheLlama3HerdofModelshttps://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices/HuggingFac
[论文笔记] Deepseek技术报告心心喵论文笔记论文阅读人工智能
1.总体概述背景与目标报告聚焦于利用强化学习（RL）提升大型语言模型（LLMs）的推理能力，旨在探索在不依赖大规模监督微调（SFT）的情况下，模型如何自我进化并形成强大的推理能力。介绍了两代模型：DeepSeek-R1-Zero（纯RL，无SFT冷启动数据）和DeepSeek-R1（在RL前加入少量冷启动数据和多阶段训练流程，提升可读性及推理表现）。核心思路直接在基础模型上应用大规模强化学习，利用
【论文笔记】基于图神经网络的多视角视觉重定位 GRNet CVPR 2020 论文笔记 phy12321 相机重定位
GRNet:LearningMulti-viewCameraRelocalizationwithGraphNeuralNetworks驭势科技,北京大学机器感知重点实验室,北京长城航空测控技术研究所本文提出了一种使用多视角图像进行相机重定位的图神经网络。该网络可以使得不连续帧之间进行信息传递，相比于只能在相邻前后帧之间进行信息传递的序列输入和LTSM，其能捕获更多视角信息以进行重定位。因此LSTM
论文笔记（七十）DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning（二）墨绿色的摆渡人文章论文阅读
DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning（二）文章概括摘要：2.方法2.3.DeepSeek-R1：冷启动强化学习2.3.1.冷启动2.3.2.面向推理的强化学习2.3.3.拒绝采样与监督微调2.3.4.面向所有场景的强化学习2.4.蒸馏：赋予小模型推理能力文章概括引用：@article{g
[论文总结] 深度学习在农业领域应用论文笔记14 落痕的寒假论文总结深度学习论文阅读人工智能
当下，深度学习在农业领域的研究热度持续攀升，相关论文发表量呈现出迅猛增长的态势。但繁荣背后，质量却不尽人意。相当一部分论文内容空洞无物，缺乏能够落地转化的实际价值，“凑数”的痕迹十分明显。在农业信息化领域的顶刊《ComputersandElectronicsinAgriculture》中也大面积存在。众多论文在研究方法上存在严重缺陷，过于简单粗放。只是机械地把深度学习方法生硬地套用到特定农业问题中
[论文笔记] llama-factory 微调qwen2.5、llama3踩坑心心喵论文笔记深度学习人工智能
一、bug1、pre-tokenize的时候,会OOM解决：在yaml文件中添加streaming参数#tokenizestreaming:Truemax_steps:10000https://github.com/hiyouga/LLaMA-Factory/blob/3a023bca2a502810a436cfba7708df164754ea62/src/llamafactory/hparams
[论文笔记] Megatron: mistral sliding window（ImportError: /workspace/venv/lib/python3.10/site-packag报错解决）心心喵论文笔记论文阅读
pyTorch—TransformerEngine1.2.1documentation论文：https://arxiv.org/pdf/2310.06825.pdftransformerengine的slidingwindow是用了flashatttention（新版本2以上，这里用的最新版本2.5.2）里对sliding_window的实现。所以不需要用transformerengine。直接用
[论文笔记]自监督sketch-to-image生成：Self-Supervised Sketch-to-Image Synthesis 沉迷单车的追风少年深度学习-计算机视觉 sketch 深度学习计算机视觉
前言：2020年顶会同时出现了两篇很有意思的论文《Self-SupervisedSketch-to-ImageSynthesis》和《UnsupervisedSketch-to-PhotoSynthesis》，分别用自监督和无监督的方法做sketch-to-image生成，可以说是GANs在这一任务中表现的巅峰。目录主要贡献主要工作域转换模型TOMPS：边缘图、铅笔画图、草图sketch之间的区别
【论文笔记】：DuBox: No-Prior Box Objection Detection via Residual Dual Scale Detectors Activewaste #Anchor-free #特征层面 #小目标检测 DuBox anchor-free
&Title:DuBox:No-PriorBoxObjectionDetectionviaResidualDualScaleDetectorsGithubaddrNone&Summary介绍了一种新的一阶段检测方法Dubox，它可以在没有先验框的情况下检测物体。设计的双尺度残差单元具有多尺度特性，使双尺度检测器不再独立运行。高层检测器学习低层检测器的残差。Dubox增强了启发式引导的能力，进一步使
戴尔笔记本win8系统改装win7系统 sophia天雪 win7 戴尔改装系统 win8
戴尔win8 系统改装win7 系统详述第一步：使用U盘制作虚拟光驱： 1）下载安装UltraISO：注册码可以在网上搜索。 2）启动UltraISO，点击“文件”—》“打开”按钮，打开已经准备好的ISO镜像文
BeanUtils.copyProperties使用笔记 bylijinnan java
BeanUtils.copyProperties VS PropertyUtils.copyProperties 两者最大的区别是： BeanUtils.copyProperties会进行类型转换，而PropertyUtils.copyProperties不会。既然进行了类型转换，那BeanUtils.copyProperties的速度比不上PropertyUtils.copyProp
MyEclipse中文乱码问题 0624chenhong MyEclipse
一、设置新建常见文件的默认编码格式，也就是文件保存的格式。在不对MyEclipse进行设置的时候，默认保存文件的编码，一般跟简体中文操作系统（如windows2000，windowsXP）的编码一致，即GBK。在简体中文系统下，ANSI 编码代表 GBK编码;在日文操作系统下，ANSI 编码代表 JIS 编码。 Window-->Preferences-->General -
发送邮件不懂事的小屁孩 send email
import org.apache.commons.mail.EmailAttachment; import org.apache.commons.mail.EmailException; import org.apache.commons.mail.HtmlEmail; import org.apache.commons.mail.MultiPartEmail;
动画合集换个号韩国红果果 html css
动画指一种样式变为另一种样式 keyframes应当始终定义0 100 过程 1 transition 制作鼠标滑过图片时的放大效果 css .wrap{ width: 340px;height: 340px; position: absolute; top: 30%; left: 20%; overflow: hidden; bor
网络最常见的攻击方式竟然是SQL注入蓝儿唯美 sql注入
NTT研究表明，尽管SQL注入（SQLi）型攻击记录详尽且为人熟知，但目前网络应用程序仍然是SQLi攻击的重灾区。信息安全和风险管理公司NTTCom Security发布的《2015全球智能威胁风险报告》表明，目前黑客攻击网络应用程序方式中最流行的，要数SQLi攻击。报告对去年发生的60亿攻击行为进行分析，指出SQLi攻击是最常见的网络应用程序攻击方式。全球网络应用程序攻击中，SQLi攻击占
java笔记2 a-john java
类的封装： 1，java中，对象就是一个封装体。封装是把对象的属性和服务结合成一个独立的的单位。并尽可能隐藏对象的内部细节（尤其是私有数据） 2，目的：使对象以外的部分不能随意存取对象的内部数据（如属性），从而使软件错误能够局部化，减少差错和排错的难度。 3，简单来说，“隐藏属性、方法或实现细节的过程”称为——封装。 4，封装的特性： 4.1设置
[Andengine]Error：can't creat bitmap form path “gfx/xxx.xxx” aijuans 学习Android遇到的错误
最开始遇到这个错误是很早以前了，以前也没注意，只当是一个不理解的bug，因为所有的texture，textureregion都没有问题，但是就是提示错误。昨天和美工要图片，本来是要背景透明的png格式，可是她却给了我一个jpg的。说明了之后她说没法改，因为没有png这个保存选项。我就看了一下，和她要了psd的文件，还好我有一点
自己写的一个繁体到简体的转换程序 asialee java 转换繁体 filter 简体
今天调研一个任务，基于java的filter实现繁体到简体的转换，于是写了一个demo，给各位博友奉上，欢迎批评指正。实现的思路是重载request的调取参数的几个方法，然后做下转换。
android意图和意图监听器技术百合不是茶 android 显示意图隐式意图意图监听器
Intent是在activity之间传递数据;Intent的传递分为显示传递和隐式传递显式意图：调用Intent.setComponent() 或 Intent.setClassName() 或 Intent.setClass()方法明确指定了组件名的Intent为显式意图，显式意图明确指定了Intent应该传递给哪个组件。隐式意图;不指明调用的名称,根据设
spring3中新增的@value注解 bijian1013 java spring @Value
在spring 3.0中，可以通过使用@value，对一些如xxx.properties文件中的文件，进行键值对的注入，例子如下： 1.首先在applicationContext.xml中加入： <beans xmlns="http://www.springframework.
Jboss启用CXF日志 sunjing log jboss CXF
1. 在standalone.xml配置文件中添加system-properties： <system-properties> <property name="org.apache.cxf.logging.enabled" value=&
【Hadoop三】Centos7_x86_64部署Hadoop集群之编译Hadoop源代码 bit1129 centos
编译必需的软件 Firebugs3.0.0 Maven3.2.3 Ant JDK1.7.0_67 protobuf-2.5.0 Hadoop 2.5.2源码包 Firebugs3.0.0 http://sourceforge.jp/projects/sfnet_findbug
struts2验证框架的使用和扩展白糖_ 框架 xml bean struts 正则表达式
struts2能够对前台提交的表单数据进行输入有效性校验，通常有两种方式： 1、在Action类中通过validatexx方法验证，这种方式很简单，在此不再赘述； 2、通过编写xx-validation.xml文件执行表单验证，当用户提交表单请求后，struts会优先执行xml文件，如果校验不通过是不会让请求访问指定action的。本文介绍一下struts2通过xml文件进行校验的方法并说
记录-感悟 braveCS 感悟
再翻翻以前写的感悟，有时会发现自己很幼稚，也会让自己找回初心。 2015-1-11 1. 能在工作之余学习感兴趣的东西已经很幸福了； 2. 要改变自己，不能这样一直在原来区域，要突破安全区舒适区，才能提高自己，往好的方面发展； 3. 多反省多思考；要会用工具，而不是变成工具的奴隶； 4. 一天内集中一个定长时间段看最新资讯和偏流式博
编程之美-数组中最长递增子序列 bylijinnan 编程之美
import java.util.Arrays; import java.util.Random; public class LongestAccendingSubSequence { /** * 编程之美数组中最长递增子序列 * 书上的解法容易理解 * 另一方法书上没有提到的是，可以将数组排序（由小到大）得到新的数组， * 然后求排序后的数组与原数
读书笔记5 chengxuyuancsdn 重复提交 struts2的token验证
1、重复提交 2、struts2的token验证 3、用response返回xml时的注意 1、重复提交 (1)应用场景 (1-1)点击提交按钮两次。 (1-2)使用浏览器后退按钮重复之前的操作，导致重复提交表单。 (1-3)刷新页面 (1-4)使用浏览器历史记录重复提交表单。 (1-5)浏览器重复的 HTTP 请求。 (2)解决方法 (2-1)禁掉提交按钮 (2-2)
[时空与探索]全球联合进行第二次费城实验的可能性 comsci
二次世界大战前后,由爱因斯坦参加的一次在海军舰艇上进行的物理学实验 -费城实验至今给我们大家留下很多迷团..... 关于费城实验的详细过程,大家可以在网络上搜索一下,我这里就不详细描述了在这里,我的意思是,现在
easy connect 之 ORA-12154: TNS: 无法解析指定的连接标识符 daizj oracle ORA-12154
用easy connect连接出现“tns无法解析指定的连接标示符”的错误，如下： C:\Users\Administrator>sqlplus username/[email protected]:1521/orcl SQL*Plus: Release 10.2.0.1.0 – Production on 星期一 5月 21 18:16:20 2012 Copyright (c) 198
简单排序:归并排序 dieslrae 归并排序
public void mergeSort(int[] array){ int temp = array.length/2; if(temp == 0){ return; } int[] a = new int[temp]; int
C语言中字符串的\0和空格 dcj3sjt126com c
\0 为字符串结束符，比如说： abcd (空格)cdefg；存入数组时，空格作为一个字符占有一个字节的空间，我们
解决Composer国内速度慢的办法 dcj3sjt126com Composer
用法：有两种方式启用本镜像服务： 1 将以下配置信息添加到 Composer 的配置文件 config.json 中（系统全局配置）。见“例1” 2 将以下配置信息添加到你的项目的 composer.json 文件中（针对单个项目配置）。见“例2” 为了避免安装包的时候都要执行两次查询，切记要添加禁用 packagist 的设置，如下 1 2 3 4 5
高效可伸缩的结果缓存 shuizhaosi888 高效可伸缩的结果缓存
/** * 要执行的算法，返回结果v */ public interface Computable<A, V> { public V comput(final A arg); } /** * 用于缓存数据 */ public class Memoizer<A, V> implements Computable<A,
三点定位的算法 haoningabc c 算法
三点定位，已知a,b,c三个顶点的x,y坐标和三个点都z坐标的距离，la，lb,lc 求z点的坐标原理就是围绕a,b,c 三个点画圆，三个圆焦点的部分就是所求但是，由于三个点的距离可能不准，不一定会有结果，所以是三个圆环的焦点，环的宽度开始为0，没有取到则加1 运行 gcc -lm test.c test.c代码如下 #include "stdi
epoll使用详解 jimmee c linux 服务端编程 epoll
epoll - I/O event notification facility在linux的网络编程中，很长的时间都在使用select来做事件触发。在linux新的内核中，有了一种替换它的机制，就是epoll。相比于select，epoll最大的好处在于它不会随着监听fd数目的增长而降低效率。因为在内核中的select实现中，它是采用轮询来处理的，轮询的fd数目越多，自然耗时越多。并且，在linu
Hibernate对Enum的映射的基本使用方法 linzx0212 enum Hibernate
枚举 /** * 性别枚举 */ public enum Gender { MALE(0), FEMALE(1), OTHER(2); private Gender(int i) { this.i = i; } private int i; public int getI
第10章高级事件（下） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
孙子兵法 roadrunners 孙子兵法
始计第一孙子曰：兵者，国之大事，死生之地，存亡之道，不可不察也。故经之以五事，校之以计，而索其情：一曰道，二曰天，三曰地，四曰将，五曰法。道者，令民于上同意，可与之死，可与之生，而不危也；天者，阴阳、寒暑、时制也；地者，远近、险易、广狭、死生也；将者，智、信、仁、勇、严也；法者，曲制、官道、主用也。凡此五者，将莫不闻，知之者胜，不知之者不胜。故校之以计，而索其情，曰
MySQL双向复制 tomcat_oracle mysql
本文包括: 主机配置从机配置建立主-从复制建立双向复制背景按照以下简单的步骤: 参考一下：在机器A配置主机(192.168.1.30) 在机器B配置从机(192.168.1.29) 我们可以使用下面的步骤来实现这一点步骤1：机器A设置主机在主机中打开配置文件 ,
zoj 3822 Domination(dp) 阿尔萨斯 Mina
题目链接：zoj 3822 Domination 题目大意：给定一个N∗M的棋盘，每次任选一个位置放置一枚棋子，直到每行每列上都至少有一枚棋子，问放置棋子个数的期望。解题思路：大白书上概率那一张有一道类似的题目，但是因为时间比较久了，还是稍微想了一下。dp[i][j][k]表示i行j列上均有至少一枚棋子，并且消耗k步的概率（k≤i∗j）,因为放置在i+1~n上等价与放在i+1行上，同理