Melody1211

MADDPG: Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments笔记

1. 论文讲了什么

在这篇文章中通过基于所有代理的观测和动作学习一个集中的critic，指导每个代理的actor进行更新的方式，将DDPG方法推广到了多代理强化学习环境中得到了MADDPG算法。主要创新点有（1）将其它代理的观测信息和决策信息用于集中critic的更新，使代理能够根据价值函数学习到合作或竞争策略，（2）通过最大似然估计的方法，近似其它代理的策略，从而可以在更新集中价值函数的过程中不需要再假设已知其它代理的策略。（3）通过采用策略集合优化的方法，每个代理优化一个策略集合，使代理在面对竞争代理策略改变时具有鲁棒性。

2. 论文摘要：

We explore deep reinforcement learning methods for multi-agent domains. We begin by analyzing the difficulty of traditional algorithms in the multi-agent case: Q-learning is challenged by an inherent non-stationarity of the environment, while policy gradient suffers from a variance that increases as the number of agents grows. We then present an adaptation of actor-critic methods that considers action policies of other agents and is able to successfully learn policies that require complex multiagent coordination. Additionally, we introduce a training regimen utilizing an ensemble of policies for each agent that leads to more robust multi-agent policies. We show the strength of our approach compared to existing methods in cooperative as well as competitive scenarios, where agent populations are able to discover various physical and informational coordination strategies.

我们探索了深度强化学习在多代理领域的应用。我们首先分析了在多代理问题中传统算法的问题：Q-learning需要面对一个不稳定的环境，策略梯度方法会随着代理数量的增多方差会变大。我们展示了actor-critic方法的改进算法，使算法考虑到其它代理的动作。在需要代理间复杂协作的问题中，算法具有很好的表现。除此之外，我们介绍了每个代理使用全部代理的策略进行训练的方法，这提高了多代理策略的鲁棒性。我们通过与已有算法在协作和竞争场景下的比较展示了我们算法的优势——多代理能够发现多种物理和信息协作策略。

3. 论文主要观点：

3.1 背景：

传统RL算法面临的一个主要问题是由于每个智能体都是在不断学习改进其策略，因此从每一个智能体的角度看，环境是一个动态不稳定的，这不符合传统RL收敛条件。并且在一定程度上，无法通过仅仅改变智能体自身的策略来适应动态不稳定的环境。由于环境的不稳定，将无法直接使用之前的经验回放等DQN的关键技巧。策略梯度算法会由于智能体数量的变多使得本就有的方差大的问题加剧。除此之外，还可以使用基于模型的策略优化方法，这个方法可以通过反向传播的方法学习到最优策略，但是需要知道环境的可微分动态模型以及代理之间的交互假设。从优化的视角看，应为对抗训练方法的不稳定性，将这些方法用于竞争环境也是非常具有挑战性的。

本文的方法与《Counterfactual multi-agent policy gradients》的方法相似。但本文的方法在四方面与之不同：（1）后者为每个代理学习了一个集中的critic，本文为每个代理集中学习了一个代理，使代理能够使用不同的奖励函数包括竞争场景，（2）本文考虑代理之间具有显式通信的环境，（3）后者将循环策略和前馈critic结合，本文使用的是前馈策略（也可以使用循环策略），（4）本文学习的是连续策略，后者学习的离散策略。

本文的算法具有以下三点特征：（1）通过学习得到的最优策略，在应用时只利用局部信息就能给出最优动作。（2）不需要知道环境的动力学模型以及特殊的通信需求。（3）该算法不仅能用于合作环境，也能用于竞争环境。

算法采用了集中培训和分散执行的框架，允许策略使用额外的信息来简化训练，在测试的时候不使用这些信息。如果不对环境的结构做额外的假设，Q-learning无法实现这一点，因为Q函数在训练和测试时通常不能包含不同的信息。因此，本文的算法是基于actor-critic策略梯度方法扩展得到的，critic通过使用与其它代理测率相关的信息来获得增强，actor的输入为代理的本地信息。完全集中训练的方式不再需要开发代理间离散的通信协议。

3.2 问题：

完全集中和完全分散的方式都会面临各种在实际应用中的问题。

目前的工作主要集中在学习代理间协同通信协议来解决各种任务。但是这些方法通过需要在代理之间的通信能够在一个专用的、可微的通信信道中完成。

策略梯度的方法用在多代理学习中会增大本来就很大的方差。通过减去基线（状态价值函数）来减小方差的方法在多代理环境中也会出现问题，因为代理面对的环境是一个不稳定的环境。

3.3 方法：

多代理深度确定性策略梯度（multi-agent deep deterministic policy gradient, MADDPG）算法所应用的环境具有的特点有：（1）所学习的策略在执行期间只能使用本地信息（如它们自己的观测），（2）不假设环境的动态模型是可微的，（3）不假设代理间的通信架构（换而言之，不假设通信信道可微）。满足上述需求将能够实现一种通用的多代理学习算法，不仅可以应用于具有明确通信信道的合作游戏，还可以应用于竞争游戏和只涉及代理间物理交互的游戏。

MADDPG算法使用的集中训练、分散决策的框架。这使得代理能够在训练期间使用额外的信息来简化训练。而这种方式无法用于Q-leanring中，因为在Q-learning中训练和执行的输入不能包含不同的信息。因此本文在actor-critic方法上进行扩展，使critic能够使用与其它代理策略相关的额外信息来获得加强。

代理数量为 $N$ ，代理策略的参数为 $\theta=\left\{\theta_{1}, \ldots, \theta_{N}\right\}$ ， $\pi=\left\{\pi_{1}, \ldots, \pi_{N}\right\}$ 为所有代理的策略。代理 $i$ 期望回报的梯度 $J\left(\theta_{i}\right)=\mathbb{E}\left[R_{i}\right]$ 为：
$\nabla_{\theta_{i}} J\left(\theta_{i}\right)=\mathbb{E}_{s \sim p^{\mu}, a_{i} \sim \pi_{i}}\left[\nabla_{\theta_{i}} \log \pi_{i}\left(a_{i} | o_{i}\right) Q_{i}^{\pi}\left(\mathbf{x}, a_{1}, \ldots, a_{N}\right)\right](1)$
$Q_{i}^{\pi}\left(\mathrm{x}, a_{1}, \ldots, a_{N}\right)$ 为以所有代理动作 $a_{1}, \ldots, a_{N}$ 和状态信息 $\mathbf{x}$ 为输入的集中动作价值函数，输出为代理 $i$ 的Q值。 $x$ 可以包括所有代理的观测 $x=\left(o_{1}, \ldots, o_{N}\right)$ ，如果能够获得附加状态信息，可以加入附加的状态信息。因为每一个 $Q_{i}^{\pi}$ 是单独学习的，所有每个代理都可以有不同的奖励函数，可以在竞争环境中使用冲突奖励函数。

我们可以把以上方法扩展到确定策略中。如果我们考虑 $N$ 个连续策略 $\mu_{\theta_{i}}$ 参数为 $\theta_{i}$ (简记为 $\mu_{i}$ )，梯度为：
$\nabla_{\theta_{i}} J\left(\boldsymbol{\mu}_{i}\right)=\mathbb{E}_{\mathbf{x}, a \sim \mathcal{D}}\left[\left.\nabla_{\theta_{i}} \boldsymbol{\mu}_{i}\left(a_{i} | o_{i}\right) \nabla_{a_{i}} Q_{i}^{\boldsymbol{\mu}}\left(\mathbf{x}, a_{1}, \ldots, a_{N}\right)\right|_{a_{i}=\boldsymbol{\mu}_{i}\left(o_{i}\right)}\right](2)$
回放内存 $\mathcal{D}$ 中包含 $\left(\mathrm{x}, \mathrm{x}^{\prime}, a_{1}, \ldots, a_{N}, r_{1}, \ldots, r_{N}\right)$ 即所有代理的经验。集中价值函数 $Q_{i}^{\mu}$ 通过下式更新：
$\mathcal{L}\left(\theta_{i}\right)=\mathbb{E}_{\mathbf{x}, a, r, \mathbf{x}^{\prime}}\left[\left(Q_{i}^{\mu}\left(\mathbf{x}, a_{1}, \ldots, a_{N}\right)-y\right)^{2}\right], \quad y=r_{i}+\left.\gamma Q_{i}^{\mu^{\prime}}\left(\mathbf{x}^{\prime}, a_{1}^{\prime}, \ldots, a_{N}^{\prime}\right)\right|_{a_{j}^{\prime}=\boldsymbol{\mu}_{j}^{\prime}\left(o_{j}\right)}(3)$
$\mu^{\prime}=\left\{\mu_{\theta^{\prime}}, \ldots, \mu_{\theta^{\prime}}\right\}$ 为一组目标策略的延迟参数 $\theta_{i}^{\prime}$ 。

MADDPG的初始动机在于，如果我知道所有代理的动作，那么即使策略在改变环境也是稳定的。因为对于任何 $\pi_{i} \neq \pi_{i}^{\prime}$ 来说： $P\left(s^{\prime} | s, a_{1}, \ldots, a_{N}, \pi_{1}, \ldots, \pi_{N}\right)=P\left(s^{\prime} | s, a_{1}, \ldots, a_{N}\right)=P\left(s^{\prime} | s, a_{1}, \ldots, a_{N}, \pi_{1}^{\prime}, \ldots, \pi_{N}^{\prime}\right)$ ，这个性质是因为在算法中考虑了其它代理的动作。

下面介绍MADDPG的两个特点。

近似其它代理的策略

为了使集中价值函数(3)更新的过程中不需要再假设知道其它代理的策略，每个代理 $i$ 可以维护一个代理 $\boldsymbol{\mu}_{j}$ 的近似策略 $\hat{\boldsymbol{\mu}}_{\phi_{i}^{j}}$ （ $\phi$ 是其参数，在之后记为 $\hat{\boldsymbol{\mu}}_{i}^{j}$ ），这个近似策略通过最大化代理 $j$ 动作的log概率，以及一个熵正则项：
$\mathcal{L}\left(\phi_{i}^{j}\right)=-\mathbb{E}_{o_{j}, a_{j}}\left[\log \hat{\boldsymbol{\mu}}_{i}^{j}\left(a_{j} | o_{j}\right)+\lambda H\left(\hat{\boldsymbol{\mu}}_{i}^{j}\right)\right](4)$
$H$ 是策略分布的熵。因此集中价值函数更新公式(3)中的 $y$ 可以被换为：
$\hat{y}=r_{i}+\gamma Q_{i}^{\mu^{\prime}}\left(\mathrm{x}^{\prime}, \hat{\mu}_{i}^{\prime 1}\left(o_{1}\right), \ldots, \mu_{i}^{\prime}\left(o_{i}\right), \ldots, \hat{\mu}_{i}^{\prime N}\left(o_{N}\right)\right)(5)$
$\hat{\boldsymbol{\mu}}_{i}^{\prime j}$ 为估计策略 $\hat{\boldsymbol{\mu}}_{i}^{j}$ 的目标网络。等式(4)的更新可以在线进行，在更新集中价值函数 $Q_{i}^{\mu}$ 前，我们对代理 $j$ 采取回放内存中最近的一批样本，基于样本对 $\phi_{i}^{j}$ 进行一步梯度更新。并且，每个代理的动作log概率直接输入到 $Q$ 中，不再采样。

策略集合优化

多代理强化学习所面对的一个问题是由于代理会改变策略，所以环境是不稳定的。这种情况在竞争任务下尤其严重，经常会出现一个智能体针对其竞争对手过拟合出一个强策略。但是这个强策略是非常脆弱的，因为随着竞争对手策略的更新改变，这个强策略很难去适应新的对手策略。

为了使代理在面对竞争代理策略改变时具有鲁棒性，MADDPG采用了训练一个包含 $K$ 个子策略的策略集的方法。在每个回合，MADDPG会随机选择一个策略执行。令 $\mu_{i}$ 是一个 $K$ 个不同子策略的几何，子策略 $k$ 为 $\mu_{\theta}(k)$ (表示为 $\mu_{i}^{(k)}$ )。代理 $i$ 的优化目标为： $J_{e}\left(\boldsymbol{\mu}_{i}\right)=\mathbb{E}_{k \sim \operatorname{unif}(1, K), s \sim p^{\mu}, a \sim \mu_{i}^{(k)}}\left[R_{i}(s, a)\right]$
因为在不同的回合中会有不同的策略被执行，所以MADDPG为代理 $i$ 的每一个子策略 $\mu_{i}^{(k)}$ 维护了一个回放内存 $\mathcal{D}_{i}^{(k)}$ 。对 $\theta_{i}^{(k)}$ 求梯度的结果为：
$\nabla_{\theta_{i}^{(k)}} J_{e}\left(\boldsymbol{\mu}_{i}\right)=\frac{1}{K} \mathbb{E}_{\mathbf{x}, a \sim \mathcal{D}_{i}^{(k)}}\left[\left.\nabla_{\theta_{i}^{(k)}} \boldsymbol{\mu}_{i}^{(k)}\left(a_{i} | o_{i}\right) \nabla_{a_{i}} Q^{\mu_{i}}\left(\mathbf{x}, a_{1}, \ldots, a_{N}\right)\right|_{a_{i}=\boldsymbol{\mu}_{i}^{(k)}\left(o_{i}\right)}\right](6)$

【论文阅读笔记】《CodeS: Towards Building Open-source Language Models for Text-to-SQL 》柠石榴 text2sql 论文论文阅读笔记语言模型
文章目录一、论文基本信息1.文章标题2.所属刊物/会议3.发表年份4.作者列表5.发表单位二、摘要三、解决问题四、创新点五、自己的见解和感想六、研究背景七、研究方法模型实验数据评估指标八、总结九、相关重要文献一、论文基本信息1.文章标题CodeS:TowardsBuildingOpen-sourceLanguageModelsforText-to-SQL2.所属刊物/会议未明确标注（会议缩写为“C
【论文阅读笔记】HaDes幻觉检测benchmark zsq 论文分享论文阅读笔记 NLP 大语言模型幻觉
0论文信息题目：AToken-levelReference-freeHallucinationDetectionBenchmarkforFree-formTextGeneration作者：TianyuLiu,YizheZhang,ChrisBrockett,YiMao,ZhifangSui,WeizhuChen,BillDolan会议：ACL，2022链接：https://arxiv.org/ab
论文阅读笔记—— Multi-attentional Deepfake Detection jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录Multi-attentionalDeepfakeDetection背景创新贡献方法注意图正则化的区域独立性损失注意力引导的数据增强实验Multi-attentionalDeepfakeDetection来源：CVPR2021作者：HanqingZhao1WenboZhou1,†DongdongChen2TianyiWei1WeimingZhang1,†NenghaiYu1单位：Unive
[论文阅读笔记] Learning Transferable Visual Models From Natural Language Supervision Heartache Doctor 笔记论文阅读笔记
Abstract将LLM带来的语言zero-shot能力扩展到图像领域，让图像pretrain不再局限于由数据集定义的类别，从而大幅度提升在downstream任务zero-shot的精度。文章提供了从零预训练的CLIP模型，用以训练的大数据集，以及基于对比学习的对齐方案。IntroductionNLP领域下，使用大量数据pretrain>使用高质量标注数据集。→\rightarrow→CV是否也
GLIDE论文阅读笔记与DDPM（Diffusion model）的原理推导大写-凌祁论文阅读笔记人工智能深度学习 python 机器学习计算机视觉
Abstract扩散模型（Diffusionmodel）最近被证明可以生成高质量的合成图像，尤其是当它们与某种引导技术结合使用时，可以在生成结果的多样性与保真度之间进行权衡。本文探讨了在文本条件图像生成任务中使用扩散模型，并比较了两种不同的引导策略：CLIP引导和无分类器引导。我们发现，人类评估者更倾向于使用无分类器引导方法，无论是在照片真实感还是与文本描述的匹配度方面，该方法通常都能生成具有高度
论文阅读笔记——FLOW MATCHING FOR GENERATIVE MODELING 寻丶幽风 Background 论文阅读笔记流匹配扩散模型人工智能
FlowMatching论文扩散模型：根据中心极限定理，对原始图像不断加高斯噪声，最终将原始信号破坏为近似的标准正态分布。这其中每一步都构造为条件高斯分布，形成离散的马尔科夫链。再通过逐步去噪得到原始图像。Flowmatching采取直接将已知分布（如白噪声）转换为真实数据分布来生成数据，并且Flow是基于NormalizingFlow，故而是可微双射。生成过程中变化的概率密度构成一个集合，称为概
论文阅读笔记——Step1X-Edit: A Practical Framework for General Image Editing 寻丶幽风论文阅读笔记论文阅读笔记理解生成模型多模态人工智能
Step1X-Edit论文当前图像编辑数据集规模小，质量差，由此构建了如下数据构造管线。高质量三元组数据（源图像、编辑指令、目标图像）。主体添加与移除：使用Florence-2对专有数据集标注，然后使用SAM2进行分割，再使用ObjectRemovalAlpha进行修复。编辑指令结合Step-1o和GPT-4o生成，然后人工审查有效性。主体替换与背景更改：使用Florence-2对专有数据集标注，
论文阅读笔记——Nexus-Gen: A Unified Model for Image Understanding, Generation, and Editing 寻丶幽风论文阅读笔记论文阅读笔记多模态理解生成自回归扩散模型
Nexus-Gen论文Nexus-Gen采用预测图像嵌入作为中间条件，链接自回归模型和扩散模型，通过预填充自回归避免嵌入误差传播，突破传统外界LLM因条件压缩导致信息丢失，提高理解生成模型在理解任务和生成任务上的性能表现。传统的图像生成任务往往局限于Text-to-Image场景，模型侧重于图像质量或局部内容填充。而Nexus-Gen的架构设计突破了这一范式，不仅具备高质量图像生成能力，还可以执行
论文阅读笔记——PixArt-α，PixArt-δ 寻丶幽风论文阅读笔记论文阅读笔记 T2I 扩散模型文生图
PixArt-αPixArt-α论文仅使用28400美元，28M训练数据，训练时长为SD1.5的10.8%，只有0.6B参数量，达到接近商业应用的水准。现有数据集存在的缺陷：图文匹配偏差、描述信息不完整、词汇多样性不足（长尾效应显著）、低质量数据。为了实现低成本训练，华为采用了三阶段的训练策略：第一个阶段是学习像素依赖关系，简单来说是先学习生成真实的图像，这里是用ImageNet数据集训练一个基于
《XMK-CKKS: Extended Multiple Key Homomorphic Encryption over CKKS》论文阅读笔记 stupidyccc 同态加密论文阅读笔记安全
《XMK-CKKS:ExtendedMultipleKeyHomomorphicEncryptionoverCKKS》中科院2区总结提出了xMK-CKKS,一种多密钥同态方案。客户端使用聚合公钥加密梯度，解密的时候需要所有客户端提供解密份额，协助服务器解密总和。基于FadAvg和XMK-CKKS提出一个ppfl模型。在半诚实模型下可以防止n-1个客户端和服务器的勾结。xMK-CKKS###setu
Adversarial examples based on object detection tasks: A survey》论文阅读笔记 2301_80355452 目标检测论文阅读笔记
这是一篇关于目标检测任务中对抗样本攻击的综述论文。文章介绍了深度学习在计算机中的应用，以及对抗样本攻击的相关概念和方法，其中重点讨论了目标检测任务中基于分类和回归的对抗样本攻击，并对其他相关攻击方法进行了总结，最后得出结论并展望未来研究方向。1.引言深度学习背景：深度学习在处理图像或视频数据方面具有优势，广泛应用于计算机视觉任务，但由于深度网络的复杂结构，其存在脆弱性，容易受到攻击。目标检测任务：
论文阅读笔记—— AdvFilter: Predictive Perturbation-aware Filtering against Adversarial Attack via Multi-d L jessIoss 论文阅读笔记DeepFake 论文阅读笔记
文章目录AdvFilter:PredictivePerturbation-awareFilteringagainstAdversarialAttackviaMulti-domainLearning背景贡献相关工作对抗性去噪防御对抗性训练防御其他对抗性防御方法一般图像去噪创新公式方法多域学习实验AdvFilter:PredictivePerturbation-awareFilteringagains
【论文阅读笔记】Attention Is All You Need 时光机ﾟ论文阅读笔记
论文小结这是17年的老论文了，Transformer的出处，刚发布时的应用场景是文字翻译。BLUE是机器翻译任务中常用的一个衡量标准。在此论文之前，序列翻译的主导模型是RNN或者使用编解码器结构的CNN。本文提出的Transformer结构不需要使用循环和卷积结构，是完全基于注意力机制的模型。Transformer在序列转换上具有高并行度，在两个机器翻译的任务上都得到了卓越的成果，且其训练
论文阅读笔记——MAGICDRIVE: STREET VIEW GENERATION WITH DIVERSE 3D GEOMETRY CONTROL 寻丶幽风论文阅读笔记论文阅读笔记 3d 人工智能自动驾驶
MagicDrive论文MagicDrive通过对3D数据和文本数据的多模态条件融合和隐式视角转换，实现了高质量、多视角一致的3D场景生成。几何条件编码Cross-attention：针对顺序数据，适合处理文本标记和边界框等可变长度输入。Additiveencoderbranch：对于地图等网络状规则数据，能够有效保留空间结构。对于文本按照模版构建：“Adrivingsceneat{locatio
GS-SLAM论文阅读笔记-MGSO zenpluck GS论文阅读论文阅读笔记
前言MGSO首字母缩略词是直接稀疏里程计(DSO)，我们建立的光度SLAM系统和高斯飞溅(GS)的混合。这应该是第一个前端用DSO的高斯SLAM，不知道这个系统的组合能不能打得过ORB-SLAM3，以及对DSO会做出怎么样的改进以适应高斯地图，接下来就看一下吧！GishelloG^s_ihelloGishello我是红色文章目录前言1.背景介绍2.关键内容2.1SLAMmodule2.2Dense
论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
大模型隐空间推理论文阅读笔记猴猴猪猪 AIGC python 实验记录人工智能深度学习
文章目录TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介1.1摘要1.2引言TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理，在解决
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总_大模型在代码缺陷检测领域的应用实践(1) 2401_84972910 程序员 AIGC 论文阅读笔记
欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文，还包含了24篇深度论文阅读笔记，全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向，深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时，本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
深度学习重要论文阅读笔记 ResNet （2025.2.26）北岛寒沫逐界星辰2025 计算机科研深度学习论文阅读笔记
文章目录问题背景数据预处理神经网络模型模型性能知识点积累英语单词积累问题背景随着神经网络变得更深（层数变多），模型的训练过程也会变得更加困难。当神经网络的深度增加，就会出现梯度消失和梯度下降现象，妨碍模型的收敛。不过，这种情况可以通过归一化的模型初始化和中间的归一化层基本解决。但是，尽管在增加了归一化技术的情况下很深的神经网络可以收敛，又出现了另外一个问题，即随着模型深度的增加，模型的准确率反而下
论文阅读笔记1——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习） fuhao7i 论文阅读笔记深度学习人工智能机器学习算法计算机视觉
DARTS：DifferentiableArchitectureSearch可微分架构搜索（一）DARTS：DifferentiableArchitectureSearch（一）ABSTRACT摘要1.INTRODUCTION介绍2.可微的结构搜索加油加油！如果你感觉你现在很累，那么恭喜你，你现在正在走上坡路！让我们一起加油！欢迎关注我的讲解视频，让我们一起学习：Bilibili主页：https:
【CCM-SLAM论文阅读笔记】随机取名字协同SLAM论文阅读 slam
CCM-SLAM论文阅读笔记整体框架结构如图所示：单智能体只负责采集图像数据，运行实时视觉里程计VO以估计当前位姿和环境地图，由于单智能体计算资源有限，负责生成的局部地图只包含当前N个最近的关键帧。服务器负责地图管理、地点识别、地图融合和全局BA优化。所有局部地图使用本地里程计框架，地图信息在从一个本地里程计到另一个本地里程计框架的相对坐标中进行交换。CCM-SLAM不假设任何关于智能体初始位置的
【论文阅读笔记|EMNLP2023】DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Ext Rose sait 论文阅读笔记
论文题目：DemoSG:Demonstration-enhancedSchema-guidedGenerationforLow-resourceEventExtraction论文来源：EMNLP2023论文链接：2023.findings-emnlp.121.pdf(aclanthology.org)代码链接：https://github.com/GangZhao98/DemoSG0摘要当前大多数
神经网络压缩实验-Deep-compression 无用技术研究所
首发于个人博客，结合论文阅读笔记更佳实验准备基础网络搭建为了实现神经网络的deepcompression，首先要训练一个深度神经网络，为了方便实现，这里实现一个两层卷积+两层MLP的神经网络classnet(pt.nn.Module):def__init__(self):super(net,self).__init__()self.conv1=pt.nn.Conv2d(in_channels=1,
论文阅读笔记（9）——《A Practical Survey on Faster and Lighter Transformers》 StriveQueen 自然语言处理机器学习论文阅读笔记算法神经网络机器学习 Transformer
1Abstract2Introductionrecurrentneuralnetworks(RNNs)longshort-termmemory(LSTM)networksequencetosequenceframeworkinter-attentionrelativeeffectivecontextlength(RECL)Transformer3TransformerA.EncoderB.Deco
jquery实现的jsonp掉java后台知了ing java jsonp jquery
什么是JSONP？先说说JSONP是怎么产生的：其实网上关于JSONP的讲解有很多，但却千篇一律，而且云里雾里，对于很多刚接触的人来讲理解起来有些困难，小可不才，试着用自己的方式来阐释一下这个问题，看看是否有帮助。 1、一个众所周知的问题，Ajax直接请求普通文件存在跨域无权限访问的问题，甭管你是静态页面、动态网页、web服务、WCF，只要是跨域请求，一律不准； 2、
Struts2学习笔记 caoyong struts2
SSH : Spring + Struts2 + Hibernate 三层架构(表示层,业务逻辑层,数据访问层) MVC模式 (Model View Controller) 分层原则:单向依赖，接口耦合 1、Struts2 = Struts + Webwork 2、搭建struts2开发环境 a>、到www.apac
SpringMVC学习之后台往前台传值方法满城风雨近重阳 springMVC
springMVC控制器往前台传值的方法有以下几种： 1.ModelAndView 通过往ModelAndView中存放viewName：目标地址和attribute参数来实现传参： ModelAndView mv=new ModelAndView(); mv.setViewName="success
WebService存在的必要性？一炮送你回车库 webservice
做Java的经常在选择Webservice框架上徘徊很久，Axis Xfire Axis2 CXF ，他们只有一个功能，发布HTTP服务然后用XML做数据传输。是的，他们就做了两个功能，发布一个http服务让客户端或者浏览器连接，接收xml参数并发送xml结果。当在不同的平台间传输数据时，就需要一个都能解析的数据格式。但是为什么要使用xml呢？不能使json或者其他通用数据
js年份下拉框 3213213333332132 java web ee
<div id="divValue">test...</div>测试 //年份 <select id="year"></select> <script type="text/javascript"> window.onload =
简单链式调用的实现技术归来朝歌方法调用链式反应编程思想
在编程中，我们可以经常遇到这样一种场景：一个实例不断调用它自身的方法，像一条链条一样进行调用这样的调用你可能在Ajax中，在页面中添加标签： $("<p>").append($("<span>").text(list[i].name)).appendTo("#result"); 也可能在HQ
JAVA调用.net 发布的webservice 接口 darkranger webservice
/** * @Title: callInvoke * @Description: TODO(调用接口公共方法) * @param @param url 地址 * @param @param method 方法 * @param @param pama 参数 * @param @return * @param @throws BusinessException
Javascript模糊查找 | 第一章循环不能不重视。 aijuans Way
最近受我的朋友委托用js+HTML做一个像手册一样的程序，里面要有可展开的大纲，模糊查找等功能。我这个人说实在的懒，本来是不愿意的，但想起了父亲以前教我要给朋友搞好关系，再加上这也可以巩固自己的js技术，于是就开始开发这个程序，没想到却出了点小问题，我做的查找只能绝对查找。具体的js代码如下： function search(){ var arr=new Array("my
狼和羊，该怎么抉择 atongyeye 工作
狼和羊，该怎么抉择在做一个链家的小项目，只有我和另外一个同事两个人负责，各负责一部分接口，我的接口写完，并全部测联调试通过。所以工作就剩下一下细枝末节的，工作就轻松很多。每天会帮另一个同事测试一些功能点，协助他完成一些业务型不强的工作。今天早上到公司没多久，领导就在QQ上给我发信息，让我多协助同事测试，让我积极主动些，有点责任心等等，我听了这话，心里面立马凉半截，首先一个领导轻易说
读取android系统的联系人拨号百合不是茶 android sqlite数据库内容提供者系统服务的使用
联系人的姓名和号码是保存在不同的表中,不要一下子把号码查询来,我开始就是把姓名和电话同时查询出来的,导致系统非常的慢关键代码: 1, 使用javabean操作存储读取到的数据 package com.example.bean; /** * * @author Admini
ORACLE自定义异常 bijian1013 数据库自定义异常
实例： CREATE OR REPLACE PROCEDURE test_Exception ( ParameterA IN varchar2, ParameterB IN varchar2, ErrorCode OUT varchar2 --返回值,错误编码 ) AS /*以下是一些变量的定义*/ V1 NUMBER; V2 nvarc
查看端号使用情况征客丶 windows
一、查看端口在windows命令行窗口下执行： >netstat -aon|findstr "8080" 显示结果： TCP 127.0.0.1:80 0.0.0.0:0 &
【Spark二十】运行Spark Streaming的NetworkWordCount实例 bit1129 wordcount
Spark Streaming简介 NetworkWordCount代码 /* * Licensed to the Apache Software Foundation (ASF) under one or more * contributor license agreements. See the NOTICE file distributed with
Struts2 与 SpringMVC的比较 BlueSkator struts2 spring mvc
1. 机制：spring mvc的入口是servlet，而struts2是filter，这样就导致了二者的机制不同。 2. 性能：spring会稍微比struts快。spring mvc是基于方法的设计，而sturts是基于类，每次发一次请求都会实例一个action，每个action都会被注入属性，而spring基于方法，粒度更细，但要小心把握像在servlet控制数据一样。spring
Hibernate在更新时，是可以不用session的update方法的(转帖） BreakingBad Hibernate update
地址：http://blog.csdn.net/plpblue/article/details/9304459 public void synDevNameWithItil() {Session session = null;Transaction tr = null;try{session = HibernateUtil.getSession();tr = session.beginTran
读《研磨设计模式》-代码笔记-观察者模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; import java.util.Observable; import java.util.Observer; /** * “观
重置MySQL密码 chenhbc mysql 重置密码忘记密码
如果你也像我这么健忘，把MySQL的密码搞忘记了，经过下面几个步骤就可以重置了（以Windows为例，Linux/Unix类似）： 1、关闭MySQL服务 2、打开CMD，进入MySQL安装目录的bin目录下，以跳过权限检查的方式启动MySQL mysqld --skip-grant-tables 3、新开一个CMD窗口，进入MySQL mysql -uroot
再谈系统论，控制论和信息论 comsci 设计模式生物能源企业应用领域模型
再谈系统论，控制论和信息论偶然看
oracle moving window size与 AWR retention period关系 daizj oracle
转自： http://tomszrp.itpub.net/post/11835/494147 晚上在做11gR1的一个awrrpt报告时,顺便想调整一下AWR snapshot的保留时间,结果遇到了ORA-13541这样的错误.下面是这个问题的发生和解决过程. SQL> select * from v$version; BANNER -------------------
Python版B树 dieslrae python
话说以前的树都用java写的,最近发现python有点生疏了,于是用python写了个B树实现,B树在索引领域用得还是蛮多了,如果没记错mysql的默认索引好像就是B树... 首先是数据实体对象,很简单,只存放key,value class Entity(object): '''数据实体''' def __init__(self,key,value)
C语言冒泡排序 dcj3sjt126com 算法
代码示例： # include <stdio.h> //冒泡排序 void sort(int * a, int len) { int i, j, t; for (i=0; i<len-1; i++) { for (j=0; j<len-1-i; j++) { if (a[j] > a[j+1]) // >表示升序
自定义导航栏样式 dcj3sjt126com 自定义
-(void)setupAppAppearance { [[UILabel appearance] setFont:[UIFont fontWithName:@"FZLTHK—GBK1-0" size:20]]; [UIButton appearance].titleLabel.font =[UIFont fontWithName:@"FZLTH
11.性能优化-优化-JVM参数总结 frank1234 jvm参数性能优化
1.堆 -Xms --初始堆大小 -Xmx --最大堆大小 -Xmn --新生代大小 -Xss --线程栈大小 -XX:PermSize --永久代初始大小 -XX:MaxPermSize --永久代最大值 -XX:SurvivorRatio --新生代和suvivor比例,默认为8 -XX:TargetSurvivorRatio --survivor可使用
nginx日志分割 for linux HarborChung nginx linux 脚本
nginx日志分割 for linux 默认情况下，nginx是不分割访问日志的，久而久之，网站的日志文件将会越来越大，占用空间不说，如果有问题要查看网站的日志的话，庞大的文件也将很难打开，于是便有了下面的脚本使用方法，先将以下脚本保存为 cutlog.sh，放在/root 目录下，然后给予此脚本执行的权限复制代码代码如下: chmo
Spring4新特性——泛型限定式依赖注入 jinnianshilongnian spring spring4 泛型式依赖注入
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
centOS安装GCC和G++ liuxihope centos gcc
Centos支持yum安装，安装软件一般格式为yum install .......，注意安装时要先成为root用户。按照这个思路，我想安装过程如下：安装gcc：yum install gcc 安装g++： yum install g++ 实际操作过程发现，只能有gcc安装成功，而g++安装失败，提示g++ command not found。上网查了一下，正确安装应该
第13章 Ajax进阶（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
How to determine BusinessObjects service pack and fix pack blueoxygen BO
http://bukhantsov.org/2011/08/how-to-determine-businessobjects-service-pack-and-fix-pack/ The table below is helpful. Reference BOE XI 3.x 12.0.0. y BOE XI 3.0 12.0. x. y BO
Oracle里的自增字段设置 tomcat_oracle oracle
　大家都知道吧，这很坑，尤其是用惯了mysql里的自增字段设置，结果oracle里面没有的。oh，no 　　我用的是12c版本的，它有一个新特性，可以这样设置自增序列，在创建表是，把id设置为自增序列 create table t ( id 　　　　 number generated by default as identity (start with 1 increment b
Spring Security（01）——初体验 yang_winnie spring Security
Spring Security（01）——初体验博客分类： spring Security Spring Security入门安全认证首先我们为Spring Security专门建立一个Spring的配置文件，该文件就专门用来作为Spring Security的配置