Melody1211

Value-Decomposition Networks For Cooperative Multi-Agent Learning笔记

Value-Decomposition Networks For Cooperative Multi-Agent Learning

1. 论文讲了什么/主要贡献是什么

多代理强化学习任务的解决方案存在完全集中，和独立学习两种方案。将二者结合，得到了集中学习、分散决策的值分解网络，并利用已有技术如DQN架构、目标网络、经验回放、Dueling网络以及面向部分可观测环境下采用的RNN网络，设计出值分解网络架构。并利用已有的训练方法——BPTT进行训练。在此基础上增加权值共享、代理间通信以及角色信息进一步提高的模型性能。
文中只测试了在两个代理环境下的数据，当代理数量增加后，各个代理接收到的联合奖励信息大部分来自其它代理，这使问题会变得更加复杂，并且代理数量增多后集中学习也不容易实现。

2. 论文摘要：

We study the problem of cooperative multi-agent reinforcement learning with a single joint reward signal. This class of learning problems is difficult because of the often large combined action and observation spaces. In the fully centralized and decentralized approaches, we find the problem of spurious rewards and a phenomenon we call the “lazy agent” problem, which arises due to partial observability. We address these problems by training individual agents with a novel value decomposition network architecture, which learns to decompose the team value function into agent-wise value functions. We perform an experimental evaluation across a range of partially-observable multi-agent domains and show that learning such value-decompositions leads to superior results, in particular when combined with weight sharing, role information and information channels.

我们研究了在单一联合奖励信号下的协作多代理强化学习问题。这类学习问题很困难，因为组合的动作和观测空间通常很大。在完全集中和分散的方法中，我们发现了虚假奖励的问题和一种现象，我们称之为“懒惰代理”问题，它是由部分可观测性引起的。我们通过一个新的价值分解网络架构来训练个体代理来解决这些问题，该架构学会了将团队价值函数分解成代理的价值函数。我们在一系列部分可观察的多代理领域中进行了实验评估，结果表明，学习这种价值分解可以得到更好的结果，特别是在与权重共享、角色信息和信息通道相结合的情况下。

3. 论文主要观点：

3.1 背景：

在协作多代理强化学习中，多个学习代理联合最优化一个团队奖励。团队奖励随时间积累。每个代理能够获得它本地的观测并能够根据观测从代理各自的动作集中选择相应的动作。这通常被用到自动驾驶汽车和交通系统中的交通信号控制上，或者用于优化包含多个单元相交互场景的工厂的产能。并且，随着AI代理变得越来越普遍，代理之间需要学习协作行为来实现共同的目标。

虽然协作中每个代理都需要本地的自动化，但是还是可以把协作多代理强化学习通过集中方式解决，从而将协作多代理强化学习简化为了一个在一个多个代理观测空间和动作空间串联生成的新的观测空间和动作空间上的单代理强化学习。但这样的效果并不好，因为会存在多个代理中仅有一个代理达到最优化其它代理“懒惰”的问题，因为在一个代理学习到一个有效的策略后，第二个代理就不再被鼓励进行探索和学习，因为这会对第一个代理带来干扰并导致出现不好的团队奖励。

还有一种方法是训练独立的学习器，从而优化团队奖励。但这也存在问题：

不稳定学习，代理所面对的环境会随着其它代理行动策略的改变而改变
面对部分可观测的环境，代理会接收到来自队员未观测到的行为的假的奖励信号

因为无法解释代理观测到的奖励信号的问题，单纯的独立强化学习通常效果不好。例如Claus和Boutilier (1998)展示了独立的Q学习器无法将队友的探索与环境中的随机性区分开来。

提高独立学习器表现的一种方法是设计单独的奖励函数，与代理各自的观测更直接相关。然而即使在单代理环境下，奖励的shaping也是困难的，只有很少一类塑造奖励函数能够保证在相应目标上达到最优。而在这篇论文中提出了更普遍的自动化解决方案——学习分解的奖励函数。

文中介绍了一种新的在单代理上的learned additive value-decomposition方法。价值分解网络的目标是通过表示各个代理的价值函数的深度神经网络反向传播整体Q的梯度，从团队奖励信号中学习最优的线性价值分解。**这种累计值分解的方法能够避免在纯独立学习中的虚假奖励的问题。**各代理学习的隐式值函数只依赖于局部观测，学习起来比较容易。我们的解决方案还改善了Claus和Boutilier(1998)强调的自主学习的协调问题，因为它在训练时有效地集中学习，而代理可以单独部署。

此外，文中还评估了权值共享、角色信息和信息通道，作为这个方法的加强，这些附加方法能够改善样本复杂度和内存需求。

文中比较了各个代理的价值分解架构、独立学习器的架构和集中方式的架构。在双玩家的协调领域中进行了基准测试，发现与集中化或完全独立的学习器相比，价值分解是一种更好的执行方法，并且当与其他技术相结合时，会产生一种始终比集中化和独立的学习器表现更好的代理。

相关工作

此前已经有通过优化各个独立的代理的Q函数获得奖励，并将独立的奖励累加得到全局奖励，再通过贪婪的策略根据全局奖励选择动作决策的算法。这篇文章的算法是只利用一个全局的奖励，并从经验中学习到价值分解。

还有基于不同奖励的方式解决这个问题的方法，评估代理动作对系统奖励的影响。易学习，但需要系统状态信息，这是不实际的。

3.2 问题：

多代理强化学习问题——局部可观测马尔科夫决策过程。

Dec-POMDP问题的描述：

A fully cooperative multi-agent task can be described as a Dec-POMDP (Oliehoek & Amato, 2016) consisting of a tuple $G = < S, U, P, r, Z, O, n, γ > . s \in S$ describes the true state of the environment. At each time step, each agent $\in A \equiv\{1, \ldots, n\}$ chooses an action $u^{a} \in U,$ forming a joint action $\mathbf{u} \in \mathbf{U} \equiv U^{n} .$ This causes a transition on the environment according to the state transition function $P\left(s^{\prime} | s, \mathbf{u}\right): S \times \mathbf{U} \times S \rightarrow[0,1] .$ All agents share the same reward function $\mathbf{u}): S \times \mathbf{U} \rightarrow \mathbb{R}$ and $\gamma \in[0,1),$ where the $\gamma$ is a discount factor.

We consider a partially observable scenario in which each agent draws individual observations $\in Z$ according to observation function $\times A \rightarrow Z .$ Each agent has an action-observation history $\tau^{a} \in T \equiv(Z \times U)^{*},$ on which it conditions a stochastic policy $\pi^{a}\left(u^{a} | \tau^{a}\right): T \times U \rightarrow[0,1]$ .

The optimisation objective is to maximise the discounted return: $R_{t}=\sum_{l=0}^{\infty} \gamma^{i} r_{t+l} .$ The joint policy $\pi$ produces a joint action-value function:
$Q^{\pi}\left(s_{t}, \mathbf{u}_{t}\right)=\mathbb{E}_{s_{t+1: \infty, \mathbf{u}_{t+1 ; \infty}}}\left[R_{t} | s_{t}, \mathbf{u}_{t}\right]$
本文最后的目标策略形式为：

If we denote $\bar{h}:=\left(h^{1}, h^{2}, \ldots, h^{d}\right)$ a tuple of agent histories, a joint policy is in general a map $\pi: \mathcal{H}^{d} \rightarrow \mathcal{P}\left(\mathcal{A}^{d}\right) ;$ we in particular consider policies where for any history $\bar{h},$ the distribution $\pi(\bar{h})$ has independent components in $\mathcal{P}(\mathcal{A})$ . Hence, we write $\pi: \mathcal{H}^{d} \rightarrow \mathcal{P}(\mathcal{A})^{d}$ . The exception is when we use the most naive centralized agent with a combinatorial action space, aka joint action learners.

3.3 方法：

本文方法中的价值函数的深度网络结构与DQN的网络架构相似，并使用了目标网络和经验回放技术，进行随机梯度更新。因为是部分可观测网络，所以Q函数建立在观测历史记录之上，因此采用了循环神经网络。为了提高训练速度，采用了Dueling结构，将Q值表示为状态价值和又是函数之和，使用固定步数的前向视角的eligibility trace的多步更新。在训练代理时，循环神经网络通过截断的时间反向传播（BPTT），步数与上述固定步数相同。文中的技术还可以应用到策略梯度方法中，如A3C算法。

文中假设系统的联合价值函数能够被分解为各个代理价值函数 $\tilde{Q}_{i}$ 的累加。各个代理的价值函数 $\tilde{Q}_{i}$ 的值依赖于本地观测。
$Q\left(\left(h^{1}, h^{2}, \ldots, h^{d}\right),\left(a^{1}, a^{2}, \ldots, a^{d}\right)\right) \approx \sum_{i=1}^{d} \tilde{Q}_{i}\left(h^{i}, a^{i}\right)$
对 $\tilde{Q}_{i}$ 学习采用联合奖励根据Q-learning的规则通过反向传播梯度来学习，即 $\tilde{Q}_{i}$ 的学习不是根据特定 $i$ 代理的奖励。集中学习价值函数，但每个代理能够被单独部署，因为每个代理可以根据各个代理的价值函数 $\tilde{Q}_{i}$ 采用贪婪策略选择动作，这与最大化全局价值函数 $\sum_{i=1}^{d} \tilde{Q}_{i}\left(h^{i}, a^{i}\right)$ 等价。

如果一个代理的观测和动作不足以全面地得到 $\tilde{Q}_{i}\left(h^{i}, a^{i}\right)$ ，那么代理会存储历史观测信息在LSTM中。并且通过通信信道接收来自其它代理的信息，最后得到了上式中的约等号。并且在文中的架构中采取了权值共享，从而可以减少参数数量，并且引出了代理不变性的概念，这对于避免懒惰代理的问题有效果。

定义1（代理不变性） 对于任何排列组合 $p:\{1, \ldots, d\} \rightarrow\{1, \ldots, d\}$
$\pi(p(\bar{h}))=p(\pi(\bar{h}))$
那么 $\pi$ 具有代理不变性。

当需要专门的角色来优化特定的系统时，并不总是希望有代理不变性。在这种情况下，我们为每个代理提供角色信息或标识符。角色信息以1-hot编码的形式提供给代理，将它们的身份与第一层的每个观测连接起来。当代理共享所有网络权值时，就变为了有条件的代理不变性，即只有在基于相同角色的条件下才具有相同的策略。我们还考虑了代理网络之间的信息通道，即代理网络模块之间的可微连接。这些具有共享权值的体系结构满足代理不变性。

3.4 结论：

研究了多智能体协作强化学习，其中只对智能体提供单一的联合奖励。初始的各个代理直接根据团队奖励学习以及完全集中的代理无法在简单的环境中获得令人满意的效果。但至分解网络能够达到很好的性能。并且将值分解网络与权值共享、信息通道结合起来能够稳定的在测试中找到最优解。

但值分解网络的可扩展性不好，当代理数量增加后，各个代理接收到的联合奖励信息大部分来自其它代理，这使问题会变得更加复杂，并且代理数量增多后集中学习也不容易实现。

论文阅读笔记——QLORA: Efficient Finetuning of Quantized LLMs 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习语言模型
QLoRA论文4-bit标准浮点数量化常见的量化技术是最大绝对值量化：XInt8=round(127absmax(XFP32)XFP32)=round(cFP32,XFP32)式(1)X^{Int8}=round(\frac{127}{absmax(X^{FP32})}X^{FP32})=round(c^{FP32},X^{FP32})\qquad\qquad\text{式(1)}XInt8=ro
论文阅读笔记：Graph Matching Networks for Learning the Similarity of Graph Structured Objects 游离态GLZ不可能是金融技术宅知识图谱机器学习深度学习人工智能
论文做的是用于图匹配的神经网络研究，作者做出了两点贡献:证明GNN可以经过训练，产生嵌入graph-leve的向量可以用于相似性计算。作者提出了一种新的基于注意力的跨图匹配机制GMN(cross-graphattention-basedmatchingmechanism)，来计算出一对图之间的相似度评分。（核心创新点）论文证明了该模型在不同领域的有效性，包括具有挑战性的基于控制流图(control
论文阅读笔记——π0: A Vision-Language-Action Flow Model for General Robot Control 寻丶幽风论文阅读笔记论文阅读笔记人工智能机器人语言模型
π0论文π0π_0π0是基于预训练的VLM模型增加了actionexpert，并结合了flowmatching方法训练的自回归模型，能够直接输出模型的actionchunk（50）。π0采用FlowMatching技术来建模连续动作的分布，这一创新使模型能够精确控制高频率的灵巧操作任务，同时具备处理多模态数据的能力。架构受到Transfusion的启发：通过单一Transformer处理多目标任务
论文阅读笔记——Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware 寻丶幽风论文阅读笔记论文阅读笔记人工智能深度学习机器人
ALOHA论文ALOHA解决了策略中的错误可能随时间累积，且人类演示可能是非平稳的，提出了ACT（ActionChunkingwithTransformers）方法。ActionChunking模仿学习中，compoundingerror是致使任务失败的主要原因。具体来说，当智能体（agent）在测试时遇到训练集中未见过的情况时，可能会产生预测误差。这些误差会逐步累积，导致智能体进入未知状态，最终
Self-Attentive Sequential Recommendation论文阅读笔记调包调参侠推荐系统学习深度学习机器学习神经网络算法
SASRec论文阅读笔记论文标题：Self-AttentiveSequentialRecommendation发表于：2018ICDM作者：Wang-ChengKang,JulianMcAuley论文代码：https://github.com/pmixer/SASRec.pytorch论文地址：https://arxiv.org/pdf/1808.09781v1.pdf摘要顺序动态是许多现代推荐系
论文阅读笔记2 sixfrogs 论文阅读笔记论文阅读 cnn
OptimizingMemoryEfficiencyforDeepConvolutionalNeuralNetworksonGPUs1论文简介作者研究了CNN各层的访存效率，并揭示了数据结构和访存模式对CNN的性能影响。并提出了优化方法。2方法介绍2.1Benchmarks数据集：MNIST，CIFAR，ImageNetCNN：AlexNet，ZFNet，VGG2.2实验设置CPU：IntelXe
大模型隐空间推理论文阅读笔记猴猴猪猪 AIGC python 实验记录人工智能深度学习
文章目录TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介1.1摘要1.2引言TrainingLargeLanguageModelstoReasoninaContinuousLatentSpace一.简介机构：Meta代码：任务:特点:方法:1.1摘要现状：大语言模型往往局限在“languagespace"进行推理，在解决
【网安AIGC专题】46篇前沿代码大模型论文、24篇论文阅读笔记汇总_大模型在代码缺陷检测领域的应用实践(1) 2401_84972910 程序员 AIGC 论文阅读笔记
欢迎一起踏上探险之旅，挖掘无限可能，共同成长！写在最前面本文为邹德清教授的《网络安全专题》课堂笔记系列的文章，本次专题主题为大模型。本系列文章不仅涵盖了46篇关于前沿代码大模型的论文，还包含了24篇深度论文阅读笔记，全面覆盖了代码生成、漏洞检测、程序修复、生成测试等多个应用方向，深刻展示了这些技术如何在网络安全领域中起到革命性作用。同时，本系列还细致地介绍了大模型技术的基础架构、增强策略、关键数据
论文阅读笔记——Prediction with Action: Visual Policy Learning via Joint Denoising Process 寻丶幽风论文阅读笔记论文阅读笔记人工智能
以前的method是输入视频输出视频或者输入视频和action学习action，该方法认为action，video和othercondition具有一定联系，所以一次性对所有的进行jointdenoise。网络结构采用MaskedMulti-headAttention关联不同模态，使用DiT的backbone。
深度学习重要论文阅读笔记 ResNet （2025.2.26）北岛寒沫逐界星辰2025 计算机科研深度学习论文阅读笔记
文章目录问题背景数据预处理神经网络模型模型性能知识点积累英语单词积累问题背景随着神经网络变得更深（层数变多），模型的训练过程也会变得更加困难。当神经网络的深度增加，就会出现梯度消失和梯度下降现象，妨碍模型的收敛。不过，这种情况可以通过归一化的模型初始化和中间的归一化层基本解决。但是，尽管在增加了归一化技术的情况下很深的神经网络可以收敛，又出现了另外一个问题，即随着模型深度的增加，模型的准确率反而下
论文阅读笔记1——DARTS：Differentiable Architecture Search可微分架构搜索（一）（论文翻译学习） fuhao7i 论文阅读笔记深度学习人工智能机器学习算法计算机视觉
DARTS：DifferentiableArchitectureSearch可微分架构搜索（一）DARTS：DifferentiableArchitectureSearch（一）ABSTRACT摘要1.INTRODUCTION介绍2.可微的结构搜索加油加油！如果你感觉你现在很累，那么恭喜你，你现在正在走上坡路！让我们一起加油！欢迎关注我的讲解视频，让我们一起学习：Bilibili主页：https:
【CCM-SLAM论文阅读笔记】随机取名字协同SLAM论文阅读 slam
CCM-SLAM论文阅读笔记整体框架结构如图所示：单智能体只负责采集图像数据，运行实时视觉里程计VO以估计当前位姿和环境地图，由于单智能体计算资源有限，负责生成的局部地图只包含当前N个最近的关键帧。服务器负责地图管理、地点识别、地图融合和全局BA优化。所有局部地图使用本地里程计框架，地图信息在从一个本地里程计到另一个本地里程计框架的相对坐标中进行交换。CCM-SLAM不假设任何关于智能体初始位置的
【论文阅读笔记|EMNLP2023】DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Ext Rose sait 论文阅读笔记
论文题目：DemoSG:Demonstration-enhancedSchema-guidedGenerationforLow-resourceEventExtraction论文来源：EMNLP2023论文链接：2023.findings-emnlp.121.pdf(aclanthology.org)代码链接：https://github.com/GangZhao98/DemoSG0摘要当前大多数
神经网络压缩实验-Deep-compression 无用技术研究所
首发于个人博客，结合论文阅读笔记更佳实验准备基础网络搭建为了实现神经网络的deepcompression，首先要训练一个深度神经网络，为了方便实现，这里实现一个两层卷积+两层MLP的神经网络classnet(pt.nn.Module):def__init__(self):super(net,self).__init__()self.conv1=pt.nn.Conv2d(in_channels=1,
论文阅读笔记（9）——《A Practical Survey on Faster and Lighter Transformers》 StriveQueen 自然语言处理机器学习论文阅读笔记算法神经网络机器学习 Transformer
1Abstract2Introductionrecurrentneuralnetworks(RNNs)longshort-termmemory(LSTM)networksequencetosequenceframeworkinter-attentionrelativeeffectivecontextlength(RECL)Transformer3TransformerA.EncoderB.Deco
论文阅读笔记：AI+RPA 几道之旅人工智能
文章目录论文题目下载地址论文摘要论文题目Challengesandopportunities:ImplementingRPAandAIinfrauddetectioninthebankingsector下载地址点击这里下载论文摘要在银行业中，将机器人流程自动化（RPA）和人工智能（AI）集成用于欺诈检测是一项重大变革，既带来了挑战，也带来了机遇。随着金融机构面临日益复杂的欺诈企图，RPA和AI成为
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记慘綠青年627 论文阅读笔记深度学习
SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采
A Tutorial on Near-Field XL-MIMO Communications Towards 6G【论文阅读笔记】 Cc小跟班【论文阅读】相关论文阅读笔记
此系列是本人阅读论文过程中的简单笔记，比较随意且具有严重的偏向性（偏向自己研究方向和感兴趣的），随缘分享，共同进步~论文主要内容：建立XL-MIMO模型，考虑NUSW信道和非平稳性；基于近场信道模型，分析性能（SNRscalinglaws，波束聚焦、速率、DoF）XL-MIMO设计问题：信道估计、波束码本、波束训练、DAMXL-MIMO信道特性变化：UPW➡NUSW空间平稳–>空间非平稳（可视区域
时序预测相关论文阅读笔记能力越小责任越小YA 论文阅读笔记时序预测 Transformer
笔记链接：【有道云笔记】读论文（记录）https://note.youdao.com/s/52ugLbot用于个人学习记录。
Your Diffusion Model is Secretly a Zero-Shot Classifier论文阅读笔记 Rising_Flashlight 论文阅读笔记计算机视觉
YourDiffusionModelisSecretlyaZero-ShotClassifier论文阅读笔记这篇文章我感觉在智源大会上听到无数个大佬讨论，包括OpenAISora团队负责人，谢赛宁，好像还有杨植麟。虽然这个文章好像似乎被引量不是特别高，但是和AI甚至人类理解很本质的问题很相关，即是不是要通过生成来构建理解的问题，文章的做法也很巧妙，感觉是一些学者灵机一动的产物，好好学习一个！摘要这
Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记猪猪想上树论文阅读笔记
ConditionalFlowMatching:Simulation-FreeDynamicOptimalTransport笔记发现问题连续正规化流（CNF）是一种有吸引力的生成式建模技术，但在基于模拟的最大似然训练中受到了限制。解决问题介绍一种新的条件流匹配（CFM)，一种针对CNFs的免模拟训练目标。具有稳定的回归目标，用于扩散模型中的随机流，但享有确定性流模型的有效推断。与扩散模型和CNF目
论文阅读笔记《SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning》深视论文阅读笔记 #小样本学习深度学习小样本学习
小样本学习&元学习经典论文整理||持续更新核心思想本文提出一种基于最近邻方法的小样本学习算法（SimpleShot），作者指出目前大量的小样本学习算法都采用了元学习的方案，而作者却发现使用简单的特征提取器+最近邻分类器的方法就能实现非常优异的小样本分类效果。本文首先用特征提取网络fθf_{\theta}fθ+线性分类器在一个基础数据集上对网络进行训练，将训练得到的特征提取网络增加一个简单的特征
【论文阅读笔记】（2015 ICML）Unsupervised Learning of Video Representations using LSTMs 小吴同学真棒学习人工智能 LSTM 动作识别无监督自监督 self-supervised
UnsupervisedLearningofVideoRepresentationsusingLSTMs（2015ICML）NitishSrivastava,ElmanMansimov,RuslanSalakhutdinovNotesContributionsOurmodelusesanencoderLSTMtomapaninputsequenceintoafixedlengthrepresent
使用动态网格的流体动画 Fluid Animation with Dynamic Meshes 论文阅读笔记 hijackedbycsdn Fluid Simulation 笔记
目录引言背景方法离散化离散化的导数算子速度插值广义的半拉格朗日步重新网格化双向流固耦合和质量守恒原文：Klingner,BryanM.,etal.“Fluidanimationwithdynamicmeshes.”ACMSIGGRAPH2006Papers.2006.820-825.引言使用[Alliezetal.,2005]的方法动态生成不规则的四面体网格根据边界的位置、边界的形状、基于流体和速
【论文阅读笔记】AutoAugment:Learning Augmentation Strategies from Data 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
AutoAugment:LearningAugmentationStrategiesfromData摘要研究方法:本文描述了一种名为AutoAugment的简单程序，通过这个程序可以自动寻找改进的数据增强策略。研究设计了一个策略空间，其中策略包含多个子策略，在每个小批量数据中针对每张图片随机选择一个子策略。每个子策略由两个操作组成，每个操作是图像处理函数（如平移、旋转或剪切），以及应用这些函数的概
【论文阅读笔记】Contrastive Learning with Stronger Augmentations 少写代码少看论文多多睡觉 #论文阅读笔记论文阅读笔记
ContrastiveLearningwithStrongerAugmentations摘要基于提供的摘要，该论文的核心焦点是在对比学习领域提出的一个新框架——利用强数据增强的对比学习（ContrastiveLearningwithStrongerAugmentations，简称CLSA）。以下是对摘要的解析：问题陈述：表征学习（representationlearning）已在对比学习方法的推动
使用八叉树模拟水和烟雾 Simulating Water and Smoke with an Octree Data Structure 论文阅读笔记 hijackedbycsdn Fluid Simulation 笔记
原文：Losasso,Frank,FrédéricGibou,andRonFedkiw.“Simulatingwaterandsmokewithanoctreedatastructure.”Acmsiggraph2004papers.2004.457-462.引言这篇文章扩展了[Popinet2003]的工作，拓展到表面自由流，并且使得八叉树不受限制自适应网格划分的一个缺点是，它的模板不是均匀的，
PointMixer论文阅读笔记 ZHANG8023ZHEN 论文阅读笔记
MLP-mixer是最近很流行的一种网络结构，比起Transformer和CNN的节构笨重，MLP-mixer不仅节构简单，而且在图像识别方面表现优异。但是MLP-mixer在点云识别方面表现欠佳，PointMixer就是在保留了MLP-mixer优点的同时，还可以很好的处理点云问题。PointMixer可以很好的处理intra-set,inter-set,hierarchical-set的点云。
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号