乐亦亦乐

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation

论文原文：https://arxiv.org/pdf/1910.06278v1.pdf

DARK 基于分布感知的关节点坐标表示方法

Abstract

热图实际上是人体姿态估计中的标准坐标表示，但是从未在文献中系统深入的研究过。本文将填补这个空白。第一次，我们发现，将预测热图解码为原始图像空间中的最终关节坐标这一过程对人体姿态估计的性能有着惊人的重要意义。我们进一步探讨了标准坐标解码方法的设计局限性，并提出了可感知的分布式解码方法。我们也改进了标准坐标编码的过程（将ground-truth 转换为热图）。结合这两者，我们提出了新颖的方法-基于分布感知的关节点坐标表示方法（DARK）。作为模型的诊断插件，DARK对现有人体姿态估计模型的性能带来了重要的提升。大量的实验表明，DARK在MPII和COCO上产生了好的效果。代码地址：https://github.com/ilovepose/DarkPose

1.Introduction

人体姿态估计是计算机视觉的基本问题，目的是在无限制的图像中定位人体空间位置。由于不同分格的服饰，任意遮挡和不受约束的背景而变化很大，导致肢体外观差别大，而需要识别细粒度关节坐标，因而任务非常艰巨。作为强大的图像处理模型，卷积神经网络在这项任务上表现出色。现有的工作集中于设计卷积神将网络，特别是为人体姿态估计量身定做的网络。

类似于图像分类的one-hot 形式向量进行标签表示，Pose也需要标签来编码关节点坐标标签。从而可以在训练过程中对监督学习损失进行量化和计算，并正确地推断联合坐标。实际的标准标签表示形式是坐标热图，生成以每个关节的标记坐标为中心的二维高斯分布/内核。它是从坐标编码过程，从坐标到热图获得的。热图的特点是在ground-truth location 提供空间支持。不仅要考虑上下文线索，还要考虑目标位置固有的歧义性。重要的是，与类标签平滑正则化类似，可以有效的减少模型在训练过程中的过拟合风险。最先进的姿态估计方法是基于热图坐标表示。

使用热图标签表示，一个主要的障碍是计算成本是输入图像分辨率的二次函数，从而使CNN模型无法处理通常的高分辨率原始图像。为了在计算上负担的起，一种标准策略（如图1）是将所有包含人的bounding box 以任意较大的分辨率下采样为带前缀的小分辨率。

为了预测关节在原始图像坐标空间中的位置，在进行热图预测后，需要相应的分辨率恢复才能转换回原始坐标空间。最终被认为具有最大激活的位置。我们将此过程称为从热图到坐标的坐标解码。值的注意的是，在上述分辨率降低期间可能引入量化误差。为了缓解这个问题，在现有的坐标解码过程中，通常根据从最高激活到次高激活的方向执行手工移位操作。

尽管在模型推理中是不可或缺的，但坐标编码和解码问题(即。表示为坐标表示)很少受到关注。与目前重点设计有效的CNN结构相比，我们揭示了坐标表示对模型性能的重要作用，比预期的要重要的多。例如，使用最先进的模型HRNet-W32，坐标编码的移位操作在具有挑战性的COCO验证集上带来高达5.7%的AP（表1）。

值得一提的是，这一收获已经比大多数方法的收获要大得多。但它从未在文献中得到很好的注意和仔细的调查。

与现有的人体姿态估计研究相反，在本工作中，我们专门研究了包括编码和解码在内的联合坐标表示问题。此外，我们还认识到，热图分辨率是阻碍使用较小的输入分辨率来更快地进行模型推理的主要障碍之一。当输入分辨率256x192减小到128x96，在COCO验证集上，HRNet-W32的模型性能从74.4%显著下降到66.9，虽然模型推理成本从7.1×109下降到1.8×109FLOP。

鉴于已发现的坐标表示的意义，我们进行了深入的调查，并认识到一个关键的限制在于坐标解码过程。虽然现有的标准移位操作已经证明是有效的，就像本研究所发现的那样。我们提出了一个主要的分布感知表示方法，以更准确地联合定位像素精度。具体而言，它旨在通过基于泰勒展开的分布近似来全面地解释热图激活的分布信息。此外，我们还观察到，产生ground-truth heatmaps的标准方法存在定量误差，导致不精确的监督信号和劣质的模型性能。为了解决这个问题，我们提出生成无偏热图，允许高斯核集中在像素位置。

我们的贡献是，我们发现坐标表示在人体姿态估计中先前未实现的意义，我们提出了DARK和两个关键组件：

(1) 基于泰勒展开的高效坐标解码;

(2) 无偏亚像素中心坐标编码

重要的是，现有的人体姿态方法可以无缝地受益于DARK，而无需任何算法修改。在(MPII和COCO)上的广泛实验表明，我们的方法为现有的最先进的人体姿态估计模型提供了显著的性能改进。 DARK有利地使用较小的输入图像分辨率，性能下降要小得多，同时大大提高了模型推断的效率，因此促进了低嵌入式人工智能场景中所需的延迟和低能应用。

2.Related Work

在人体姿态估计中，通常有两种常见的坐标表示设计：coordinate 和 heatmap 。这两种方法都被用作现有方法中的回归目标，将在下面分别进行介绍。

Coordinate regression：

直接以坐标作为模型的输出，更直观。但只有少数现有的方法采用这种设计。一个合理的解释是，这种表示缺乏空间和上下文信息。由于关节位置的内在视觉模糊，使得人体姿态模型的学习具有极大的挑战性。

Heatmap regression：

热图表示很好地解决了上述限制。它首先在（Jonathan J Tompson, Arjun Jain, Yann LeCun, and Christoph Bregler. Joint training of a convolutional network and a graphical model for human pose estimation. In Advances in Neural Information Processing Systems, 2014）中引入，并迅速成为最常用的坐标表示。通常，主流的研究重点是设计网络体系结构，以更有效地回归热图监督。

与以往的所有工作相比，我们相反地研究了热图表示在人体姿态估计方面的问题，这是文献中一个很大程度上被忽视的观点。我们不仅揭示了在使用热图过程中分辨率降低的巨大影响，而且提出了一种主要的坐标表示方法，以显著提高现有模型的性能。关键的是，我们的方法可以无缝集成，而不改变模型设计。

3.Methodlogy

我们考虑了人体姿态估计中坐标表示的问题，包括编码和解码。目的是预测给定输入图像中的关节坐标。为此，我们需要学习从输入图像到输出坐标的回归模型。在模型训练和测试期间，热图通常被用作坐标表示。具体来说，我们假设可以访问一组训练图像。为了促进模型的学习，我们将关节的标记ground-truth坐标编码为热图作为有监督学习的目标。在测试过程中，我们需要将预测的热图解码为原始图像坐标空间中的坐标。

在下文中我们首先描述解码过程，着重于对现有标准方法的局限性分析和提出解决方案。然后，我们进一步讨论并解决编码过程的局限性。最后，我们描述了现有人体姿态估计方法与所提出的方法的融合。

3.1 Coordinate Decoding

被认为是模型测试管道中一个微不足道的组成部分，正如我们将要展示的那样，坐标解码被证明对于人体姿态估计是最重要的性能贡献者之一。具体来说，它是将每个单个关节的预测热图转换为原始图像空间中的坐标的过程。假设热图有相同的空间大小作为原始图像，我们只需要找到最大激活的位置作为联合坐标预测。然而，上述解释往往并非如此。

相反，我们需要用特定于样本的无约束因子将热图上采样到原始图像分辨率。这涉及到亚像素定位问题。在介绍我们的方法之前，我们首先回顾了现有姿态估计模型中使用的标准坐标解码方法。

The standard coordinate decoding method 标准的坐标解码方法：

根据模型性能对标准坐标解码方法进行了实证设计，具体的，我们在训练好的模型给定热图h上，首先确定最大响应的点m和次大响应点s，关键点位置被预测为公式：

就是说往第二大响应的方向偏移0.25像素：

其中λ是resolution redution radio 分辨率降低率

备注：在公式1中，亚像素移动的目的是补偿图像分辨率下采样的量化效果。也就是说，预测热图中的最大激活不对应于关节在原始坐标空间中的精确位置，而只对应于粗位置。正如我们将展示的那样，这种变化出人意料地带来了显著的性能提升（表1）。这可能部分地解释了为什么在模型测试中它经常被用作标准操作。有趣的是，据我们所知，没有具体的工作深入研究这种操作对人体姿态估计性能的影响。因此，它的真正意义从未在文献中得到真正的认识和报道。虽然这种标准方法在设计中缺乏直觉和解释，但没有进行专门的调查以改进。我们通过提出一种移位估计方法来填补空白，最终在人体姿态估计中有更高的准确度。

Our coordinate decoding method：

我们的坐标解码方法探索了预测热图的分布结构，以推断潜在的最大激活。这与标准方法有很大的不同，上面依赖于手工设计的偏移预测。

具体来说，为了获得准确的位置在亚像素的程度，我们假设预测的热图遵循二维高斯分布，与 ground-truth 热图相同。

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation_第5张图片

Therefore, we represent the predicted heatmap as

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation_第6张图片

x是预测得到热度图的像素位置，u是将被预测的关键点位置的高斯核均值。∑指的是一个对角矩阵，与坐标编码时的矩阵一样。σ是两个方向的标准差。

为了降低逼近难度，我们利用对数将原指数形式G转化为二次形式P，便于推理，同时保持原最大激活位置：

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation_第7张图片

我们的目标是估计u。作为分布的一个极端点，众所周知，位置u的一阶导数满足以下条件：

我们用泰勒定理来分析，形式上，我们通过泰勒级数估算 P ( µ )

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation_第8张图片

选择m来近似µ，它代表了一个很好的粗关节预测，接近µ。

结合公式6,7,8，获得公式9：

备注：与标准方法相比，仅考虑热图中的第二个最大激活，所提出的坐标解码充分探索了热图分布统计，以更准确地揭示潜在的最大值。理论上，我们的方法是在一个训练监督一致的假设（热力图服从高斯分布）下基于近似分布。重要的是，它在计算上是非常有效的，因为它只需要计算每个热图一个像素位置的一阶导数和二阶导数。因此，现有的人体姿态估计方法可以很容易地受益于没有任何计算成本障碍。

Heatmap distribution modulation

由于所提出的坐标解码方法是基于高斯分布假设的，对我们来说，有必要检查这个条件有多好。我们发现，与训练热图数据相比，人类姿态估计模型预测的热图通常不表现出良好的高斯结构。如图所示。 3(a)，热图通常在最大激活附近出现多个峰。这可能会对我们的解码方法的性能造成负面影响。为了解决这一问题，我们建议事先调整热图分布。

具体来说，为了满足我们的方法的要求，我们利用高斯核K与训练数据具有相同的变化，以平滑热图中多个峰值的影响。

为了保持原始热图的大小，我们最终缩放h‘，使其最大激活等于h：

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation_第9张图片

其中max（）和min(）返回输入矩阵的最大值和最小值。在我们的实验分析中，验证了这种分布调制进一步提高了我们的坐标解码方法的性能。

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation_第10张图片

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation_第11张图片

总结：

我们在图2中总结了我们的坐标解码方法。具体来说，一共涉及三个步骤：

(a) Heatmap distribution modulation

(b) Distribution-aware joint localisation by Taylor expansion at sub-pixel accuracy

所有这些步骤都不需要很高的计算成本，因此能够作为现有模型的有效插件。

3.2. Coordinate Encoding

上一节讨论了基于分辨率降低的坐标解码问题。坐标编码也有相同的限制。具体来说，标准坐标编码方法是从将原始人的图像下采样到模型输入大小中。因此，在生成热图之前，需要对ground-truth联合坐标进行相应的变换。

形式上，我们用g=(u，v)表示关节的ground-truth坐标。

通常，为了方便内核的生成，我们经常量化g‘：

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation_第12张图片

显然，由于量化误差，以上述方式产生的热图是不准确，有偏差的(如图 4)。这可能会引入次优监督信号，并导致模型性能下降，特别是对于本工作中提出的精确坐标编码。为了解决这个问题，我们只需将热图中心放置在表示精确ground-truth坐标的非量化位置g。我们仍然应用等式（14）但用 g'' 代替 g'。我们将演示这种无偏热图生成方法的好处（表3）。

3.3. Integration with State-of-the-Art Models

DARK能与现存的热力图姿态估计模型融合。不对之前的方法做任何改变。特别是，在训练过程中，唯一的变化是基于精确的关节坐标生成的ground-truth热图数据。在测试时，我们将HRNet等任何模型预测的热图作为输入，并在原始图像空间中输出更精确的关节坐标。在整个生命周期中，我们保持现有模型与原始设计一样完整。这使得我们的方法的通用性和可伸缩性最大化。

4.Experiments

Datasets： 我们使用两个受欢迎的人体姿态估计的数据集，COCO和 MPII 。

5.Conclusion

我们第一次系统地研究了被忽略但有重要影响的坐标表示（包括编码和解码）用于无约束图像中的人体姿态估计。我们不仅揭示了这个问题的真正意义，同时还提出了一种新的分布感知坐标表示(DARK)，用于更多的判别模型训练和推理。作为一个现成的插件组件，现有的最先进的模型可以无缝地受益于我们的DARK方法，而不需要任何算法适应，以忽略成本。除了经验性地证明坐标表示的重要性，我们通过在两个具有挑战性的数据集上进行广泛的模型实验，验证了DARK的性能优势。我们也提供了一系列深入的组件分析，以提供关于我们的模型制定的设计原理.

论文代码开源：

https://github.com/ilovepose/DarkPose

里面readme写的非常详细；

运行：

output：

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation_第17张图片

姿态估计——Distribution-Aware Coordinate Representation for Human Pose Estimation_第18张图片

《互联网时代教师自主成长的模式研究》论文阅读与思考2 宁超群
2.第二部分教师自主成长的模式建构，实质上是对新网师底层逻辑的描述。你认为，新网师的培训模式与传统常见的培训模式有哪些区别？这些区别有什么意义或价值？读完第二部分后，你对新网师有哪些新的认识或理解？你认为新网师目前哪些方面做得好，哪些方面做得还不够？答：我认为新网师的培训模式与传统常见的培训模式有以下区别：（1）培训对象的参与动机不同。新网师学员的参与是自觉自愿、积极主动，而传统培训更多是被迫参与
【定位系列论文阅读】-Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition（一）醉酒柴柴论文阅读学习笔记
这里写目录标题概述研究内容Abstract第一段（介绍本文算法大致结构与优点）1.Introduction介绍第一段（介绍视觉位置识别的重要性）第二段（VPR的两种常见方法，本文方法结合了两种方法）第三段（本文贡献）第四段（为证明本文方法优越性，进行的测试以及比较）2.RelatedWork相关工作第一段（介绍早期与深度学习的全局图像描述符）第二段（介绍局部关键点描述符）第三段（局部描述符可以进一
论文阅读笔记（十九）：YOLO9000: Better, Faster, Stronger __Sunshine__ 笔记 YOLO9000 detection classification
WeintroduceYOLO9000,astate-of-the-art,real-timeobjectdetectionsystemthatcandetectover9000objectcategories.FirstweproposevariousimprovementstotheYOLOdetectionmethod,bothnovelanddrawnfrompriorwork.Theim
论文阅读笔记: DINOv2: Learning Robust Visual Features without Supervision 小夏refresh 论文计算机视觉深度学习论文阅读笔记深度学习计算机视觉人工智能
DINOv2:LearningRobustVisualFeatureswithoutSupervision论文地址:https://arxiv.org/abs/2304.07193代码地址:https://github.com/facebookresearch/dinov2摘要大量数据上的预训练模型在NLP方面取得突破，为计算机视觉中的类似基础模型开辟了道路。这些模型可以通过生成通用视觉特征(即无
周四 2020-01-09 08:00 - 24:30 多云 02h10m 么得感情的日更机器
南昌。二〇二〇年一月九日基本科研[1]:1.论文阅读论文--二小时十分2.论文实现实验--小时3.数学SINS推导回顾--O分4.科研参考书【】1)的《》看0/0页-5.科研文档1)组织工作[1]:例会--英语能力[2]:1.听力--十分2.单词--五分3.口语--五分4.英语文档1)编程能力[2]:1.编程语言C语言--O分2.数据结构与算法C语言数据结构--O分3.编程参考书1)陈正冲的《C语
【论文阅读】Mamba:选择状态空间模型的线性时间序列建模（二） syugyou Mamba状态空间模型论文阅读
文章目录3.4一个简化的SSM结构3.5选择机制的性质3.5.1和门控机制的联系3.5.2选择机制的解释3.6额外的模型细节A讨论：选择机制C选择SSM的机制Mamba论文第一部分Mamba:选择状态空间模型的线性时间序列建模(一)3.4一个简化的SSM结构如同结构SSM，选择SSM是单独序列变换可以灵活地整合进神经网络。H3结构式最知名SSM结构地基础，其通常包括受线性注意力启发的和MLP交替地
SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning论文阅读笔记慘綠青年627 论文阅读笔记深度学习
SAFEFL:MPC-friendlyFrameworkforPrivateandRobustFederatedLearning适用于私有和鲁棒联邦学习的MPC友好框架SAFEFL，这是一个利用安全多方计算(MPC)来评估联邦学习(FL)技术在防止隐私推断和中毒攻击方面的有效性和性能的框架。概述传统机器学习（ML）：集中收集数据->隐私保护问题privacy-preservingML(PPML)采
MixMAE(MixMIM):用于分层视觉变压器有效预训练的混合和掩码自编码器论文阅读皮卡丘ZPC 扩散模型阅读论文阅读
论文:MixMAE(arxiv.org)代码:Sense-X/MixMIM:MixMIM:MixedandMaskedImageModelingforEfficientVisualRepresentationLearning(github.com)摘要:本文提出MixMAE(MixedandmaskAutoEncoder)，这是一种简单而有效的预训练方法，适用于各种层次视觉变压器。现有的分层视觉变
【论文阅读】LLM4CP: Adapting Large Language Models for Channel Prediction（2024） Bosenya12 科研学习论文阅读语言模型人工智能信道预测时间序列
摘要Channelprediction（信道预测）isaneffectiveapproach（有效方法）forreducingthefeedback（减少反馈）orestimationoverhead（估计开销）inmassivemulti-inputmulti-output（大规模多输入输出）(m-MIMO)systems.However,existingchannelpredictionmet
【论文阅读】AugSteal: Advancing Model Steal With Data Augmentation in Active Learning Frameworks（2024） Bosenya12 科研学习模型窃取论文阅读模型窃取模型提取数据增强主动学习
摘要Withtheproliferationof（随着）machinelearningmodels（机器学习模型）indiverseapplications,theissueofmodelsecurity（模型的安全问题）hasincreasinglybecomeafocalpoint（日益成为人们关注的焦点）.Modelstealattacks（模型窃取攻击）cancausesignifican
Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline 凝眸伏笔 nlp 论文阅读 bert reranker retrieval
一句话总结：提出LocalizedContrastiveEstimation(LCE)，来优化检索排序。摘要预训练的深度语言模型(LM)在文本检索中表现出色。基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。因此，本文提出了LocalizedContrast
A Tutorial on Near-Field XL-MIMO Communications Towards 6G【论文阅读笔记】 Cc小跟班【论文阅读】相关论文阅读笔记
此系列是本人阅读论文过程中的简单笔记，比较随意且具有严重的偏向性（偏向自己研究方向和感兴趣的），随缘分享，共同进步~论文主要内容：建立XL-MIMO模型，考虑NUSW信道和非平稳性；基于近场信道模型，分析性能（SNRscalinglaws，波束聚焦、速率、DoF）XL-MIMO设计问题：信道估计、波束码本、波束训练、DAMXL-MIMO信道特性变化：UPW➡NUSW空间平稳–>空间非平稳（可视区域
论文阅读：scMGCA----模型方法 dundunmm 论文阅读论文阅读人工智能聚类生物聚类单细胞聚类单细胞分析
Yu,Z.,Su,Y.,Lu,Y.etal.Topologicalidentificationandinterpretationforsingle-cellgeneregulationelucidationacrossmultipleplatformsusingscMGCA.NatCommun14,400(2023).https://doi.org/10.1038/s41467-023-36134
论文阅读：scHybridBERT dundunmm 论文阅读机器学习人工智能神经网络深度学习单细胞基因测序
ZhangWei,WuChenjun,XingFeiyang,JiangMingfeng,ZhangYixuan,LiuQi,ShiZhuoxing,DaiQi,scHybridBERT:integratinggeneregulationandcellgraphforspatiotemporaldynamicsinsingle-cellclustering,BriefingsinBioinform
【论文阅读】Purloining Deep Learning Models Developed for an Ultrasound Scanner to a Competitor Machine Bosenya12 科研学习模型窃取论文阅读深度学习人工智能模型安全
TheArtoftheSteal:PurloiningDeepLearningModelsDevelopedforanUltrasoundScannertoaCompetitorMachine（2024）摘要Atransferfunctionapproach（传递函数方法）hasrecentlyproveneffectiveforcalibratingdeeplearning(DL)algorit
《Motion Forecasting with Dual Consistency and Multi-Pseudo-Target Supervision》论文阅读之DCMS 山水之间2018 无人驾驶 Paper Reading 大数据轨迹预测自动驾驶人工智能
目录摘要1简介2相关工作3.方法3.1结构3.2双重一致性约束3.3多伪目标监督3.4学习4实验4.1实验装置4.2实验结果4.3消融研究4.4泛化能力5限制6结论DCMS：具有双重一致性和多伪目标监督的运动预测香港科技大学暂无代码。摘要我们提出了一种具有双重一致性约束和多伪目标监督的运动预测新框架。运动预测任务通过结合过去的空间和时间信息来预测车辆的未来轨迹。DCMS的一个关键设计是提出双重一致
时序预测相关论文阅读笔记能力越小责任越小YA 论文阅读笔记时序预测 Transformer
笔记链接：【有道云笔记】读论文（记录）https://note.youdao.com/s/52ugLbot用于个人学习记录。
【论文阅读|cryoET】本周粗读汇总吃吃今天努力学习了吗冷冻电镜三维重建论文阅读
论文1：CryoDRGN-ET：深度重建生成网络以可视化细胞内动态生物分子Abstract虽然冷冻电子断层扫描可以以分子分辨率揭示结构，但图像处理算法仍然是解决原位生物分子结构异质性的瓶颈。本文介绍CryoDRGN-ET用于cryoET断层图的异质重建。CryoDRGN-ET直接从子断层扫描倾斜系列图像中学习三维密度图的深度生成模型，并且可以捕获成分和构象不同的状态。通过原位恢复肺炎支原体核糖体中
Your Diffusion Model is Secretly a Zero-Shot Classifier论文阅读笔记 Rising_Flashlight 论文阅读笔记计算机视觉
YourDiffusionModelisSecretlyaZero-ShotClassifier论文阅读笔记这篇文章我感觉在智源大会上听到无数个大佬讨论，包括OpenAISora团队负责人，谢赛宁，好像还有杨植麟。虽然这个文章好像似乎被引量不是特别高，但是和AI甚至人类理解很本质的问题很相关，即是不是要通过生成来构建理解的问题，文章的做法也很巧妙，感觉是一些学者灵机一动的产物，好好学习一个！摘要这
【论文阅读】QUEEN: Query Unlearning against Model Extraction（2024） Bosenya12 科研学习模型窃取论文阅读提取攻击模型安全
摘要Modelextractionattacks（模型提取攻击）currentlyposeanon-negligiblethreat（不可忽视的威胁）tothesecurity（安全性）andprivacy（隐私性）ofdeeplearningmodels.Byqueryingthemodelwithasmalldataset（通过小数据集查询模型）andusingthequeryresultsa
【论文阅读33】Deep learning optoacoustic tomography with sparse data 弹伦琴的雷登【论文阅读系列】人工智能深度学习论文阅读图像处理
Deeplearningoptoacoustictomographywithsparsedata论文题目：基于稀疏数据的深度学习光声断层扫描论文链接：Deeplearningoptoacoustictomographywithsparsedata|NatureMachineIntelligence代码链接：GitHub-ndavoudi/sparse_artefact_unet数据链接：Data发
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017 码大哥深度学习人工智能
概述在物体检测中1，IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测，然而检测效果会随着IOU增加而降低。两个主要因素：1.训练时的过拟合，正样本指数消失2.检测器最优IOU与输入假设的不匹配。一个单阶段的物体检测器CascadeR-CNN被提出用于解决这些问题。网络由一个检测序列组成，这些序列训练时会伴随IOU增长从而对FP样本更加有选择性地判别。检测器一个
【论文阅读】LLM4SGG: Large Language Models for Weakly Supervised Scene Graph Generation 进击的乔洋论文阅读语言模型人工智能计算机视觉
【论文阅读】LLM4SGG:LargeLanguageModelsforWeaklySupervisedSceneGraphGenerationabstract由于全监督方法严重依赖昂贵标注，最近弱监督场景图生成(WSSGG)研究替代方案出现。在这一点上（Inthisregard），针对WSSGG的研究主要利用图像标题（imagecaption）来获取非局部三元组，而主要关注将非局部三元组建立在图
Code Llama: Open Foundation Models for Code论文阅读 yang_daxia 大模型 llama codellama
整体介绍CodeLlama发布了3款模型，包括基础模型、Python专有模型和指令跟随模型，参数量分别为7B、13B、34B和70B。这些模型在长达16ktokens的序列上训练。都是基于Llama2。作者针对infilling(FIM)、长上下文、指令专门做了微调long-contextfine-tuning(LCFT).codellama细节CodeLlama模型家族初始化:所有CodeLla
【论文阅读】Model Stealing Attacks Against Inductive Graph Neural Networks（2021） Bosenya12 科研学习模型窃取论文阅读图神经网络模型窃取
摘要Manyreal-worlddata（真实世界的数据）comeintheformofgraphs（以图片的形式）.Graphneuralnetworks(GNNs图神经网络),anewfamilyofmachinelearning(ML)models,havebeenproposedtofullyleveragegraphdata（充分利用图数据）tobuildpowerfulapplicat
VIT论文阅读： A Image is Worth 16x16 Words Undefined游侠论文阅读
简介在2024年，大家都知道了transformer的故事，但是在4年前,CNN和Transformer谁才是CV的未来，还没有那么确定。在简介部分，作者提到了一个令人失望的事实，在基于imagenet的实验中发现，transformer的表现差于同尺寸的ResNet。作者把原因归结到biastranslationequivarianceandlocality，这些CNN具有，但是transfor
【论文阅读】GLiRA: Black-Box Membership Inference Attack via Knowledge Distillation Bosenya12 模型窃取科研学习论文阅读知识蒸馏成员推理攻击黑盒
摘要While（虽然）DeepNeuralNetworks(DNNs)havedemonstratedremarkableperformanceintasksrelatedtoperception（感知）andcontrol（控制）,therearestillseveralunresolvedconcerns（未解决的问题）regardingtheprivacyoftheirtrainingdat
【论文阅读】APMSA: Adversarial Perturbation Against Model Stealing Attacks（2023） Bosenya12 科研学习模型窃取论文阅读模型窃取防御对抗性扰动
摘要TrainingaDeepLearning(DL)model（训练深度学习模型）requiresproprietarydata（专有数据）andcomputing-intensiveresources（计算密集型资源）.Torecouptheirtrainingcosts（收回训练成本）,amodelprovidercanmonetizeDLmodelsthroughMachineLearni
Conditional Flow Matching: Simulation-Free Dynamic Optimal Transport论文阅读笔记猪猪想上树论文阅读笔记
ConditionalFlowMatching:Simulation-FreeDynamicOptimalTransport笔记发现问题连续正规化流（CNF）是一种有吸引力的生成式建模技术，但在基于模拟的最大似然训练中受到了限制。解决问题介绍一种新的条件流匹配（CFM)，一种针对CNFs的免模拟训练目标。具有稳定的回归目标，用于扩散模型中的随机流，但享有确定性流模型的有效推断。与扩散模型和CNF目
《论文阅读》EmpDG：多分辨率交互式移情对话生成 COLING 2020 365JHWZGo 情感对话论文阅读共情回复回复生成对话系统多分辨率对抗学习
《论文阅读》EmpDG：多分辨率交互式移情对话生成COLING2020前言简介模型架构共情生成器交互鉴别器损失函数前言亲身阅读感受分享，细节画图解释，再也不用担心看不懂论文啦~无抄袭，无复制，纯手工敲击键盘~今天为大家带来的是《EmpDG:Multi-resolutionInteractiveEmpatheticDialogueGeneration》出版：COLING时间：2020类型：共情回复关
算法单链的创建与删除换个号韩国红果果 c 算法
先创建结构体 struct student { int data; //int tag;//标记这是第几个 struct student *next; }; // addone 用于将一个数插入已从小到大排好序的链中 struct student *addone(struct student *h,int x){ if(h==NULL) //??????
《大型网站系统与Java中间件实践》第2章读后感白糖_ java中间件
断断续续花了两天时间试读了《大型网站系统与Java中间件实践》的第2章，这章总述了从一个小型单机构建的网站发展到大型网站的演化过程---整个过程会遇到很多困难，但每一个屏障都会有解决方案，最终就是依靠这些个解决方案汇聚到一起组成了一个健壮稳定高效的大型系统。看完整章内容，
zeus持久层spring事务单元测试 deng520159 java DAO spring jdbc
今天把zeus事务单元测试放出来,让大家指出他的毛病, 1.ZeusTransactionTest.java 单元测试 package com.dengliang.zeus.webdemo.test; import java.util.ArrayList; import java.util.List; import org.junit.Test; import
Rss 订阅开发周凡杨 html xml 订阅 rss 规范
RSS是 Really Simple Syndication的缩写（对rss2.0而言，是这三个词的缩写，对rss1.0而言则是RDF Site Summary的缩写，1.0与2.0走的是两个体系）。 RSS
分页查询实现 g21121 分页查询
在查询列表时我们常常会用到分页，分页的好处就是减少数据交换，每次查询一定数量减少数据库压力等等。按实现形式分前台分页和服务器分页：前台分页就是一次查询出所有记录，在页面中用js进行虚拟分页，这种形式在数据量较小时优势比较明显，一次加载就不必再访问服务器了，但当数据量较大时会对页面造成压力，传输速度也会大幅下降。服务器分页就是每次请求相同数量记录，按一定规则排序，每次取一定序号直接的数据
spring jms异步消息处理 510888780 jms
spring JMS对于异步消息处理基本上只需配置下就能进行高效的处理。其核心就是消息侦听器容器，常用的类就是DefaultMessageListenerContainer。该容器可配置侦听器的并发数量，以及配合MessageListenerAdapter使用消息驱动POJO进行消息处理。且消息驱动POJO是放入TaskExecutor中进行处理，进一步提高性能，减少侦听器的阻塞。具体配置如下：
highCharts柱状图布衣凌宇 hightCharts 柱图
第一步：导入 exporting.js,grid.js,highcharts.js;第二步：写controller @Controller@RequestMapping(value="${adminPath}/statistick")public class StatistickController { private UserServi
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans spring mvc Spring 教程 spring3 教程 Spring 入门
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
TLS java简单实现 antlove java ssl keystore tls secure
1. SSLServer.java package ssl; import java.io.FileInputStream; import java.io.InputStream; import java.net.ServerSocket; import java.net.Socket; import java.security.KeyStore; import
Zip解压压缩文件百合不是茶 Zip格式解压 Zip流的使用文件解压
ZIP文件的解压缩实质上就是从输入流中读取数据。Java.util.zip包提供了类ZipInputStream来读取ZIP文件,下面的代码段创建了一个输入流来读取ZIP格式的文件; ZipInputStream in = new ZipInputStream(new FileInputStream(zipFileName)); &n
underscore.js 学习（一） bijian1013 JavaScript underscore
工作中需要用到underscore.js，发现这是一个包括了很多基本功能函数的js库，里面有很多实用的函数。而且它没有扩展 javascript的原生对象。主要涉及对Collection、Object、Array、Function的操作。学
java jvm常用命令工具——jstatd命令(Java Statistics Monitoring Daemon) bijian1013 java jvm jstatd
1.介绍 jstatd是一个基于RMI（Remove Method Invocation）的服务程序，它用于监控基于HotSpot的JVM中资源的创建及销毁，并且提供了一个远程接口允许远程的监控工具连接到本地的JVM执行命令。 jstatd是基于RMI的，所以在运行jstatd的服务
【Spring框架三】Spring常用注解之Transactional bit1129 transactional
Spring可以通过注解@Transactional来为业务逻辑层的方法(调用DAO完成持久化动作)添加事务能力，如下是@Transactional注解的定义： /* * Copyright 2002-2010 the original author or authors. * * Licensed under the Apache License, Version
我(程序员)的前进方向 bitray 程序员
作为一个普通的程序员,我一直游走在java语言中,java也确实让我有了很多的体会.不过随着学习的深入,java语言的新技术产生的越来越多,从最初期的javase,我逐渐开始转变到ssh,ssi,这种主流的码农,.过了几天为了解决新问题,webservice的大旗也被我祭出来了,又过了些日子jms架构的activemq也开始必须学习了.再后来开始了一系列技术学习,osgi,restful.....
nginx lua开发经验总结 ronin47
使用nginx lua已经两三个月了，项目接开发完毕了，这几天准备上线并且跟高德地图对接。回顾下来lua在项目中占得必中还是比较大的，跟PHP的占比差不多持平了，因此在开发中遇到一些问题备忘一下 1：content_by_lua中代码容量有限制，一般不要写太多代码，正常编写代码一般在100行左右（具体容量没有细心测哈哈，在4kb左右），如果超出了则重启nginx的时候会报 too long pa
java-66-用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。颠倒之后的栈为{5,4,3,2,1}，5处在栈顶 bylijinnan java
import java.util.Stack; public class ReverseStackRecursive { /** * Q 66.颠倒栈。 * 题目：用递归颠倒一个栈。例如输入栈{1,2,3,4,5}，1在栈顶。 * 颠倒之后的栈为{5,4,3,2,1}，5处在栈顶。 *1. Pop the top element *2. Revers
正确理解Linux内存占用过高的问题 cfyme linux
Linux开机后，使用top命令查看，4G物理内存发现已使用的多大3.2G，占用率高达80%以上： Mem: 3889836k total, 3341868k used, 547968k free, 286044k buffers Swap: 6127608k total,&nb
[JWFD开源工作流]当前流程引擎设计的一个急需解决的问题 comsci 工作流
当我们的流程引擎进入IRC阶段的时候，当循环反馈模型出现之后，每次循环都会导致一大堆节点内存数据残留在系统内存中，循环的次数越多，这些残留数据将导致系统内存溢出，并使得引擎崩溃。。。。。。而解决办法就是利用汇编语言或者其它系统编程语言，在引擎运行时，把这些残留数据清除掉。
自定义类的equals函数 dai_lm equals
仅作笔记使用 public class VectorQueue { private final Vector<VectorItem> queue; private class VectorItem { private final Object item; private final int quantity; public VectorI
Linux下安装R语言 datageek R语言 linux
命令如下：sudo gedit /etc/apt/sources.list1、deb http://mirrors.ustc.edu.cn/CRAN/bin/linux/ubuntu/ precise/ 2、deb http://dk.archive.ubuntu.com/ubuntu hardy universesudo apt-key adv --keyserver ke
如何修改mysql 并发数(连接数)最大值 dcj3sjt126com mysql
MySQL的连接数最大值跟MySQL没关系，主要看系统和业务逻辑了方法一：进入MYSQL安装目录打开MYSQL配置文件 my.ini 或 my.cnf查找 max_connections=100 修改为 max_connections=1000 服务里重起MYSQL即可　　方法二：MySQL的最大连接数默认是100客户端登录：mysql -uusername -ppass
单一功能原则 dcj3sjt126com 面向对象的程序设计软件设计编程原则
单一功能原则[ 编辑] SOLID 原则单一功能原则开闭原则 Liskov代换原则接口隔离原则依赖反转原则查论编在面向对象编程领域中，单一功能原则（Single responsibility principle）规定每个类都应该有
POJO、VO和JavaBean区别和联系 fanmingxing VO POJO javabean
POJO和JavaBean是我们常见的两个关键字，一般容易混淆，POJO全称是Plain Ordinary Java Object / Plain Old Java Object，中文可以翻译成：普通Java类，具有一部分getter/setter方法的那种类就可以称作POJO，但是JavaBean则比POJO复杂很多，JavaBean是一种组件技术，就好像你做了一个扳子，而这个扳子会在很多地方被
SpringSecurity3.X--LDAP：AD配置 hanqunfeng SpringSecurity
前面介绍过基于本地数据库验证的方式，参考http://hanqunfeng.iteye.com/blog/1155226，这里说一下如何修改为使用AD进行身份验证【只对用户名和密码进行验证，权限依旧存储在本地数据库中】。将配置文件中的如下部分删除：
mac mysql 修改密码 IXHONG mysql
$ sudo /usr/local/mysql/bin/mysqld_safe –user=root & //启动MySQL(也可以通过偏好设置面板来启动)$ sudo /usr/local/mysql/bin/mysqladmin -uroot password yourpassword //设置MySQL密码（注意，这是第一次MySQL密码为空的时候的设置命令，如果是修改密码，还需在-
设计模式--抽象工厂模式 kerryg 设计模式
抽象工厂模式：工厂模式有一个问题就是，类的创建依赖于工厂类，也就是说，如果想要拓展程序，必须对工厂类进行修改，这违背了闭包原则。我们采用抽象工厂模式，创建多个工厂类，这样一旦需要增加新的功能，直接增加新的工厂类就可以了，不需要修改之前的代码。总结：这个模式的好处就是，如果想增加一个功能，就需要做一个实现类，
评"高中女生军训期跳楼” nannan408
首先，先抛出我的观点，各位看官少点砖头。那就是，中国的差异化教育必须做起来。孔圣人有云：有教无类。不同类型的人，都应该有对应的教育方法。目前中国的一体化教育，不知道已经扼杀了多少创造性人才。我们出不了爱迪生，出不了爱因斯坦，很大原因，是我们的培养思路错了，我们是第一要“顺从”。如果不顺从，我们的学校，就会用各种方法，罚站，罚写作业，各种罚。军
scala如何读取和写入文件内容？ qindongliang1922 java jvm scala
直接看如下代码： package file import java.io.RandomAccessFile import java.nio.charset.Charset import scala.io.Source import scala.reflect.io.{File, Path} /** * Created by qindongliang on 2015/
C语言算法之百元买百鸡 qiufeihu c 算法
中国古代数学家张丘建在他的《算经》中提出了一个著名的“百钱买百鸡问题”，鸡翁一，值钱五，鸡母一，值钱三，鸡雏三，值钱一，百钱买百鸡，问翁，母，雏各几何？代码如下： #include <stdio.h> int main() { int cock,hen,chick; /*定义变量为基本整型*/ for(coc
Hadoop集群安全性：Hadoop中Namenode单点故障的解决方案及详细介绍AvatarNode wyz2009107220 NameNode
正如大家所知，NameNode在Hadoop系统中存在单点故障问题，这个对于标榜高可用性的Hadoop来说一直是个软肋。本文讨论一下为了解决这个问题而存在的几个solution。 1. Secondary NameNode 原理：Secondary NN会定期的从NN中读取editlog，与自己存储的Image进行合并形成新的metadata image 优点：Hadoop较早的版本都自带，