业精于勤荒于嬉-行成于思而毁于随

【论文学习】：AlphaPose相关论文－－RMPE:Regional Multi-Person Pose Estimation

本文为总结文：原文对论文的总结有些不准确，不易读懂，重新措词记录～

１．http://www.cnblogs.com/taoshiqian/p/9593901.html

２．https://blog.csdn.net/qq_36165459/article/details/78330800

记录一个深度学习的官方文档！！！：http://deeplearning.net/tutorial/contents.html

引：主流的姿态识别通常2个思路：

（1）two-step framework，就是先进行行人检测，得到边界框，然后在每一个边界框中检测人体关键点，连接成一个人形，缺点就是受检测框的影响太大，漏检，误检，IOU大小等都会对结果有影响，代表方法就是RMPE。

（2）part-based framework，就是先对整个图片进行每个人体关键点部件的检测，再将检测到的部件拼接成一个人形，缺点就是会将不同人的不同部位按一个人进行拼接，代表方法就是openpose。

上海交通大学AlphaPose多人姿态估计论文

论文地址：https://arxiv.org/abs/1612.00137v5
项目主页：RMPE: Regional Multi-person Pose Estimation

RMPE:Regional Multi-Person Pose Estimation

　　该论文自顶向下方法，SSD-512检测人+stacked hourglass姿态估计。复杂环境中的多人姿态检测是非常具有挑战性的。现在最好的人体检测算法虽然已经得到了很好的效果，但是依然存在一些错误，这些错误会导致单人检测任务（SPPE）失败，尤其是那些十分依赖人体框检测结果的。这里应该是描述的自顶向下的检测技术，使用Faster-RCNN等算法进行目标检测（与之对应的有CPM等）。目前该算法得到了在MPII数据集上最高的mAP值。这个算法是由三部分组成的：

1 Symmetric Spatial Transformer Network – SSTN 对称空间变换网络：在不准确的bounding box中提取单人区域

2 Parametric Pose Non-Maximum-Suppression – NMS 参数化姿态非最大抑制：解决冗余

3 Pose-Guided Proposals Generator – PGPG 姿态引导区域框生成器：增强训练数据

该方法能够处理不准确的bounding box（边界框）和冗余检测，在MPII数据集上达到76.7mAP.

一、介绍

多人姿态估计有两个主流方案：Two-step framework & Part-based framework。第一种方案是检测环境中的每一个人体检测框，然后独立地去检测每一个人体区域的姿态（自顶向下的方法）。第二种方案是首先检测出环境中的所有肢体节点，然后进行拼接得到多人的骨架（自底向上的方法）。第一种方案，姿态检测准确度高度依赖目标区域框检测的质量。第二种方案，是依赖两个部件之间的关系，所以失去了对全局的信息获取。如果两人离得十分近，容易出现模棱两可的情况。

论文采用自顶向下方法。我们的目标是检测出正确的人体姿态即使在第一步中检测到的是不精准的区域框。为了说明之前的算法存在这些问题，我们使用Faster-RCNN和SPPE Stacked Hourglass进行实验，主要的问题是位置识别错误和识别冗余，如图1和图2所示。事实上，SPPE对于区域框错误是非常脆弱的，即使是使用IoU>0.5的边界框认为是正确的，检测到的人体姿态依然可能是错误的。冗余的区域框会产生冗余的姿态。

冗余：两个bounding box框住同一个人，会检测两遍，形成两个骨架

因此，提出了RMPE（区域多人姿态检测）框架，提升SPPE-based性能。在SPPE结构上添加SSTN，能够在不精准的区域框中提取到高质量的人体区域。并行的SPPE分支（SSTN）来优化自身网络。使用parametric pose NMS来解决冗余检测问题，在该结构中，使用了自创的姿态距离度量方案比较姿态之间的相似度。用数据驱动的方法优化姿态距离参数。最后我们使用PGPG来强化训练数据，通过学习输出结果中不同姿态的描述信息，来模仿人体区域框的生成过程，进一步产生一个更大的训练集。

我们的RMPE框架是通用的，适用于不同的人体探测器和单人姿势估计器。将RMPE框架应用于MPII（多人）数据集[3]，达到state-of-the-art效果76.7 mAP。我们还进行了切除研究，以验证我们框架中每个组件的有效性。

二、相关工作

2.1 单人姿态估计

……单人姿态估计总是需要保证人被正确的定位。

2.2 多人姿态估计

Part-Base 先检测关键点，再连接；先检测肢体

Two-Step 目标检测+单人姿态估计

三、 RMPE(论文地址)

如图3所示。首先通过目标检测算法，得到人体的区域框。然后将该区域框输入到STN+SPPE模块中，自动检测人体姿态。再通过PP-NMS进行refine。在训练过程中，使用Parallel SPPE来避免局部最优并进一步提升SSTN的效果。设计PGPG结构来增强已有的训练集。

图解：SSTN=STN+SDTN，STN处理区域框，SPPE单人姿态估计（Stacked Hourglass姿态检测），STDN产生姿态建议。并行SPPE作为训练阶段的额外正则化。p-PNMS去除冗余姿态。使用PGPG产生的增强图像来训练SSTN+SPPE模型。

整个过程分为3步：

第一步是用SSD检测人，获得human proposal　CNN目标检测(三):SSD详解　R-SSD

第二步是将proposal输入到两个并行的分支里面，上面的分支是STN+SPPE+SDTN的结构，即Spatial Transformer Networks + Single Person Pose Estimation + Spatial de- Transformer Networks，STN接收的是human proposal，SDTN产生的是pose proposal。下面并行的分支充当额外的正则化矫正器。 Spatial Transformer Networks论文、阅读分析笔记

第三步是对pose proposal做Pose NMS（非最大值抑制），用来消除冗余的pose proposal。论文A convnet for non-maximum suppression、论文阅读、参考博客1、参考博客2

还有个比较重要和新颖的：Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields

小记一个可能有用的2D到3D的姿态估计、加速，tensorrt加速

3.1 Symmetric STN and Parallel SPPE

对称空间变换网络，并行单人姿态估计

目标检测算法得到的人体区域框不是非常适合SPPE，因为SPPE算法是专门针对单个人的图像进行训练的，并且对于定位错误十分敏感。通过微小变换、修剪的方法可以有效的提高SPPE的效果。SSTN+Parallel SPPE可以在不完美的人体区域检测结果下有效的增强SPPE的效果，结构如图4所示。

图解：表示了SSTN + Parallel SPPE模块的结构，SDTN结构接收一个由定位网络生成的参数θ，然后为反向转换计算参数γ。我们使用网格生成器和采样器去提取一个人的所在区域，在Parallel SPPE中，制定一个中心定位姿态标签。我们固定Parallel SPPE的所有层的所有权重来增强STN去提取一个单人姿态区域。

STN and SDTN（spatial de-transformer network，空间反变换网络）。STN能很好地自动选取ROI，使用STN去提取一个高质量的人体区域框。（ROI是Region of Interest的简写，指的是在“特征图上的框”； 1）在Fast RCNN中， RoI是指Selective Search完成后得到的“候选框”在特征图上的映； 2）在Faster RCNN中，候选框是经过RPN产生的，然后再把各个“候选框”映射到特征图上，得到RoIs。ROI pooling、roi align、特征图）数学形式如下，2D affine transformation：

其中θ1，θ2和θ3都是二维空间的向量，{Xsi,Ysi}和{Xti,Yti}分别表示转换之前的坐标和转换之后的坐标。空间解变换网络(SDTN)将估计的人体姿态重新映射回原始图像坐标（这样子的话人体姿态线就会存在于原图尺寸的图像中）。SDTN中需要为反向转换和生成网格计算一个γ：

因为SDTN是STN结构的反向结构，所以可以得到以下关系：

为了在SDTN中进行反向传播，∂J(W,b)/∂θ可以分解为：

STN是通过V坐标学习得来θ后，式子(1)得到Ｕ坐标，将像素映射到Ｖ中；

SDTN是通过Ｕ坐标和γ得到Ｖ坐标，把Ｖ坐标的关节点映射打动Ｕ中。　（此时的输入图像为骨骼框架，目标为原始图像）　

STN（论文阅读）可以被安装在任意CNN的任意一层中——这里有些同学有误解，以为上图中U到V是原来的卷积，并且在卷积的路径上加了一个分支，其实并不是，而是将原来的一层结果U，变换到了V，中间并没有卷积的操作。通过U到V的变换，相当于又生成了一个新数据，而这个数据变换不是定死的而是学习来的，即然是学习来的，那它就有让loss变小的作用，也就是说，通过对输入数据进行简单的空间变换，使得特征变得更容易分类（往loss更小的方向变化）。另外一方面，有了STN，网络就可以动态地做到旋转不变性，平移不变性等原本认为是Pooling层做的事情，同时可以选择图像中最终要的区域（有利于分类）并把它变换到一个最理想的姿态（比如把字放正）。在得到高质量的人体检测框后，可以使用现成的SPPE算法来继续高精度的人体姿态检测，在训练阶段中，SSTN和SPPE一起进行fine-tuned。

是这样的：不准确的检测框经过STN+SPPE+SDTN，STN对人体区域框中的姿态进行形态调整，输入SPPE做姿态估计后得到姿态线（人体骨骼框架），再用SDTN把姿态线映射到原始的人体区域框中，以此来调整原本的框，使框变成精准的。

Parallel SPPE。为了进一步帮助STN去提取更好的人体区域位置，在训练阶段添加了一个Parallel SPPE分支。这个Paralell SPPE和原来的SPPE用同一个STN模块，和SPPE并行处理时候，忽略SDTN模块。这个分支的人体姿态标签被指定为中心,更准确的说，SPPE网络的输出直接和人体真实姿态的标签进行对比。在训练过程中会关闭Parallel SPPE的所有层（？？？？），我们固定这个分支的权重，其目的是将中心位置的位姿误差反向传播到STN模块。如果STN提取的姿态不是中心位置，那么Parallel SPPE会返回一个较大的误差。通过这种方式，我们可以帮助STN聚焦在正确的中心位置并提取出高质量的区域位置。Parallel SPPE只有在训练阶段才会产生作用。

Discussions。Parallel SPPE可以看作是训练阶段的正则化过程，有助于避免局部最优的情况（STN不能把姿态转换到提取到人体区域框的居中位置）。但是SDTN的反向修正可以减少网络的错误进而降低陷入局部最优的可能性。这些错误对于训练STN是很有影响的。通过Parallel SPPE，可以提高STN将人体姿态移动到检测框中间的能力。

　　感觉上似乎可以在SPPE的输出后添加一个中心定位姿态的回归损失函数来取代Parallel SPPE。然而，这种方法会降低我们整个系统的性能。尽管STN可以部分修改输入，但是不可能完美的将人定位在标签的位置。SPPE输入与标签坐标空间上的差异，将在很大程度上影响其学习姿态估计的能力，导致我们主分支SPPE的性能下降。因此，为了确保STN和SPPE同时发挥自己的作用，一个固定权重的Parallel SPPE是不可缺少的。Parallel SPPE在不影响主分支SPPE性能的情况下，会对非中心姿态产生较大的误差，从而推动STN产生中心位置的姿态。

3.2. Parametric Pose NMS 参数化姿态非最大抑制

人体定位不可避免的会产生冗余的检测框，同时也会产生冗余的姿态检测。所以，姿态非极大值抑制是十分有必要的，用来消除冗余。以前的方法要么效率不高，要么精确度不高。在论文中，提出了一种parametric pose NMS（参数化姿态非极大值抑制）方法。对于一个人的姿态Pi，有m 个关节点记做{(k1i,c1i),(k2i,c2i),...,(kmi,cmi)}，kji 和 cji 分别表示第 j 个部位的坐标位置和置信度分数。

NMS schema。NMS体系。回顾一下NMS：首先选取最大置信度的姿态作为参考，并且根据消除标准将靠近该参考的区域框进行消除。这个过程多次重复直到冗余的识别框被消除并且每一个识别框都是唯一的出现（没有超过阈值的重叠）。

Elimination Criterion。消去法则。 我们需要定义姿态相似度来消除那些离得较近且比较相似的姿态。我们定义了一种姿态距离度量d(Pi,Pj|Λ)来衡量姿态之间的相似度，定义η作为消除标准的阈值，在这里的Λ表示函数d(⋅)的一个参数集合。我们的消除标准可以定义为下面的形式：

如果d(⋅)小于阈值η，那么f(⋅)的输出是1，表示姿态Pi应该被消除，因为对于参考的Pj来说Pi是冗余的。

Pose Distance。姿态距离。定义距离函数dpose（Pi,Pj）。假设姿态Pi的区域框是Bi。然后我们定义一个软匹配函数：

B(kni)表示部位i的区域位置，维度上大约是整体图像的1/10。Tanh可以滤掉低置信度的姿态，当两个姿态的置信度都比较高的时候，上述函数的输出接近1。这个距离表示了姿态之间不同部位的匹配数。空间距离可以定义为：

因此最终距离可以定义为：

其中λ是一个权重系数，来平衡这两种距离，Λ表示{σ1,σ2,λ}，参考之前的pose NMS进行参数设置。

Optimization 。优化。给定检测到的冗余姿态，消除标准f(Pi,Pj|Λ, η)的这四个参数被优化以实现验证集的最大mAP。由于在4D空间中的穷举搜索是难以处理的，所以在迭代的过程中，固定两个参数变化另外两个参数进行搜索最优解。一旦收敛，这些参数将会固定，并用在测试阶段。

3.3. Pose-guided Proposals Generator 姿态引导的区域框生成器

Data Augmentation 数据增强

对于Two-Stage姿态识别（首先定位区域，然后进行姿态点定位），适当的数据增强有助于让SSTN+SPPE适应不完美的人体区域定位结果。否则，模型在测试阶段运行时可能不是很适应奇怪的人体定位结果。一种直观的方法是在训练阶段使用检测出来的区域框。然而，目标检测对于一个人而言只会产生一个定位区域。通过使用生成的人体定位，可以产生一定得效果。因为我们已经有了每一个人的真实位置和检测出来的定位框，我们可以通过与人体检测结果一致的样本生成一个大样本的训练集。通过这种技术，我们可以进一步提高系统的性能。

Insight

我们寻找对于不同姿态之间真实值和实际预测值的相对偏移量的分布。为了进一步明确过程，这里定义P(δB|P)，δB表示检测到的人体位置的坐标和实际人体的标注坐标之间的偏移量，P是真实情况中一个人。我们可以根据目标检测得到的推荐位置生成一些训练集。

Implementation

直接学习P(δB|P)对于易变的人体姿态是比较困难的。因此我们使用P(δB|atom(P))，atom（P）表示P的原子姿势（P是一个姿态，包含多个关节点）。为了从人类姿态的注解中得到相应的原子结构，

1.首先对齐（列出）所有姿势，使躯干具有相同的长度。

2.然后使用K-means聚类算法对已经对齐的姿态进行聚类，计算出的聚类中心形成我们的原子姿态。

对于每一个共享atomic(a)的实例，计算该实例的真实值和检测边界框的偏移量。

通过该方向上的ground truth bounding box的相应边长来将偏移归一化处理。经过这些处理后，偏移量形成频率分布，我们将这些数据拟合成高斯混合分布（频率分布→高斯混合分布）。对于不同的原子姿态，我们会得到不同的高斯混合分布，如图

Proposals Generation

在SSTN+SPPE的训练阶段，对于训练样本中的每个带注释的姿势，我们首先查找相应的原子姿态a。然后，根据p(δB，a)，通过密集采样产生额外的偏移量，从而产生增强的训练proposals(‘假’样本)。

大部分姿态检测的最后一步，是在feature map上对每个像素做概率预测，计算该像素是某个关节点的概率。

上图就是各个关节点的heat map，左边第一张为输入图像以及最终的预测关节点位置，第二张为对颈部节点的概率预测，红色和黄色代表着对应像素位置是颈部的概率很高，其他蓝色区域意味着这里几乎不会是颈部位置。

四、实验

所提出的方法在具有大遮挡情况的两个标准多人数据集上进行定性和定量评估：MPII [3]和MSCOCO 2016关键点挑战数据集。

4.1评估数据集

MPII：多人，3844训练，1758测试，有遮挡和重叠，28000个单人姿态估计样本。使用单人数据集中所有训练数据和90%多人训练集来微调SPPE，留下10%用于验证。

MSCOCO关键点挑战。105698训练，80000测试，100W个关键点。

4.2测试实现细节

基于VGG的SSD-512作为人体检测器。检测到人体后，高度和宽度都延伸30%。使用stacked hourglass模型做单人姿态估计。对于STN网络，采用ResNet-18作为本地化网络，使用较小的4-stacked hourglass作为并行SPPE。考虑到存储效率，我们使用一个4-stack hourglass network作为并行SPPE。

为了标明框架的应用能力，人体检测器可替换为基于Faster-RCNN的ResNet152，姿态估计可以替换为PyraNet。

4.3结果

MPII。如表1所示，在手腕，肘部，踝关节和膝盖等困难关节时达到了

72 mAP 的平均准确度。

MSCOCO。利用MSCOCO keypoints的训练集和验证集，来fine-tune SPPE，并留下5000图像用于验证。表2为测试结果，优于其他方法。

4.4消除实验

为了验证这三个组件的有效性：SSTN,PGPG,PP-NMS。移除或者使用常规方法来替代。在MPII上实验，结果见表3.

Symmetric STN and Parallel SPPE

为了验证SSTN和parallel SPPE的重要性，进行了两个实验。在第一个实验中删除了SSTN和并行SPPE。在第二个实验中，我们只删除了并行SPPE并保持SSTN结构。这些结果均显示在表3（a）中。我们可以在去除平行SPPE时观察到性能下降，这意味着具有单人图像标签的并行SPPE能有效提升STN提取单个人区域的效果，以最小化总损失。

Pose-guided Proposals Generator

在表3（b）中，证明PGPG在系统中也起着重要作用。在本实验中，首先从训练阶段中删除数据增强。最终的mAP降至73.0 ％。然后我们将数据增强技术与简单基线进行比较。通过抖动（jitter）人体检测器产生的边界框的位置和纵横比来形成基线，以产生大量附加的提议框。我们选择那些IoU > 0.5的ground-truth框。从我们在表3中的结果（b），我们可以看到我们的技术优于基线方法。根据分布生成培训建议可以看作是一种数据重新抽样，可以帮助模型更好地适应人类的建议。

Parametric Pose NMS

由于姿势NMS是一个独立的模块，我们可以直接从最终模型中删除它。实验结果如表3（c）所示。我们可以看到，如果删除了参数化姿势NMS，则mAP会显着下降。这是因为冗余姿势数量的增加最终会降低精确度。我们注意到之前的姿势NMS也可以在一定程度上消除冗余检测。最先进的姿势NMS算法[ 6，9]用于替换我们的PP-NMS，对结果于表3（C）。这些方案的效果不如我们的，因为缺少参数学习。在效率方面，在包含1300张图像的验证集上，[6]的姿势NMS需要62.2秒，而使用我们的算法只需1.8秒。

Upper Bound of Our Framework 上界

使用ground-truth的边界框作为人体提议框，如表3(e)，84.2mAP ,(在MSCOCO keypoints 上63.3mAP)，它验证了我们的系统已经接近两步框架的上限。表示使用更强的人体检测器，我们的框架可以有更好的性能，证明RMPE框架是通用的，适合不同的人体检测器。

五、结论

在本文中，提出了一种新的区域多人姿态估计（RMPE）框架，其在准确性和效率方面明显优于最先进的多人人体姿态估计方法。当SPPE适用于人体检测器时，它验证了two-step框架的潜力，即人体检测器+ SPPE。我们的RMPE框架由三个新颖的组件组成：具有并行SPPE的对称STN，参数姿势NMS和姿态引导建议生成器（PGPG）。特别地，PGPG用于通过学习针对给定人体姿势的边界框提议的条件分布来极大地论证训练数据。由于使用对称STN和并行SPPE，SPPE变得善于处理人体本地化错误。最后，参数姿势NMS可用于减少冗余检测。

参考：

https://blog.csdn.net/TwT520Ly/article/details/79258594

https://arxiv.org/pdf/1612.00137.pdf

https://github.com/MVIG-SJTU/AlphaPose/tree/pytorch

http://www.mvig.org/research/alphapose.html

论文学习笔记 VMamba: Visual State Space Model Wils0nEdwards 学习笔记
概览这篇论文的动机源于在计算机视觉领域设计计算高效的网络架构的持续需求。当前的视觉模型如卷积神经网络（CNNs）和视觉Transformer（ViTs）在处理大规模视觉任务时展现出良好的表现，但都存在各自的局限性。特别是，ViTs尽管在处理大规模数据上具有优势，但其自注意力机制的二次复杂度对高分辨率图像处理时的计算成本极高。因此，研究者希望通过引入新的架构来降低这种复杂度，并提高视觉任务的效率。现
论文学习1----理解深度学习需要重新思考泛化Understanding deep learning requires rethinking generalization 夏洛的网机器学习深度学习论文深度学习神经网络
——论文地址：Understandingdeeplearningrequiresrethinkinggeneralization1、有关新闻1.1新闻一：参考1：机器之心尽管深度人工神经网络规模庞大，但它们的训练表现和测试表现之间可以表现出非常小的差异。传统的思考是将小的泛化误差要么归结为模型族的特性，要么就认为与训练过程中的正则化技术有关。通过广泛的系统性实验，我们表明这些传统的方法并不能解释大
半监督语义分割论文学习记录西瓜真的很皮啊半监督语义分割深度学习机器学习人工智能
Semi-SupervisedSemanticSegmentationwithCross-ConsistencyTraining1.1motivation一致性训练的目的是在应用于输入的小扰动上增强模型预测的不变性。因此，学习的模型将对这样的小变化具有鲁棒性。一致性训练的有效性在很大程度上取决于数据分布的行为，即集群假设，其中类必须由低密度区域分隔。在语义分割中，在输入中，我们没有观察到低密度区域
2019-1-27晨间日记紫薇忘了水葫芦
在柳州的第二天起床：八点半左右天气：晴心情：好像很复杂，一会儿开心一会儿不开心纪念日：参加了晗大姐的婚礼任务清单昨日完成的任务，最重要的三件事：⒈把之前的论文题目整理了一遍⒉参加了婚礼⒊送了礼物改进：要静下来多看些书做些运动，多思考。习惯养成：早睡早起，饮食清淡周目标·完成进度开始读论文学习·信息·阅读阅读健康·饮食·锻炼饮食清淡，多锻炼人际·家人·朋友多联系工作·思考怎么把自己的工作做得更好最美
语义分割系列之FCN、DeeplabV1、V2、V3、V3Plus论文学习 Diros1g 学习深度学习计算机视觉
FCNFullyConvolutionalNetworks论文：FullyConvolutionalNetworksforSemanticSegmentation地址:https://openaccess.thecvf.com/content_cvpr_2015/papers/Long_Fully_Convolutional_Networks_2015_CVPR_paper.pdf特点：用全卷积替
论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning JiangChSo 论文学习深度学习机器学习神经网络算法分布式
论文学习笔记POSEIDON:Privacy-PreservingFederatedNeuralNetworkLearningNDSS2021录用文章目录论文学习笔记POSEIDON:Privacy-PreservingFederatedNeuralNetworkLearning一、机器学习1.机器学习(ML)中的挑战2.隐私保护机器学习(PPML)二、POSEIDON方案1.系统和威胁模型2.方
论文学习——Vector Quantized Diffusion Model for Text-to-Image Synthesis 客院载论音频生成学习
文章目录引言正文Abstract文章的核心VQ潜在空间适合文本转图片生成VQDiffusion的比起自回归和GAN的其他模型的成果IntroductionNLP的成功给图片生成的启发自回归模型的单向误差解释预测误差累积VQDiffusion能够解决预测误差累计和单向误差两个问题解决单向误差的方式——每一次预测都是考虑所有token的上下文信息解决错误累积的方式——使用基于掩码和替换的扩散策略模型测
Python论文学习 -- 第二章 --- Python基础知识 Metallic Cat 学习
1.cmd命令器中如果想终止命令的话可以在终止行输入exit()函数调用停止命令一.字面量二.注释---对代码进行解释说明1.在print函数中：print(a,"asd",c)输出的结果为a变量对应的值+asd+c变量对应的值如：则输出的结果为：往type()函数中输入数据，它会返回数据的类型给我们，然后我们可以用print()函数将数据类型打出来1.值得注意的是变量本身是没有类型的，它只是一个
论文学习笔记：PoseFix: Model-agnostic General Human Pose Refinement Network wangyc1208 姿态估计
论文：https://arxiv.org/abs/1812.03595代码：https://github.com/mks0601/PoseFix_RELEASE—————————————————————————————————————————————————目标：多人姿态估计：本篇论文主要工作是利用一个人体姿势优化网络，从输入图像和姿势中对人体姿态进行优化。大概的效果如下图：———————————
2021-9-23晨间日记言二yaner
今天是什么日子起床：7：40就寝：23：00天气：美好心情：美好纪念日：无任务清单昨日完成的任务，最重要的三件事：投稿改进：想到就做到习惯养成：专注自己，提升自己周目标·完成进度准备再写一篇论文学习·信息·阅读多阅读，多学习健康·饮食·锻炼早饭：小米粥，鸡蛋，烧麦中饭：真味卤，杨枝甘露晚饭：黑米粥锻炼：一小时左右人际·家人·朋友一切都是最好的安排，虽然没有过去，但也有属于自己的收获工作·思考凡事早
论文学习记录之Deep-learning seismic full-waveform inversion for realistic structuralmodels 摘星星的屋顶论文深度学习人工智能
一、ABSTRACT—摘要标题：Deep-learningseismicfull-waveforminversionforrealisticstructuralmodels（用于真实结构模型的深度学习地震全波形反演）作者：BinLiu1,SenlinYang2,YuxiaoRen2,XinjiXu3,PengJiang2,andYangkangChen4（和SeisInvNet有共同作者，应该是同
论文学习记录之SeisInvNet（Deep-Learning Inversion of Seismic Data）摘星星的屋顶论文人工智能
目录1INTRODUCTION—介绍2RELATEDWORKS—相关作品3METHODOLOGYANDIMPLEMENTATION—方法和执行3.1方法3.2执行4EXPERIMENTS—实验4.1数据集准备4.2实验设置4.3基线模型4.4定向比较4.5定量比较4.6机理研究5CONCLUSION—结论1INTRODUCTION—介绍地震勘探是根据地震波在大地中的传播规律来确定地下地层结构的一种
基于变长频带选择的JPEG图像可逆数据隐藏-文献学习凌峰的博客学习算法计算机视觉
论文学习原文题目：ReversibleDataHidingofJPEGImageBasedonAdaptiveFrequencyBandLength发表期刊：TCSVT2023（中科院1区）作者：NingxiongMao,HongjieHe,FanChen,YuanYuan,LingfengQu摘要JPEG图像在互联网上被广泛使用。基于quantifieddiscretecosinetransfo
BASNet：Boundary-aware salient object detection Kun Li 应用算法目标检测计算机视觉
CVPR2019开源论文|BASNet：关注边界的显著性检测本文提出一种基于深度监督学习的前景提取构架BASNet，其在边缘感知上有优异的表现。https://mp.weixin.qq.com/s/fjq4UyDMN9Z9lvNZ7aNLWABASNet:Boundary-AwareSalientObjectDetection论文学习_basnet:boundary-awaresalientobj
Nerf-Wild神经辐射场论文学习笔记 Neural Radiance Fields for Unconstrained Photo Collections 出门吃三碗饭 Nerf学习记录三维重建学习笔记
前言：本文为记录自己在Nerf学习道路的一些笔记，包括对论文以及其代码的思考内容。公众号：AI知识物语B站后续同步更新讲解本篇文章主要针对其数学公式来学习其内容，欢迎批评指正！！！（代码下篇出）1：摘要提出基于学习（learning-based）方法，使用野外照片的非结构化集合（unstructuredcollectionsofin-the-wildphotographs）来合成复杂场景。之前的N
GroupMixFormer：Advancing Vision Transformers with Group-Mix Attention论文学习笔记 athrunsunny Transformer 学习笔记深度学习计算机视觉 transformer
论文地址：https://arxiv.org/pdf/2311.15157.pdf代码地址：https://github.com/AILab-CVC/GroupMixFormer摘要：ViT已被证明可以通过使用多头自注意力（MHSA）对远程依赖关系进行建模来增强视觉识别，这通常被表述为Query-Key-Value计算。但是，从“Query”和“Key”生成的注意力图仅捕获单个粒度的token-t
论文学习——基于查询的workload预测（CMU） _zhj 机器学习数据库
一、简介论文题目：Query-basedWorkloadForecastingforSelf-DrivingDatabaseManagementSystems发表在2018SIGMOD，来自cmu的数据库组（这个组真的很厉害）这篇论文主要讲数据库workload预测的问题。因为要实现数据库self-driving（如选择合适的时机在合适的列上自动创建索引），应该根据将要到来的查询对数据库进行优化，
第六十八周周报童、一周报深度学习
学习目标：项目论文学习时间：2023.12.23-2023.12.29学习产出：一、项目这周后两天在根据吉安方面的需求优化SQL，提升性能二、论文这周周六在杨老师的带领下仔细改了论文前两段，后面几天自己把剩下的改完了，目前还在给杨老师看。实验方面，由于LSUN一直跑不出好的效果，已经转为STL10和CelebA，预计得下周才能出结果。其他时间都在搞开题报告的东西。
DN-DETR论文学习彭祥. DETR系列学习深度学习计算机视觉
摘要本文提出了一种新颖的去噪训练方法，以加快DETR（DEtectionTRansformer）训练，并加深了对类DETR方法的慢收敛问题的理解。我们表明，缓慢收敛是由于二分图匹配的不稳定性导致早期训练阶段的优化目标不一致。为了解决这个问题，除了匈牙利损失之外，我们的方法还向Transformer解码器馈送了带有噪声的GT边界框，并训练模型重建原始框，从而有效地降低了二分图匹配难度，并加快了收敛速
MS-DETR: Efficient DETR Training with Mixed Supervision论文学习笔记 athrunsunny Transformer 学习笔记 transformer 深度学习算法
论文地址：https://arxiv.org/pdf/2401.03989.pdf代码地址（中稿后开源）：GitHub-Atten4Vis/MS-DETR:Theofficialimplementationfor"MS-DETR:EfficientDETRTrainingwithMixedSupervision"摘要DETR通过迭代生成多个基于图像特征的目标候选者，并为每个真实目标分配一个候选者，
经典论文学习：Attention Is All You Need（Transformer）才能我浪费 AI应用深度学习机器学习人工智能
1，概述《AttentionIsAllYouNeed》是一篇由GoogleDeepMind团队在2017年发表的论文，该论文提出了一种新的神经网络模型，称为Transformer模型，用于自然语言处理任务。该模型的创新点在于使用了一种称为“自注意力机制（self-attentionmechanism）”的技术，以取代传统的循环神经网络（RNN）和卷积神经网络（CNN）等结构，这使得模型在处理序列数
2022-6-17晨间日记七翎
今天是什么日子起床：7.30(因为今天考科四，好困啊！！！)就寝：科四成功考过，熬个小夜(嘻嘻)天气：昨天下雨了，今天超凉快！心情：开心更多一点纪念日：纪念我拿上驾照的日子任务清单昨日完成的任务，最重要的三件事：刷完10套科四卷子✔习惯养成：早睡早起(尽量吧)周目标·完成进度1.完成编程课程2.看完导师论文学习·信息·阅读看了网文(嘻嘻)放纵一下健康·饮食·锻炼吃了很多不健康的食物，但很快乐！人际
ChatGPT可以帮你做什么？ SiKi学院 chatgpt 人工智能
学习利用ChatGPT学习有很多，比如：语言学习、编程学习、论文学习拆解、推荐学习资源等，使用方法大同小异，这里以语言学习为例。在开始前先给GPT充分的信息：（举例）【角色】充当一名有丰富经验的英语老师【背景】我是一名英语雅思备考的学生，想进行英语相关学习（这里最好说明是帮助你做什么练习，如口语）【任务】你要和我进行对话，根据我输入的内容，去进行讲解和说明【要求】我希望你首先可以列举出雅思备
【论文学习】SOLVING INVERSE PROBLEMS IN MEDICAL IMAGING WITH SCORE-BASED GENERATIVE MODELS Lyrig~ 神经网络图像修复（Image Restoration）学习机器学习算法
【论文学习】SOLVINGINVERSEPROBLEMSINMEDICALIMAGINGWITHSCORE-BASEDGENERATIVEMODELS前言相关概念线性逆问题基于分数的生成模型扰动过程逆过程采样利用基于分数的生成模型求解逆问题一种简便的线性测量过程形式将给定的观测结果融合进无条件采样过程前言好不容易写完了这么长的一篇，整体看来，这篇文章更像是对去噪过程的一个改进。通过在不同时间步引入
论文学习使用基于NeRF的精炼特征从3D感知Diffusion模型下实现单视点下的人工重建 Lyrig~ 学习 3d 人工智能
论文学习使用基于NeRF的精炼特征从3D感知Diffusion模型下实现单视点下的人工重建论文连接前言摘要介绍相关工作2.13D生成的扩散模型2.2单视点下的新视点生成神经场（NeRF）以外的方法基于神经场（NeRF）的方法背景3.1图片条件NeRF3.2无几何视图合成NerfDiff论文连接NerfDiff:Single-imageViewSynthesiswithNeRF-guidedDist
【论文学习】InstructGPT：Training language models to follow instructions with human feedback Shackles Lay 学习语言模型自然语言处理
前言：语言模型的输出依赖于预训练的数据集，研究者想要探索无监督领域的模型，使其仅仅依赖无标签的数据就可以实现不错的效果，为了让模型的泛化性能尽可能的强，研究者会提供尽可能大的数据集。但这样的训练方法存在两个问题：一、有效性。模型的性能依赖于训练时使用的文本，但是研究者并不知道无标签的大批量的数据集是否可以使模型学习到解决指定任务的能力，可能对于特定领域来说，模型根本没见过这样的数据；二、安全性，模
畸变矫正-深度学习相关论文学习六个核桃Lu 畸变矫正深度学习学习人工智能
目录DocTr:DocumentImageTransformerforGeometricUnwarpingandIlluminationCorrectionSimFIR:ASimpleFrameworkforFisheyeImageRectificationwithSelf-supervisedRepresentationLearningModel-FreeDistortionRectificat
A Fast Learning Algorithm for Deep Belief Nets - 论文学习 Mr，yu 论文笔记论文笔记 Machine Learning DeepLearning
文章目录摘要介绍互补先验一个带约束权的无限有向模型限制玻尔兹曼机和对比散度学习一种转换表示的贪婪学习算法SomeIdeasBasedonDBNNonlinearDimensionalityReductionLearningSemanticAddressSpace(SAS)forFastDocumentRetrievalLearningNonlinearEmbeddings参考文献摘要explain
周四 2020-03-12 07:15 - 24:00 晴 06h54m 么得感情的日更机器
概述早上6点20被闹钟搞醒，关了接着睡，7:14醒听听力、背单词、学习强国，练字，8:00下楼吃饭，8:30上楼读口语、做日计划。上午从9:00开始锁机学习相应SLAM论文综述，中间锻炼五分钟，跳的我腿好疼。11:00-11:35，对论文学习内容进行总结，编写论文记录文档。下午13:00-14:30看动漫，14:30-16:20整理计算机基本知识的文档。晚上看着手机发呆，然后讨论论文的事情，总
smpl-x论文学习-部分翻译 ipv-tao 图形学三维重构
论文地址：ExpressiveBodyCapture:3DHands,Face,andBodyfromaSingleImage知乎大佬的讲解：https://zhuanlan.zhihu.com/p/137235901另一位大佬的讲解：https://posts.careerengine.us/p/5f23a5898988c12b4302afb61.定性结果和SMPL，SMPL-H相比，表现能力明
Hadoop(一) 朱辉辉33 hadoop linux
今天在诺基亚第一天开始培训大数据，因为之前没接触过Linux，所以这次一起学了，任务量还是蛮大的。首先下载安装了Xshell软件，然后公司给了账号密码连接上了河南郑州那边的服务器，接下来开始按照给的资料学习，全英文的，头也不讲解，说锻炼我们的学习能力，然后就开始跌跌撞撞的自学。这里写部分已经运行成功的代码吧. 在hdfs下，运行hadoop fs -mkdir /u
maven An error occurred while filtering resources blackproof maven 报错
转：http://stackoverflow.com/questions/18145774/eclipse-an-error-occurred-while-filtering-resources maven报错： maven An error occurred while filtering resources Maven -> Update Proje
jdk常用故障排查命令 daysinsun jvm
linux下常见定位命令： 1、jps 输出Java进程 -q 只输出进程ID的名称，省略主类的名称； -m 输出进程启动时传递给main函数的参数； &nb
java 位移运算与乘法运算周凡杨 java 位移运算乘法
对于 JAVA 编程中，适当的采用位移运算，会减少代码的运行时间，提高项目的运行效率。这个可以从一道面试题说起：问题：用最有效率的方法算出2 乘以8 等於几?” 答案：2 << 3 由此就引发了我的思考，为什么位移运算会比乘法运算更快呢？其实简单的想想，计算机的内存是用由 0 和 1 组成的二
java中的枚举(enmu) g21121 java
从jdk1.5开始，java增加了enum(枚举)这个类型，但是大家在平时运用中还是比较少用到枚举的，而且很多人和我一样对枚举一知半解，下面就跟大家一起学习下enmu枚举。先看一个最简单的枚举类型，一个返回类型的枚举： public enum ResultType { /** * 成功 */ SUCCESS, /** * 失败 */ FAIL,
MQ初级学习 510888780 activemq
1.下载ActiveMQ 去官方网站下载：http://activemq.apache.org/ 2.运行ActiveMQ 解压缩apache-activemq-5.9.0-bin.zip到C盘，然后双击apache-activemq-5.9.0-\bin\activemq-admin.bat运行ActiveMQ程序。启动ActiveMQ以后，登陆：http://localhos
Spring_Transactional_Propagation 布衣凌宇 spring transactional
//事务传播属性 @Transactional(propagation=Propagation.REQUIRED)//如果有事务，那么加入事务，没有的话新创建一个 @Transactional(propagation=Propagation.NOT_SUPPORTED)//这个方法不开启事务 @Transactional(propagation=Propagation.REQUIREDS_N
我的spring学习笔记12-idref与ref的区别 aijuans spring
idref用来将容器内其他bean的id传给<constructor-arg>/<property>元素，同时提供错误验证功能。例如： <bean id ="theTargetBean" class="..." /> <bean id ="theClientBean" class=&quo
Jqplot之折线图 antlove js jquery Web timeseries jqplot
timeseriesChart.html <script type="text/javascript" src="jslib/jquery.min.js"></script> <script type="text/javascript" src="jslib/excanvas.min.js&
JDBC中事务处理应用百合不是茶 java JDBC编程事务控制语句
解释事务的概念; 事务控制是sql语句中的核心之一;事务控制的作用就是保证数据的正常执行与异常之后可以恢复事务常用命令: Commit提交
[转]ConcurrentHashMap Collections.synchronizedMap和Hashtable讨论 bijian1013 java 多线程线程安全 HashMap
在Java类库中出现的第一个关联的集合类是Hashtable，它是JDK1.0的一部分。 Hashtable提供了一种易于使用的、线程安全的、关联的map功能，这当然也是方便的。然而，线程安全性是凭代价换来的――Hashtable的所有方法都是同步的。此时，无竞争的同步会导致可观的性能代价。Hashtable的后继者HashMap是作为JDK1.2中的集合框架的一部分出现的，它通过提供一个不同步的
ng-if与ng-show、ng-hide指令的区别和注意事项 bijian1013 JavaScript AngularJS
angularJS中的ng-show、ng-hide、ng-if指令都可以用来控制dom元素的显示或隐藏。ng-show和ng-hide根据所给表达式的值来显示或隐藏HTML元素。当赋值给ng-show指令的值为false时元素会被隐藏，值为true时元素会显示。ng-hide功能类似，使用方式相反。元素的显示或
【持久化框架MyBatis3七】MyBatis3定义typeHandler bit1129 TypeHandler
什么是typeHandler? typeHandler用于将某个类型的数据映射到表的某一列上，以完成MyBatis列跟某个属性的映射内置typeHandler MyBatis内置了很多typeHandler，这写typeHandler通过org.apache.ibatis.type.TypeHandlerRegistry进行注册，比如对于日期型数据的typeHandler，
上传下载文件rz,sz命令 bitcarter linux命令rz
刚开始使用rz上传和sz下载命令：因为我们是通过secureCRT终端工具进行使用的所以会有上传下载这样的需求：我遇到的问题： sz下载A文件10M左右，没有问题但是将这个文件A再传到另一天服务器上时就出现传不上去，甚至出现乱码，死掉现象，具体问题解决方法：上传命令改为;rz -ybe 下载命令改为：sz -be filename 如果还是有问题：那就是文
通过ngx-lua来统计nginx上的虚拟主机性能数据 ronin47 ngx-lua　统计解禁ip
介绍以前我们为nginx做统计,都是通过对日志的分析来完成.比较麻烦,现在基于ngx_lua插件,开发了实时统计站点状态的脚本,解放生产力.项目主页: https://github.com/skyeydemon/ngx-lua-stats 功能支持分不同虚拟主机统计, 同一个虚拟主机下可以分不同的location统计. 可以统计与query-times request-time
java-68-把数组排成最小的数。一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的。例如输入数组{32, 321}，则输出32132 bylijinnan java
import java.util.Arrays; import java.util.Comparator; public class MinNumFromIntArray { /** * Q68输入一个正整数数组，将它们连接起来排成一个数，输出能排出的所有数字中最小的一个。 * 例如输入数组{32, 321}，则输出这两个能排成的最小数字32132。请给出解决问题
Oracle基本操作 ccii Oracle SQL总结 Oracle SQL语法 Oracle基本操作 Oracle SQL
一、表操作 1. 常用数据类型 NUMBER(p,s)：可变长度的数字。p表示整数加小数的最大位数，s为最大小数位数。支持最大精度为38位 NVARCHAR2(size)：变长字符串，最大长度为4000字节（以字符数为单位） VARCHAR2(size)：变长字符串，最大长度为4000字节（以字节数为单位） CHAR(size)：定长字符串，最大长度为2000字节，最小为1字节，默认
[强人工智能]实现强人工智能的路线图 comsci 人工智能
1：创建一个用于记录拓扑网络连接的矩阵数据表 2:自动构造或者人工复制一个包含10万个连接(1000*1000)的流程图 3：将这个流程图导入到矩阵数据表中 4：在矩阵的每个有意义的节点中嵌入一段简单的
给Tomcat，Apache配置gzip压缩(HTTP压缩)功能 cwqcwqmax9 apache
背景： HTTP 压缩可以大大提高浏览网站的速度，它的原理是，在客户端请求网页后，从服务器端将网页文件压缩，再下载到客户端，由客户端的浏览器负责解压缩并浏览。相对于普通的浏览过程HTML ,CSS,Javascript , Text ，它可以节省40%左右的流量。更为重要的是，它可以对动态生成的，包括CGI、PHP , JSP , ASP , Servlet,SHTML等输出的网页也能进行压缩，
SpringMVC and Struts2 dashuaifu struts2 springMVC
SpringMVC VS Struts2 1: spring3开发效率高于struts 2: spring3 mvc可以认为已经100%零配置 3: struts2是类级别的拦截，一个类对应一个request上下文， springmvc是方法级别的拦截，一个方法对应一个request上下文，而方法同时又跟一个url对应所以说从架构本身上 spring3 mvc就容易实现r
windows常用命令行命令 dcj3sjt126com windows cmd command
在windows系统中，点击开始－运行，可以直接输入命令行，快速打开一些原本需要多次点击图标才能打开的界面，如常用的输入cmd打开dos命令行，输入taskmgr打开任务管理器。此处列出了网上搜集到的一些常用命令。winver 检查windows版本 wmimgmt.msc 打开windows管理体系结构(wmi) wupdmgr windows更新程序 wscrip
再看知名应用背后的第三方开源项目 dcj3sjt126com ios
知名应用程序的设计和技术一直都是开发者需要学习的，同样这些应用所使用的开源框架也是不可忽视的一部分。此前《 iOS第三方开源库的吐槽和备忘》中作者ibireme列举了国内多款知名应用所使用的开源框架，并对其中一些框架进行了分析，同样国外开发者 @iOSCowboy也在博客中给我们列出了国外多款知名应用使用的开源框架。另外txx's blog中详细介绍了 Facebook Paper使用的第三
Objective-c单例模式的正确写法 jsntghf 单例 ios iPhone
一般情况下，可能我们写的单例模式是这样的： #import <Foundation/Foundation.h> @interface Downloader : NSObject + (instancetype)sharedDownloader; @end #import "Downloader.h" @implementation
jquery easyui datagrid 加载成功，选中某一行 hae jquery easyui datagrid 数据加载
1.首先你需要设置datagrid的onLoadSuccess $( '#dg' ).datagrid({onLoadSuccess : function (data){ $( '#dg' ).datagrid( 'selectRow' ,3); }}); 2.onL
jQuery用户数字打分评价效果 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/5.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery用户数字打分评分代码 - HoverTree</
mybatis的paramType kerryg DAO sql
MyBatis传多个参数： 1、采用#{0},#{1}获得参数： Dao层函数方法： public User selectUser(String name,String area); 对应的Mapper.xml <select id="selectUser" result
centos 7安装mysql5.5 MrLee23 centos
首先centos7 已经不支持mysql，因为收费了你懂得，所以内部集成了mariadb，而安装mysql的话会和mariadb的文件冲突，所以需要先卸载掉mariadb，以下为卸载mariadb，安装mysql的步骤。 #列出所有被安装的rpm package rpm -qa | grep mariadb #卸载 rpm -e mariadb-libs-5.
利用thrift来实现消息群发 qifeifei thrift
Thrift项目一般用来做内部项目接偶用的，还有能跨不同语言的功能，非常方便，一般前端系统和后台server线上都是3个节点，然后前端通过获取client来访问后台server，那么如果是多太server，就是有一个负载均衡的方法，然后最后访问其中一个节点。那么换个思路，能不能发送给所有节点的server呢，如果能就
实现一个sizeof获取Java对象大小 teasp java HotSpot 内存对象大小 sizeof
由于Java的设计者不想让程序员管理和了解内存的使用，我们想要知道一个对象在内存中的大小变得比较困难了。本文提供了可以获取对象的大小的方法，但是由于各个虚拟机在内存使用上可能存在不同，因此该方法不能在各虚拟机上都适用，而是仅在hotspot 32位虚拟机上，或者其它内存管理方式与hotspot 32位虚拟机相同的虚拟机上适用。
SVN错误及处理 xiangqian0505 SVN提交文件时服务器强行关闭
在SVN服务控制台打开资源库“SVN无法读取current” ---摘自网络写道 SVN无法读取current修复方法 Can't read file : End of file found 文件：repository/db/txn_current、repository/db/current 其中current记录当前最新版本号，txn_current记录版本库中版本

【论文学习】：AlphaPose相关论文－－RMPE:Regional Multi-Person Pose Estimation

RMPE:Regional Multi-Person Pose Estimation

一、 介绍

二、 相关工作

三、 RMPE(论文地址)

四、 实验

五、 结论

你可能感兴趣的:(论文学习)

一、介绍

二、相关工作

四、实验

五、结论