missyoudaisy

[CVPR2020论文(目标跟踪方向)]Know Your Surroundings：Exploiting Scene Information for Object Tracking

大家好，马上又要周末了，这周有认真学习，认真科研吗？最近看了一篇新的论文，这里做一下分享。

更新时间：2020.04.27

论文题目：Know Your Surroundings：Exploiting Scene Information for Object Tracking

作者：Goutam Bhat，Martin Danelljan，Luc Van Gool，Radu Timofte

摘要：目前SOTA的跟踪器为了定位目标在每帧中的位置，只依赖于目标外观模型。这样的方法在一些情况中会失败，比如快速的外观变化或干扰物的出现，只有目标外观模型对于鲁棒的跟踪来说是不够的。知道周围场景中其他物体的存在和位置信息对这种情况是十分有利的。这些场景信息可以在序列中传播，并用于，比如，避免干扰物和排除目标的候选区域。

在本文的工作中，我们提出了一个可以利用场景信息的新颖的跟踪框架。我们的跟踪器用稠密局部状态向量来表示这些信息，该向量可以对局部区域是否为目标、背景或干扰物进行编码。这些状态向量在序列中进行传播，并和外观模型输出结合来定位目标。我们的网络通过直接最大化在视频上的跟踪性能来学习高效的利用场景信息。所提出的算法在3个跟踪基准上达到了SOTA，在GOT-10k数据集上的AO分数达到63.6%。

1、引言

目标跟踪是有大量应用的基本视觉问题之一。任务是在给定初始外观的情况下，估计视频序列每一帧中目标物体的状态。大多数最近的方法通过学习初始帧中的外观模型来解决该问题。这个模型就被用于后续帧，通过从周围背景中判别出目标外观来定位目标。尽管获得了不错的结果，这些方法只依赖外观模型，并没有利用场景中的任何信息。

与之相比，在跟踪的时候人们利用更为丰富的提示集。我们对场景有全面的了解，考虑的不仅仅是目标外观，还连续考虑场景中的其他物体。这样的信息对目标定位是非常有帮助的，比如有干扰物的杂乱场景，或当目标经历了快速外观变化时。考虑图1中的例子。仅给定初始目标外观，由于干扰物体的出现，很难定位目标。然而，如果我们利用之前的帧，我们可以很简单的检测到干扰物体的存在。接下来，这些知识就可以被传递到下一帧中，从而更可靠的定位目标。尽管目前的方法利用上一帧更新了外观模型，它不能捕捉场景中其他物体的位置和特性。

图1 目前的方法（上面）仅利用了外观模型来跟踪目标。然而，该方法在上面的场景中就失败了。在这里，干扰物的出现让仅仅基于外观进行准确的目标定位变的不可能，尽管目标模型是利用上一帧连续更新的。与之相比，我们的方法（下面）也知道场景中的其他物体。这个场景信息通过计算连续帧之间稠密的相关性（红色箭头）在序列中传播。传播的场景知识很好的简化了目标定位问题，使得跟踪更加可靠。

在本文的工作中，我们的目标是超越传统的基于逐帧检测的跟踪。我们提出了一个新颖的跟踪框架，它可以将有价值的场景信息在序列中传播。这些信息被用于实现提升每帧中场景感知的目标检测。场景信息用局部状态向量的稠密集合来表达。它们对局部区域的有价值的信息进行编码，比如区域是否与目标、背景或者干扰物体相关联。当区域在序列中移动的时候，我们通过利用帧之间的稠密关联映射来传播关联状态向量。因此，我们的跟踪器感知了场景中的每个物体，并且可以利用这些信息来避免干扰物体。场景信息和目标外观模型被用于预测每帧中目标的状态。由状态表达捕捉的场景信息通过循环神经网络模块进行更新。

贡献：主要贡献如下。（1）我们提出了一个新颖的跟踪框架，利用丰富的场景信息，并用稠密局部状态向量来表示。（2）引入传播模块，从而通过预测软连接来映射连续帧中的状态。（3）我们引入预测模块，高效的结合目标外观模型输出和场景信息，从而定位目标。（4）通过循环神经网络模块来用新信息更新状态。（5）我们训练了网络，从而直接在完整的视频上最大化跟踪性能。

我们在5个基准（VOT-2018、GOT-10k、TrackingNet、OTB-100、NFS）上进行了大量的实验。我们的方法在五个数据集上均为SOTA。在具有挑战性的GOT-10k数据集上，我们的跟踪器获得平均重叠度（AO）分数为63.6%，超过之前最好的方法2.5%。我们也做了消融实验，分析跟踪结构中的关键部分的影响。

2、相关工作

大多数的目标跟踪方法通过学习首帧中的目标外观模型来解决问题。一个比较流行的学习目标外观模型的方法是判别相关滤波器（DCF）。该方法利用卷积定理来高效训练傅里叶域中的分类器，并以输入图片的循环移位作为训练数据。其他方法是在首帧中训练或微调深度神经网络中的几层，从而实现目标-背景分类。MDNet在线微调了三个全连接层，DiMP利用元学习的方式预测分类层的权重。最近几年，Siamese网络获得了很大的关注。这些方法通过学习相似性方法来解决跟踪问题，并用于定位目标。

上述讨论的判别类方法利用场景中的背景信息来学习目标外观模型。此外，一些算法尝试在Siamese跟踪器中将背景信息整合到外观模型中。然而，在很多情况下，干扰物体难以与之前的目标外观相区分。因此，在这种情况下，单一的目标模型不足以实现鲁棒的跟踪。更多的，在快速移动的情况下，很难将目标模型快速的应用于新的干扰上。与这些工作相比，我们的方法对不同图像区域的局部信息进行编码，并通过稠密匹配在序列中传播这些信息。与我们的工作很相关，论文46想要发现场景中干扰物的位置。然而，在每帧中，它只利用了手工设计规则将图像区域分类为背景和目标候选区，并利用线性移动模型来获得最终的预测。与之相比，我们提出了一个全学习方法，图像区域编码通过帧之间基于外观的稠密跟踪来学习并传播。此外，我们最终的预测是通过结合清晰的背景表达和外观模型输出来获得。

除了外观提示，一些算法将光流信息用于跟踪。在构建目标模型的时候，Gladh利用从光流图像中提取的深度运动特征来补足外观特征。Zhu利用光流来将之前帧的特征图弯曲到参考帧中，并整合他们，从而学习目标外观模型。然而，这些方法仅利用光流来增强目标模型的鲁棒性。与之相比，我们利用稠密运动信息来传播关于背景物体和结构的信息，从而补足目标模型。

一些工作也研究了使用循环神经网络（RNN）进行目标跟踪。Gan等人使用RNN，并基于图像特征和之前的目标位置来直接回归目标位置。Ning等人利用YOLO检测器来生成初始目标推荐。这些推荐和图像特征一起被送入LSTM网络，从而获得目标框。Yang等人利用LSTM更新目标模型，从而应对序列中目标外观的变化。

3、所提出的方法

我们提出了一个能够利用场景信息来增强跟踪性能的新的跟踪框架。目前SOTA得方法仅依赖目标外观模型来独立的处理每一帧，我们的方法同时传播了前一帧中的场景信息。这提供了大量关于环境的提示，比如干扰物体的位置，这对于目标的定位是非常有帮助的。

我们跟踪框架的结构图如图2所示。我们的跟踪器跟踪场景中的全部区域，并且传播任何关于它们的、有助于目标定位的信息。这通过保持目标邻域内每个区域的状态向量来实现。状态向量可以，比如说，编码某个块是否与目标、背景或干扰物体（很有可能欺骗目标外观模型）相关联。当目标在序列中移动时，通过估计连续帧之间的稠密关联来实现状态向量的传播。接下来，传播的状态向量就和目标外观模型相融合，从而预测最终用于定位的目标置信度值。最后，预测器和目标模型的输出通过卷积门循环单元（ConvGRU）被用于更新状态向量。

图2 跟踪框架。除了使用目标外观模型，我们的跟踪器也利用了传播的场景信息。每个图像区域的信息被编码到局部状态里。给定前一帧的状态，传播模块将前一帧中的这些状态映射到当前帧的位置。传播的状态、传播可靠度和外观模型分数被一起送到预测器中，从而输出最终的目标置信度分数。状态更新模块利用当前帧的预测结果来提供新的状态。

3、1利用场景传播的跟踪

我们的跟踪器预测基于两个提示：（1）当前帧中的外观和（2）随时间传播的场景信息。外观模型用于从背景中区分目标物体。通过将帧中提取的深度特征图作为输入，外观模型预测了分数图。其中，每个空间位置处的分数表示了该位置是目标中心的可能性。

目标模型有从遮挡中恢复和提供长期鲁棒性的能力。然而，它忽略了周围场景中的内容。为了提取这样的信息，我们的跟踪器为目标邻域内的每个区域保持一个状态向量。具体地，对于深度特征表达中的每个空间位置，我们为那个单元的位置保持了一个S维的状态向量，。状态向量包含单元中的信息，这对于单目标跟踪是十分有益的。比如，它可以编码某个单元是否和目标、背景或与目标相似的干扰物相关联。注意到我们没有强制任何这样的编码，仅仅是让作为一个一般表达，它的编码是通过最小化跟踪损失来端到端训练的。

状态向量在初始帧中利用一个小网络来初始化，该网络以首帧目标标注为输入，生成明确目标位置的单通道标签图。该标签图经过两个卷积层来获得初始状态向量。状态向量包含对应图像区域的局部信息。因此，当目标在序列中移动时，我们相应的传播状态向量。给定新帧，我们将状态从前一帧的位置变换到当前帧的位置。这通过状态传播模块来实现，

其中，和分别是当前帧和前一帧的深度特征表达。输出表示空间传播状态，弥补了场景中目标和背景的移动。传播可靠度图表示了状态传播的可靠性。即，高的表示处的状态比较有把握的被传播。因此，可靠度图可以被用于在定位目标时，判断传播的状态向量是否可以相信。

为了预测目标的位置，我们使用了外观模型输出和传播状态。后者捕捉了场景中所有物体的有价值的信息，这弥补了外观模型中获得的以目标为中心的信息。我们将传播状态向量、可靠度分数和外观模型预测输入预测模块中。预测器提供融合的目标置信度分数，

接下来，目标就通过在帧中选择有最高分数的位置来定位。最终，我们利用融合的置信度分数和外观模型输出来更新状态向量，

循环状态更新模块可以利用分数图中的当前帧信息去做，比如重设不正确的状态向量或将新进入的目标标记为干扰物。这些更新的状态向量被用于后续帧中目标的跟踪。我们的跟踪步骤详见算法1。

3.2、状态传播

状态向量包含目标邻域内每个区域的局部信息。这些区域会因为比如目标或相机的移动而在序列中移动，因此我们需要相应地传播它们的状态，从而补偿它们运动。这通过状态传播模块来实现。该模块的输入是从前一帧和当前帧中提取的深度特征图和。注意到深度特征不需要和用于目标模型的特征相同。然而，我们假设两种特征图都有相同的空间分辨率。

为了将状态从前一帧传播到当前帧位置，我们首先计算两帧之间的稠密关联。我们用概率分布来表示该关联，是当前帧中的位置来源于前一帧中的位置的概率。稠密关联通过构建4D cost volume 来估计，它常用于光流估计方法（比如：FlowNet）。cost volume包含前一帧和当前帧的每个图像位置对的匹配损失。cost volume中的元素通过计算前一帧特征中以为中心的窗口和当前帧中以为中心的窗口之间的相关性来获得。为了计算高效，我们只构建了部分cost volume，这通过假定每个特征单元的最大移位来实现。

我们将cost volume输入一个网络模块，从而获得鲁棒的稠密关联。我们将前一帧中每个单元的cost volume切片输入两个卷积块，从而获得处理后的匹配代价。然后，我们求了该输出在当前帧位置上的softmax，从而获得初始关联。softmax操作整合了当前帧维度上的信息，并提供了两帧位置之间的软关联。为了整合之前帧位置的信息，我们将输入另外两个卷积块，然后在前一帧位置上做softmax。这提供了所需的当前帧位置处的概率分布。

估计的帧之间的关联可以用于确定当前帧位置处的传播状态向量，这通过评估前一帧状态向量的下述期望来实现。

当使用传播状态向量来定位目标时，明确特定的状态向量是否合理是非常有帮助的，即它是否被正确的从上一帧中传播。我们可以使用位置处的关联概率分布来估计该位置处的可靠度。中的单模式表明我们对位置在前一帧中的来源非常自信。均匀分布的则表示不确定状态。在这种情况下，期望（4）变为前一帧状态向量的简单平均，导致不可靠的。因此，我们使用分布的香农熵的负数来获得状态的可靠度分数，（为什么用负数？这样可靠度分数越大，才能说明越可靠，香农熵越大说明信息的不确定性越大，越接近均一分布，因为你不知道它的概率分布）

在预测最终的目标置信度分数时，可靠度被用于确定是否可信。

3.3、目标置信度分数预测

在本节中，我们描述确定目标在当前帧中的位置的预测模块。我们利用外观模型输出和由编码的场景信息来定位目标。仅仅基于当前帧的外观，外观模型分数表明位置是目标还是背景。状态向量包含每个位置之前的信息。它可以做，比如，编码单元在前一帧中被分类为目标还是背景，该位置的跟踪器预测的确定度有多少，等等。相关联的可靠度分数进一步展示了状态向量是否可靠。这可以在确定目标位置时被用于决定赋予状态向量信息多大的权重。

预测模块被训练来高效的结合来自、和的信息，从而输出最终的目标置信度分数。我们在通道维度上连接了外观模型输出、传播状态向量和状态可靠度分数，并将结果张量输入两个卷积块。为了获得中间分数，我们将输出经过sigmoid层，映射到间。尽管可以直接利用该分数，但是在遮挡情况中，它是不可靠的。因为目标的状态向量可能会泄露到遮挡物体上，尤其是两个物体缓慢交叉的时候。融合分数在这种情况下会引起错误。为了解决这个问题，我们将输入另一个层，该层隐藏分数图中的一些区域，这些区域的外观模型分数小于阈值。因此，在遮挡的情况下，我们让外观模型凌驾于预测器输出之上。最终的分数图为。其中，是指示函数，当时，值为1，否则为0，·表示元素乘。注意到隐藏（masking）操作是可微分的，并在网络内部实现。

3.4、状态更新

当3.2节中描述的状态传播将状态映射到新一帧中，它就不再用场景中的新信息来更新它。这通过循环神经网络模块来实现，该模块在每个时间步长中进化状态。至于场景中的跟踪信息，我们输入来自外观模型的分数和来自预测模块的。因此，更新模块就会标记新进入场景的干扰物或修正没有被正确传播的状态。状态更新通过循环模块（公式3）来实现。

更新模块包含卷积门循环单元（ConvGRU）。我们连接分数、以及它们的最大值，从而获得ConvGRU的输入。上一帧中的传播状态被当做是上一时间步长的ConvGRU的隐藏状态。然后ConvGRU利用当前帧观察来更新新的状态。我们的跟踪器所用的表达的可视化如图3所示。

图3 用于跟踪的中间表达的可视化结果。前一帧（第一列）中的绿色框表示要跟踪的目标。对于当前帧（第三列）中的每个位置，我们绘制了与上一帧（第二列）中标记区域的关联。利用估计关联传播到当前帧中的状态在第四列中按通道绘制。由于干扰物的存在，外观模型分数（第五列）不能准确的定位目标。与之相比，我们的方法能解决这些场景，并利用传播的场景信息来提供鲁棒的目标置信度分数（最后一列）。

3.5、目标外观模型

我们的方法可以被整合到任何跟踪外观模型中去。在本文的工作中，由于DiMP强大的性能，我们利用它作为我们的目标模型部分。DiMP是一个可以端到端训练的跟踪框架，预测外观模型，由单个卷积层的权重来参数化。网络整合了优化模块来最小化下面的判别学习损失，

其中，是正则化参数。训练集包含从训练图片中提取的深度特征图和相关联的目标注释。残差方程计算了跟踪器预测和ground truth之间的误差。在首帧中，训练集通过不同的数据增强手段来构建。详情见DiMP论文。

论文笔记：Deep Algorithm Unrolling for Blind Image Deblurring 爱学习的小菜鸡论文笔记去模糊图像处理神经网络
这是一篇CVPR2020的去模糊论文，主要是通过传统与深度相结合，将迭代次数变成神经网络的层数，使网络结构的网络结构更加具有解释性。主要贡献：DeepUnrollingforBlindImageDeblurring(DUBLID)：提出一种可解释的神经网络结构叫做DUBLID，首先提出一种迭代算法，该算法被认为是梯度域中传统的广义全变分正则方法(generalizedTV-regularizeda
当NAS遭遇鲁棒性：寻找对抗攻击的坚固架构甄如冰Lea
当NAS遭遇鲁棒性：寻找对抗攻击的坚固架构RobNets项目地址:https://gitcode.com/gh_mirrors/ro/RobNets在当今深度学习的浪潮中，模型的安全性和鲁棒性日益成为研究的热点。本文将为您揭开一款开源项目——《当NAS遇见鲁棒性：对抗攻击下可搜索的鲁棒架构》的神秘面纱。该项目源自CVPR2020的一篇论文，并提供了详细的实现代码和实验指南，致力于探索在网络架构设计
【论文简介】Circle Loss: A Unified Perspective of Pair Similarity Optimization 萝莉狼 machine learning circle loss deep feature learning
CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization旷世cvpr2020的一篇文章，站在更高的视角，统一了deepfeaturelearning的两大基础loss：基于class-levellabel的loss（如softmax+crossentropy）和基于pair-wiselabel的loss（如tripletloss），指出了
基于白盒表征的图像卡通化 Mezereon
取自CVPR2020的一篇文章LearningtoCartoonizeUsingWhite-boxCartoonRepresentations图像卡通化，即是将自然拍摄到的图片转化成卡通风格的图片，属于一种风格迁移。图像卡通化的例子如上图所示，左图为真实图片，右图为卡通化的结果。风格迁移很久之前就被人提出来了，比如2016年BAIR实验室提出来的Pix2Pix，以及之后针对非pair数据所提出来的
CVPR2020生成类超分网络阅读笔记 full_adder 笔记超分辨率重建深度学习计算机视觉
三篇竞赛相关，该竞赛针对的似乎是16倍超分，提供数据。一.CIPLab文章：InvestigatingLossFunctionsforExtremeSuper-Resolution链接：https://openaccess.thecvf.com/content_CVPRW_2020/papers/w31/Jo_Investigating_Loss_Functions_for_Extreme_Sup
CVPR2020|ZeroDCE《Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement》论文超详细解读（翻译＋精读）路人贾'ω' 低照度图像增强人工智能深度学习计算机视觉低照度图像增强神经网络
学习资料：论文题目：《Zero-ReferenceDeepCurveEstimationforLow-LightImageEnhancement》（用于低光图像增强的零参考深度曲线估计）原文地址：https://arxiv.org/abs/2001.06826源码地址：项目概览-Zero-DCE-GitCode目录Abstract—摘要翻译精读一、Introduction—简介翻译精读二、Rela
YOLOv8优化策略：轻量化改进 | 华为Ghostnet，超越谷歌MobileNet | CVPR2020 会AI的学姐 YOLOv8创新改进 YOLO 目标跟踪人工智能
本文改进：Ghostbottleneck为堆叠Ghost模块，与YOLOV8建立轻量C2f_GhostBottleneckYOLOv8改进专栏：http://t.csdnimg.cn/hGhVK学姐带你学习YOLOv8，从入门到创新，轻轻松松搞定科研；1.Ghostnet介绍论文：https://arxiv.org/pdf/1911.11907.pdf摘要：由于内存和计算资源的限制，在嵌入式设备商
YOLOv8-Seg改进：轻量化改进 | 华为Ghostnet，超越谷歌MobileNet | CVPR2020 会AI的学姐 YOLOv8-seg创新 YOLO 深度学习人工智能前端华为算法
本文改进：Ghostbottleneck为堆叠Ghost模块，与YOLOV8建立轻量C2f_GhostBottleneckYOLOv8-seg创新专栏：http://t.csdnimg.cn/KLSdv学姐带你学习YOLOv8，从入门到创新，轻轻松松搞定科研；1）手把手教你如何训练YOLOv8-seg；2）模型创新，提升分割性能；3）独家自研模块助力分割；1.Ghostnet介绍论文：https:
3d人脸重建 facescape 测试 AI视觉网奇 3D视觉
https://github.com/2706853499/3DScenefacescape数据库中obj文件渲染，使用opencv绑定纹理或对三角形颜色平滑FaceScape：大规模高质量3D人脸数据集和详细的可固定3D人脸预测（CVPR2020）c++widows解决方案，调用pclopencv，有美颜效果，侧脸有瑕疵,有学习价值。开源地址：https://github.com/zhuhao-
去掉乘法运算的加法移位神经网络架构 Mr.zwX 【深度学习/神经网络】Deep Learning 神经网络人工智能深度学习
[CVPR2020]AdderNet:DoWeReallyNeedMultiplicationsinDeepLearning?代码：https://github.com/huawei-noah/AdderNet/tree/master核心贡献用filter与inputfeature之间的L1-范数距离作为“卷积层”的输出为了提升模型性能，提出全精度梯度的反向传播方法根据不同层的梯度级数，提出自适应
Learning Memory-guided Normality for Anomaly Detection 论文阅读何大春论文阅读深度学习论文 python 视觉检测
LearningMemory-guidedNormalityforAnomalyDetection摘要1.介绍2.相关工作3.方法3.1网络架构3.1.1Encoderanddecoder3.1.2Memory3.2.Trainingloss3.3.Abnormalityscore4.实验5.总结总结&代码复现：文章信息：发表于：cvpr2020原文：https://arxiv.org/abs/2
目标检测算法 - YOLOv4 mango1698 Python 目标检测算法 YOLO
文章目录1.简介2.YOLOv4整体结构3.Backbone4.Neck1.简介YOLOv4是YOLOv3的改进版。YOLOv4并不是原YOLO项目的作者。发表于CVPR2020。改进：主干特征提取网络：Darknet53->CSPDarknet53特征金字塔：SPP，PAN分类回归层：YOLOv3（未改变）训练时用到的小技巧：Mosaic数据增强、LabelSmoothing平滑、CIOU、学习
CVPR 2020 最佳论文提名 | 神经网络能否识别镜像翻转机器学习与AI生成创作计算机视觉面试前沿与基础神经网络聚类计算机视觉机器学习人工智能
2020年让我们不断见识到“后浪”的超强力量，也让世界看到了瞩目的华人新星。在今年6月举办的CVPR中，年龄最小的一位一作获奖者甚至还在本科阶段。他就是来自康奈尔大学的四年级学生、98年出生的AI科学新秀——林之秋。林之秋以一作身份提交CVPR2020的论文「视觉手性」（VisualChirality）获得了最佳论文提名奖。在本文中，林之秋等人首次挑战了常规神经网络训练中图片”翻转不变性“(fli
论文阅读17 | Cross-modality Person re-identification with Shared-Specific Feature Transfer Hygge MrYang 跨模态行人重识别网络机器学习
论文：Cross-modalityPersonre-identificationwithShared-SpecificFeatureTransfer（基于共享特征和具体特征转移的跨模态行人重识别）出处：CVPR2020文章目录1.motivation2.proposedmethod2.1Two-streamfeatureextractor2.2Shared-SpecificTransferNetw
[CVPR 2020] 3DSSD: Point-based 3D Single Stage Object Detector zhulf0804 点云 Lidar检测 3DSSD 3D检测
零、概要论文:3DSSD:Point-based3DSingleStageObjectDetector标签:CVPR2020;Lidardetection代码:https://github.com/dvlab-research/3DSSD作者:ZetongYang,YananSun,ShuLiu,JiayaJia机构:CUHK,HKUST笔者整理了一个最近几年250多篇点云的论文列表，欢迎大家一块
Rethinking Classification and Localization for Object Detection:关于目标检测中分类任务和定位任务的重思考 cvyoutian #关于计算机视觉的论文笔记目标检测分类人工智能
CVPR2020截至目前495引文章提出的问题使用R-CNN的网络广泛使用了双头结构，这种双头结构对于目标检测中的分类和定位任务是友好的，但是大家并不知道为什么这种双头结构是好用。文中提到了一个知识，就是作者再做实验时发现，FC检测头对分类效果更好，Conv检测头对定位效果更好，本文给出了原因单Conv头的检测效果比双Conv头的效果好，本文给出了原因图一解决方案作者发现FC结构相比与Conv具有
基于深度学习和传统算法的人体姿态估计，技术细节都讲清楚了 maopig 深度学习深度学习算法人工智能
计算机视觉的一大研究热点是人体姿态估计，还有很多问题急需解决，比如遮挡，交互等等。在最近的CVPR2020里边也有很多这方面的工作。本文站长主要是想谈谈基于深度学习的实时多人姿态估计。人体姿态估计要干嘛？关于人类活动规律的研究，必定是计算机视觉领域首要关注的内容。其中，人体姿态估计便是计算机视觉领域现有的热点问题，其主要任务是让机器自动地检测场景中的人“在哪里”和理解人在“干什么”。随着信息化时代
【论文阅读笔记】老照片修复——Old Photo Restoration via Deep Latent Space Translation Ice TeaJH pytorch 深度学习图像处理
目录前言一、问题与核心思想二、核心工作1.将X，R，Y映射到响应的潜在空间2.训练映射网络3.人脸增强网络实践前言笔记主要学习的是CVPR2020上发表的一篇Oral文章，主要思路是作者使用变分自动编码机（VAE）将图像变换到潜在空间（也称隐空间）中，在潜在空间中通过特征对齐和特征转换的方式来完成对老照片的图像修复。这篇论文的方法不同于普通的潜在空间转换，他们通过利用真实照片和大量合成图像提出了一
卧剿，6万字！30个方向130篇！CVPR 2023 最全 AIGC 论文！一口气读完。机器学习与AI生成创作扩散模型与GAN生成对抗网络 AIGC 人工智能深度学习
一杯奶茶，成为AIGC+CV视觉前沿弄潮儿！25个方向！CVPR2022GAN论文汇总35个方向！ICCV2021最全GAN论文汇总超110篇！CVPR2021最全GAN论文梳理超100篇！CVPR2020最全GAN论文梳理在最新的视觉顶会CVPR2023会议中，涌现出了大量基于生成式AIGC的CV论文，包括不限于生成对抗网络GAN、扩散模型diffusion等等！除了直接生成，还广泛应用于其它各
cvpr2020 人脸检测与识别_CVPR2020| 最新CVPR2020论文抢先看，附全部下载链接 weixin_39568597 cvpr2020 人脸检测与识别
CVPR2020目标检测BridgingtheGapBetweenAnchor-basedandAnchor-freeDetectionviaAdaptiveTrainingSampleSelection论文地址：https://arxiv.org/abs/1912.02424代码：https://github.com/sfzhang15/ATSSFew-ShotObjectDetectionwi
MoCo V2：MoCo系列再升级 ZOMI酱
何凯明从CVPR2020上发表的MoCoV1（MomentumContrastforUnsupervisedVisualRepresentationLearning），到前几天挂在arxiv上面的MoCoV3（AnEmpiricalStudyofTrainingSelf-SupervisedVisualTransformers），MoCo一共走过了三个版本。今天介绍MoCo系列第二版MoCov2就
【汇总】一大波CVPR2020开源项目重磅来袭！深度学习技术前沿
关注上方“深度学习技术前沿”，选择“星标公众号”，资源干货，第一时间送达！作者：AlbertLee知乎链接：https://zhuanlan.zhihu.com/p/142452685本文仅供学习分享，如有侵权，请联系删除！1、Cvpr2020CodeCVPR2020论文开源项目合集https://github.com/amusi/CVPR2020-Code2、Flownet2借助深层网络进行光流
逐字稿 | 2 MoCo 论文逐段精读【论文精读】云淡风轻__ 人工智能
bryanyzhu的个人空间-bryanyzhu个人主页-哔哩哔哩视频评价今天我们一起来读一下MOCO这篇论文。MOCO是CVPR2020的最佳论文提名，算是视觉领域里使用对比学习的一个里程碑式的工作。而对比学习作为从19年开始一直到现在视觉领域乃至整个机器学习领域里最炙手可热的方向之一。它简单、好用、强大，以一己之力盘活了从2017年开始就卷得非常厉害的计算机视觉领域，涌现了一大批优秀的工作，而
Learning Texture Transformer Network for Image Super-Resolution（CVPR2020）万山看遍的李歆安图像超分辨 transformer 计算机视觉深度学习
文章目录Abstract1、Introduction2、RelatedWork2.1单图像超分辨率2.2基于参考的图像超分辨率3、Approach3.1纹理转换器3.2跨尺度特征集成3.3损失函数3.4实施细节4、Experiments4.1数据集和指标4.2评价4.3消融实验5.Conclusion原文链接Abstract我们研究图像超分辨率（SR），旨在从低分辨率（LR）图像中恢复逼真的纹理。
目标跟踪之OTB数据集下载及Visual Tracker Benchmark v1.0配置百里工人目标跟踪
近期运行CVPR2020的AutoTrack代码时，发现这篇文章只在UAV数据集上测试，而没有在OTB数据集上测试，因此，想着自己运行AutoTrack，测试其在OTB数据集上的性能表现。本文内容一、OTB数据集下载二、下载vlfeat工具包三、VisualTrackerBenchmarkv1.0下载四、代码运行五、根据结果绘制Precision和Success曲线六、跟踪效果对比图附录：OTB2
[手位姿估计]Pytorch实现 minimal-hand (CVPR2020) 慕容清良手位姿估计深度学习 pytorch 计算机视觉手势识别
[手位姿估计]Pytorch实现MinimalHand-CVPR2020[手位姿估计]Pytorch实现minimal-hand(CVPR2020)DetNetShapeEstimationPoseEstimation实验结果DetNet训练验证在数据集上的量化效果(3DPCKAUC)其他[手位姿估计]Pytorch实现minimal-hand(CVPR2020)代码已在Github上开源本人用p
逐字稿 | 视频理解论文串讲（上）【论文精读】云淡风轻__ 音视频
大家好，前两期我们讲了视频理解领域里的两篇经典的论文，一个是双流网络，第一个是I3D网络，所以说对视频理解这个问题有了个基本的了解。那今天我们就从2014年开始，一直到最近2021年的工作，我们一起来总结一下，做一个串讲。上图这篇论文其实是我们组两年前写的一篇综述论文，当时是为了我们要在CVPR2020年举办的一个视频理解的tutorial而准备的一些讲义和资料，结果越写越长，就写成一篇综述论文了
清华「计图」迎来重大更新：支持热门的可微渲染，多项CV任务速度超越PyTorch... QbitAl 图形学人工智能深度学习机器学习编程语言
萧箫发自凹非寺量子位报道|公众号QbitAI想研究可微分渲染，却担心找不到合适的框架？现在，官方支持可微分渲染的深度学习框架来了：清华自研的「计图」（Jittor）深度学习框架，在更新的版本中加入了可微分渲染库。可微分渲染是计算机图形学的热门领域，CVPR2020的最佳论文奖，就颁给了可微分渲染的相关工作（Jittor已优化开源相关代码）。当然，作为一个主打计算机图形学的深度学习框架，Jittor
CVPR 2020 论文大盘点-图像增强与图像恢复篇 OpenCV中文网公众号计算机视觉深度学习 deep learning 微软 css
本文继上一篇CVPR2020论文大盘点-去雨去雾去模糊篇之后，继续盘点CVPR2020中低层图像处理技术，本篇聚焦于图像视频的增强与恢复，含如下四个方向：图像与视频增强（Image&VideoEnhancement）7篇图像恢复（ImageRestoration）5篇图像与视频去噪（Image&VideoDenoising）9篇图像去摩尔纹（ImageDemoireing）1篇总计22篇。其中低照
【CVPR2020】论文总结 Qn_351c
【参考文档】https://blog.csdn.net/Extremevision/article/details/104789697
PHP如何实现二维数组排序？ IT独行者二维数组 PHP 排序　
二维数组在PHP开发中经常遇到，但是他的排序就不如一维数组那样用内置函数来的方便了，（一维数组排序可以参考本站另一篇文章【PHP中数组排序函数详解汇总】）。二维数组的排序需要我们自己写函数处理了，这里UncleToo给大家分享一个PHP二维数组排序的函数：代码： functionarray_sort($arr,$keys,$type='asc'){ $keysvalue= $new_arr
【Hadoop十七】HDFS HA配置 bit1129 hadoop
基于Zookeeper的HDFS HA配置主要涉及两个文件,core-site和hdfs-site.xml。测试环境有三台 hadoop.master hadoop.slave1 hadoop.slave2 hadoop.master包含的组件NameNode, JournalNode, Zookeeper，DFSZKFailoverController
由wsdl生成的java vo类不适合做普通java vo darrenzhu VO wsdl webservice rpc
开发java webservice项目时，如果我们通过SOAP协议来输入输出，我们会利用工具从wsdl文件生成webservice的client端类，但是这里面生成的java data model类却不适合做为项目中的普通java vo类来使用，当然有一中情况例外，如果这个自动生成的类里面的properties都是基本数据类型，就没问题，但是如果有集合类，就不行。原因如下： 1)使用了集合如Li
JAVA海量数据处理之二（BitMap）周凡杨 java 算法 bitmap bitset 数据
路漫漫其修远兮，吾将上下而求索。想要更快，就要深入挖掘 JAVA 基础的数据结构，从来分析出所编写的 JAVA 代码为什么把内存耗尽，思考有什么办法可以节省内存呢？啊哈！算法。这里采用了 BitMap 思想。首先来看一个实验：指定 VM 参数大小： -Xms256m -Xmx540m
java类型与数据库类型 g21121 java
很多时候我们用hibernate的时候往往并不是十分关心数据库类型和java类型的对应关心，因为大多数hbm文件是自动生成的，但有些时候诸如：数据库设计、没有生成工具、使用原始JDBC、使用mybatis(ibatIS)等等情况，就会手动的去对应数据库与java的数据类型关心，当然比较简单的数据类型即使配置错了也会很快发现问题，但有些数据类型却并不是十分常见，这就给程序员带来了很多麻烦。 &nb
Linux命令 510888780 linux命令
系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件 - (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpuinfo 显示C
java常用JVM参数墙头上一根草 java jvm参数
-Xms：初始堆大小，默认为物理内存的1/64(<1GB)；默认(MinHeapFreeRatio参数可以调整)空余堆内存小于40%时，JVM就会增大堆直到-Xmx的最大限制 -Xmx：最大堆大小，默认(MaxHeapFreeRatio参数可以调整)空余堆内存大于70%时，JVM会减少堆直到 -Xms的最小限制 -Xmn：新生代的内存空间大小，注意：此处的大小是（eden+ 2
我的spring学习笔记9-Spring使用工厂方法实例化Bean的注意点 aijuans Spring 3
方法一： <bean id="musicBox" class="onlyfun.caterpillar.factory.MusicBoxFactory" factory-method="createMusicBoxStatic"></bean> 方法二：
mysql查询性能优化之二 annan211 UNION mysql 查询优化索引优化
1 union的限制有时mysql无法将限制条件从外层下推到内层，这使得原本能够限制部分返回结果的条件无法应用到内层查询的优化上。如果希望union的各个子句能够根据limit只取部分结果集，或者希望能够先排好序在合并结果集的话，就需要在union的各个子句中分别使用这些子句。例如想将两个子查询结果联合起来，然后再取前20条记录，那么mys
数据的备份与恢复百合不是茶 oracle sql 数据恢复数据备份
数据的备份与恢复的方式有: 表,方案 ,数据库; 数据的备份: 导出到的常见命令; 参数说明 USERID 确定执行导出实用程序的用户名和口令 BUFFER 确定导出数据时所使用的缓冲区大小，其大小用字节表示 FILE 指定导出的二进制文
线程组 bijian1013 java 多线程 thread java多线程线程组
有些程序包含了相当数量的线程。这时，如果按照线程的功能将他们分成不同的类别将很有用。线程组可以用来同时对一组线程进行操作。创建线程组：ThreadGroup g = new ThreadGroup(groupName); &nbs
top命令找到占用CPU最高的java线程 bijian1013 java linux top
上次分析系统中占用CPU高的问题，得到一些使用Java自身调试工具的经验，与大家分享。 (1)使用top命令找出占用cpu最高的JAVA进程PID:28174 (2)如下命令找出占用cpu最高的线程 top -Hp 28174 -d 1 -n 1 32694 root 20 0 3249m 2.0g 11m S 2 6.4 3:31.12 java
【持久化框架MyBatis3四】MyBatis3一对一关联查询 bit1129 Mybatis3
当两个实体具有1对1的对应关系时，可以使用One-To-One的进行映射关联查询 One-To-One示例数据以学生表Student和地址信息表为例，每个学生都有都有1个唯一的地址(现实中，这种对应关系是不合适的，因为人和地址是多对一的关系)，这里只是演示目的学生表 CREATE TABLE STUDENTS (
C/C++图片或文件的读写 bitcarter 写图片
先看代码： /*strTmpResult是文件或图片字符串 * filePath文件需要写入的地址或路径 */ int writeFile(std::string &strTmpResult,std::string &filePath) { int i,len = strTmpResult.length(); unsigned cha
nginx自定义指定加载配置 ronin47
进入 /usr/local/nginx/conf/include 目录，创建 nginx.node.conf 文件，在里面输入如下代码： upstream nodejs { server 127.0.0.1:3000; #server 127.0.0.1:3001; keepalive 64; } server { liste
java-71-数值的整数次方.实现函数double Power(double base, int exponent)，求base的exponent次方 bylijinnan double
public class Power { /** *Q71-数值的整数次方 *实现函数double Power(double base, int exponent)，求base的exponent次方。不需要考虑溢出。 */ private static boolean InvalidInput=false; public static void main(
Android四大组件的理解 Cb123456 android 四大组件的理解
分享一下，今天在Android开发文档-开发者指南中看到的: App components are the essential building blocks of an Android
[宇宙与计算]涡旋场计算与拓扑分析 comsci 计算
怎么阐述我这个理论呢？。。。。。。。。。首先：宇宙是一个非线性的拓扑结构与涡旋轨道时空的统一体。。。。我们要在宇宙中寻找到一个适合人类居住的行星，时间非常重要，早一个刻度和晚一个刻度，这颗行星的
同一个Tomcat不同Web应用之间共享会话Session cwqcwqmax9 session
实现两个WEB之间通过session 共享数据查看tomcat 关于 HTTP Connector 中有个emptySessionPath 其解释如下： If set to true, all paths for session cookies will be set to /. This can be useful for portlet specification impleme
springmvc Spring3 MVC，ajax，乱码 dashuaifu spring jquery mvc Ajax
springmvc Spring3 MVC @ResponseBody返回，jquery ajax调用中文乱码问题解决 Spring3.0 MVC @ResponseBody 的作用是把返回值直接写到HTTP response body里。具体实现AnnotationMethodHandlerAdapter类handleResponseBody方法，具体实
搭建WAMP环境 dcj3sjt126com wamp
这里先解释一下WAMP是什么意思。W:windows，A：Apache，M：MYSQL，P：PHP。也就是说本文说明的是在windows系统下搭建以apache做服务器、MYSQL为数据库的PHP开发环境。工欲善其事，必须先利其器。因为笔者的系统是WinXP，所以下文指的系统均为此系统。笔者所使用的Apache版本为apache_2.2.11-
yii2 使用raw http request dcj3sjt126com http
Parses a raw HTTP request using yii\helpers\Json::decode() To enable parsing for JSON requests you can configure yii\web\Request::$parsers using this class: 'request' =&g
Quartz-1.8.6 理论部分 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2207691 一.概述基于Quartz-1.8.6进行学习，因为Quartz2.0以后的API发生的非常大的变化，统一采用了build模式进行构建；什么是quartz? 答：简单的说他是一个开源的java作业调度框架，为在 Java 应用程序中进行作业调度提供了简单却强大的机制。并且还能和Sp
什么是POJO？ gupeng_ie java POJO 框架 Hibernate
POJO--Plain Old Java Objects(简单的java对象) POJO是一个简单的、正规Java对象，它不包含业务逻辑处理或持久化逻辑等，也不是JavaBean、EntityBean等，不具有任何特殊角色和不继承或不实现任何其它Java框架的类或接口。 POJO对象有时也被称为Data对象，大量应用于表现现实中的对象。如果项目中使用了Hiber
jQuery网站顶部定时折叠广告 ini JavaScript html jquery Web css
效果体验：http://hovertree.com/texiao/jquery/4.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>网页顶部定时收起广告jQuery特效 - HoverTree<
Spring boot内嵌的tomcat启动失败 kane_xie spring boot
根据这篇guide创建了一个简单的spring boot应用，能运行且成功的访问。但移植到现有项目（基于hbase）中的时候，却报出以下错误： SEVERE: A child container failed during start java.util.concurrent.ExecutionException: org.apache.catalina.Lif
leetcode: sort list michelle_0916 Algorithm linked list sort
Sort a linked list in O(n log n) time using constant space complexity. ====analysis======= mergeSort for singly-linked list ====code======= /** * Definition for sin
nginx的安装与配置,中途遇到问题的解决 qifeifei nginx
我使用的是ubuntu13.04系统，在安装nginx的时候遇到如下几个问题，然后找思路解决的，nginx 的下载与安装 wget http://nginx.org/download/nginx-1.0.11.tar.gz tar zxvf nginx-1.0.11.tar.gz ./configure make make install 安装的时候出现
用枚举来处理java自定义异常 tcrct java enum exception
在系统开发过程中，总少不免要自己处理一些异常信息，然后将异常信息变成友好的提示返回到客户端的这样一个过程，之前都是new一个自定义的异常，当然这个所谓的自定义异常也是继承RuntimeException的，但这样往往会造成异常信息说明不一致的情况，所以就想到了用枚举来解决的办法。 1，先创建一个接口，里面有两个方法，一个是getCode, 一个是getMessage public
erlang supervisor分析 wudixiaotie erlang
当我们给supervisor指定需要创建的子进程的时候，会指定M,F,A,如果是simple_one_for_one的策略的话，启动子进程的方式是supervisor:start_child(SupName, OtherArgs),这种方式可以根据调用者的需求传不同的参数给需要启动的子进程的方法。和最初的参数合并成一个数组，A ++ OtherArgs。那么这个时候就有个问题了，既然参数不一致，那

[CVPR2020论文(目标跟踪方向)]Know Your Surroundings：Exploiting Scene Information for Object Tracking

论文题目：Know Your Surroundings：Exploiting Scene Information for Object Tracking

作者：Goutam Bhat，Martin Danelljan，Luc Van Gool，Radu Timofte

你可能感兴趣的:(CVPR2020)