LiBiGo

DISCOBOX: Weakly Supervised Instance Segmentation and Semantic Correspondence from Box Supervision

0.Abstract

We introduce DiscoBox, a novel framework that jointly learns instance segmentation and semantic correspondence using bounding box supervision. Speciﬁcally, we propose a self-ensembling framework where instance segmentation and semantic correspondence are jointly guided by a structured teacher in addition to the bounding box supervision.The teacher is a structured energy model incorporating a pairwise potential and a cross-image potential to model the pairwise pixel relationships both within and across the boxes.

我们介绍了 DiscoBox，这是一种新颖的框架，它使用边界框监督联合学习实例分割和语义对应。具体来说，我们提出了一个自集成框架，除了边界框监督之外，实例分割和语义对应由结构化教师共同指导。教师是一个结构化的能量模型，结合了成对势能和跨图像势能，对盒子内部和盒子之间的成对像素关系进行建模。

Minimizing the teacher energy simultaneously yields reﬁned object masks and dense correspondences between intra-class objects, which are taken as pseudo-labels to supervise the task network and provide positive/negative correspondence pairs for dense constrastive learning.

最小化教师能量同时产生精细的对象掩码和类内对象之间的密集对应关系，它们被视为伪标签来监督任务网络并为密集对比学习提供正/负对应对。

We show a symbiotic relationship where the two tasks mutually beneﬁt from each other. Our best model achieves 37.9% AP on COCO instance segmentation, surpassing prior weakly supervised methods and is competitive to supervised methods.We also obtain state of the art weakly supervised results on PASCAL VOC12 and PF-PASCAL with real-time inference.

我们展示了一种共生关系，其中两个任务相互受益。我们的最佳模型在 COCO 实例分割上实现了 37.9% 的 AP，超过了先前的弱监督方法，并且与监督方法具有竞争力。我们还在 PASCAL VOC12 和 PF-PASCAL 上通过实时推理获得了最先进的弱监督结果。

1. Introduction

The ability to localize and recognize objects is at the core of human vision. This has motivated the vision community to study object detection [1] as a fundamental visual recognition task. Instance segmentation [2] is further introduced on top of detection to predict the foreground object masks, thus enabling localization with pixel-level accuracy.

定位和识别物体的能力是人类视觉的核心。这促使视觉社区研究对象检测 [1] 作为一项基本的视觉识别任务。在检测之上进一步引入实例分割 [2] 以预测前景对象掩码，从而实现像素级精度的定位。

More recently, a growing number of works aim to lift the above tasks to the 3D space [3–7]. As a result, landmark [3,8] and (semantic) correspondence [9–30] have been widely studied to associate object parts across different views. These methods have become critical components in pose estimation [31–34] and reconstruction [35–38] because they help to reduce uncertainties through additional constraints, such as determining camera poses and viewpoints [31,36].

最近，越来越多的工作旨在将上述任务提升到 3D 空间 [3-7]。因此，地标 [3,8] 和（语义）对应 [9-30] 已被广泛研究以将对象部分关联到不同的视图。这些方法已成为姿态估计 [31-34] 和重建 [35-38] 的关键组成部分，因为它们有助于通过额外的约束来减少不确定性，例如确定相机姿态和视点 [31,36]。

Among various correspondence tasks, semantic correspondence aims to establish the associations across different scenes and object instances, and is arguably the most challenging one due to large variations in appearance and pose. The literature of semantic correspondence and instance segmentation have largely remained decoupled.

在各种对应任务中，语义对应旨在建立跨不同场景和对象实例的关联，并且由于外观和姿势的巨大变化，可以说是最具挑战性的任务。语义对应和实例分割的文献在很大程度上仍然是分离的。

For instance, the main semantic correspondence benchmarks [19,39–43] have been focusing on object-centric scenarios which deemphasizes the role of object localization, while the latest instance segmentation methods do not make use of intraclass correspondences. However, these seemingly separate problems can beneﬁt from each other because associating object parts requires understanding the object of interest a priori. Similarly, knowing the semantic parts of an object requires understanding the geometry of functional parts and can improve object localization [44, 45].

例如，主要的语义对应基准 [19,39-43] 一直专注于以对象为中心的场景，这不再强调对象定位的作用，而最新的实例分割方法没有利用类内对应。然而，这些看似独立的问题可以相互受益，因为关联对象部分需要先验地理解感兴趣的对象。同样，了解对象的语义部分需要了解功能部分的几何形状，并且可以改进对象定位 [44, 45]。

Even though the advantage of learning correspondences and instance segmentation jointly is clear, many state of the art methods do not make use of this approach due to the lack of large scale datasets with both masks and correspondences. To overcome this challenge, weakly supervised methods have been recently introduced to relax the need for costly supervision in both tasks [25–30, 46–49].

尽管联合学习对应和实例分割的优势很明显，但由于缺乏具有掩码和对应的大规模数据集，许多最先进的方法并没有使用这种方法。为了克服这一挑战，最近引入了弱监督方法来放松这两项任务中对昂贵监督的需求[25-30, 46-49]。

Our work is aligned with these efforts as we aim to address instance segmentation and semantic correspondence jointly with inexpensive bounding box supervision. This allows us to effectively push the boundaries with more data.

我们的工作与这些努力保持一致，因为我们的目标是通过廉价的边界框监督来解决实例分割和语义对应。这使我们能够有效地利用更多数据突破界限。

More importantly, box supervision presents a principled way to couple the above two tasks: First, instance segmentation greatly extends the capability of semantic correspondence to handle multi-object scenarios. This allows one to deﬁne a more generalized and challenging semantic correspondence task where the performance emphasizes both the quality of object-level correspondence and the accuracy of object localization. Second, multi-tasking provides the mutual constraints to overcome trivial solutions in box supervision. Indeed, our study shows a symbiotic relation where localization beneﬁts correspondence via improved locality and representation, whereas correspondence in turn helps localization with additional cross-image information.

更重要的是，box supervision提供了一种耦合上述两个任务的原则方法：首先，实例分割极大地扩展了语义对应的能力以处理多对象场景。这允许人们定义更通用和更具挑战性的语义对应任务，其中性能强调对象级对应的质量和对象定位的准确性。其次，多任务提供了相互约束来克服盒子监督中的琐碎解决方案。事实上，我们的研究显示了一种共生关系，其中本地化通过改善局部性和表示来有益于对应，而对应反过来又有助于通过额外的跨图像信息进行定位。

We propose DISCOBOX, a framework which instantiates the above targets as shown in Fig. 1. DISCOBOX leverages various levels of structured knowledge and self-supervision both within and across images to reduce the uncertainties.

我们提出了 DISCOBOX，这是一个实例化上述目标的框架，如图 1 所示。DISCOBOX 利用图像内部和跨图像的各种层次的结构化知识和自我监督来减少不确定性。

Figure 1. Task overview. Given a pair of images, DISCOBOX simultaneously outputs detection, instance segmentation and semantic correspondence predictions. Best viewed in color.

图 1. 任务概览。给定一对图像，DISCOBOX同时输出检测、实例分割和语义对应预测，最好以彩色观看。

Summary of contributions:

Our work is the ﬁrst to propose a uniﬁed framework for joint weakly supervised instance segmentation and semantic correspondence using bounding box supervision.

我们的工作是第一个提出使用边界框监督的联合弱监督实例分割和语义对应的统一框架。

We propose a novel self-ensembling framework where a teacher is designed to promote structured inductive bias and establish correspondences across objects. We show that the proposed framework allows us to jointly exploit both intraand cross-image self-supervisions and leads to signiﬁcantly improved task performance.

我们提出了一种新颖的自组装框架，其中教师旨在促进结构化归纳偏差并建立跨对象的对应关系。我们提出的框架允许我们共同利用图像内和跨图像自我监督，并显着提高任务性能。

We achieve state-of-the-art performance on weakly supervised instance segmentation. Our best model achieves 37.9% AP on COCO test-dev, surpassing competitive supervised methods such as YOLACT++ [50] (34.6% AP) and Mask R-CNN [51] (37.1% AP).

我们在弱监督实例分割上实现了最先进的性能。我们最好的模型在 COCO test-dev 上实现了 37.9% 的 AP，超过了 YOLACT++ [50] (34.6% AP) 和 Mask R-CNN [51] (37.1% AP) 等竞争监督方法。

We also achieve state-of-the-art performance on weakly supervised semantic correspondence, and are the ﬁrst to propose a multi-object benchmark for this task.

我们还在弱监督语义对应上实现了最先进的性能，并且是第一个为此任务提出多对象基准的人。

Task network. Our task network contains an instance segmentation backbone with a multiple instance learning head. The module is supervised by bounding boxes which contain rich object information. Through multiple instance learning, coarse object masks naturally emerge as network attention, and is taken by the teacher as initial predictions.

我们的任务网络包含一个带有多实例学习头的实例分割主干。该模块由包含丰富对象信息的边界框监督。通过多实例学习，粗略的对象掩码自然而然地作为网络注意力出现，并被教师作为初始预测。

Teacher model. The teacher is deﬁned by a Gibbs energy which comprises a unary potential, a pairwise potential and a cross-image potential. The unary potential takes the initial output from the student whereas the pairwise and cross-image potentials model the pairwise pixel relationships both within and across bounding boxes. Minimizing the teacher energy promotes contrast-sensitive smoothness while establishing dense correspondence across the objects.This allows one to consider cross-image self-supervision where correspondence provides positive and negative pairs for dense contrastive learning. We show that this in turn can improve the quality of instance segmentation.

教师由吉布斯能量定义，包括a unary potential, a pairwise potential and a cross-image potential。The unary potential 从学生那里获取初始输出，而the pairwise and cross-image potentials对边界框内和边界框之间的成对像素关系进行建模。最小化the teacher energy可促进对比度敏感的平滑度，同时在对象之间建立密集对应关系。这允许人们考虑跨图像自我监督，其中对应关系为密集对比学习提供正负对。我们表明，这反过来可以提高实例分割的质量。

Our promising results indicate the possibility to completely remove mask labels in future instance segmentation problems. We also envisage the wide beneﬁt of DISCOBOX to many downstream applications, particularly 3D tasks.

我们有希望的结果表明在未来的实例分割问题中完全删除掩码标签的可能性。我们还设想 DISCOBOX 对许多下游应用程序的广泛好处，特别是 3D 任务。

2. Related Work

2.1. Object recognition and localization

Object detection：

Object detection has been an active research area with rich literature. Training on large amounts of bounding box annotations with convolutional neural networks (CNNs) has become a standard paradigm [52]. Initial CNN based detectors tend to share a multi-stage design [52, 53] where the ﬁrst stage gives redundant object proposals, followed by reﬁnement by CNNs in the second stage. A recent trend of design aims to reduce the complexity by having one-stage architectures [54–57], and therefore achieves good trade-off between efﬁciency and performance. Our weakly supervised design allows DISCOBOX to be conveniently trained like any object detection algorithm on the increasingly large datasets [58–60], but output additional predictions beyond just bounding boxes.

目标检测一直是一个活跃的研究领域，拥有丰富的文献。使用卷积神经网络 (CNN) 对大量边界框注释进行训练已成为标准范式 [52]。最初的基于 CNN 的检测器倾向于共享多阶段设计 [52, 53]，其中第一阶段给出冗余对象建议，然后在第二阶段由 CNN 进行细化。最近的设计趋势旨在通过具有单阶段架构来降低复杂性[54-57]，因此在效率和性能之间实现了良好的权衡。我们的弱监督设计允许 DISCOBOX 像任何对象检测算法一样在越来越大的数据集 [58-60] 上方便地进行训练，但输出超出边界框的额外预测。

Instance segmentation：

Instance segmentation aims to produce more precise localization over detection by predicting the object segmentation masks. Bharath et al. [2] are the ﬁrst to introduce an R-CNN-based framework with a precision-recall benchmark. Similar to R-CNN [52], their object proposal and mask generation [61] is not end-to-end learnable. Recent methods including Mask R-CNN [62–64] have largely followed this “detection-ﬂavored” design and benchmarking, but introduce end-to-end learnable object proposal and mask prediction. Inspired by the one-stage detection, a number of one-stage instance segmentation methods have also been proposed [50,51,65–68]. These methods all require mask annotations during training, whereas DISCOBOX only needs box labels. DISCOBOX is also agnostic to the choice of frameworks. In this work, we showcase DISCOBOX on both YOLACT++ [50] and SOLOv2 [68] by taking them as the base architectures for our method.

实例分割旨在通过预测对象分割掩码来产生更精确的检测定位。巴拉特等人。 [2] 是第一个引入具有精确召回基准的基于 R-CNN 的框架。与 R-CNN [52] 类似，它们的对象提议和掩码生成 [61] 不是端到端可学习的。包括 Mask R-CNN [62-64] 在内的最新方法在很大程度上遵循了这种“检测风格”的设计和基准测试，但引入了端到端的可学习对象提议和掩模预测。受单阶段检测的启发，还提出了许多单阶段实例分割方法[50,51,65-68]。这些方法都需要在训练过程中进行掩码标注，而 DISCOBOX 只需要框标签。 DISCOBOX 也与框架的选择无关。在这项工作中，我们在 YOLACT++ [50] 和 SOLOv2 [68] 上展示了 DISCOBOX，将它们作为我们方法的基础架构。

2.2. Weakly supervised segmentation

Weakly supervised semantic segmentation：

A number of methods have been proposed to learn semantic segmentation with image-level class labels [69–73], points [74,75], scribbles [76–79] and bounding boxes [46,80–83]. Among them, box-supervised semantic segmentation is probably most related, and recent methods such as Box2Seg [83] have achieved impressive performance on Pascal VOC [58].These methods often use MCG [61] and GrabCut [84] to obtain segmentation pseudo-labels for supervising subsequent tasks. However, they focus on semantic segmentation which does not distinguish different object instances.

已经提出了许多方法来学习使用图像级类标签 [69-73]、点 [74,75]、涂鸦 [76-79] 和边界框 [46,80-83] 的语义分割。其中，框监督语义分割可能是最相关的，最近的方法如 Box2Seg [83] 在 Pascal VOC [58] 上取得了令人印象深刻的性能。这些方法通常使用 MCG [61] 和 GrabCut [84] 来获得分割伪用于监督后续任务的标签。然而，他们专注于不区分不同对象实例的语义分割。

Weakly supervised instance segmentation：

Here, the term “weakly supervised” can either refer to the relaxed supervision on bounding box location [85,86], or the absence of mask annotations [46–49]. The former can be viewed as an extension of weakly supervised object detection [87], whereas our work falls into the second category. Among the latter methods, Hsu et al. [47] leverages the fact that bounding boxes tightly enclose the objects, and proposes multiple instance learning framework based on this tightness prior.

在这里，“弱监督”一词既可以指对边界框位置的宽松监督[85,86]，也可以指没有掩码注释[46-49]。前者可以看作是弱监督目标检测的扩展[87]，而我们的工作属于第二类。在后一种方法中，Hsu 等人。 [47]利用边界框紧密包围对象的事实，并基于这种紧密性先验提出了多实例学习框架。

A pairwise loss is also imposed to maintain object integrity.However, their pairwise consistency is deﬁned on all neighboring pixel pairs without distinguishing the pairwise pixel contrast. Arun et al. [48] proposes an annotation consistency framework which can handle weakly supervised instance segmentation with both image-level and bounding box labels. On COCO, the gap to supervised methods has remained large until recently BoxInst [49] reduced this gap signiﬁcantly. DISCOBOX outperforms these methods while additionally targeting semantic correspondence.

还施加了成对损失以保持对象完整性。但是，它们的成对一致性是在所有相邻像素对上定义的，而不区分成对像素对比度。阿伦等人[48] 提出了一个注释一致性框架，可以处理具有图像级和边界框标签的弱监督实例分割。在 COCO 上，与监督方法的差距一直很大，直到最近 BoxInst [49] 显着缩小了这一差距。 DISCOBOX 优于这些方法，同时还针对语义对应。

2.3. Finding correspondence

Local features：

Using local features to match the keypoints across different views has been widely used in 3D vision problems such as structure from motion. Over the past decade, the methods have evolved from hand-crafted ones [9–11] to learning-based ones using decision tree and deep neural networks [12–17] with extremely abundant literature. These methods primarily focus on multi-view association for the same object instance or scene, which differs from our task despite the underlying strong connection.

使用局部特征来匹配不同视图的关键点已广泛用于 3D 视觉问题，例如运动结构。在过去的十年中，这些方法已经从手工制作的 [9-11] 发展到使用决策树和深度神经网络 [12-17] 的基于学习的方法，文献非常丰富。这些方法主要关注同一对象实例或场景的多视图关联，尽管存在潜在的强连接，但这与我们的任务不同。

Semantic correspondence：

Semantic correspondences has been a challenging problem. The problem probably dates back to SIFTFlow [18] which uses hand-crafted features to establish the correspondence. More recent methods have universally resorted to deep networks as powerful feature extractors [21–23]. The challenge of this task is further aggravated by the costly nature of correspondence annotation. Existing datasets [43, 88] are relatively small in size, and only provide sparse correspondence ground truths since manually annotating dense ones is prohibitive. In light of this challenge, weakly supervised semantic correspondence are proposed to learn correspondence without correspondence ground truths [25–30]. In addition, existing benchmarks and methods have predominantly focused on “objectcentric” scenarios where each image is occupied by a major object. In this work, we further add challenge to the task by considering a more generalized multi-object scenario with object localization in the loop.

语义对应一直是一个具有挑战性的问题。这个问题可能可以追溯到 SIFTFlow [18]，它使用手工制作的特征来建立对应关系。最近的方法普遍采用深度网络作为强大的特征提取器[21-23]。对应注释的昂贵性质进一步加剧了这项任务的挑战。现有数据集 [43, 88] 的大小相对较小，并且仅提供稀疏的对应基本事实，因为手动注释密集数据集是禁止的。鉴于这一挑战，提出了弱监督语义对应来学习没有对应基础事实的对应[25-30]。此外，现有的基准和方法主要关注“以对象为中心”的场景，其中每个图像都被一个主要对象占据。在这项工作中，我们通过考虑在循环中进行对象定位的更通用的多对象场景，进一步增加了任务的挑战。

3. Method

We deﬁne the following notations for the variables in our problem, and use them throughout the rest of the paper. We denote the input image as I. Given any instance segmentation backbone, we assume that a set of box region proposals R = {rn|n=1,...,N} are generated. Each box proposal corresponds to an RoI feature map fn of size C×H×W.Additionally, instance segmentation produces a set of object masks M = {mn|n=1,...,N}, where each mn is an H×W probability map associated with rn. Fig. 2 illustrates an overview of the proposed framework.

我们为问题中的变量定义以下符号，并在本文的其余部分使用它们。我们将输入图像表示为 I。给定任何实例分割主干，我们假设生成一组框区域建议 R = {rn|n=1,...,N} 。每个 box proposal 对应一个大小为 C×H×W 的 RoI 特征图 fn。此外，实例分割产生一组对象掩码 M = {mn|n=1,...,N}，其中每个 mn 是与 rn 关联的 H×W 概率图。图 2 说明了所提出框架的概述。

Figure 2. Overview of DISCOBOX. We design a self-ensembling framework where a structured teacher generates reﬁned instance segmentation mask and establishes dense correspondence between intra-class box proposals to guide the task network. Best viewd in color.

图 2. DISCOBOX 概览。我们设计了一个自集成框架，其中结构化教师生成精细的实例分割掩码，并在类内框建议之间建立密集对应以指导任务网络。最好以彩色观看。

4. Experiments

We conduct experiments on 4 datasets: PASCAL VOC 2012 (VOC12) [58], COCO [59], PF-PASCAL [88], PAS-CAL 3D+ [4]. We test instance segmentation on VOC12 and COCO, and semantic correspondence on the other two.

我们对 4 个数据集进行了实验：PASCAL VOC 2012 (VOC12) [58]、COCO [59]、PF-PASCAL [88]、PAS-CAL 3D+ [4]。我们在 VOC12 和 COCO 上测试实例分割，并在另外两个上测试语义对应。

4.1. Datasets and metrics

COCO.

COCO contains 80 semantic categories. We follow the standard partition which includes train2017 (115K images) and val2017 (5K images) for training and validation. We also report our results on the test-dev split. During training, we only use the box annotations.

COCO包含80个语义类别。我们遵循标准分区，其中包括用于培训和验证的Train 2017(11.5万张图像)和val2017(5K张图像)。我们还报告了测试-开发拆分的结果。在培训期间，我们只使用方框注释

VOC12.

VOC12 consists of 20 categories with a training set of around 10,500 images and a validation set of around 5,000 images. Around 1,500 images of the validation set contain the instance segmentation annotations.

VOC12 由 20 个类别组成，其中包含约 10,500 张图像的训练集和约 5,000 张图像的验证集。验证集的大约 1,500 张图像包含实例分割注释。

PF-PASCAL.

The PF-PASCAL dataset contains a selected subset of object-centric images from PASCAL VOC.It contains around 1,300 image pairs with 700 pairs for the training set and 300 pairs for the validation set, and 300 image pairs for the test sets respectively. There is only one conspicuous object in the middle of the image. Each image pair contain two intra-class objects.

PF-PASCAL 数据集包含来自 PASCAL VOC 的以对象为中心的图像的选定子集。它包含大约 1,300 个图像对，其中 700 对用于训练集，300 对用于验证集，300 对用于测试集。图像中间只有一个显眼的物体。每个图像对包含两个类内对象。

PASCAL 3D+.

PASCAL 3D+ contains the annotations of object poses, landmarks and 3D CAD models in addition to bounding boxes, and consists of 12 rigid categories where each has 3,000 object instances on average. We evaluate multi-object correspondence on PASCAL 3D+ dataset. The availability of both bounding boxes and landmarks, as well as other 3D information makes it an ideal dataset to evaluate multi-object semantic correspondence. We construct the benchmark on the 12 rigid categories of PASCAL 3D+ and follow the ofﬁcial VOC12 partitioning of the validation set, where images only containing the 8 non-rigid classes are removed. For training, we still preserve the full VOC12 training set and annotations (20 classes).

除了边界框外，PASCAL 3D+ 还包含对象姿势、地标和 3D CAD 模型的注释，由 12 个刚性类别组成，每个类别平均有 3,000 个对象实例。我们在 PASCAL 3D+ 数据集上评估多对象对应关系。边界框和地标以及其他 3D 信息的可用性使其成为评估多对象语义对应的理想数据集。我们在 PASCAL 3D+ 的 12 个刚性类别上构建基准，并遵循验证集的官方 VOC12 划分，其中仅包含 8 个非刚性类别的图像被删除。对于训练，我们仍然保留完整的 VOC12 训练集和注释（20 类）。

As PASCAL 3D+ does not provide image pairs, we need to generate image pairs and keypoint pairs on PASCAL for the correspondence evaluation. We enumerate all pairwise combinations of two images on the PASCAL 3D+ validation set. For any pairwise images, if both contain at least one intra-class object in common, we mark them as matched and keep this pair for evaluation. The second step is to generate the sparse correspondence ground truths on top of the matched image pairs using the provided keypoints. For any pairwise images, we ﬁnd all combinations of intra-class object pairs and use the keypoint pairs between these object pairs as the correspondence ground-truth. Due to occlusion, some keypoints may be missing and are ignored during the evaluation. Note that we also ignore any pairwise objects where the difference between their 3D orientations is greater than 60 degrees, since a large orientation gap often results in very few valid keypoint pairs.

由于 PASCAL 3D+ 不提供图像对，我们需要在 PASCAL 上生成图像对和关键点对以进行对应评估。我们列举了 PASCAL 3D+ 验证集上两个图像的所有成对组合。对于任何成对的图像，如果两者都包含至少一个共同的类内对象，我们将它们标记为匹配并保留这一对以进行评估。第二步是使用提供的关键点在匹配的图像对之上生成稀疏对应的基本事实。对于任何成对的图像，我们找到类内对象对的所有组合，并使用这些对象对之间的关键点对作为对应的 ground-truth。由于遮挡，一些关键点可能会丢失并在评估过程中被忽略。请注意，我们还忽略了 3D 方向之间的差异大于 60 度的任何成对对象，因为较大的方向间隙通常会导致非常少的有效关键点对。

Multi-object correspondence metric.

Similar to object detection, we introduce a precision-recall based metric with average precision (AP). We assume that there is a conﬁdence associated with each predicted correspondence, and we deﬁne it as the multiplication of the pairwise box conﬁdence in this work. This allows us to compute precision and recall by deﬁning true positive (TP), false positive (FP) and false negative (FN). Since PASCAL 3D+ only provides sparse correspondence ground truths, the challenge here is to correctly ignore some of the correspondence predictions that are far away from any ground truth but are correct. To this end, we follow a keypoint transfer setting where we always deﬁne a source side s and a target side t for any pairwise objects. Given a ground truth (gjs; gjt), a predicted correspondence (psi ; pti) and a distance threshold :

与目标检测类似，我们引入了一种基于精度召回的具有平均精度 (AP) 的度量。我们假设每个预测的对应关系都有一个置信度，我们将其定义为这项工作中成对框置信度的乘积。这允许我们通过定义真阳性 (TP)、假阳性 (FP) 和假阴性 (FN) 来计算精度和召回率。由于PASCAL 3D+ 只提供稀疏的对应基本事实，这里的挑战是正确地忽略一些远离任何基本事实但正确的对应预测。为此，我们遵循关键点传输设置，我们始终为任何成对对象定义源端 s 和目标端 t。给定一个基本事实（gjs；gjt），一个预测对应（pis；pit）和一个距离阈值α：

We term the average precision as AP@ where is a threshold relative to the box diagonal. We then deﬁne the ﬁnal APas: mean(AP@f0:75%; 1%; 1:5%; 2%; 3%g).

我们将平均精度称为 AP@，其中是相对于框对角线的阈值。然后我们将最终的 AP 定义为：mean(AP@f0:75%; 1%; 1:5%; 2%; 3%g)。

4.2. Implementation details

Training. We use stochastic gradient descent (SGD) for network optimization. For loss weights, we set αmil, αcon, αnce as 10; 2; 0:1 on YOLACT++ and set αmil, αcon, αnce as 1; 1; 0:1 on SOLOv2. Kindly refer to Appendix C for additional implementation details.

我们使用随机梯度下降 (SGD) 进行网络优化。对于损失权重，我们将 αmil, αcon, αnce 设置为 10； 2；在 YOLACT++ 上为 0:1，并将 αmil, αcon, αnce 设置为 1； 1个； SOLOv2 上 0:1。请参阅附录 C 了解更多实施细节。

4.3. Weakly supervised instance segmentation

Main results. We evaluate instance segmentation on COCO and VOC12, with the main results reported in Tab. 1 and 2, respectively. DISCOBOX outperforms BBTP [47] by 10:3% mAP on the COCO validation 2017 split with a smaller backbone (ResNet-50). DISCOBOX also outperforms BoxInst [49] which is the current state-of-the-art boxsupervised method on both COCO and VOC12. Notably, BoxInst/ResNet-101-DCN also adopts BiFPN [95], an im-proved variant of FPN [89]. Fig. 4 and Appendix D additionally visualize the instance segmentation results.

主要结果。我们评估了 COCO 和 VOC12 上的实例分割，主要结果在表中报告。分别为表1和表2。在 2017 年 COCO 验证拆分中，DISCOBOX 的性能优于 BBTP [47] 10:3% mAP，主干更小（ResNet-50）。 DISCOBOX 的性能也优于 BoxInst [49]，后者是目前在 COCO 和 VOC12 上最先进的盒监督方法。值得注意的是，BoxInst/ResNet-101-DCN 还采用了 BiFPN [95]，这是 FPN [89] 的改进变体。图 4 和附录 D 还可视化了实例分割结果。

Table 1. Main results on COCO. y indicates that the results are on the COCO validation 2017 split. The rest results are on COCO test-dev.DISCOBOX with SOLOv2/ResNet-50 outperforms BBTP [47] by 10.3% on COCO validation 2017. Our best model achieves 37.9% mAP on test-dev, which outperforms some competitive supervised methods such as Mask R-CNN in absolute performance.

表 1. COCO 的主要结果。 y 表示结果基于 COCO 验证 2017 拆分。其余结果在 COCO test-dev。DISCOBOX 上，SOLOv2/ResNet-50 在 2017 年 COCO 验证中优于 BBTP [47] 10.3%。我们最好的模型在 test-dev 上实现了 37.9% 的 mAP，优于一些竞争性监督方法，例如Mask R-CNN 的绝对性能。

Table 2. Main results on the VOC12 validation set. DISCOBOX outperforms all previous methods with state-of-the-art results.

表2.VOC12验证集的主要结果。Discobox以最先进的结果超越了所有以前的方法。

Analysis. We perform ablation study on VOC12 with Lmil, Lcon and Lnce. The results in Tab. 3 show consistent improvements from Lcon and Lnce, demonstrating the beneﬁt of the structured teacher. We also conduct sensitivity analysis with the loss weights on both instance segmentation (VOC12)1 and semantic correspondence (PASCAL 3D+, see Sec. 4.4). The results in Fig. 6 show that DISCOBOX is not sensitive to weight changes.

我们使用 Lmil, Lcon and Lnce 对 VOC12 进行消融研究。选项卡中的结果。表3 显示了 Lcon and Lnce的持续改进，展示了结构化教师的好处。我们还对实例分割（VOC12）1 和语义对应（PASCAL 3D+，参见第 4.4 节）的损失权重进行敏感性分析。图 6 中的结果表明 DISCOBOX 对重量变化不敏感。

4.4. Weakly supervised semantic correspondence

PF-PASCAL (Object-Centric).

We ﬁrst evaluate DIS-COBOX on PF-PASCAL [88] using YOLACT++/ResNet-50-DCN, with the main results presented in Tab. 4. We do not directly train the DISCOBOX model on PF-PASCAL.Instead, we train it on the VOC12 training set, excluding those images that are present in the PF-PASCAL validation set. It is worth noting that many existing semantic correspondence methods can not be similarly trained on VOC12 without major changes, even though some of them do consider certain level of localization information such as attention.

我们首先使用 YOLACT++/ResNet-50-DCN 在 PF-PASCAL [88] 上评估 DIS-COBOX，主要结果见表。表4. 我们不直接在 PF-PASCAL 上训练 DISCOBOX 模型。相反，我们在 VOC12 训练集上训练它，不包括那些存在于 PF-PASCAL 验证集中的图像。值得注意的是，许多现有的语义对应方法不能在没有重大变化的情况下在 VOC12 上进行类似的训练，尽管其中一些确实考虑了一定程度的定位信息，例如注意力。

During inference, we use instance segmentation to obtain object masks, and use the structured teacher to produce dense pixel-wise correspondence by taking the masks as input. Our approach outperforms the previous weakly supervised semantic correspondence approaches with considerable margins. Such improvement can be attributed to three main factors: 1) The improved design of structured teacher which renders good correspondence quality at object-level. 2) The box-supervised learning framework which makes it possible to scale up the training using more data and obtain improved correspondence representation. 3) The high quality object localization as a result of the coupled learning framework that help to guide the correspondence.

在推理过程中，我们使用实例分割来获得对象掩码，并使用结构化教师通过将掩码作为输入来产生密集的像素级对应关系。我们的方法以相当大的优势优于以前的弱监督语义对应方法。这种改进可归因于三个主要因素： 1）改进的结构化教师设计，在对象级别呈现良好的通信质量。 2）盒子监督学习框架，可以使用更多数据扩大训练规模并获得改进的对应表示。 3）由于耦合学习框架有助于指导通信，高质量的对象定位。

PASCAL 3D+ (Multi-Object).

Finally, we benchmark DISCOBOX and several baselines on PASCAL 3D+. Tab. 5 lists the main results and Fig. 5 visualizes some predicted correspondence. The comparing methods in Tab. 5 are deﬁned as follows: Identity: We align each pair of images only considering the positions of pixels. SCOT: A modiﬁed version of [23] by removing beam search and keeping their matching module on our RoI features. DISCOBOX-: Our model trained on VOC12 without dense NCE loss, but using teacher during inference for correspondence. DISCOBOX: Our full approach. We use YOLACT++/ResNet-50-DCN for all methods. Our method does not include beam search with the validation data and label [23], and is therefore purely box-supervised. The results show the effectiveness of our proposed teacher and dense contrastive learning.

最后，我们在 PASCAL 3D+ 上对 DISCOBOX 和几个基线进行了基准测试。标签。表5 列出了主要结果，图 5 可视化了一些预测的对应关系。表中的比较方法。 5 定义如下：身份：我们只考虑像素的位置对齐每对图像。 SCOT：[23] 的修改版本，删除了波束搜索并将其匹配模块保留在我们的 RoI 特征上。 DISCOBOX-：我们的模型在 VOC12 上训练，没有密集的 NCE 损失，但在推理过程中使用教师进行通信。 DISCOBOX：我们的完整方法。我们对所有方法都使用 YOLACT++/ResNet-50-DCN。我们的方法不包括带有验证数据和标签 [23] 的光束搜索，因此是纯粹的框监督。结果显示了我们提出的教师和密集对比学习的有效性。

5. Conclusions

We presented DISCOBOX, a novel framework able to jointly learn instance segmentation and semantic correspondence from box supervision.

我们提出了 DISCOBOX，一个能够从盒子监督中联合学习实例分割和语义对应的新框架。

Our proposed self-ensembling framework with a structured teacher has led to signiﬁcant improvement with state of the art performance in both tasks.We also proposed a novel benchmark for multi-object semantic correspondence together with a principled evaluation metric.

我们提出的带有结构化教师的自集成框架在这两个任务中都显着提高了最先进的性能。我们还提出了一个用于多对象语义对应的新基准以及有原则的评估指标。

With the ability to jointly produce high quality instance segmentation and semantic correspondence from box supervision, we envision that DISCOBOX can scale up and beneﬁt many downstream 2D and 3D vision tasks.

凭借从盒子监督中共同产生高质量实例分割和语义对应的能力，我们设想 DISCOBOX 可以扩大规模并受益于许多下游 2D 和 3D 视觉任务。

Acknowledgement: We would like to sincerely thank Xinlong Wang, Zhi Tian, Shuaiyi Huang, Yashar Asgarieh, Jose M. Alvarez, De-An Huang, and other NVIDIA colleagues for the discussion and constructive suggestions.

致谢：我们衷心感谢Xinlong Wang、Zhi Tian、Shuayi Huang、Yashar Asgarieh、Jose M. Alvarez、De-An Huang 和其他NVIDIA 同事的讨论和建设性建议。

你可能感兴趣的:(#,AI-无损检测方向,计算机视觉,人工智能,神经网络,图像处理,深度学习)

2022-05-06 羊羊得逸
中原焦点团队徐晓霞网络中级28期坚持分享第（332）约练（125）（2022-5-6）不管来访者怎么讲，咨询师要把握大的方向，咨询才不容易跑偏。来访者说的比较多，比较散的时候，咨询师的对咨询脉络的把控很重要，如果单纯跟着来访者，看似贴着，问的比较散，容易跑偏。目标一定清晰，但不要着急去帮忙解决问题，先让来访者把心里情绪宣泄出来，中间可以多次进行目标的确认。
医养照护与管理实训基地建设：创新模式与突破路径
在人口老龄化与健康中国战略的双重驱动下，医养结合服务已成为民生保障的重要组成部分。医养照护与管理实训基地建设作为培育专业人才的核心载体，正从传统技能培训向“产教融合、智慧赋能、协同发展”的新模式转型。探索医养照护与管理实训基地建设的创新路径，对破解行业人才瓶颈、提升服务品质具有深远意义。一、医养照护与管理实训基地建设的时代需求与创新方向当前，我国医养服务领域面临“量质双缺”的困境：一方面，专业照护
ONNX模型使用指南：从零开始掌握跨领域模型部署
ONNX模型使用指南：从零开始掌握跨领域模型部署ONNX模型作为一种开放式的神经网络交换格式，已成为AI模型部署的行业标准。当您获得一个没有使用说明的ONNX模型时，可以通过系统化的分析和部署流程，使其在不同领域发挥作用。本文将详细阐述如何分析模型结构、配置运行环境、准备特定领域输入数据、执行推理并处理结果，同时提供图像分类、自然语言处理、医疗影像分析、金融风控和自动驾驶等领域的具体应用示例，帮助
全面掌握PDF编辑：使用Foxit PDF Editor 22.1.1102 IBEANI
本文还有配套的精品资源，点击获取简介：FoxitPDFEditor22.1.1102是一款专业的PDF编辑工具，专为编辑、修改和创建PDF文档而设计。拥有直观的用户界面，使得用户即使技术不熟练也能轻松上手。它提供文本编辑、图像处理、页面管理、注释与标记、表单填写与创建、安全设置、批注工具、合并与分割、转换功能和OCR识别等核心功能。软件还支持自定义工具栏，提高工作效率。为保障数据安全和个人隐私，用
MIPI CSI 通道初始化流程与 D-PHY 调试策略：从链路稳定到高带宽优化观熵影像技术全景图谱：架构调优与实战 Camera 人工智能影像
MIPICSI通道初始化流程与D-PHY调试策略：从链路稳定到高带宽优化关键词：MIPICSI、D-PHY、camera驱动、链路初始化、时钟通道、通道同步、误码调试、链路校准、高通平台、MTK平台、数据通道校验摘要：MIPICSI接口是现代手机相机模组连接ISP的主流数据传输通道，承担高速图像流的传输任务。其初始化流程涉及设备树配置、D-PHY配置、通道启用与同步、链路状态检测等多个关键环节，且
Android 异构计算与 OpenCL/CUDA/OpenVX 的协同方式实战解析观熵国产 NPU ×Android 推理优化 android 人工智能
Android异构计算与OpenCL/CUDA/OpenVX的协同方式实战解析关键词Android异构计算、OpenCL、CUDA、OpenVX、GPU加速、NPU调度、HSA架构、神经网络推理、计算图编排、SoC协同处理、AI芯片编程摘要随着国产SoC平台持续迭代，Android系统中异构计算模式已从传统CPU+GPU并行计算，扩展到集成NPU、DSP、ISP等多核单元的复杂协同体系。在AI推理
仓库货物检测：基于YOLOv5的深度学习应用与UI界面开发 YOLO实战营 YOLO 深度学习 ui 目标跟踪目标检测人工智能
一、引言随着电商和物流行业的快速发展，仓库货物管理已经成为企业运营中至关重要的环节。为了提高仓库管理的效率和准确性，越来越多的企业开始应用自动化技术来完成货物的盘点、分类、分拣等任务。传统的货物管理方式通常依赖人工检查，不仅效率低下，而且容易出现误差。为了克服这些问题，利用计算机视觉和深度学习技术来实现仓库货物的自动化检测成为了一种有效的解决方案。本博客将介绍如何使用YOLOv5进行仓库货物检测，
【云原生】Helm来管理Kubernetes集群的详细使用方法与综合应用实战景天科技苑云原生K8S 零基础到进阶实战云原生 kubernetes 容器 Helm k8s k8s集群
✨✨欢迎大家来到景天科技苑✨✨养成好习惯，先赞后看哦~作者简介：景天科技苑《头衔》：大厂架构师，华为云开发者社区专家博主，阿里云开发者社区专家博主，CSDN全栈领域优质创作者，掘金优秀博主，51CTO博客专家等。《博客》：Python全栈，前后端开发，小程序开发，人工智能，js逆向，App逆向，网络系统安全，数据分析，Django，fastapi，flask等框架，云原生k8s，linux，she
Transformer：自注意力驱动的神经网络革命引擎大千AI助手人工智能 Python #OTHER transformer 神经网络深度学习 google 人工智能机器学习大模型
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！从语言理解到多模态智能的通用架构基石⚙️一、核心定义与历史意义Transformer是由Google团队在2017年论文《AttentionIsAllYouNeed》中提出的深度学习架构，其颠覆性创新在于：完全摒弃RNN/CNN：仅依赖自注意力机制（S
[特殊字符] LLM（大型语言模型）：智能时代的语言引擎与通用推理基座大千AI助手人工智能 Python #OTHER 语言模型人工智能自然语言处理 LLM 大模型 Transformer
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！从千亿参数到人类认知的AI革命一、核心定义与核心特征LLM（LargeLanguageModel）是基于海量文本数据训练的深度学习模型，通过神经网络架构（尤其是Transformer）模拟人类语言的复杂规律，实现文本理解、生成与推理任务。其核心特征可概
现实就是如此大雄ETony
除了有一个大专文凭，其他的好像什么都不会。要算专业的话，专业知识早就忘光了，英语四级也没过。想找工作，就连找份销售都难找到适合的，没有能力的我，只能苦苦地面对世间的黑与白。有时候真的不知道何去何从，前路是何方？也恰恰是在这个时候，很容易产生沮丧不安各种坏情绪，也很容易堕落。没钱，还没有为之奋斗的方向，还被感情挫折折磨着，此刻是我人生中最黑暗的时候了。也许如果有个人轻轻的推一下，我就会陷入万丈深渊，
卷积神经网络-数据增强红米煮粥 cnn 人工智能神经网络
文章目录一、概述二、数据增强的类别1.裁剪2.翻转和旋转3.随机遮挡4.图像变换5.对transforms的选择操作，使数据增强更灵活三、应用场景四、总结一、概述数据增强（也叫数据扩增）的目的是为了扩充数据和提升模型的泛化能力。有效的数据扩充不仅能扩充训练样本数量，还能增加训练样本的多样性，一方面可避免过拟合，另一方面又会带来模型性能的提升。二、数据增强的类别1.裁剪中心裁剪：transforms
深度学习模型开发部署全流程：以YOLOv11目标检测任务为例你喜欢喝可乐吗？ deep learning deploy 深度学习 YOLO 目标检测
深度学习模型开发部署全流程：以YOLOv11目标检测任务为例深度学习模型从开发到部署的完整流程包含需求分析、数据准备、模型训练、模型优化、模型测试和部署运行六大核心环节。YOLOv11作为新一代目标检测模型，不仅延续了YOLO系列的高效实时性能，还在检测精度和泛化能力上取得显著突破，使其成为工业质检、安防监控、自动驾驶等领域的理想选择。本文将详细阐述这一完整流程，并结合YOLOv11的具体实现，提
预测导管原位癌浸润性复发的深度学习：利用组织病理学图像和临床特征浪漫的诗人论文深度学习人工智能
文章目录研究内容目的方法数据集模型开发模型训练与评估外部验证统计分析研究结果模型性能风险分层外部验证特征重要性原文链接原文献：Deeplearningforpredictinginvasiverecurrenceofductalcarcinomainsitu:leveraginghistopathologyimagesandclinicalfeatures研究背景【DCIS与IBC的关联】乳腺导管
面试经验分享 | 成都某安全厂商渗透测试工程师
更多大厂面试题看我的主页或者专栏找我免费领取目录：所面试的公司：某安全厂商所在城市：成都面试职位：渗透测试工程师岗位面试过程：面试官的问题：1.平常在学校打CTF嘛，获奖情况讲下，以及你自己的贡献如何？2.内网渗透主要思路说一下吧？3.web打点过程中有没有遇到过waf？怎么绕过的4.现在给你一个站你会怎么做信息搜集？5.如何快速检测定位网站目录下的webshell呢？6.简单讲下反弹shell的
Python面向对象编程(OOP)详解：通俗易懂的全面指南盛夏绽放 python 开发语言有问必答
前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。文章目录Python面向对象编程(OOP)详解：通俗易懂的全面指南一、OOP基本概念1.什么是面向对象编程？2.OOP的四大支柱3.核心概念对比表二、类和对象1.类(Class)vs对象(Object)2.类结构详解三、OOP三大特性详解1.封装(Encapsulation)2.继承(Inherita
前端-VUE-页面布局-flex布局整理-傻瓜教学偏偏潇洒程序员
1.flex-direction:设置容器内部元素的排列方向row:定义排列方向从左到右row-reverse:从右到左column:从上到下column-reverse:从下到上图片介绍flex-direction:rowflex-direction:row-reverseflex-direction:columnflex-direction:column-reverse2.flex-:定义fl
《87期读书会》坚持第646天读书会分享（2016.09.24星期六）半夏五月天
坚持第646天读书会分享（2016.09.24星期六）《87期读书会》值班中参加读书会，庆幸的是虽然偶尔有电话和借东西，但是没有急诊，可以让我顺利参加读书会。读书收获：（3）请受督者检核与扩大其对咨询专业的信念。3.省思介入策略与后续可能性。（1）检视受督者后续介入的意图，与可能成效为何。（2）请受督者思考后续可有的不同技巧与切入方向之可能性，并接着探问受督者的看法，与当事人可能会有的反应。（3）
深度学习：让 AI 拥有 “思考” 能力的核心技术田园Coder 人工智能科普人工智能科普
1.深度学习：突破传统的AI“进阶版”1.1什么是深度学习？深度学习是机器学习的一个分支，它通过模拟人脑神经网络的多层结构，让AI能够自动学习数据中的复杂特征，从而完成更高级的认知任务。例如，传统机器学习需要人类手动提取“猫有尖耳朵、胡须”等特征，而深度学习能直接从原始图片中，自主学习从像素到轮廓、再到整体形态的多层特征，最终实现更精准的识别。这种“自主提取特征”的能力，让深度学习突破了传统AI的
【OpenGL ES】绘制正方形 LittleFatSheep
1前言【OpenGLES】绘制三角形中介绍了绘制三角形的方法，本文将介绍绘制正方形的方法。OpenGL以点、线段、三角形为图元，没有提供绘制正方形内部的接口。要绘制正方形内部，必须通过三角形拼接而成，如下图，是通过GL_TRIANGLE_FAN模式绘制正方形。img绘制的坐标点如下，由于此坐标是以画布中心为坐标原点，水平向右为x轴正方向，竖直向上为y轴正方向，其值是相对画布宽度和高度的比值。一般而
创造力是产生有价值的新颖想法，这是三个大脑神经网络的交互作用——《跨越不可能》精读分享36 峰哥读写思
创造力是神经网络的交互作用。这是《跨越不可能》一书，精读分享的第36篇。根据心理学的定义，创造力是产生有价值的新颖想法。在这个定义中，从大脑的结构来看，创造力总是与选择有关。大脑必须选择一个以前从未出现过的行动计划，并且要判断这个行动计划是否有效。这就要有赖于大脑中的三个神经网络的交互作用。第一个网络是注意网络。这个网络是信息选择器。创造力开始于大脑吸收新的信息。我们是用自己的注意力来吸收这些信息
R语言金融工程：量化价值投资中的数据处理技巧量化价值投资入门到精通 r语言金融开发语言 ai
R语言金融工程：量化价值投资中的数据处理技巧关键词：R语言、金融工程、量化价值投资、数据处理、财务指标、时间序列、风险控制摘要：在量化价值投资领域，高质量的数据处理是策略有效性的核心基础。本文系统解析基于R语言的金融数据处理全流程，涵盖数据获取、清洗、特征工程、时间序列分析等关键环节。通过财务指标计算、异常值检测、缺失值处理、因子标准化等实用技巧，结合quantmod、TTR、dplyr等R包的深
Instagram千号矩阵：亚矩阵云手机破解设备指纹检测的终极方案云云321 矩阵智能手机线性代数
在Instagram的全球化运营中，构建千号矩阵已成为品牌扩大曝光、精准触达用户的核心策略。然而，平台对设备指纹的强监管——通过硬件参数聚类、传感器动态性检测、IP地理一致性校验等200余个维度构建风控模型，使得传统多账号运营面临高封号率、低存活率的双重挑战。亚矩阵云手机通过动态设备指纹重置、智能行为仿真与独立IP池管理三大技术模块，为Instagram千号矩阵提供了安全、高效、低成本的解决方案。
马斯克整出的半仙儿，Chat GPT会让多少白领失业？可能会带来哪些变化？良辰美景5566
这几天，ChatGPT火了，是美国一家叫OpenAI的高科技公司研发的，背后的投资人是谁？——埃隆马斯克！这哥们儿只要一出手，注定就和新奇呀伟大呀啥的绑在一起了，他搞的项目，比如特斯拉、星链、脑机接口，光听名字就透着不俗。很多人纳闷儿，他这次搞得ChatGPT是个啥玩意儿？简单说就是一个人工智能聊天软件，这个软件比以往的智能聊天软件强在哪儿？这么说吧，这简直就是个半仙儿啊。如果您是一位老人，这个C
PyTorch torch.no_grad() 指南（笔记）拉拉拉拉拉拉拉马 pytorch 人工智能 python 笔记深度学习
PyTorchtorch.no_grad()权威在PyTorch深度学习框架中，高效的显存管理对于训练复杂模型和执行大规模推理任务至关重要。显存不足（OutOfMemory,OOM）错误是开发者经常面临的挑战之一。torch.no_grad()作为PyTorch提供的一个核心工具，能够在推理（inference）和验证（validation）阶段显著优化显存使用并提升计算速度。本报告旨在全面、深入
【深度学习基础】PyTorch中model.eval()与with torch.no_grad()以及detach的区别与联系？
目录1.核心功能对比2.使用场景对比3.区别与联系4.典型代码示例(1)模型评估阶段(2)GAN训练中的判别器更新(3)提取中间特征5.关键区别总结6.常见问题与解决方案(1)问题：推理阶段显存爆掉(2)问题：Dropout/BatchNorm行为异常(3)问题：中间张量意外参与梯度计算7.最佳实践8.总结以下是PyTorch中model.eval()、withtorch.no_grad()和.d
2020-12-01 第304篇《幸福的千年老二》 ALady155
古人云，宁做鸡头不做凤尾。有人愿意做鸡头，有人愿意做凤尾，不管坐什么位置，一定要清晰自己的方向只有自己的方向清晰了，明确了自己的目标，坐在哪里最合适就坐哪里我是特别喜欢做一个千年老二，从小在家我就是老二。长大之后参加工作，我也一直位居老二的位置，一直觉得这个位置特别适合我特别舒服老大一直让我跳出舒适区，说应该独自挑大梁，不应该只做一个千年的老二。但我很清楚自己的优势和劣势，人是应该在自己的长处之上
量子计算与AI融合的技术突破与实践路径
量子计算与人工智能的融合正开启一个全新的技术纪元，这种"量智融合"不是简单的技术叠加，而是多领域、多学科的横向连接，通过协同创新实现非线性增长。本文将深入探讨这一领域的最新进展、技术实现路径以及行业应用案例。电子-光子-量子一体化芯片：硬件基础突破2025年7月，美国波士顿大学、加州大学伯克利分校和西北大学团队联合开发出全球首个电子-光子-量子一体化芯片系统。这一突破性成果发表在《自然·电子学》杂
推荐文章：《同济大学软件学院万院长谈择业》 weixin_34087301
同济大学软件学院万院长谈择业一、关于企业计算方向企业计算（EnterpriseComputing）是稍时髦较好听的名词，主要是指企业信息系统，如ERP软件（企业资源规划）、CRM软件（客户关系管理）、SCM软件（供应链管理，即物流软件），银行证券软件，财务软件，电子商务/政务（包括各种网站），数据仓库，数据挖掘，商务智能等企业信息管理系统。企业计算领域对人才的需求显然永远是数量最大的，因为这是计算
117、Python机器学习：数据预处理与特征工程技巧多多的编程笔记 python 机器学习开发语言
Python开发之机器学习准备：数据预处理与特征工程机器学习是当前人工智能领域的热门方向之一。而作为机器学习的核心组成部分，数据预处理与特征工程对于模型的性能有着至关重要的影响。本文将带领大家了解数据预处理与特征工程的基本概念，以及它们在实际应用场景中的重要性。数据预处理数据预处理是机器学习中的第一步，它的主要目的是将原始数据转换成适合进行机器学习模型训练的形式。就像我们在做饭之前需要清洗和准备食
怎么样才能成为专业的程序员？ cocos2d-x小菜编程 PHP
如何要想成为一名专业的程序员？仅仅会写代码是不够的。从团队合作去解决问题到版本控制，你还得具备其他关键技能的工具包。当我们询问相关的专业开发人员，那些必备的关键技能都是什么的时候，下面是我们了解到的情况。关于如何学习代码，各种声音很多，然后很多人就被误导为成为专业开发人员懂得一门编程语言就够了？！呵呵，就像其他工作一样，光会一个技能那是远远不够的。如果你想要成为
java web开发高并发处理 BreakingBad java Web 并发开发处理高
java处理高并发高负载类网站中数据库的设计方法（java教程,java处理大量数据，java高负载数据）一：高并发高负载类网站关注点之数据库没错,首先是数据库,这是大多数应用所面临的首个SPOF。尤其是Web2.0的应用，数据库的响应是首先要解决的。一般来说MySQL是最常用的，可能最初是一个mysql主机，当数据增加到100万以上，那么，MySQL的效能急剧下降。常用的优化措施是M-S（
mysql批量更新 ekian mysql
mysql更新优化：一版的更新的话都是采用update set的方式，但是如果需要批量更新的话，只能for循环的执行更新。或者采用executeBatch的方式，执行更新。无论哪种方式，性能都不见得多好。三千多条的更新，需要3分多钟。查询了批量更新的优化，有说replace into的方式，即： replace into tableName(id,status) values
微软BI（3） 18289753290 微软BI SSIS
1) Q：该列违反了完整性约束错误；已获得 OLE DB 记录。源:“Microsoft SQL Server Native Client 11.0” Hresult: 0x80004005 说明:“不能将值 NULL 插入列 'FZCHID'，表 'JRB_EnterpriseCredit.dbo.QYFZCH'；列不允许有 Null 值。INSERT 失败。”。 A：一般这类问题的存在是
Java中的List g21121 java
List是一个有序的 collection（也称为序列）。此接口的用户可以对列表中每个元素的插入位置进行精确地控制。用户可以根据元素的整数索引（在列表中的位置）访问元素，并搜索列表中的元素。与 set 不同，列表通常允许重复
读书笔记永夜-极光读书笔记
1. K是一家加工厂,需要采购原材料,有A,B,C,D 4家供应商,其中A给出的价格最低,性价比最高,那么假如你是这家企业的采购经理,你会如何决策? 传统决策: A:100%订单 B,C,D:0% &nbs
centos 安装 Codeblocks 随便小屋 codeblocks
1.安装gcc,需要c和c++两部分,默认安装下,CentOS不安装编译器的,在终端输入以下命令即可yum install gccyum install gcc-c++ 2.安装gtk2-devel,因为默认已经安装了正式产品需要的支持库,但是没有安装开发所需要的文档.yum install gtk2* 3. 安装wxGTK yum search w
23种设计模式的形象比喻 aijuans 设计模式
1、ABSTRACT FACTORY—追MM少不了请吃饭了，麦当劳的鸡翅和肯德基的鸡翅都是MM爱吃的东西，虽然口味有所不同，但不管你带MM去麦当劳或肯德基，只管向服务员说“来四个鸡翅”就行了。麦当劳和肯德基就是生产鸡翅的Factory 　　工厂模式：客户类和工厂类分开。消费者任何时候需要某种产品，只需向工厂请求即可。消费者无须修改就可以接纳新产品。缺点是当产品修改时，工厂类也要做相应的修改。如：
开发管理 CheckLists aoyouzi 开发管理 CheckLists
开发管理 CheckLists(23) -使项目组度过完整的生命周期开发管理 CheckLists(22) -组织项目资源开发管理 CheckLists(21) -控制项目的范围开发管理 CheckLists(20) -项目利益相关者责任开发管理 CheckLists(19) -选择合适的团队成员开发管理 CheckLists(18) -敏捷开发 Scrum Master 工作开发管理 C
js实现切换百合不是茶 JavaScript 栏目切换
js主要功能之一就是实现页面的特效,窗体的切换可以减少页面的大小,被门户网站大量应用思路: 1,先将要显示的设置为display:bisible 否则设为none 2,设置栏目的id ,js获取栏目的id,如果id为Null就设置为显示 3,判断js获取的id名字;再设置是否显示代码实现: html代码: <di
周鸿祎在360新员工入职培训上的讲话 bijian1013 感悟项目管理人生职场
这篇文章也是最近偶尔看到的，考虑到原博客发布者可能将其删除等原因，也更方便个人查找，特将原文拷贝再发布的。“学东西是为自己的，不要整天以混的姿态来跟公司博弈，就算是混，我觉得你要是能在混的时间里，收获一些别的有利于人生发展的东西，也是不错的，看你怎么把握了”，看了之后，对这句话记忆犹新。 &
前端Web开发的页面效果 Bill_chen html Web Microsoft
1.IE6下png图片的透明显示： <img src="图片地址" border="0" style="Filter.Alpha(Opacity)=数值(100),style=数值(3)"/> 或在<head></head>间加一段JS代码让透明png图片正常显示。 2.<li>标
【JVM五】老年代垃圾回收：并发标记清理GC(CMS GC) bit1129 垃圾回收
CMS概述并发标记清理垃圾回收(Concurrent Mark and Sweep GC）算法的主要目标是在GC过程中，减少暂停用户线程的次数以及在不得不暂停用户线程的请夸功能，尽可能短的暂停用户线程的时间。这对于交互式应用，比如web应用来说，是非常重要的。 CMS垃圾回收针对新生代和老年代采用不同的策略。相比同吞吐量垃圾回收，它要复杂的多。吞吐量垃圾回收在执
Struts2技术总结白糖_ struts2
必备jar文件早在struts2.0.*的时候，struts2的必备jar包需要如下几个： commons-logging-*.jar Apache旗下commons项目的log日志包 freemarker-*.jar
Jquery easyui layout应用注意事项 bozch jquery 浏览器 easyui layout
在jquery easyui中提供了easyui-layout布局，他的布局比较局限，类似java中GUI的border布局。下面对其使用注意事项作简要介绍：如果在现有的工程中前台界面均应用了jquery easyui，那么在布局的时候最好应用jquery eaysui的layout布局，否则在表单页面（编辑、查看、添加等等）在不同的浏览器会出
java-拷贝特殊链表：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？ bylijinnan java
public class CopySpecialLinkedList { /** * 题目：有一个特殊的链表，其中每个节点不但有指向下一个节点的指针pNext，还有一个指向链表中任意节点的指针pRand，如何拷贝这个特殊链表？拷贝pNext指针非常容易，所以题目的难点是如何拷贝pRand指针。假设原来链表为A1 -> A2 ->... -> An，新拷贝
color Chen.H JavaScript html css
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd"> <HTML> <HEAD>&nbs
[信息与战争]移动通讯与网络 comsci 网络
两个坚持:手机的电池必须可以取下来光纤不能够入户,只能够到楼宇建议大家找这本书看看:<&
oracle flashback query(闪回查询) daizj oracle flashback query flashback table
在Oracle 10g中，Flash back家族分为以下成员： Flashback Database Flashback Drop Flashback Table Flashback Query(分Flashback Query,Flashback Version Query，Flashback Transaction Query) 下面介绍一下Flashback Drop 和Flas
zeus持久层DAO单元测试 deng520159 单元测试
zeus代码测试正紧张进行中,但由于工作比较忙,但速度比较慢.现在已经完成读写分离单元测试了,现在把几种情况单元测试的例子发出来,希望有人能进出意见,让它走下去. 本文是zeus的dao单元测试: 1.单元测试直接上代码 package com.dengliang.zeus.webdemo.test; import org.junit.Test; import o
C语言学习三printf函数和scanf函数学习 dcj3sjt126com c printf scanf language
printf函数 /* 2013年3月10日20:42:32 地点：北京潘家园功能：目的：测试%x %X %#x %#X的用法 */ # include <stdio.h> int main(void) { printf("哈哈！\n"); // \n表示换行 int i = 10; printf
那你为什么小时候不好好读书? dcj3sjt126com life
dady, 我今天捡到了十块钱, 不过我还给那个人了 good girl! 那个人有没有和你讲thank you啊没有啦....他拉我的耳朵我才把钱还给他的, 他哪里会和我讲thank you 爸爸, 如果地上有一张5块一张10块你拿哪一张呢.... 当然是拿十块的咯... 爸爸你很笨的, 你不会两张都拿爸爸为什么上个月那个人来跟你讨钱, 你告诉他没
iptables开放端口 Fanyucai linux iptables 端口
1，找到配置文件 vi /etc/sysconfig/iptables 2，添加端口开放，增加一行，开放18081端口 -A INPUT -m state --state NEW -m tcp -p tcp --dport 18081 -j ACCEPT 3，保存 ESC :wq! 4，重启服务 service iptables
Ehcache（05）——缓存的查询 234390216 排序 ehcache 统计 query
缓存的查询目录 1. 使Cache可查询 1.1 基于Xml配置 1.2 基于代码的配置 2 指定可搜索的属性 2.1 可查询属性类型 2.2 &
通过hashset找到数组中重复的元素 jackyrong hashset
如何在hashset中快速找到重复的元素呢?方法很多，下面是其中一个办法： int[] array = {1,1,2,3,4,5,6,7,8,8}; Set<Integer> set = new HashSet<Integer>(); for(int i = 0
使用ajax和window.history.pushState无刷新改变页面内容和地址栏URL lanrikey history
后退时关闭当前页面 <script type="text/javascript"> jQuery(document).ready(function ($) { if (window.history && window.history.pushState) {
应用程序的通信成本 netkiller.github.com 虚拟机应用服务器陈景峰 netkiller neo
应用程序的通信成本什么是通信一个程序中两个以上功能相互传递信号或数据叫做通信。什么是成本这是是指时间成本与空间成本。时间就是传递数据所花费的时间。空间是指传递过程耗费容量大小。都有哪些通信方式全局变量线程间通信共享内存共享文件管道 Socket 硬件（串口，USB）等等全局变量全局变量是成本最低通信方法，通过设置
一维数组与二维数组的声明与定义恋洁e生二维数组一维数组定义声明初始化
/** * */ package test20111005; /** * @author FlyingFire * @date:2011-11-18 上午04:33:36 * @author ：代码整理 * @introduce :一维数组与二维数组的初始化 *summary： */ public c
Spring Mybatis独立事务配置 toknowme mybatis
在项目中有很多地方会使用到独立事务，下面以获取主键为例（1）修改配置文件spring-mybatis.xml  <tx:annotation-driven transaction-manager="transactionManager" /> &n
更新Anadroid SDK Tooks之后，Eclipse提示No update were found xp9802 eclipse
使用Android SDK Manager 更新了Anadroid SDK Tooks 之后，打开eclipse提示 This Android SDK requires Android Developer Toolkit version 23.0.0 or above, 点击Check for Updates 检测一会后提示 No update were found