clover_my

论文笔记(FCOS)-2019-FCOS：Fully Convolutional One-Stage Object Detection

FCOS：Fully Convolutional One-Stage Object Detection

Zhi Tian Chunhua Shen∗ Hao Chen Tong He
The University of Adelaide, Australia

FCOS：Fully Convolutional One-Stage Object Detection

1. Introduction

2. Related Work

（1）Anchor-based Detectors.

（2）Anchor-free Detectors.

3. Our Approach

3.1. Fully Convolutional One-Stage Object Detector

（1）Network Outputs.

（2）Loss Function.

（3）Inference.

3.2. Multi-level Prediction with FPN for FCOS

3.3. Center-ness for FCOS

4. Experiments

（1）Training Details.

（2）Inference Details.

4.1. Ablation Study

4.1.1 Multi-level Prediction with FPN

4.1.2 With or Without Center-ness

4.1.3 FCOS vs. Anchor-based Detectors

4.2. Comparison with State-of-the-art Detectors

5. Extensions on Region Proposal Networks

6. Conclusion

Appendix

7. Class-agnostic Precision-recall Curves

8. Visualization for Center-ness

9. Qualitative Results

Abstract：提出了一种全卷积的单级目标检测器 ( FCOS )，以一种逐像素预测的方式解决目标检测问题，类似于语义分割。几乎所有最先进的目标检测器，如 RetinaNet，SSD，YOLOv3 和 Faster R-CNN 都依赖于预定义的锚框。相比之下，我们提出的检测器FCOS是无锚框（anchor box free），也无建议的（proposal free）。通过消除预定义的锚框设置，FCOS完全避免了与锚框相关的复杂计算，如在训练过程中计算重叠，大大减少了训练内存占用。更重要的是，我们还避免了与锚框相关的所有超参数，这些超参数通常对最终检测性能非常敏感。由于只有后处理非最大抑制 ( NMS )，我们的检测器 FCOS 比以前的基于锚框的单级检测器具有更简单的优点。首次提出了一种简单灵活的检测框架，提高了检测精度。我们希望这个提出的 FCOS 框架可以作为许多其他实例级任务的简单而强大的替代方案。

代码获取：tinyurl.com/FCOSv1 https://github.com/tianzhi0549/FCOS

论文获取：https://arxiv.org/pdf/1904.01355.pdf

1. Introduction

目标检测是计算机视觉中的一项基本而又具有挑战性的任务，它要求算法为图像中感兴趣的每个实例预测一个带有类别标签的边界框。目前所有主流的检测器，如 Faster R-CNN [20]、SSD [15]、YOLOv2、v3 [19]都依赖于一组预定义的锚框，长期以来人们认为锚框的使用是检测器成功的关键。尽管它们取得了巨大的成功，但值得注意的是，基于锚框的检测器存在一些缺陷：

如[12,20]所示，检测性能对锚框的尺寸、纵横比和数量敏感。例如，在 RetinaNet [12]中，在COCO基准[13]上，改变这些超参数会影响AP高达4%的性能。因此，这些超参数需要在基于锚框的检测器中仔细调整
即使经过精心设计，由于锚框的尺度和长径比是固定的，检测器在处理形状变化较大的候选对象时也会遇到困难，特别是对于小对象。预定义的锚框还限制了检测器的泛化能力，因为它们需要针对不同对象大小或纵横比的新检测任务重新设计。
为了获得较高的召回率，需要一个基于锚框的检测器将框密集地放置在输入图像上 ( 例如，对于短边为 800 的图像，在特征金字塔网络 ( FPN ) [11]中放置超过 180K 个锚框)。在训练过程中，这些锚框大多被标记为负样本。负样本数量过多加剧了训练中正样本与负样本之间的不平衡。
在训练过程中，当计算所有锚框和地面真实框（ground-truth boxes）之间的交并集 ( intersectionover-union, IOU ) 得分时，锚框数量过多也会显著增加计算量和内存占用。

近年来，全卷积网络[16]在语义分割[16]、深度估计[14]、关键点检测[2]、计数[1]等密集预测任务中取得了巨大的成功。目标检测作为高级视觉任务之一，可能是唯一一个偏离纯卷积逐像素预测框架的任务，这主要是由于锚框的使用。问这样一个问题：我们能否以简洁的逐像素预测的方式来解决对象检测问题，例如类似用于语义分割的 FCN ? 由此，这些基本的远景任务可以(几乎)统一在一个框架中。我们证明答案是肯定的。此外，我们还首次证明了基于 FCN 的检测器比基于锚框的检测器具有更好的性能。

在文献中，一些作品试图利用基于 FCN 的框架进行目标检测，如 DenseBox [9]和 UnitBox [24]。具体地说，这些基于 FCN 的框架直接预测了特征图（feature maps）级别上每个空间位置上的一个 4D 向量加上一个类的类别。如图1(左)所示，4D 向量描述了一个边界框到该位置的四个边的相对偏移量。这些框架类似于用于语义分割的 FCNs，只是每个位置都需要回归一个 4D 连续向量。但是，为了处理不同大小的边界框，DenseBox [9]将训练图像调整为固定的比例。因此，DenseBox 必须对图像金字塔进行检测，这与 FCN 一次计算所有卷积的思想是相悖的。此外，更重要的是，这些方法主要用于特殊领域的目标检测，如场景文本检测[25]或人脸检测[24,9]，因为人们认为这些方法不适用于具有高度重叠边界框的一般对象检测。如图1所示(右图)，高度重叠的边界框导致了训练过程中难以处理的模糊性：对于重叠区域中的像素，不清楚 w.r.t 应该回归到哪个边界框。

在后续中，我们将进一步研究这个问题，并说明使用 FPN 可以在很大程度上消除这种模糊性。结果表明，该方法与传统的基于锚框的检测方法具有相当的检测精度。此外，我们注意到我们的方法可能会在远离目标对象中心的位置产生大量低质量的预测边界框。为了抑制这些低质量的检测，我们引入了一个新的 “ 中心度（center-ness）” 分支(只有一层)来预测一个像素到其相应边界框中心的偏移，如公式(3)所定义。然后，该分数用于降低低质量检测边界框的权重，并将检测结果合并到NMS中。简单而有效的中心度分支允许基于 FCN 的检测器在完全相同的训练和测试设置下胜过基于锚框的检测器。

这种新的检测框架具有以下优点：

现在检测与许多其他使用 FCN 解决的任务(如语义分割)统一起来，从而更容易重用这些任务中的思想。
检测变为无建议、无锚框，大大减少了设计参数的数量。设计参数通常需要启发式调优，为了获得良好的性能，需要使用许多技巧。因此，我们的新检测框架使检测器，特别是它的训练，变得相当简单。此外，通过消除锚框，我们的新检测器完全避免了训练过程中锚框与地面真值框之间复杂的 IOU 计算和匹配，并将总训练内存占用降低了 2 倍左右。
在没有附加条件的情况下，我们在单级检测器中实现了最先进的结果。我们还证明了所提出的 FCOS 可以在两级检测器中作为一个区域建议网络（Region Proposal Networks）使用，并且与基于锚框的 RPN 相比，可以获得更好的性能。由于更简单的无锚检测器性能更好，我们鼓励社区重新考虑在目标检测中使用锚框的必要性，因为锚框目前被认为是检测的实际标准。
所提出的检测器可以立即扩展到以最小的修改完成其他视觉任务，包括实例分割和关键点检测。我们认为，该方法可以作为许多实例预测问题的新基线。

2. Related Work

（1）Anchor-based Detectors.

基于锚框的检测器继承了传统滑动窗口和基于建议（proposal）的检测器 ( 如 Fast R-CNN [5] ) 的思想。在基于锚框的检测器中，锚框可以看作是预先定义的滑动窗口或 proposal ，这些窗口或 proposal 被划分为正补丁（positive patches）或负补丁（negative patches），通过额外的偏移量回归来细化边界框位置的预测。因此，这些检测器中的锚框可以看作是训练样本。与之前的 Fast R-CNN 等检测器反复计算每个滑动窗口 / proposal 的图像特征不同，锚框利用卷积神经网络 ( CNNs ) 的特征图，避免了重复的特征计算，大大加快了检测过程。Faster R-CNN 中的 RPNs [20]、SSD [15]和 YOLOv2 [18]推广了锚框的设计，成为现代检测器的惯例。

然而，如上所述，锚框会导致过多的超参数，通常需要仔细调整这些超参数才能获得良好的性能。除了上述锚框形状的超参数外，基于锚框的检测器还需要其他超参数将每个锚框标记为正样本、忽略样本或负样本。在之前的工作中，他们经常使用锚框和 ground truth 框之间的交并集（intersection over union，IOU）来标记它们 ( 例如，如果锚框的 IOU 在 [0.5, 1]，记作正样本)。这些超参数对最终的精度影响很大，需要进行启发式调优（heuristic tuning）。同时，这些超参数是针对检测任务的，使得检测任务偏离了语义分割等其他密集预测任务中使用的简洁的全卷积网络架构。

（2）Anchor-free Detectors.

最流行的无锚检测器可能是 YOLOv1 [17]。YOLOv1没有使用锚框，而是预测在靠近对象中心的点上的边界框。只使用中心附近的点，因为它们被认为能够产生更高的质量检测。然而，由于仅使用靠近中心的点来预测边界框， YOLOv1 的召回率较低，正如 YOLOv2 [18]中所述。于是，YOLOv2 [18]也使用了锚框。与 YOLOv1 相比，FCOS 利用 ground truth 边界框中的所有点来预测边界盒，并通过提出的 “ 中心度 ” 分支抑制检测到的低质量的边界框。因此，FCOS 能够提供与基于锚框的检测器相当的召回率，如我们的实验所示。

CornerNet [10]是最近提出的一种单级无锚框检测器，它检测边界框的一对角，并将它们分组形成最终检测到的边界框。CornerNet 需要更复杂的后处理来对属于同一实例的角对进行分组。为了分组，我们学习了一个额外的距离度量。

另一类无锚框检测器如[24]是基于 DenseBox [9]的。由于难以处理重叠的边界框，且召回率较低，该检测器系列已被认为不适合通用目标检测。在这项工作中，我们证明了多级 FPN 预测可以很大程度上缓解这两个问题。此外，与我们提出的中心度分支一起指出的是，相对于基于锚框的检测器，更简单的检测器可以实现更好的检测性能。

3. Our Approach

在本节中，我们首先以逐像素预测的方式重新定义目标检测。接下来，我们展示了如何利用多级预测来提高召回率，并解决训练中由于边界框重叠而产生的歧义。最后，我们提出了我们的 “ 中心度 ” 分支，它有助于抑制低质量检测的边界框，并大大提高了整体性能。

3.1. Fully Convolutional One-Stage Object Detector

设 $F_{i}\epsilon \mathbb{R}^{H\times W\times C}$ 为主干 CNN 第层的 feature map，为该层前的总步长（total stride）。输入图像的 ground-truth 边界框定义为 $\left \{ B_{i} \right \}$ ，其中 $B_{i}= \left ( x_{0}^{\left ( i \right )} , y_{0}^{\left ( i \right )}, x_{1}^{\left ( i \right )}, y_{1}^{\left ( i \right )}, c^\left ( i \right ){}\right )\epsilon \mathbb{R}^{4}\times \left \{ 1, 2 ... C \right \}$ 。这里的 $\left ( x_{0}^{\left ( i \right )}, y_{0}^{\left ( i \right )} \right )$ 和 $\left ( x_{1}^{\left ( i \right )}, y_{1}^{\left ( i \right )} \right )$ 表示边界框的左上角和右下角的坐标。 $c^{\left ( i \right )}$ 是边界框中的对象所属的类。是类的数量，对于COCO数据集来说是80。

对于特征图 $F_{i}$ 上的每个位置 $\left ( x, y \right )$ ，我们可以将其映射回输入图像上靠近位置 $\left ( x, y \right )$ 的接受域中心的 $\left ( \left \lfloor \frac{s}{2} \right \rfloor+xs, \left \lfloor \frac{s}{2} \right \rfloor+ys \right )$ 。与基于锚框的检测器不同，基于锚框的检测器将输入图像上的位置作为锚框的中心，并对这些锚框的目标边界框进行回归，我们直接对每个位置的目标边界框进行回归。也就是说，我们的检测器直接将位置看作训练样本，而不是在基于锚框的检测器中将锚框看作训练样本，这与在用于语义分割[16]的 FCNs 中是一样的。

具体来说，如果位置 $\left ( x, y \right )$ 落在任意一个 ground-truth 边界框中则被认为是正样本，并且这个位置的类标签 $c^{\ast }$ 是 $B_{i}$ 的类标签。否则就是负样本，并且 $c^{\ast }=0$ （背景类）。除了用于分类的标签之外，我们还有一个 4D 实向量 $t^{\ast }=\left ( l^{\ast }, t^{\ast }, r^{\ast }, b^{\ast } \right )$ 作为每个样本的回归目标。这里的 $l^{\ast }$ ， $t^{\ast }$ ， $r^{\ast }$ ， $b^{\ast }$ 是位置距离边界框四边的距离，如图1(左)所示。如果一个位置落在多个边界框中，它被认为是一个模糊的样本。当前，我们简单地选择面积最小的边界框作为其回归目标。在下一节中，我们将展示使用多级预测，可以显著减少模糊样本的数量。如果位置 $\left ( x, y \right )$ 与一个边界框 $B_{i}$ 相关联，该位置的训练回归目标可以表示为：

值得注意的是，FCOS 可以利用尽可能多的前景样本来训练回归器。与基于锚框的检测器不同，基于锚框的检测器只考虑与 ground-truth boxes 具有足够高的 IOU 的锚框作为正样本。我们认为这可能是 FCOS 优于基于锚框的同类产品的原因之一。

（1）Network Outputs.

对应于训练目标，我们的网络的最后一层预测分类标签的 80D 向量，和边界框坐标的 4D 向量。根据[12]，我们不再训练多类分类器，而是训练个二进制分类器。与[12]类似，我们在主干网络的 feature maps 之后添加了 4 个卷积层，分别用于分类和回归分支。此外，由于回归目标总是正样本，我们在回归分支的顶部使用将任意实数映射到 $( 0, \infty )$ 。值得注意的是，FCOS 的网络输出变量比流行的基于锚框的每个位置有9个锚框的检测器少 9× [12,20]。

（2）Loss Function.

我们将训练损失函数定义为：

其中 $L_{cls}$ 为焦距损失，如[12]； $L_{reg}$ 为 IOU 损失，如 UnitBox [24]。 $N_{pos}$ 表示正样本数量，本文中的 $\lambda$ 和 1 是 $L_{reg}$ 的平衡权重。对特征图 $F_{i}$ 上的所有位置进行求和。 $\mathbb{I}_{\left \{ c_{i}^{\ast }> 0 \right \}}$ 是显示函数，如果 $c_{i}^{\ast }> 0$ ，显示为1，否则显示为0。

（3）Inference.

FCOS 的推论很简单。对于给定的输入图像，通过网络进行前向传递，得到特征图 $F_{i}$ 上每个位置的分类得分 $p_{x, y}$ 和回归预测 $t_{x, y}$ 。根据[12]，选取 $p_{x, y}> 0.05$ 作为正样本，反向计算公式(1)得到预测的边界框。

3.2. Multi-level Prediction with FPN for FCOS

在这里，我们展示了如何用 FPN 的多级预测[11]解决提出的 FCOS 的两个可能的问题。

1) CNN 中最终feature map的大步长 ( 如16× ) 可能导致相对较低的最佳可能召回 ( best possible recall，BPR ) 。对于基于锚框的检测器，由于较大的步长而导致的低召回率，可以通过降低正锚框所需的 IOU 分数来在一定程度上得到补偿。对于 FCOS，乍一看，人们可能认为 BPR 比基于锚框的检测器获得的要低得多，因为不可能召回一个由于步长很大在最终的特征图上没有位置编码的对象。在这里，我们通过实验证明，即使步长很大，基于 FCN 的 FCOS 仍然能够产生良好的 BPR，甚至可以优于官方实现检测器[6]中基于 anchor 的 RetinaNet 检测器[12]的 BPR ( 见表1 )。因此，BPR 实际上不是 FCOS 的问题。此外，利用多级 FPN 预测[11]，可以进一步改进 BPR，使其达到基于锚框的 RetinaNet 检测器可获得的最好的 BPR。

2) ground-truth框中的重叠会在训练过程中造成难以处理的歧义，即，w.r.t.，一个位置应该回归到重叠区域内的哪个边界框 ? 这种模糊性导致基于 FCN 的检测器性能下降。结果表明，采用多级预测方法可以有效地解决模糊问题，与基于锚框的检测器相比，基于 FCN 的检测器具有相当甚至更好的性能。

根据 FPN [11]，我们在不同层次的 feature map 上检测不同大小的对象。具体地说，我们使用了定义为 $\left \{ P_{3}, P_{4}, P_{5}, P_{6}, P_{7} \right \}$ 的五个层次的特征图。P3、P4、P5 由主干 CNNs 的特征图 C3、C4、C5 生成，后面是一个[11]中1×1的卷积层，横向连接，如图2所示。P6 和 P7 分别在 P5 和 P6 上应用一个 stride 为 2 的卷积层生成。因此，特征层次为 P3，P4，P5，P6，P7 的stride分别为 8，16，32，64，128。

与基于锚框的检测器将不同大小的锚框分配到不同的特征级别不同，我们直接限制了边界框回归的范围。更具体地说，我们首先计算每个位置在所有特征层次上的回归目标： $l^{\ast }$ ， $t^{\ast }$ ， $r^{\ast }$ ， $b^{\ast }$ 。接下来，如果一个位置满足 $max\left ( l^{\ast }, t^{\ast }, r^{\ast }, b^{\ast } \right )>m _{i}$ 或 $max\left ( l^{\ast }, t^{\ast }, r^{\ast }, b^{\ast } \right )< m _{i-1}$ ，它被设置为是一个负样本，因此不再需要返回一个边界框。这里 $m _{i}$ 是第个特征层次需要回归的最大距离。其中，m2、m3、m4、m5、m6、m7 分别设为 0、64、128、256、512 和 $\infty$ 。由于不同尺寸的物体被分配到不同的特征层，且大部分重叠发生在尺寸相差较大的物体之间，因此多级预测可以在很大程度上缓解上述的模糊性，并将基于 FCN 的检测器提高到与基于锚框的检测器相同的水平，如我们的实验所示。

最后，根据[11,12]，我们在不同的特征层之间共享 heads，不仅使检测器的参数效率更高，而且提高了检测性能。但是，我们观察到需要不同的特征层来回归不同的尺寸范围 ( 例如，P3 和 P4 的尺寸范围分别为 [0，64] 和 [64,128] ) 。因此，对于不同的特征层使用相同的 heads 是不合理的。因此，我们没有使用标准的，而是使用 $exp( s_{i}x )$ 和一个可训练标量 $s_{i}$ ，来自动调整特征层级为 $P_{i}$ 时指数函数的底，从经验上提高了检测性能。

3.3. Center-ness for FCOS

在 FCOS 中使用多级预测后，与基于锚框的检测器相比，FCOS 的性能仍然存在较大的差距。我们观察到，这是由于许多由位置产生的低质量的预测边界框距离目标中心很远。

我们提出了一个简单而有效的策略来抑制这些检测到的低质量边界框，而不引入任何超参数。具体来说，我们添加了一个单层分支，与分类分支并行，以预测一个位置的 “ 中心 ” ( 即，从该位置到该位置负责的对象的中心的距离 )，如图2所示。给定一个位置的回归目标 $l^{\ast }$ ， $t^{\ast }$ ， $r^{\ast }$ ， $b^{\ast }$ ，中心目标定义为：

我们用根号来减缓 center-ness 的衰减。center-ness 范围从0到1，因此用二进制交叉熵损失 ( binary cross entropy，BCE ) 训练。损失加到公式(2)的损失函数中。测试时，将预测的中心度（center-ness）与相应的分类分数相乘，计算最终得分 ( 用于对检测到的边界框进行排序 )。因此，中心度可以降低远离对象中心的边界框的权重。最终的非最大抑制 ( NMS ) 过程可以滤除这些低质量的边界框，提高检测性能，具有较高的概率。

基于锚框的检测器使用两个 IOU 阈值 $T_{low}$ 和 $T_{high}$ ，将锚框标记为负样本、忽略和正样本，从锚框的角度可以将中心度看作一个软阈值。它是在网络训练中学习的，不需要调整。此外，利用该策略，我们的检测器仍然可以将任何落在 ground-truth 框中的位置视为正样本，除了上述多层预测中设置为负样本的位置外，这样就可以让回归器使用尽可能多的训练样本。

4. Experiments

在大尺度检测基准 COCO [13]上进行了实验。按照惯例[12,11,20]，我们使用 COCO 中的 trainval35k 部分 ( 115K图像 ) 用于训练，minival 部分 ( 5K图像 ) 作为我们的消融研究（ Ablation Study ）的验证集。我们通过将 test_dev 部分 ( 20K图像 ) 检测结果上传到评估服务器，报告了主要结果。

（1）Training Details.

除非特别指出，否则我们使用 ResNet-50 [7]作为骨干网络，并使用与 RetinaNet [12]相同的超参数。具体来说，我们训练网络时采用随机梯度下降 ( stochastic gradient descent，SGD ) ，迭代 90K 次，初始学习率为 0.01，小批量（mini-batch）16幅图像。在迭代 60K 和 80K 时，学习率分别降低了10倍。权重衰减和动量分别设置为 0.0001 和 0.9。我们用在 ImageNet [3]上预先训练的权值初始化我们的骨干网络。对于新添加的层，我们像[12]一样将它们初始化。除非指定，否则将把输入图像的大小调整为短边为800，长边小于或等于1333。

（2）Inference Details.

我们首先通过网络将输入图像前向传递，得到带有预测类的预测边界框。下面的后处理与 RetinaNet [12]完全相同，我们直接使用相同的后处理超参数 ( 如NMS阈值 )。我们认为，如果对超参数进行优化，可以进一步提高我们的检测器的性能。我们使用与训练时的输入图像相同大小的尺寸。

4.1. Ablation Study

4.1.1 Multi-level Prediction with FPN

如前所述，基于 FCN 的检测器的主要问题是低召回率和由于ground-truth边界框重叠而导致的模糊样本。在本节中，我们证明了这两个问题都可以通过多级预测得到很大程度上的解决。

（1）Best Possible Recalls.

基于 FCN 检测器的第一个问题是，它可能不能提供良好的最佳可能召回率 ( best possible recall，BPR )。在本节中，我们表示这个问题是不必要的。在这里，BPR 被定义为检测器最多能召回的 ground-truth boxes 数量与所有 ground-truth boxes 数量之比。如果在训练中一个 ground-truth 框能分配给至少一个样本，则认为该框被召回（即，FCOS中的位置（location）或基于锚框的检测器中的锚框（anchor box））。如表1 所示，在只有特征层级为 P4（feature level P4），stride为 16 ( 即，没有 FPN ) 的情况下， FCOS 已经可以获得 95.55% 的 BPR。其 BPR 远远高于官方实现的检测器中基于锚框的检测器 RetinaNet 的 90.92% 的 BPR，其中仅使用 IOU ≥0.4 的低质量匹配。在 FPN 的帮助下，FCOS 可以实现 98.40% 的 BPR，非常接近基于锚框的检测器通过使用所有低质量匹配所能达到的最佳 BPR。由于事实上这些探测器的 precision-recall 曲线 ( 如补充材料所示 ) 中的最佳召回率（best recall）远低于90%，FCOS 与基于锚框的检测器之间的小 BPR 间隙实际上并不会影响检测器的性能。表4 也证实了这一点，其中 FCOS 实现的 AR 甚至比基于锚框的同类产品更好。因此，关于低 BPR 的问题可能没有必要。

（2）Ambiguous Samples.

基于 FCN 的检测器的另一个问题是，由于 ground-truth 边界框的重叠，可能会产生大量的模糊样本，如图1(右)所示。在表2 中，我们展示了在 minival split 中模糊样本与所有正样本的比值。如表所示，如果不使用 FPN，只使用 feature level P4，确实存在大量的模糊样本 ( 23.16% )。但是，如果我们使用所有的特征级别，这个比例可以显著降低到 7.14%，因为大多数重叠的对象被分配到不同的特征级别。此外，我们认为，由于相同类别的对象之间的重叠而产生的模糊样本在推断时并不重要，因为无论样本回归到哪个对象的 w.r.t，这些样本预测的边界框总是可以与正确的类别匹配。因此，我们只计算不同类别边界框重叠时的模糊样本。如表2 所示，多级预测将模糊样本的比例从 17.84% 降低到 3.75%。为了进一步证明在基于 FCN 的 FCOS 中，ground truth box 中的重叠不是一个问题，我们计算了在推断时有多少检测到的边界框来自于模糊位置。我们发现只有2.3%的检测到的边界框是由模糊的位置产生的。进一步考虑到不同类别之间的重叠，比例降低到1.5%。在后续的实验中表明，极低的重叠比并不会使我们的 FCOS 比基于锚框的检测器差。

（3）Detection Performance.

到目前为止，我们已经证明了 FCOS 的 BPR 就足够了，多层级预测不仅可以提高 BPR，而且可以显著降低训练过程中 w.r.t 的模糊度，即回归到哪个边界框。如表3 所示，在多级预测的帮助下，基于 FCN 的 FCOS 已经可以实现与基于锚框的 RetinaNet 相同等级的多级预测性能 ( 33.8% vs. 35.7%)。与只有一个 feature level P4 的相比，AP 几乎增加了一倍。

4.1.2 With or Without Center-ness

我们已经证明，基于 FCN 的 FCOS 能够达到与基于锚框的检测器 RetinaNet 相当的性能。然而，在 AP 中仍然存在约 2% 的性能差距。我们认为，这一差距可能是由于有一些检测到的低质量的边界框，是由远离一个对象中心的位置（locations）产生的。很容易得出，越靠近中心的位置越有可能产生更准确的预测。因此，对远距离的位置产生的检测应赋以较低的置信度。为此，我们利用中心度分支（a center-ness branch）来抑制检测到的低质量边界框。如表5 所示，center-ness 分支可以将 AP 从 33.8% 提升到 36.6%，性能优于基于锚的检测器 ( 35.7% )。可以注意到，中心度（center-ness）也可以用预测回归向量计算，而不需要引入额外的中心度分支。但是，如表5 所示，回归向量计算的中心度并不能提高性能，因此需要单独学习中心度。

为了进一步证明 center-ness 的有效性，我们又进行了一个实验。我们假设有一个数据库，它在推理过程中提供了基本事实中心度评分（ground-truth center-ness score）。在保持所有其他设置完全相同的情况下，推理用的 ground-truth center-ness 显著地将 AP 提高到 42.1，这意味着我们目前如表5 所示的 36.6 的 AP 准确率还有很大的提升空间，只要我们提高 center-ness 的预测精度。

因此，我们使 center-ness 分支更深入，具有与分类和回归分支相同的体系结构，从而将 AP 从 36.6 提高到 36.8。

理论上，我们甚至可以训练一个单独的深度网络，它与主检测器不共享任何权重，其唯一目的是预测 center-ness 得分。这只是有可能，因为事实上 center-ness 评分仅用于推理。因此，我们能够将 center-ness 预测器的训练与检测器的训练解耦。这种解耦使我们能够以额外的计算复杂度为代价来设计最好的 center-ness 预测器。我们还假设，如果需要 NMS 进行后处理，那么所有其他检测器都可以从这种精确的 center-ness 评分预测器中获益。我们把这个话题留给以后的工作。

4.1.3 FCOS vs. Anchor-based Detectors

上述 FCOS 与标准 RetinaNet 有两个小的不同。1) 除了最后的预测层，我们在新增加的卷积层中使用了组归一化 ( Group Normalization，GN ) [23]，这使得我们的训练更加稳定。2) 我们使用 P5 产生了 P6 和 P7，而不是 RetinaNet 中的 C5。我们发现使用P5可以稍微提高性能。

为了证明我们的 FCOS 可以作为基于锚的检测器的一种简单而强大的替代品，为了公平的比较，我们在 RetinaNet 中加入了 GN，在我们的检测器中也使用了 C5。如表4 所示，在完全相同的设置下，我们的 FCOS 仍然优于基于锚的检测器。由于与基于锚的检测器相比，我们的基于 FCN 的检测器有很多优点 ( 如表4 所示，设计复杂度要低得多，并且只使用了一半内存占用进行训练 )，我们鼓励社区重新考虑在目标检测中使用锚框的必要性。此外，值得注意的是，我们直接使用了对基于锚的检测器进行了优化的 RetinaNet 的所有超参数 ( 如学习率、NMS 阈值等 )。我们认为，如果对超参数进行调优，FCOS 的性能还可以进一步提高。

人们可能仍然担心边界框中的重叠会导致性能下降。为了进一步证明重叠不是 FCOS 的问题，我们构造了 minival 的一个子集，命名为 minival_overlapped。它由 3986 幅图像组成，每幅图像至少包含一个重叠边界框。子集总共包含 35,058 个边界框，其中 30,625 个边界框 ( 高达 87% ) 与其他边界框重叠。在子集上，我们的 FCOS 仍然比基于锚的 RetinaNet 性能更好，这表明 FCOS 可以很好地处理重叠的边界框。

4.2. Comparison with State-of-the-art Detectors

在消融研究（ablation study）中，为了与基于锚的检测器进行公平的比较，并证明我们的框架可以作为基于锚的检测器的一个强大而简单的替代方案，我们直接利用了 RetinaNet 的所有超参数。我们认为，如果为我们的检测器调整超参数，性能可以大大提高。对于 test-dev split 的主要结果，我们在训练过程中使用了与 RetinaNet 类似的缩放抖动（scale jitter），并将迭代次数增加了一倍。其他设置与消融研究完全相同。如表7 所示，以 ResNet-101-FPN 和 ResNet-32x8d-101-FPN 为主干，我们的 FCOS 在 AP 中分别比相同主干的 RetinaNet 表现出 1.9% 和 1.3% 的优势。据我们所知，这是第一次没有任何附加条件的无锚探测器比基于锚的探测器性能好很多。FCOS 的性能也大大超过了其他经典的基于锚的两级检测器，比如 Faster RCNN 。

与目前最先进的 CornerNet [10]检测器相比，我们的 FCOS 在 AP 方面也有 0.5% 的增益。也许增益相对较小，但是我们的检测器对比 CornerNet 具有以下优点：1) 我们使用更快更简单的骨干 ResNet-101 而不是 CornerNet 中的 Hourglass-104 来实现性能。2) 除了检测任务中标准的后处理 NMS 外，我们的检测器不需要任何其他后处理。而 CornerNet 则需要用嵌入向量将角对进行分组，这就需要对检测器进行特殊的设计。3) 与 CornerNet 相比，我们认为我们的 FCOS 更有可能作为目前主流基于锚的检测器的一个强大而简单的替代品。

5. Extensions on Region Proposal Networks

到目前为止，我们已经证明，在单极检测器中，我们的 FCOS 可以比基于锚的同类产品实现更好的性能。直观上，FCOS 也应该能够在两级检测器 Faster RCNN 中用 FPN [11]替换区域建议网络 ( Region Proposal Networks，RPNs ) 中的锚框。在本节中，我们通过实验证实了这一点。

与有 FPN [11]的 RPNs 相比，我们用 FCOS 中的方法替换了锚框。此外，我们在 FPN 头（heads）的层中加入GN，使我们的训练更加稳定。所有其他设置与官方代码[6]中具有 FPN 的 RPNs 完全相同。如表8 所示，即使没有提出中心度分支，我们的 FCOS 已经显著提高了和。通过提出的中心度分支，FCO S进一步将和分别提高到 52.8% 和 60.3%，相对于官方的具有 FPN 的 RPNs ，相对提高了 21%，相对提高了 3%。

6. Conclusion

我们提出了一种无锚框（anchor-free）和无建议（proposal-free）的单级检测器 FCOS。实验结果表明，FCOS 与目前流行的基于锚框的单级检测器 ( 包括 RetinaNet、YOLO 和 SSD ) 相比，性能较好，但设计复杂度要低得多。FCOS 完全避免了所有与锚框相关的计算和超参数，以逐像素预测的方式解决了目标检测问题，类似于语义分割等其他密集预测任务。FCOS 还在单级检测器中实现了最先进的性能。我们也证明了 FCOS 可以作为 RPNs 应用于两级检测器 Faster RCNN 中，并在很大程度上优于其原先的 RPNs。鉴于其有效性和高效性，我们希望 FCOS 能够作为目前主流基于锚的检测器的一个强大而简单的替代品。我们也相信FCOS可以扩展到解决许多其他实例级的识别任务。

Appendix

7. Class-agnostic Precision-recall Curves

在图4、图5 和图6 中，我们分别给出了 IOU 阈值为 0.50、0.75 和 0.90 时，split minival 上的 class-agnostic precision-recall 曲线。表9 为三条曲线对应的 APs。

如表9 所示，我们的 FCOS 比基于 anchor 的同类 RetinaNet 实现了更好的性能。此外，值得注意的是，有了更严格的 IOU 阈值，FCOS 相对于 RetinaNet 有较大的改进，这表明 FCOS具有更好的边界框回归器，可以更准确地检测对象。其中一个原因应该是 FCOS 有能力利用更多的前景样本来训练回归器，正如我们在本文中提到的。

最后，从所有的 precision-recall 曲线中可以看出，这些检测器在 precision-recall 曲线中的最佳召回率（best recalls）远低于 90%。这进一步表明，介于 FCOS 和 RetinaNet 之间的最佳可能召回率 ( best possible recall，BPR ) 的小差距 ( 98.40% vs. 99.23% ) 几乎不影响最终的检测性能。

8. Visualization for Center-ness

正如我们在论文中提到的，通过抑制低质量的检测边界框，提出的中心度分支大大提高了检测性能。在本节中，我们确认这一点。我们期望中心度能够降低低质量边界框的权重，从而在后续的非最大抑制 ( NMS ) 等后处理中过滤掉这些边界框。如果检测到的边界框具有较低的 IOU 分数，则将其与相应的 ground-truth 边界框视为低质量的边界框。一个 IOU 较低但置信度得分较高的边界框很可能成为假阳性（虚假正样本），从而影响精度。

在图7 中，我们将检测到的边界框视为一个二维点 (x，y)， x 为其得分，y 为 IOU 及其对应的 ground-truth 框。如图7 所示
(左)，在应用中心度之前，有大量的低质量的边界框，但有较高的置信度得分 ( 即，直线 y = x 下方的点 )。这些低质量的边界框由于得分高，在后期处理中无法消除，导致检测精度下降。将分类得分与中心度得分相乘后（即，他们的分数降低了），这些点会被推到图的左侧，如图7(右) 所示。因此，这些低质量的边界框更有可能在后处理中被过滤掉，最终的检测性能可以得到提高。

9. Qualitative Results

定性结果如图8 所示。如图所示，我们提出的 FCOS 可以检测范围很广的对象，包括拥挤、堵塞、高度重叠、极小和非常大的对象。

你可能感兴趣的:(论文笔记)

论文笔记—NDT-Transformer: Large-Scale 3D Point Cloud Localization using the Normal Distribution Transfor 入门打工人笔记 slam 定位算法
论文笔记—NDT-Transformer:Large-Scale3DPointCloudLocalizationusingtheNormalDistributionTransformRepresentation文章摘要~~~~~~~在GPS挑战的环境中，自动驾驶对基于3D点云的地点识别有很高的要求，并且是基于激光雷达的SLAM系统的重要组成部分（即闭环检测）。本文提出了一种名为NDT-Transf
[论文笔记]Circle Loss: A Unified Perspective of Pair Similarity Optimization 愤怒的可乐 #文本匹配[论文]论文翻译/笔记自然语言处理论文阅读人工智能
引言为了理解CoSENT的loss，今天来读一下CircleLoss:AUnifiedPerspectiveofPairSimilarityOptimization。为了简单，下文中以翻译的口吻记录，比如替换"作者"为"我们"。这篇论文从对深度特征学习的成对相似度优化角度出发，旨在最大化同类之间的相似度sps_ps
【论文笔记】Multi-Task Learning as a Bargaining Game xhyu61 机器学习学习笔记论文笔记论文阅读人工智能深度学习
Abstract本文将多任务学习中的梯度组合步骤视为一种讨价还价式博弈(bargaininggame)，通过游戏，各个任务协商出共识梯度更新方向。在一定条件下，这种问题具有唯一解(NashBargainingSolution)，可以作为多任务学习中的一种原则方法。本文提出Nash-MTL，推导了其收敛性的理论保证。1Introduction大部分MTL优化算法遵循一个通用方案。计算所有任务的梯度g
[论文笔记] LLaVA 心心喵论文笔记论文阅读
一、LLaVA论文中的主要工作和实验结果ExistingGap:之前的大部分工作都在做模态对齐，做图片的representationlearning，而没有针对ChatBot（多轮对话，指令理解）这种场景优化。Contribution:这篇工作已经在BLIP-2之后了，所以Image的理解能力不是LLaVA希望提升的重点，LLaVA是想提升多模态模型的Instruction-Followingab
[论文笔记] LLM模型剪枝心心喵论文笔记论文阅读剪枝算法
AttentionIsAllYouNeedButYouDon’tNeedAllOfItForInferenceofLargeLanguageModelsLLaMA2在剪枝时，跳过ffn和跳过fulllayer的效果差不多。相比跳过ffn/fulllayer，跳过attentionlayer的影响会更小。跳过attentionlayer：7B/13B从100%参数剪枝到66%，平均指标只下降1.7～
【论文笔记】Training language models to follow instructions with human feedback B部分 Ctrl+Alt+L 大模型论文整理论文笔记论文阅读语言模型人工智能自然语言处理
TraininglanguagemodelstofollowinstructionswithhumanfeedbackB部分回顾一下第一代GPT-1：设计思路是“海量无标记文本进行无监督预训练+少量有标签文本有监督微调”范式；模型架构是基于Transformer的叠加解码器（掩码自注意力机制、残差、Layernorm）；下游各种具体任务的适应是通过在模型架构的输出后增加线性权重WyW_{y}Wy实
【论文笔记】：LAYN：用于小目标检测的轻量级多尺度注意力YOLOv8网络 hhhhhhkkkyyy 论文阅读目标检测 YOLO
背景针对嵌入式设备对目标检测算法的需求，大多数主流目标检测框架目前缺乏针对小目标的具体改进，然后提出的一种轻量级多尺度注意力YOLOv8小目标检测算法。小目标检测精度低的原因随着网络在训练过程中的加深，检测到的目标容易丢失边缘信息和灰度信息等。获得高级语义信息也较少，图像中可能存在一些噪声信息，误导训练网络学习不正确的特征。映射到原始图像的感受野的大小。当感受野相对较小时，空间结构特征保留较多，但
激光SLAM--(8) LeGO-LOAM论文笔记 lonely-stone slam 激光SLAM 论文阅读
论文标题：LeGO-LOAM：LightweightandGround-OptimizedLidarOdometryandMappingonVariableTerrain应用在可变地形场景的轻量级的、并利用地面优化的LOAMABSTRACT轻量级的、基于地面优化的LOAM实时进行六自由度位姿估计，应用在地面的车辆上。强调应用在地面车辆上是因为在这里面要求雷达必须水平安装，而像LOAM和LIO-SA
论文浅尝 - AAAI2020 | 迈向建立多语言义元知识库：用于 BabelNet Synsets 义元预测... 开放知识图谱机器学习人工智能知识图谱自然语言处理深度学习
论文笔记整理：潘锐，天津大学硕士。来源：AAAI2020链接：https://arxiv.org/pdf/1912.01795.pdf摘要义原被定义为人类语言的最小语义单位。义原知识库（KBs）是一种包含义原标注词汇的知识库，它已成功地应用于许多自然语言处理任务中。然而，现有的义原知识库建立在少数几种语言上，阻碍了它们的广泛应用。为此论文提出在多语种百科全书词典BabelNet的基础上建立一个统一
[论文笔记] LLM数据集——LongData-Corpus 心心喵论文笔记服务器 ubuntu linux
https://huggingface.co/datasets/yuyijiong/LongData-Corpus1、hf的数据在开发机上要设置sshkey，然后cat复制之后在设置在hf上2、中文小说数据在云盘上清华大学云盘下载：#!/bin/bash#BaseURLbase_url="https://cloud.tsinghua.edu.cn/d/0670fcb14d294c97b5cf/fi
[论文笔记] eval-big-refactor lm_eval 每两个任务使用一个gpu，并保证端口未被使用心心喵论文笔记 restful 后端
1.5B在eval时候两个任务一个gpu是可以的。7B+在evalbelebele时会OOM，所以分配时脚本不同。eval_fast.py：importsubprocessimportargparseimportosimportsocket#参数列表task_name_list=["flores_mt_en_to_id","flores_mt_en_to_vi","flores_mt_en_to_
【论文笔记】Separating the “Chirp” from the “Chat”: Self-supervised Visual Grounding of Sound and Language xhyu61 机器学习学习笔记论文笔记论文阅读
Abstract提出了DenseAV，一种新颖的双编码器接地架构，仅通过观看视频学习高分辨率、语义有意义和视听对齐的特征。在没有明确的本地化监督的情况下，DenseAV可以发现单词的"意义"和声音的"位置"。此外，它在没有监督的情况下自动发现并区分这两种类型的关联。DenseAV的定位能力源于一种新的多头特征聚合算子，该算子直接比较稠密的图像和音频表示进行对比学习。相比之下，许多其他学习"全局"音
图形学论文笔记 Jozky86 图形学图形学笔记
文章目录PBD：XPBD：shapematchingPBD：【深入浅出NvidiaFleX】(1)PositionBasedDynamics最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码最简化的PBD(基于位置的动力学)算法详解-论文原理讲解和太极代码XPBD：基于XPBD的物理模拟一条龙：公式推导+代码+文字讲解（纯自制）【论文精读】XPBD基于位置的动力学XPBD论文解读(
【视觉三维重建】【论文笔记】Deblurring 3D Gaussian Splatting CS_Zero 论文阅读
去模糊的3D高斯泼溅，看Demo比3D高斯更加精细，对场景物体细节的还原度更高，[官网]（https://benhenryl.github.io/Deblurring-3D-Gaussian-Splatting/）背景技术Volumetricrendering-basednerualfields：NeRF.Rasterizationrendering:3D-GS.Rasterization比vol
[论文笔记] Transformer-XL 心心喵论文笔记 transformer 深度学习人工智能
这篇论文提出的Transformer-XL主要是针对Transformer在解决长依赖问题中受到固定长度上下文的限制，如Bert采用的Transformer最大上下文为512（其中是因为计算资源的限制，不是因为位置编码，因为使用的是绝对位置编码正余弦编码）。Transformer-XL能学习超过固定长度的依赖性，而不破坏时间一致性。它由段级递归机制和一种新的位置编码方案组成。该方法不仅能够捕获长期
SimpleShot: Revisiting Nearest-Neighbor Classification for Few-Shot Learning 论文笔记头柱碳只狼小样本学习
前言目前大多数小样本学习器首先使用一个卷积网络提取图像特征，然后将元学习方法与最近邻分类器结合起来，以进行图像识别。本文探讨了这样一种可能性，即在不使用元学习方法，而仅使用最近邻分类器的情况下，能否很好地处理小样本学习问题。本文发现，对图像特征进行简单的特征转换，然后再进行最近邻分类，也可以产生很好的小样本学习结果。比如，使用DenseNet特征的最近邻分类器，在结合均值相减（meansubtra
多模态相关论文笔记靖待大模型人工智能论文阅读
(cilp)LearningTransferableVisualModelsFromNaturalLanguageSupervision从自然语言监督中学习可迁移的视觉模型openAI2021年2月48页PDFCODECLIP(ContrastiveLanguage-ImagePre-Training)对比语言图像预训练模型引言它比ImageNet模型效果更好，计算效率更高。尤其是zero-sho
【论文笔记 · PFM】Lag-Llama: Towards Foundation Models for Time Series Forecasting lokol. 论文笔记论文阅读 llama
Lag-Llama:TowardsFoundationModelsforTimeSeriesForecasting摘要本文提出Lag-Llama，在大量时间序列数据上训练的通用单变量概率时间序列预测模型。模型在分布外泛化能力上取得较好效果。模型使用平滑破坏幂律（smoothlybrokenpower-laws）。介绍目前任务主要集中于在相同域的数据上训练模型。当前已有的大规模通用模型在大规模不同数
【论文笔记】Unsupervised Learning of Video Representations using LSTMs 奶茶不加糖え lstm 深度学习自然语言处理
摘要翻译我们使用长短时记忆（LongShortTermMemory,LSTM）网络来学习视频序列的表征。我们的模型使用LSTM编码器将输入序列映射到一个固定长度的表征向量。之后我们用一个或多个LSTM解码器解码这个表征向量来实现不同的任务，比如重建输入序列、预测未来序列。我们对两种输入序列——原始的图像小块和预训练卷积网络提取的高层表征向量——都做了实验。我们探索不同的设计选择，例如解码器的LST
MOSSE算法论文笔记以及代码解释 five days 计算机视觉深度学习机器学习
论文《VisualObjectTrackingusingAdaptiveCorrelationFilters》代码github1.论文idea提出以滤波器求相关的形式，找到最大响应处的位置，也就是我们所跟踪的目标的中心，进而不断的更新跟踪目标框和滤波器。2.跟踪策略如图，根据初始帧圈出的目标框训练滤波器，最大响应处为目标框的中心点，当移动到下一帧时，根据滤波器求相关的算法获得最大响应值，进而得出下
Attention Is All Your Need论文笔记 xiaoyan_lu 论文笔记论文阅读
论文解决了什么问题？提出了一个新的简单网络架构——transformer，仅仅是基于注意力机制，完全免去递推和卷积，使得神经网络训练地速度极大地提高。Weproposeanewsimplenetworkarchitecture,theTransformer,basedsolelyonattentionmechanisms,dispensingwithrecurrenceandconvolution
论文笔记：相似感知的多模态假新闻检测图学习的小张论文笔记论文阅读 python
整理了RecSys2020ProgressiveLayeredExtraction:ANovelMulti-TaskLearningModelforPersonalizedRecommendations）论文的阅读笔记背景模型实验论文地址：SAFE背景在此之前，对利用新闻文章中文本信息和视觉信息之间的关系(相似性)的关注较少。这种相似性有助于识别虚假新闻，例如，虚假新闻也许会试图使用不相关的图
[论文总结] 深度学习在农业领域应用论文笔记12 落痕的寒假论文总结深度学习论文阅读人工智能
文章目录1.3D-ZeF:A3DZebrafishTrackingBenchmarkDataset(CVPR,2020)摘要背景相关研究所提出的数据集方法和结果个人总结2.Automatedflowerclassificationoveralargenumberofclasses(ComputerVision,Graphics&ImageProcessing,2008)摘要背景分割与分类数据集和实
论文笔记之LINE:Large-scale Information Network Embedding 小弦弦喵喵喵
原文：LINE:Large-scaleInformationNetworkEmbedding本文提出一种新的networkembeddingmodel：LINE.能够处理大规模的各式各样的网络，比如：有向图、无向图、有权重图、无权重图.文中指出对于networkembedding问题，需要保留localstructure和globalstructure，分别对应first-orderproximi
打败一切NeRF！ 3D Gaussian Splatting 的简单入门知识 Ci_ci 17 3d python
新手的论文笔记3DGaussianSplatting的笔记introductionRelatedwork预备知识Gaussiansplatting3D高斯泼溅原理Overview3DGaussianSplatting的笔记每次都是在csdn上找救命稻草，这是第一次在csdn上发东西。确实是个不错的笔记网站，还能同步，保存哈哈哈。印象笔记，Onenote逊爆了。研一刚开学两个月，导师放养，给的方向还
《Residual Bi-Fusion Feature Pyramid Network for Accurate Single-shot Object Detection》论文笔记 m_buddy #General Object Detection Bi-Fusion
参考代码：无1.概述导读：在检测任务中一般会引入FPN增强在不同尺度下网络的检测性能，但是只通过top-down的FPN网络是很难去重建由于特征图的漂移（水平或是垂直方向运动）在经过pooling操作（pooling不具有平移不变性）带来结果相差很大的问题（特别针对小目标），而且FPN带来的性能提升会在使用较多卷积层之后逐渐被稀释（卷积的平移不变形），进而会导致一些小目标定位性能降低。对此可以通过
论文笔记-Generative Adversarial Nets 升不上三段的大鱼
论文链接：https://papers.nips.cc/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf论文解读：https://www.bilibili.com/video/BV1rb4y187vD?share_source=copy_web一句话总结：提出了生成模型框架GAN，包括一个生成模型G和一个判别模型D，用有监督的损失
论文笔记：NIPS 2020 Graph Contrastive Learning with Augmentations 饮冰l 图弱监督数据挖掘机器学习神经网络深度学习
前言本文主要提出在图对比学习大框架下的图数据增强的若干方法。概括来说，本文提出了一种图对比学习框架来无监督的完成图表示学习，首先作者提出了基于各种先验信息的四种图数据增强方法。然后，作者分析了在四种不同的图数据增强条件下，不同组合对多个数据集的影响:半监督、无监督、迁移学习以及对抗性攻击。作者为GNN的预训练提出了基于图数据增强的对比学习框架来解决图中数据异质性的挑战，本文的主要贡献如下：作者提出
论文笔记-vChain: Enabling Verifiable Boolean Range Queries over Blockchain Databases qq_40431700 笔记区块链
核心方法：提出了一种基于累加器的可认证数据结构，可以动态聚合任意查询属性提出块内和块间索引，聚合块内和块间数据，可以做高效查询验证倒排前缀树结构，加速同时处理大量数据的订阅查询提出问题：1.range查询2.布尔查询3.没有可靠第三方、而且不能保证查询的完整性图中元素有：①全节点②矿工节点：是全节点，而且负责构建共识证明，比如计算nonce③轻节点：存nonce、区块的哈希，不存数据记录提出的Vc
论文笔记--Improving Language Understanding by Generative Pre-Training Isawany 论文阅读论文阅读自然语言处理 chatgpt 语言模型 nlp
论文笔记GPT1--ImprovingLanguageUnderstandingbyGenerativePre-Training1.文章简介2.文章导读2.1概括2.2文章重点技术2.2.1无监督预训练2.2.2有监督微调2.2.3不同微调任务的输入3.Bert&GPT4.文章亮点5.原文传送门6.References1.文章简介标题：ImprovingLanguageUnderstandingb
设计模式介绍 tntxia 设计模式
设计模式来源于土木工程师克里斯托弗亚历山大（http://en.wikipedia.org/wiki/Christopher_Alexander）的早期作品。他经常发表一些作品，内容是总结他在解决设计问题方面的经验，以及这些知识与城市和建筑模式之间有何关联。有一天，亚历山大突然发现，重复使用这些模式可以让某些设计构造取得我们期望的最佳效果。亚历山大与萨拉-石川佳纯和穆雷西乐弗斯坦合作
android高级组件使用(一) 百合不是茶 android RatingBar Spinner
1、自动完成文本框（AutoCompleteTextView） AutoCompleteTextView从EditText派生出来，实际上也是一个文本编辑框，但它比普通编辑框多一个功能：当用户输入一个字符后，自动完成文本框会显示一个下拉菜单，供用户从中选择，当用户选择某个菜单项之后，AutoCompleteTextView按用户选择自动填写该文本框。使用AutoCompleteTex
[网络与通讯]路由器市场大有潜力可挖掘 comsci 网络
如果国内的电子厂商和计算机设备厂商觉得手机市场已经有点饱和了,那么可以考虑一下交换机和路由器市场的进入问题..... 这方面的技术和知识,目前处在一个开放型的状态,有利于各类小型电子企业进入 &nbs
自写简单Redis内存统计shell 商人shang Linux shell 统计Redis内存
#!/bin/bash address="192.168.150.128:6666,192.168.150.128:6666" hosts=(${address//,/ }) sfile="staticts.log" for hostitem in ${hosts[@]} do ipport=(${hostitem
单例模式(饿汉 vs懒汉) oloz 单例模式
package 单例模式; /* * 应用场景:保证在整个应用之中某个对象的实例只有一个 * 单例模式种的《懒汉模式》 * */ public class Singleton { //01 将构造方法私有化，外界就无法用new Singleton()的方式获得实例 private Singleton(){}; //02 申明类得唯一实例 priva
springMvc json支持杨白白 json springmvc
1.Spring mvc处理json需要使用jackson的类库，因此需要先引入jackson包 2在spring mvc中解析输入为json格式的数据:使用@RequestBody来设置输入 @RequestMapping("helloJson") public @ResponseBody JsonTest helloJson() {
android播放，掃描添加本地音頻文件小桔子
最近幾乎沒有什麽事情，繼續鼓搗我的小東西。想在項目中加入一個簡易的音樂播放器功能，就像華為p6桌面上那麼大小的音樂播放器。用過天天動聽或者QQ音樂播放器的人都知道，可已通過本地掃描添加歌曲。不知道他們是怎麼實現的，我覺得應該掃描設備上的所有文件，過濾出音頻文件，每個文件實例化為一個實體，記錄文件名、路徑、歌手、類型、大小等信息。具體算法思想，
oracle常用命令 aichenglong oracle dba 常用命令
1 创建临时表空间 create temporary tablespace user_temp tempfile 'D:\oracle\oradata\Oracle9i\user_temp.dbf' size 50m autoextend on next 50m maxsize 20480m extent management local
25个Eclipse插件 AILIKES eclipse插件
提高代码质量的插件1. FindBugsFindBugs可以帮你找到Java代码中的bug，它使用Lesser GNU Public License的自由软件许可。2. CheckstyleCheckstyle插件可以集成到Eclipse IDE中去，能确保Java代码遵循标准代码样式。3. ECLemmaECLemma是一款拥有Eclipse Public License许可的免费工具，它提供了
Spring MVC拦截器+注解方式实现防止表单重复提交 baalwolf spring mvc
原理：在新建页面中Session保存token随机码，当保存时验证，通过后删除，当再次点击保存时由于服务器端的Session中已经不存在了，所有无法验证通过。 1.新建注解： ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
《Javascript高级程序设计(第3版)》闭包理解 bijian1013 JavaScript
“闭包是指有权访问另一个函数作用域中的变量的函数。”--《Javascript高级程序设计(第3版)》看以下代码： <script type="text/javascript"> function outer() { var i = 10; return f
AngularJS Module类的方法 bijian1013 JavaScript AngularJS Module
AngularJS中的Module类负责定义应用如何启动，它还可以通过声明的方式定义应用中的各个片段。我们来看看它是如何实现这些功能的。一.Main方法在哪里如果你是从Java或者Python编程语言转过来的，那么你可能很想知道AngularJS里面的main方法在哪里？这个把所
[Maven学习笔记七]Maven插件和目标 bit1129 maven插件
插件(plugin)和目标(goal) Maven，就其本质而言，是一个插件执行框架，Maven的每个目标的执行逻辑都是由插件来完成的，一个插件可以有1个或者几个目标，比如maven-compiler-plugin插件包含compile和testCompile，即maven-compiler-plugin提供了源代码编译和测试源代码编译的两个目标使用插件和目标使得我们可以干预
【Hadoop八】Yarn的资源调度策略 bit1129 hadoop
1. Hadoop的三种调度策略 Hadoop提供了3中作业调用的策略， FIFO Scheduler Fair Scheduler Capacity Scheduler 以上三种调度算法，在Hadoop MR1中就引入了，在Yarn中对它们进行了改进和完善.Fair和Capacity Scheduler用于多用户共享的资源调度 2. 多用户资源共享的调度
Nginx使用Linux内存加速静态文件访问 ronin47
Nginx是一个非常出色的静态资源web服务器。如果你嫌它还不够快，可以把放在磁盘中的文件，映射到内存中，减少高并发下的磁盘IO。先做几个假设。nginx.conf中所配置站点的路径是/home/wwwroot/res，站点所对应文件原始存储路径：/opt/web/res shell脚本非常简单，思路就是拷贝资源文件到内存中，然后在把网站的静态文件链接指向到内存中即可。具体如下：
关于Unity3D中的Shader的知识 brotherlamp unity unity资料 unity教程 unity视频 unity自学
首先先解释下Unity3D的Shader，Unity里面的Shaders是使用一种叫ShaderLab的语言编写的，它同微软的FX文件或者NVIDIA的CgFX有些类似。传统意义上的vertex shader和pixel shader还是使用标准的Cg/HLSL 编程语言编写的。因此Unity文档里面的Shader，都是指用ShaderLab编写的代码，然后我们来看下Unity3D自带的60多个S
CopyOnWriteArrayList vs ArrayList bylijinnan java
package com.ljn.base; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import java.util.concurrent.CopyOnWriteArrayList; /** * 总述： * 1.ArrayListi不是线程安全的，CopyO
内存中栈和堆的区别 chicony 内存
1、内存分配方面：堆：一般由程序员分配释放，若程序员不释放，程序结束时可能由OS回收。注意它与数据结构中的堆是两回事，分配方式是类似于链表。可能用到的关键字如下：new、malloc、delete、free等等。栈：由编译器(Compiler)自动分配释放，存放函数的参数值，局部变量的值等。其操作方式类似于数据结构中
回答一位网友对Scala的提问 chenchao051 scala map
本来准备在私信里直接回复了，但是发现不太方便，就简要回答在这里。问题写道对于scala的简洁十分佩服，但又觉得比较晦涩，例如一例，Map("a" -> List(11,111)).flatMap(_._2)，可否说下最后那个函数做了什么，真正在开发的时候也会如此简洁？谢谢先回答一点，在实际使用中，Scala毫无疑问就是这么简单。
mysql 取每组前几条记录 daizj mysql 分组最大值最小值每组三条记录
一、对分组的记录取前N条记录：例如：取每组的前3条最大的记录 1.用子查询： SELECT * FROM tableName a WHERE 3> (SELECT COUNT(*) FROM tableName b WHERE b.id=a.id AND b.cnt>a. cnt) ORDER BY a.id,a.account DE
HTTP深入浅出 http请求 dcj3sjt126com http
HTTP(HyperText Transfer Protocol)是一套计算机通过网络进行通信的规则。计算机专家设计出HTTP，使HTTP客户（如Web浏览器）能够从HTTP服务器(Web服务器)请求信息和服务，HTTP目前协议的版本是1.1.HTTP是一种无状态的协议，无状态是指Web浏览器和Web服务器之间不需要建立持久的连接，这意味着当一个客户端向服务器端发出请求，然后We
判断MySQL记录是否存在方法比较 dcj3sjt126com mysql
把数据写入到数据库的时，常常会碰到先要检测要插入的记录是否存在，然后决定是否要写入。　　我这里总结了判断记录是否存在的常用方法：　　sql语句： select count ( * ) from tablename; 　　然后读取count(*)的值判断记录是否存在。对于这种方法性能上有些浪费，我们只是想判断记录记录是否存在，没有必要全部都查出来。
对HTML XML的一点认识 e200702084 html xml
感谢http://www.w3school.com.cn提供的资料 HTML 文档中的每个成分都是一个节点。节点根据 DOM，HTML 文档中的每个成分都是一个节点。 DOM 是这样规定的：整个文档是一个文档节点每个 HTML 标签是一个元素节点包含在 HTML 元素中的文本是文本节点每一个 HTML 属性是一个属性节点注释属于注释节点 Node 层次
jquery分页插件 genaiwei jquery Web 前端分页插件
//jquery页码控件// 创建一个闭包 (function($) { // 插件的定义 $.fn.pageTool = function(options) { var totalPa
Mybatis与Ibatis对照入门于学习 Josh_Persistence mybatis ibatis 区别联系
一、为什么使用IBatis/Mybatis 对于从事 Java EE 的开发人员来说，iBatis 是一个再熟悉不过的持久层框架了，在 Hibernate、JPA 这样的一站式对象 / 关系映射（O/R Mapping）解决方案盛行之前，iBaits 基本是持久层框架的不二选择。即使在持久层框架层出不穷的今天，iBatis 凭借着易学易用、
C中怎样合理决定使用那种整数类型？秋风扫落叶 c 数据类型
如果需要大数值(大于32767或小于32767), 使用long 型。否则, 如果空间很重要 (如有大数组或很多结构), 使用 short 型。除此之外, 就使用 int 型。如果严格定义的溢出特征很重要而负值无关紧要, 或者你希望在操作二进制位和字节时避免符号扩展的问题, 请使用对应的无符号类型。但是, 要注意在表达式中混用有符号和无符号值的情况。 &nbs
maven问题 zhb8015 maven问题
问题1： Eclipse 中新建maven项目无法添加src/main/java 问题 eclipse创建maevn web项目，在选择maven_archetype_web原型后，默认只有src/main/resources这个Source Floder。按照maven目录结构，添加src/main/ja
(二)androidpn-server tomcat版源码解析之--push消息处理 spjich java androdipn 推送
在 (一)androidpn-server tomcat版源码解析之--项目启动这篇中，已经描述了整个推送服务器的启动过程，并且把握到了消息的入口即XmppIoHandler这个类，今天我将继续往下分析下面的核心代码，主要分为3大块，链接创建，消息的发送，链接关闭。先贴一段XmppIoHandler的部分代码 /** * Invoked from an I/O proc
用js中的formData类型解决ajax提交表单时文件不能被serialize方法序列化的问题中华好儿孙 JavaScript Ajax Web 上传文件 FormData
var formData = new FormData($("#inputFileForm")[0]); $.ajax({ type:'post', url:webRoot+"/electronicContractUrl/webapp/uploadfile", data:formData, async: false, ca
mybatis常用jdbcType数据类型 ysj5125094 mybatis mapper jdbcType
MyBatis 通过包含的jdbcType 类型 BIT FLOAT CHAR