Code_Mart

[论文笔记] 人脸检测方向系列论文

1. MTCNN

论文链接：Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks，发表时间：2016.04

MTCNN 这篇论文总页数不过 5 页，不过一直到现在为止都算比较热门，可见其当时的影响力。MTCNN 的标题已经点明了这篇论文的两个亮点：通过 Multi-task 的方式，同时学习 Face Detection 和 Face Alignment 以及采用级联的卷积神经网络作为所使用模型。

在 MTCNN 中，作者提出了一种级联的框架（如上图所示），共分为三个阶段，其对应的结构分别为：P-Net（Proposal Network），R-Net（Refinement Network），O-Net（Output Network）。可以看的出来，P-Net 用于提出大量的 Face Proposal，R-Net 基于这些 Proposal 进行 Refinement，最后，由 O-Net 再次进行人脸检测，总体来说是一个 coarse-to-fine 的过程。

Inference Pipeline：

Pre-Processing

先对输入图像多次缩放到不同大小（最小尺寸仍大于 P-Net 的输入尺寸），以此得到图像金字塔（Image Pyramid）。可以根据所使用数据集人脸尺寸分布确定缩放因子（Resize Factor），一般设在 0.7-0.8 比较合适（缩放因子大，易延长推理时间；缩放因子小，易漏掉小尺寸人脸）。
Stage 1 (P-Net)

由于每张图像经过多次缩放，所得到的图像金字塔较大，故输入经过 P-Net 后，可以得到大量的 Feature Map（注意，P-Net 为全卷积层，输出大小由输入尺寸所决定）。 P-Net 所输出的 Feature Map 的尺寸为 H x W x 16，将任意一点映射回原图像上，从其对应点开始，向右下方截取 12 x 12 大小的区域，再根据 Feature Map 对应位置上的 Bounding Box Regression 进行坐标调整，即可得到该 Feature Map 对应位置的 Bounding Box 预测结果。（可以想象成对原图做 Sliding-Window，尺寸为 12 x 12，每个窗口都进行预测）

对于这些候选区域，先根据 Face Classification 得分进行筛选，再通过非极大值抑制（Non-Maximuim Suppression, NMS）进行筛选，最终得到筛选后的人脸候选区域。

图像源自 "MTCNN人脸检测---PNet网络训练"

Stage 2 (R-Net)

由 P-Net 输出的人脸候选区域，根据其 Bounding Box 坐标，在原图上进行截取（需要截取 Bounding Box 最大边长的正方形，以此保障缩放时不产生形变并保留更多的人脸框周围细节），并缩放至 24 x 24，以此作为 R-Net 的输入。R-Net 与 P-Net 一样，对于所输出候选区域，也是先根据 Face Classification 得分进行筛选，再利用 Bounding Box Regression 通过非极大值抑制进行筛选，最终得到筛选后的人脸候选区域。
Stage 3 (O-Net)

同样的，由 R-Net 输出的人脸候选区域，根据其 bounding box 坐标，在原图上进行截取，并缩放至 48 x 48，以此作为 R-Net 的输入。O-Net 与 R-Net 一样，对于所输出候选区域，还是先根据 Face Classification 得分进行筛选，再利用 Bounding Box Regression 通过非极大值抑制进行筛选，最终得到筛选后的人脸候选区域。

训练细节：

数据标注划分标准
Positive Face：与 ground-truth 比较， IOU > 0.65 的图像
Part Face：与 ground-truth 比较，0.65 > IOU > 0.4 的图像
Negative Face：与 ground-truth 比较，IOU < 0.3的图像
Landmark Face：带有 Landmark 标注信息的图像
训练过程中，P-Net/R-Net/O-Net 三个网络单独训练。作者从 WIDER Face 上随机进行裁剪，以此收集 Positive/Negative/Part Faces，并在 CelebA 上进行人脸裁剪，以此收集 Landmark Faces，将其作为 P-Net 的输入，以此训练 P-Net。待 P-Net 训练完毕后，将之前收集到的人脸数据输入到 P-Net 中，得到大量候选区域，在原图上进行截取，按照数据标注划分标准对其进行划分，以此得到 R-Net 的训练数据。同样的，R-Net 训练完毕后，将之前收集到的人脸数据输入到 P-Net/R-Net 中，得到大量候选区域，在原图上进行截取，按照数据标注划分标准对其进行划分
作者在训练过程中采用了 Online Hard sample mining（与 OHEM 相似），对 mini-batch 中每个样本的 loss 进行排序，选取前 70% 作为困难样本，仅反向传递由困难样本得到的梯度。
在 P-Net/R-Net 训练过程中，人脸检测 Loss：人脸边框回归 Loss：人脸关键点回归 Loss = 1 : 0.5 : 0.5；在 O-Net 训练过程中，人脸检测 Loss：人脸边框回归 Loss：人脸关键点回归 Loss = 1 : 0.5 : 1。

PS : MTCNN 的官方代码：kpzhang93/MTCNN_face_detection_alignment。此外，在 Github 上有许多关于 MTCNN 不错的复现，这里推荐两个我使用过的：ipazc/mtcnn（基于 Tensorflow 实现的），kuaikuaikim/DFace（基于 PyTorch 实现的）。

2. FaceBoxes

论文链接：FaceBoxes: A CPU Real-time Face Detector with High Accuracy, 发表时间：2017.08

这篇论文在保持较高准确率的前提下，大幅提高在 CPU 上的运行速度（‘As a consequence, the proposed detector
runs at 20 FPS on a single CPU core and 125 FPS using a GPU for VGA-resolution images’），以此达到实时人脸检测。

该论文的创新点包括：Rapidly Digested Convolutional Layers (RDCL)，Multiple Scale Convolutional Layers (MSCL)，Anchor Densification Strategy。

关于 Rapidly Digested Convolutional Layers（RDCL）：

在这篇论文中，作者为了加快模型运行速度，通过设计合适的 Kernel Size 和 Stride Size，快速地将输入进行压缩，并利用 C.ReLU 减少输入的 Channel 数量。依据上图所示，整个 RDCL 的 Stride Size 为 32，即输入经过 RDCL 后将压缩至原来的 1/32。此外，作者还利用了激活函数 C.ReLU 进行加速。激活函数 C.ReLU 出自 Understanding and Improving Convolutional Neural Networks via Concatenated Rectified Linear Units，其公式为 $C R e L U (x) = [R e L U (x), R e L U (- x)]$ 。

关于 Multiple Scale Convolutional Layers（MSCL）：

作者认为之所以 RPN 用作人脸检测器效果不好，其原因有两个：RPN 中的 Anchor 只和其最后的卷积层相关，其输出的特征和分辨率在处理人脸变化上太弱；RPN 虽然使用不同的尺度的 Anchor 来检测人脸，但只有单一的感受野，不能匹配不同尺度的人脸。故，作者采取在不同尺度上的 feature map 进行人脸检测，并使用 Inception Module 丰富感受野的信息，以此捕捉多尺度信息。

PS：　在这里谈下 Object Detection 中的 Single/Multi Shot 和 Single/Multi Scale。在目标检测中，Single Shot 指的是输入仅为一张图像，而 Multi Shot 指的是输入包含不同尺寸的同一图像，即下图中所示的 Image Pyramid；Single Scale 指的是仅在单一 Feature Map 上进行预测，而 Multi Scale 指的是在多个 Feature Map 上进行预测，即下图中所示的　Prediction Pyramid。（个人理解，望指正）

图像源自 "Recent Advances in Deep Learning for Object Detection"

关于 Anchor densification strategy：

由 Figure 1 可知，FaceBoxes 在 Inception3/Conv3_2/Conv4_2 上进行人脸检测，其 Anchor 大小分别为 32/64/128 (for Inception3)，256 (for Conv3_2)，512 (for Conv4_2)，对应的 Tiling Interval 分别为 32/32/32/64/128。按照作者所提出的 Tiling Density 公式（ $A_{density} = A_{scale}/A_{interval}$ ），这些 Anchor 的密度指数分别为 1/2/4/4/4。

作者认为，相较于大尺度 Anchor，小尺度 Anchor 显得更加稀疏。为解决这一不平衡问题，作者便设计了 Anchor Densification Strategy，将尺寸为 32 的 Anchor 密度增加 4 倍，尺寸为 62 的 Anchor 密度增加 2 倍。（具体做法如下图所示）

训练细节：

Matching strategy

作者在模型训练过程中，认为与某个人脸的 Bounding Box 有着最高的 IOU 的 Anchor 是匹配的，以及与任意人脸的 bounding box 的 IOU 超过 0.35 的 Anchor 也是匹配的。
Loss function

作者采用 2-class softmax loss (for classification) + smooth L1 loss (for regression) 作为 Loss Function。
Hard negative mining

在 Object Detection 中，Negative Anchor 数量往往会远大于 Positive Anchor 的数量，由此导致 Negative Anchor 在梯度回传中占主导地位，并最终影响模型的训练与收敛。故，作者在计算各个 Anchor 的 Loss 后，会对其进行排序，按照其排序次序进行挑选，保证负样本和正样本的比例最高不超过 3:1。

PS : Faceboxes 的官方代码：sfzhang15/FaceBoxes（基于 Caffe 实现的），Github 上也有基于 PyTorch 实现的项目：zisianw/FaceBoxes.PyTorch。

3. PyramidBox

论文链接：PyramidBox: A Context-assisted Single Shot Face Detector, 发表时间：2018.03

PyramidBox 由百度所提出，在该篇论文中，作者提出 Pyramid Anchor/Low-level Feature Pyramid NetWork(LFRN)/Context-Sensitive Prict Module(CPM)，以此解决非受控环境中人脸尺寸小、模糊、遮挡等问题，并曾在 WIDER Face/FDDB 取得了 SOTA：FDDB（Discontinues：0.987， Continues：0.860），WIDER FACE（Val-Easy：0.961， Val-Medium：0.950， Val-Hard：0.889，Test-Easy：0.956， Test-Medium：0.946， Test-Hard：0.887）。

PS： 在 2019 年 4 月，中科院和百度在 PyramidBox 的基础上进行改进，共同提出了：PyramidBox++: High Performance Detector for Finding Tiny Face。

关于 Pyramid Anchor：

在这篇论文中，作者认为上下文信息（contextual information）对人脸检测很重要，尤其是对于小尺寸、模糊、存在遮挡的人脸。于是，作者就提出了上下文相关的 Pyramid Anchor，即不仅仅对人脸进行 Anchor 设置，还对肩膀、身体设置相应的 Anchor。（不过作者为保证竞赛的公平，提出使用半监督的方式进行 Anchor 标签的生成，生成的方式需要仔细阅读才好理解）

对于第 $i$ 层中的第 $j$ 个 Anchor 来说，它的标签由以下公式所决定：

此外，作者在实验中的设置为：

对此，我的理解是这样的：网络中生成 Feature Map 进行预测的层会设置大量 Anchor，为了对各个 Anchor 生成 Head/Face/Body Label，需要先计算该 Anchor 映射回原图的区域大小，并进行相应的 Down-Sampling（按照作者的设置，若下采样系数为 1 的映射区域 IOU 大于阈值，则该 Anchor 具有 Face Label；若下采样系数为 $S_{pa}^{1}$ 的映射区域 IOU 大于阈值，则该 Anchor 具有 Head Label；若下采样系数为 $S_{pa}^{2}$ 的映射区域 IOU 大于阈值，则该 A 具有 Body Label）。

关于 Low-level Feature Pyramid NetWork（LFRN）：

在目标检测中，为了提高小尺寸物体检测率，往往会采取高层语义信息特征结合低层的高分辨率进行预测。其中，Feature Pyramid Networks for Object Detection就提出了自顶向下（Top-Down）框架。于是，在这篇论文中，作者依照这个思路设计了 LFRN，用于融合高层语义信息和低层高分辨率。

不过，作者也指出并非所有高层语义信息对与小尺寸人脸检测都是有用的，原因如下：小尺寸人脸与大尺寸人脸的纹理特征往往不同，且高层语义特征往往会含有大量噪声（由于网络步长、网络层数、输入尺寸所导致）。所以，作者一改从最后一层向下融合的习惯，改为从中间开始向下融合，以此避免高层语义信息对低层特征带来的扰动。

关于 Context-Sensitive Prict Module（CPM）：

为了更好的利用上下文信息，作者在 Inception-ResNet 的启发下设计了 CPM，与其他模块相比，该模块显得更深、更宽。并且，作者借鉴 $S^3FD$ 中的 Max-out（即对背景标签选取得分最高者，以减少负样本的误检率），提出 Max-in-out（即对正负样本都选取得分最高者）。

第 $l$ 层 CPM 的输出大小为 $w_l*h_l*c_l$ ，其中， $w_l=h_l=640/l$ ， $c_l＝20$ 。而 CPM 输出中的每个 Channel 用于对 Face/Head/Body 进行分类与回归：人脸识别用 4 个 Channel，头部和人体识别各用 2 个 Channel，人脸/头部/人体检测各用 4 个 Channel 进行回归。其中，人脸识别的 4 个 Channel 设为 $4=cp_l + cn_l$ ， $cp_l$ 用于判别区域是否为前景， $cn_l$ 用于判别区域是否为背景。（作者认为在网络底层，大量 Anchor 所对应的区域都是背景，故设置： $cp_l = 1; 当 l \neq 1时, cp_l = 1$ ）

训练细节：

Train Dataset

论文中，作者利用 WIDER FACE 的 12880 张图像进行训练，并使用 Color Distort/Random Crop/Horizontal Flip 进行数据增强。
Data-anchor-sampling

为了解决样本不均衡以及更好的识别小尺寸人脸，作者提出 Data-anchor-sampling 用于改变训练集的数据分布，原文的解释为：“In short, data-anchor-sampling resizes train images by reshaping a random face in this image to a random smaller anchor size.”。此外，作者认为这一处理可以使得小尺寸人脸数据的比例比大尺寸人脸更大，并增加了小尺寸人脸的多样性，从而使得模型能更好的检测小尺寸人脸。

具体步骤为：设置各预测层的 Anchor 大小为 $s_i=2^{4+i}, for\ i=0,1,..,5$ 。令 $i_{anchor}=agrmin_iabs(s_{anchor_i-s_{face}})$ ，即与所选择人脸大小最相近的 Anchor 下标。接着，从 ${0,1,...,min(5,i_{anchor}+1)\}$ 中随机选择，作为 $i_{target}$ 。最终，将所选择人脸进行缩放： $s_{target}=random(s_{i_{target}}/2,s_{i_{target}}*2)$ 。同时，原图做同样比例的缩放： $s*=s_{target}/s_{face}$ 。
PyramidBox Loss

关于这点，原文比较繁杂，故直接放原文。

PS : Github 复现项目：EricZgw/PyramidBox（基于 TensorFlow 实现的），Goingqs/PyramidBox（基于 PyTorch 实现的）。

4. SRN

论文链接：Selective Refinement Network for High Performance Face Detection, 发表时间：2018.09

SRN 由中科院电子研究所和自动化所提出，曾在 WIDER Face 取得了 SOTA：WIDER FACE（Val-Easy：0.964， Val-Medium：0.953， Val-Hard：0.902，Test-Easy：0.959， Test-Medium：0.949， Test-Hard：0.897）。

在本篇论文中，作者认为目前的人脸检测还有两个问题需要解决：解决高 Recall 时所出现的大量 fasle positive （该现象在小尺寸人脸检测问题上更显著）以及提高人脸检测框的精度。于是，作者便以此为出发点，设计了 **Selective Two-Step Classification（STC）**和 Selective Two-Step Regression（STR），分别用于筛选 false positive 和提高人脸检测精度，并仿照 Inception Module 设计 Receptive Field Enhancement（RFE），以此增加所生成特征的感受野的多样性，从而提高在不同宽高比的人脸上的检测精度。

PS： 在 2019 年 1 月，本篇论文的共同一作 Shifeng Zhang 以一作身份发了篇改进论文：Improved Selective Refinement Network for Face Detection，作者团队为中科院自动化所和京东 AI 研究院。

关于网络结构：

本篇论文采用 ResNet-50 作为 Backbone，由四个 Residual Block 生成的 Feature Map 记为 C2/C3/C4。其中，C6 和 C7 由 C5 通过两层 3 x 3 卷积层进行下采样所生成。此外，上图中 P2/P3/P4/P5 由 C2/C3/C4 通过 Lateral Connction 生成，尺寸与其保持一致，而 P6/P7 由 P5 通过两层 3 x 3 卷积层进行下采样所生成。在上图中，STC 仅在 C2/C3/C4/P2/P3/P4 上使用，STR 仅在 C5/C6/C7/P5/P6/P7 上使用，且任意 Feature Map 都要经过 RFE，再进行预测。

由于本篇论文的方法是 anchor-based 的，就意味着每个 Feature Map 都要进行 Anchor 的设置。在论文中，作者对每个金字塔层都设定了两种 Anchor 尺寸： $2 S$ 和 $2\sqrt{2}S$ （其中， $S$ 表示该金字塔层的总步长），以及一个特定的 aspect ratio（宽高比）：1.25。

PS： 关于作者所绘制的网络结构图，可以看出网络的前向计算可分为两部分：1-st step，即图中上半部分所示，分别生成C2/C3/C4/C5/C6/C7，各个 Feature Map 输入到 RFE 中，分别在进行人脸检测；2-nd step，即图中下半部分所示，分别生成P2/P3/P4/P5/P6/P7，各个 Feature Map 输入到 RFE 中，分别在进行人脸检测。

关于 Selective Two-Step Classification（STC）：

为了解决人脸检测中负样本过多的问题，作者设计了 STC，通过 1st-step 中的分类对易分负样本进行过滤，以此减少 2nd-step 中的分类的搜索空间。此外，作者认为没必要在所有金字塔层上都进行 Two-Step 分类操作，因为高层 Feature Map 上 Anchor 的占比小，且正负样本数量不均衡的问题相较于底层更轻。故，作者仅在 P2/P3/P4 上进行 Two-Step 分类操作。

作者对其做了相应的实验，实验结果如下所示：

具体流程为：在 1st-step 中，C2/C3/C4 对 Anchor 做了分类和回归预测；在 2nd-step 中，P2/P3/P4 分别对 C2/C3/C4 所预测的 Anchor 进行筛选（即去除置信度低的 Anchor），并对所保留的 Anchor 再次进行分类预测。

此外，对于人脸预测中的分类任务，作者采用 Focal Loss 作为分类任务的损失函数，具体细节如下图所示：

关于 Selective Two-Step Regression（STR）：

在目标检测中，One-Stage 算法一般仅对 Bounding Box 做一次回归预测，作者认为这是不够的，无法提高人脸检测问题中的预测框的精度，于是作者便设计了 STR。但是，在 Cascade R-CNN 中，作者指出盲目的进行多次 Bounding Box 回归预测，对最终的预测精度并无帮助。于是，作者对其做了相应的实验，实验结果如下所示：

作者也对实验结果做了分析，给出了两个可能的原因：底层的 Feature Map 主要是通过密集采样的 Anchor 检测小尺寸人脸，且底层的 Feature Map 的特征表达能力并不强，再次进行 Bounding Box 回归，其精度可能会下降；令底层的 Feature Map 进行 Two-Step 回归操作，会使得 Reg Loss 增大，导致模型忽略了分类的精度，最终影响到整个模型的预测精度。故，作者仅在 P5/P6/P7 上进行 Two-Step 回归操作。

具体流程为：在 1st-step 中，C5/C6/C7 对 Anchor 做了分类和回归预测；在 2nd-step 中，P5/P6/P7 分别对 C5/C6/C7 所预测的 Bounding Box 进行边框调整，即再次进行回归预测。

此外，对于人脸预测中的回归任务，作者采用 Smooth-L1 Loss 作为回归任务的损失函数，具体细节如下图所示。

关于 Receptive Field Enhancement（RFE）：

作者对 WIDER Face 统计中发现，有部分人脸的宽高比高于 2 或者低于 0.5。由于常见人脸检测算法中都采用正方形的卷积核尺度，这将导致模型的感受野与这些人脸的宽高比存在不匹配现象。为解决这个问题，作者依据 Inception Module，提出了 RFE（结构如下图所示）。

其中，先用 1 x 1 的卷积核将 Feature Map 的通道数至原通道数1 / 4，再分别经过 1 x k/k x 1 的卷积核(k = 3,5)，提供矩形框的感受野，再通过 1 x 1 的卷积核，最后所有分支进行 Element-wise Sum。

训练细节：

Data Augmentation
- Photometric Distortions
- 对原图随机扩充 [1, 2] 倍，并进行 zero-padding 操作。
- 从原图裁剪两个正方形区域，并从中随机选择一个区域参与训练，裁剪方式为：以原图的短边长为目标长度进行裁剪；以原图的短边长乘以 [0.5, 1.0] 内的随机因子作为目标长度进行裁剪。
- 对裁剪所得区域进行随机水平翻转，并缩放至1024 x 1024。
Anchor Matching
在 1st-step 中，正样本为 IoU > 0.7，负样本为 IoU < 0.3，其他 Anchor 忽略。
在 2nd-step 中，正样本为 IoU > 0.5，负样本为 IoU < 0.4，其他 Anchor 忽略。

PS : 作者所开源代码 ChiCheng123/SRN（基于 PyTorch 实现的）。

5. DSFD

论文链接：DSFD: Dual Shot Face Detector, 发表时间：2018.10

DSFD 由南京理工大学与腾讯优图联合提出，整体为 One-Stage 算法，对每个金字塔层进行 Dual-Shot。此外，作者为提高 Second-Shot 的检测精度，设计了 Feature Enhance Module（FEM）；为更好的利用不同 Feature Map 的进阶学习能力，作者设计了 Progressive Anchor Loss（PAL）；此外，作者还对常见的 Anchor Matching 进行了改进，提出了 Improved Anchor Matching（IAM）。

DSFD 在大量小尺寸人脸场景表现不错（不过据说运行很慢），且曾在 WIDER Face/FDDB 取得了 SOTA：FDDB（Discontinues：0.991， Continues：0.862），WIDER FACE（Val-Easy：0.966， Val-Medium：0.957， Val-Hard：0.904，Test-Easy：0.960， Test-Medium：0.953， Test-Hard：0.900）。

关于网络结构：

在论文中，作者使用 VGG16 作为 Backbone（作者也有用 ResNet 作为 Backbone），并以 conv3_3/conv4_3/conv5_3/conv_fc7/conv6_2/conv7_2 的输出作为 Original Feature Map，分别记为 of_1/of_2/of_3/of_4/of_5/of_6，并以此构建 First Shot Detection Layer；接着，作者将所有 Original Feature Map 输入到 FEM 中，得到 Enhanced Feature Map，分别记为 ef_1/ef_2/ef_3/ef_4/ef_5/ef_6，并以此构建 Second Shot Detection Layer。

在 DSFD 中，作者认为在使用 FEM 和新的 Anchor 设计策略后，无需设计三种尺度的 Stride/Anchor/Receptive Field 去满足等比例间隔原则。作者在不同金字塔层的设置如下所示：（论文中，作者令 First Shot 中的 Anchor 大小为 Second Shot 中的一半，但是并没有对比实验分析）

在 Inference 时，First Shot Detection Layer 的预测结果将被忽略，并仅在 Second Shot Detection Layer 中取前五千个预测结果，再对其进行 NMS 操作（筛选的 IOU 阈值为0.3），最终生成 750 个预测结果。

关于 Feature Enhance Module（FEM）：

作者为了增强各金字塔层所生成的 Feature 的语义信息以及更好的探究相连两层的相关信息，便设计了 FEM，具体结构如下所示：

关于 Progressive Anchor Loss（PAL）：

在 Object Detection 中，常见的 Reg Loss 为 Focal Loss/Hierarchical Loss 等等。而作者认为这些 Loss 并没有考虑到各个层次的 Feature Map 的 progressive learning ability，于是，作者便针对这点设计了 PAL，具体细节如下所示：

First Shot multi-task Loss 如下所示：

Second Shot multi-task Loss 如下所示：

Progressive Anchor Loss 如下所示：

关于 Improved Anchor Matching（IAM）：

作者认为常见的 Anchor Match Method 都忽略了数据增强中的 Random Sampling，这将导致正负样本的不均衡问题更加严重。于是，作者便对常见的 Anchor Match Method 做出改进，提出了 IAM，以此解决离散的 Anchor Scale 和连续的 Face Scale 之间的矛盾。

该论文中，作者设置了以 3/5 的概率，使用 SSD 中的数据增强策略；以 2/5 的概率，使用 PyramidBox 中所用的 Data-Anchor-Sampling。（实验中，作者设置的 IOU 为 0.4）

PS : 官方开源代码 TencentYoutuResearch/FaceDetection-DSFD（基于 PyTorch 实现的）。

6. RetinaFace

论文链接：RetinaFace: Single-stage Dense Face Localisation in the Wild, 发表时间：2019.05

RetinaFace 由 InsightFace 和帝国理工大学联合提出（InsightFace 为目前针对 2D 与 3D 人脸分析（含检测、识别、对齐、属性识别等）最知名和开发者最活跃的开源库），是目前开源的人脸检测算法中效果最好的算法（仅比 AlnnoFace 低一点点）。

在论文中作者除了进行人脸检测外，还引进了人脸关键点检测（作者特意对 WIDER FACE 进行人脸关键点标注）和自监督网格解码器，进行多任务学习。RetinaFace 在 WIDER Face 曾取得 SOTA：WIDER FACE（Val-Easy：0.969， Val-Medium：0.961， Val-Hard：0.918，Test-Easy：0.963， Test-Medium：0.956， Test-Hard：0.914）。

关于网络结构：

在论文中，作者采用 FPN 中的 Feature Pyramid 结构，并以 ResNet-152 作为 Backbone，其中， C2/C3/C4/C5 为 ResNet 中各个 Residual Block 所生成的 Feature Map，而 C6 由 C5 经过 3*3 的卷积层生成（步长为 2）。

此外，类似于 PyramidBox，作者也设计了 Context Module 用于增加模型的感受区域以及上下文信息，不过与 PyramidBox 不同，论文中每层特征金字塔层都接一个独立的 Context Module。作者还仿照 WIDER Face Challenge 2018 的冠军，将所有带有 Lateral Connection 的 3*3 卷积层和 Context Module 中的所有卷积层替换为可变形卷积网络（DDeformCable Convolution Network，DCN）。

关于 Dense Regression Branch：

作者在这一分支中，将原图中的人脸由 2D 映射到 3D 模型上，再由 3D 模型解码到 2D上，最后计算解码得到的图像与原图的像素距离，以此作为损失值。其中，该分支用到了 Mesh Decoder，该网格解码器是基于图卷积网络的。（这块了解的不多，可查阅 Generating 3d faces using convolutional mesh autoencoders 和 Dense 3D Face Decoding over 2500FPS: Joint Texture & Shape Convolutional Mesh Decoders）

该分支所用 Loss 为 Dense Regression Loss，具体细节如下所示：

关于 Multi-task Loss：

论文中，作者设计的 Multi-task Loss 为：

$L_{cls}$ 为 Face Classification Loss， $L_{box}$ 为 Face Box Regression Loss， $L_{pts}$ 为 Facial Landmark Regression Loss， $L_{pixel}$ 为 Dense Regression Loss。其中，Dense Regression Loss 细节如下所示：

其他细节：

Anchor Setting

作者对特征金字塔的各个层都设置了不同的 Anchor Scale 以及 Stride，细节如下所示：

训练过程中，正样本为 IoU > 0.5，负样本为 IoU < 0.3，其他 Anchor 忽略。此外，作者还采用 OHEM 以缓解正负样本间的 Imbalance 问题，即对负样本按照 Loss 值进行排序与选取，保持正负样本的比例为 1:3。
Data Augmentation

作者将常见的随机裁剪修改为裁剪正方形区域，其边长为原图最短边长乘以 [0.3, 1] 中的随机因子。除此以外，作者还采用随机翻转以及色彩抖动。
Test Details

在测试阶段，作者将图像缩放至不同大小以形成 Image Pyramid（图像最短边长的范围为 [500, 800, 1100, 1400, 1700]），将所生成图像金字塔输入模型后所得结构进行 Voting，以得到最终预测结果。

PS : 官方开源代码 deepinsight/insightface（基于 MXNet 实现的），Github 复现项目：supernotman/RetinaFace_Pytorch（基于 PyTorch 实现的）。

7. AInnoFace

论文链接：Accurate Face Detection for High Performance, 发表时间：2019.05

AlnnoFace 由创新奇智(AInnovation) 所提出，目前为 WIDER Face 榜单第一（不过尚未开源）：WIDER FACE（Val-Easy：0.970， Val-Medium：0.961， Val-Hard：0.918，Test-Easy：0.965， Test-Medium：0.957， Test-Hard：0.912）。虽然 AlnnoFace 并没有提出很创新的 Idea，不过作者将很多现有的方法融到了一起，达到了最好的性能，这其中的工作量是非常大的，很多细节值得我们去了解。（不过有点遗憾的是，论文中并没有公布 Ablation Study 细节，不然就可以更好的理解各个模块的作用了）

在论文中，作者以 RetinaNet 作为 AlnnoFace 的网络框架，以 ResNet-152 作为 Backbone（按照 FPN 所示生成 6-level Feature Pyramid），并以 Focal Loss 作为其中 class subnet 的损失函数（ $FL_{p_t}=-\alpha * (1-p_t)^\gamma \log(p_t)$ ），IOU Loss 作为其中 box subnet 的损失函数（ $L_{IOU}=-\ln{\frac{Intersection(B_p,B_{gt})}{Unoin(B_p,B_{gt})}}$ ）。

作者为了解决人脸检测中存在的两个问题：low recall effciency 和 low location accuracy，便引入 SRN 中所提出的 Selective Two-step Classification（STC）和 Selective Two-step Regression（STR）。关于这两个操作的细节，可以往上翻阅，查看关于 SRN 的笔记。

在数据增强部分，作者除了使用常见的随机扩充/裁剪/翻转/颜色抖动外，还以 0.5 的概率使用 PyramidBox 中的 data-anchor-sampling，以此使得训练数据的尺寸分布多样化。为了减少小尺寸人脸检测中的 false positive，作者仿照 PyramidBox 中对前/背景进行 max-out 操作，并设置 $c_p=c_n=3$ 。此外，作者还采用了 Multi-scale Testing 操作，即测试时，将图像缩放多个尺寸进行测试，并通过 voting 将预测结果进行融合。

参考资料：

总结人脸识别的方向(FD,FA,FR,FV)
ChanChiChoi/awesome-Face_Recognition
人脸识别合集 | 绪论与目录
人脸检测–MTCNN从头到尾的详解
MTCNN人脸检测—PNet网络训练
对PyramidBox的理解
人脸检测：Faceboxes(IJCB2017)
论文阅读：FaceBoxes: A CPU Real-time Face Detector with High Accuracy
PyramidBox 论文走读
PyramidBox 人脸检测算法
Selective Refinement Network
arxiv2018_SRN
arxiv2018_DSFD
Face Detection DSFD 论文理解
insightface新作：RetinaFace单阶段人脸检测
AInnoFace：Accurate Face Detection for High Performance（论文阅读笔记）
arxiv2019_AFD_HP

如果你看到了这篇文章的最后，并且觉得有帮助的话，麻烦你花几秒钟时间点个赞，或者受累在评论中指出我的错误。谢谢！

作者信息：
知乎：没头脑
CSDN：Code_Mart
Github：Tao Pu

你可能感兴趣的:(CV,杂谈,人脸检测,Face,Detection)

OC语言多界面传值五大方式 Magnetic_h ios ui 学习 objective-c 开发语言
前言在完成暑假仿写项目时，遇到了许多需要用到多界面传值的地方，这篇博客来总结一下比较常用的五种多界面传值的方式。属性传值属性传值一般用前一个界面向后一个界面传值，简单地说就是通过访问后一个视图控制器的属性来为它赋值，通过这个属性来做到从前一个界面向后一个界面传值。首先在后一个界面中定义属性@interfaceBViewController:UIViewController@propertyNSSt
理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
LocalDateTime 转 String igotyback java 开发语言
importjava.time.LocalDateTime;importjava.time.format.DateTimeFormatter;publicclassMain{publicstaticvoidmain(String[]args){//获取当前时间LocalDateTimenow=LocalDateTime.now();//定义日期格式化器DateTimeFormatterformat
Linux下QT开发的动态库界面弹出操作（SDL2） 13jjyao QT类 qt 开发语言 sdl2 linux
需求：操作系统为linux，开发框架为qt，做成需带界面的qt动态库，调用方为java等非qt程序难点：调用方为java等非qt程序，也就是说调用方肯定不带QApplication::exec()，缺少了这个，QTimer等事件和QT创建的窗口将不能弹出(包括opencv也是不能弹出)；这与qt调用本身qt库是有本质的区别的思路：1.调用方缺QApplication::exec()，那么我们在接口
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
Faiss Tips：高效向量搜索与聚类的利器焦习娜Samantha
FaissTips：高效向量搜索与聚类的利器faiss_tipsSomeusefultipsforfaiss项目地址:https://gitcode.com/gh_mirrors/fa/faiss_tips项目介绍Faiss是由FacebookAIResearch开发的一个用于高效相似性搜索和密集向量聚类的库。它支持多种硬件平台，包括CPU和GPU，能够在海量数据集上实现快速的近似最近邻搜索（AN
Faiss：高效相似性搜索与聚类的利器网络·魚大数据 faiss
Faiss是一个针对大规模向量集合的相似性搜索库，由FacebookAIResearch开发。它提供了一系列高效的算法和数据结构，用于加速向量之间的相似性搜索，特别是在大规模数据集上。本文将介绍Faiss的原理、核心功能以及如何在实际项目中使用它。Faiss原理：近似最近邻搜索：Faiss的核心功能之一是近似最近邻搜索，它能够高效地在大规模数据集中找到与给定查询向量最相似的向量。这种搜索是近似的，
自然语言处理_tf-idf _feivirus_ 算法机器学习和数学自然语言处理 tf-idf 逆文档频率词频
importpandasaspdimportmath1.数据预处理docA="Thecatsatonmyface"docB="Thedogsatonmybed"wordsA=docA.split("")wordsB=docB.split("")wordsSet=set(wordsA).union(set(wordsB))print(wordsSet){'on','my','face','sat',
多线程之——ExecutorCompletionService 阿福德
在我们开发中，经常会遇到这种情况，我们起多个线程来执行，等所有的线程都执行完成后，我们需要得到个线程的执行结果来进行聚合处理。我在内部代码评审时，发现了不少这种情况。看很多同学都使用正确，但比较啰嗦，效率也不高。本文介绍一个简单处理这种情况的方法：直接上代码：publicclassExecutorCompletionServiceTest{@TestpublicvoidtestExecutorCo
tiff批量转png 诺有缸的高飞鸟 opencv 图像处理 python opencv 图像处理
目录写在前面代码完写在前面1、本文内容tiff批量转png2、平台/环境opencv,python3、转载请注明出处：https://blog.csdn.net/qq_41102371/article/details/132975023代码importnumpyasnpimportcv2importosdeffindAllFile(base):file_list=[]forroot,ds,fsin
遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
windows下python opencv ffmpeg读取摄像头实现rtsp推流拉流图像处理大大大大大牛啊 opencv实战代码讲解视觉图像项目 windows python opencv
windows下pythonopencvffmpeg读取摄像头实现rtsp推流拉流整体流程1.下载所需文件1.1下载rtsp推流服务器1.2下载ffmpeg2.开启RTSP服务器3.opencv读取摄像头并调用ffmpeg进行推流4.opencv进行拉流5.opencv异步拉流整体流程1.下载所需文件1.1下载rtsp推流服务器下载RTSP服务器下载页面https://github.com/blu
c++ opencv4.3 sift匹配图像处理大大大大大牛啊图像处理 opencv实战代码讲解 opencv sift c++opencv4 特征点
c++opencv4.3sift匹配main.cppintmain(){vectorkeypoints1,keypoints2;Matimg1,img2,descriptors1,descriptors2;intnumF
Golang语言基础知识点总结最帅猪猪侠 golang 开发语言后端
Golang语言基础知识点小总结1.go语言有两大类型：值类型：数值类型，bool，string，数组，struct结构体变量直接存储值，内存通常在栈中分配,修改值,不会对源对象产生影响引用类型：指针，slice切片，管道chan，map，interface变量存储的是一个地址，这个地址对应的空间才真正存储数据值，内存通常在堆上分配，当没有任何变量引用这个地址时，该地址对应的数据空间就成为一个垃圾
鲁西南方言杂谈-麻胡一两茶叶
《汉语词典》给“麻胡”的解释是“拼音máhú，传说中人名。说法不一，以残暴著称。民间习用以恐吓小儿。谓貌丑而多须者。”的意思；《国语辞典》也给出其“传说中的坏人，用来吓唬啼哭中的小孩。也称为‘麻虎子’、‘马虎子’。唐代李匡义《资暇集．卷下．非麻胡》俗怖婴儿曰：‘麻胡来！’不知其源者，以为多髯之神而验刺者，非也。隋将军麻祜，性酷虐，炀帝令开汴河，威棱既盛，至稚童望风而畏，互相恐吓曰：‘麻祜来！’稚童
ubuntu安装opencv最快的方法 Derek重名了
最快方法，当然不能太多文字$sudoapt-getinstallpython-opencv借助python就可以把ubuntu的opencv环境搞起来，非常快非常容易参考：https://docs.opencv.org/trunk/d2/de6/tutorial_py_setup_in_ubuntu.html
python画图|同时输出二维和三维图西猫雷婶 python 开发语言
前面已经学习了如何输出二维图和三维图，部分文章详见下述链接：python画图|极坐标下的3Dsurface-CSDN博客python画图|垂线标记系列_如何用pyplot画垂直x轴的线-CSDN博客有时候也需要同时输出二位和三维图，因此有必要学习一下。【1】官网教程首先我们打开官网教程，链接如下。https://matplotlib.org/stable/gallery/mplot3d/mixed
代码的执行效果高天
packagecom20210409;publicclassdemo04{publicstaticvoidmain(String[]args){//////&&当前的条件不满足,则最后结果一定不满足,后面的条件不再执行////&不管条件是否满足所有条件均作判断//intx=1,y=1;//if(++y==2&&x++==2){//x=7;//}//System.out.println("x="+x
使用Python和Playwright破解滑动验证码 asfdsgdf python 开发语言
滑动验证码是一种常见的验证码形式，通过拖动滑块将缺失的拼图块对准原图中的空缺位置来验证用户操作。本文将介绍如何使用Python中的OpenCV进行模板匹配，并结合Playwright实现自动化破解滑动验证码的过程。所需技术OpenCV模板匹配：用于识别滑块在背景图中的正确位置。Python：主要编程语言。Playwright：用于浏览器自动化，模拟用户操作。破解过程概述获取验证码图像：下载背景图和
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
SPI机制我们仍未知道那天所看见的猫的名
1、SPI机制：ServiceProviderInterface：服务提供发现机制，类型IOCJavaSPI实现：ServiceLoader定义接口A；实现接口A的实现类，B和C；在/META-INF/services/下创建文件，文件名为A类的全名称，内容为B和C的类全名调用：ServiceLoaderload=ServiceLoader.load(A.class);Interatori=loa
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
探索创新科技： Lite-Mono - 简约高效的小型化Mono框架杭律沛Meris
探索创新科技：Lite-Mono-简约高效的小型化Mono框架Lite-Mono[CVPR2023]Lite-Mono:ALightweightCNNandTransformerArchitectureforSelf-SupervisedMonocularDepthEstimation项目地址:https://gitcode.com/gh_mirrors/li/Lite-Mono如果你在寻找一个轻
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
Linux使用mjpg-streamer进行图像传输 —你的鼬先生 Linux驱动 linux 树莓派图像传输
图像传输是一项在Linux操作系统中比较常见的一个操作，在视频图传时，一般是采用MJPG-streamer来进行图像传输，本文就以树莓派为例子，来示范一个图像传输。1.树莓派的摄像头激活首先更新树莓派sudoapt-getupdatesudoapt-getupgrade随后打开树莓派的配置界面，选择InterfaceOptionsudoraspi-config在InterfaceOption选择C
C# 禁止程序重复启动 wiseyao1219 c#
修改：Program.cs[STAThread]staticvoidMain(){Mutexmutex=newMutex(true,"NewGuid123456",outboolisCreatedNew);if(!isCreatedNew){MessageBox.Show(Application.ProductName+"isrunning...");return;}Application.Ena
ComfyUI AnimateDiff-Lightning 教程 jayli517 ComfyUI AIGC
介绍项目主页：https://huggingface.co/ByteDance/AnimateDiff-Lightning在线测试（有墙）：https://huggingface.co/spaces/ByteDance/AnimateDiff-Lightning国内镜像：https://hf-mirror.com/ByteDance/AnimateDiff-LightningAnimateDiff
2018-08-16【Swift 4.1】关于Swift4.0以后调用MJExtension无法模型转换问题码农happy
1、本人使用swift4.1，弄了一晚上才弄好，结果还是一个小问题真是尴尬，要在model中每个属性前面加上@objcimportUIKitclassUserModel:NSObject{@objcvardix=String()}letdic=["dix":"ffffff"]asNSDictionaryletmodel=UserModel.mj_object(withKeyValues:dic)!
python图像匹配_opencvpython中的图像匹配 weixin_39585675 python图像匹配
我一直在做一个项目，用opencvpython识别相机中显示的标志。我已经尝试过使用surf、颜色直方图匹配和模板匹配。但在这3个问题中，它并不总是返回正确的答案。我现在想要的是，解决我这个问题的最好办法是什么。模板图像示例：以下是摄像头中显示的标志示例。如果这是我想要识别的图像，该怎么用？在更新matchTemplate中的代码flags=["Cambodia.jpg","Laos.jpg","
超越免费奔向自由的路上
在这个互联时代，由于社会的进步，我们亨受了很多免费的东西，比如免费的电脑操作软件，免费的杀毒软件，免费的搜索服务，雅虎的杨致远和费罗首创让互联网成为一个开放，免费的工具。后来微软用免费的方式压浏览器市场打败了当时一家独大的网景公司，一时之间，免费成了趋势，互联网传播的本质，起到了一个巨大的复印件的作用。免费带来的一个结果是迅速形成垄断，造就了googlefacebook和阿里巴巴这样的经典掉板，然
用MiddleGenIDE工具生成hibernate的POJO（根据数据表生成POJO类） AdyZhang POJO eclipse Hibernate MiddleGenIDE
推荐:MiddlegenIDE插件, 是一个Eclipse 插件. 用它可以直接连接到数据库, 根据表按照一定的HIBERNATE规则作出BEAN和对应的XML ，用完后你可以手动删除它加载的JAR包和XML文件! 今天开始试着使用
.9.png Cb123456 android
“点九”是andriod平台的应用软件开发里的一种特殊的图片形式，文件扩展名为：.9.png 　　智能手机中有自动横屏的功能,同一幅界面会在随着手机(或平板电脑)中的方向传感器的参数不同而改变显示的方向,在界面改变方向后,界面上的图形会因为长宽的变化而产生拉伸,造成图形的失真变形。　　我们都知道android平台有多种不同的分辨率，很多控件的切图文件在被放大拉伸后，边
算法的效率天子之骄算法效率复杂度最坏情况运行时间大O阶平均情况运行时间
算法的效率效率是速度和空间消耗的度量。集中考虑程序的速度，也称运行时间或执行时间，用复杂度的阶(O)这一标准来衡量。空间的消耗或需求也可以用大O表示，而且它总是小于或等于时间需求。以下是我的学习笔记： 1.求值与霍纳法则，即为秦九韶公式。 2.测定运行时间的最可靠方法是计数对运行时间有贡献的基本操作的执行次数。运行时间与这个计数成正比。
java数据结构何必如此 java 数据结构
Java 数据结构 Java工具包提供了强大的数据结构。在Java中的数据结构主要包括以下几种接口和类：枚举（Enumeration）位集合（BitSet）向量（Vector）栈（Stack）字典（Dictionary）哈希表（Hashtable）属性（Properties）以上这些类是传统遗留的，在Java2中引入了一种新的框架-集合框架(Collect
MybatisHelloWorld 3213213333332132
//测试入口TestMyBatis package com.base.helloworld.test; import java.io.IOException; import org.apache.ibatis.io.Resources; import org.apache.ibatis.session.SqlSession; import org.apache.ibat
Java|urlrewrite|URL重写|多个参数 7454103 java xml Web 工作
个人工作经验！如有不当之处，敬请指点 1.0 web -info 目录下建立 urlrewrite.xml 文件类似如下： <?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE u
达梦数据库+ibatis darkranger sql mysql ibatis SQL Server
--插入数据方面如果您需要数据库自增... 那么在插入的时候不需要指定自增列. 如果想自己指定ID列的值, 那么要设置 set identity_insert 数据库名.模式名.表名; ----然后插入数据; example: create table zhabei.test( id bigint identity(1,1) primary key, nam
XML 解析四种方式 aijuans android
XML现在已经成为一种通用的数据交换格式,平台的无关性使得很多场合都需要用到XML。本文将详细介绍用Java解析XML的四种方法。 XML现在已经成为一种通用的数据交换格式,它的平台无关性,语言无关性,系统无关性,给数据集成与交互带来了极大的方便。对于XML本身的语法知识与技术细节,需要阅读相关的技术文献,这里面包括的内容有DOM(Document Object
spring中配置文件占位符的使用 avords
1.类 <?xml version="1.0" encoding="UTF-8"?><!DOCTYPE beans PUBLIC "-//SPRING//DTD BEAN//EN" "http://www.springframework.o
前端工程化-公共模块的依赖和常用的工作流 bee1314 webpack
题记：一个人的项目，还有工程化的问题嘛？我们在推进模块化和组件化的过程中，肯定会不断的沉淀出我们项目的模块和组件。对于这些沉淀出的模块和组件怎么管理？另外怎么依赖也是个问题？你真的想这样嘛？ var BreadCrumb = require(‘../../../../uikit/breadcrumb’); //真心ugly。
上司说「看你每天准时下班就知道你工作量不饱和」，该如何回应？ bijian1013 项目管理沟通 IT职业规划
问题：上司说「看你每天准时下班就知道你工作量不饱和」，如何回应正常下班时间6点，只要是6点半前下班的，上司都认为没有加班。 Eno-Bea回答，注重感受，不一定是别人的虽然我不知道你具体从事什么工作与职业，但是我大概猜测，你是从事一项不太容易出现阶段性成果的工作
TortoiseSVN，过滤文件征客丶 SVN
环境： TortoiseSVN 1.8 配置：在文件夹空白处右键选择 TortoiseSVN -> Settings 在 Global ignote pattern 中添加要过滤的文件：多类型用英文空格分开 *name ：过滤所有名称为 name 的文件或文件夹 *.name ：过滤所有后缀为 name 的文件或文件夹 --------
【Flume二】HDFS sink细说 bit1129 Flume
1. Flume配置 a1.sources=r1 a1.channels=c1 a1.sinks=k1 ###Flume负责启动44444端口 a1.sources.r1.type=avro a1.sources.r1.bind=0.0.0.0 a1.sources.r1.port=44444 a1.sources.r1.chan
The Eight Myths of Erlang Performance bookjovi erlang
erlang有一篇guide很有意思： http://www.erlang.org/doc/efficiency_guide 里面有个The Eight Myths of Erlang Performance： http://www.erlang.org/doc/efficiency_guide/myths.html Myth: Funs are sl
java多线程网络传输文件(非同步)-2008-08-17 ljy325 java 多线程 socket
利用 Socket 套接字进行面向连接通信的编程。客户端读取本地文件并发送；服务器接收文件并保存到本地文件系统中。使用说明:请将TransferClient, TransferServer, TempFile三个类编译，他们的类包是FileServer. 客户端: 修改TransferClient: serPort, serIP, filePath, blockNum,的值来符合您机器的系
读《研磨设计模式》-代码笔记-模板方法模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.sql.Connection; import java.sql.DriverManager; import java.sql.PreparedStatement; import java.sql.ResultSet;
配置心得 chenyu19891124 配置
时间就这样不知不觉的走过了一个春夏秋冬，转眼间来公司已经一年了，感觉时间过的很快，时间老人总是这样不停走，从来没停歇过。作为一名新手的配置管理员，刚开始真的是对配置管理是一点不懂，就只听说咱们公司配置主要是负责升级，而具体该怎么做却一点都不了解。经过老员工的一点点讲解，慢慢的对配置有了初步了解，对自己所在的岗位也慢慢的了解。做了一年的配置管理给自总结下： 1.改变从一个以前对配置毫无
对“带条件选择的并行汇聚路由问题”的再思考 comsci 算法工作软件测试嵌入式领域模型
2008年上半年，我在设计并开发基于”JWFD流程系统“的商业化改进型引擎的时候，由于采用了新的嵌入式公式模块而导致出现“带条件选择的并行汇聚路由问题”(请参考2009-02-27博文)，当时对这个问题的解决办法是采用基于拓扑结构的处理思想，对汇聚点的实际前驱分支节点通过算法预测出来，然后进行处理，简单的说就是找到造成这个汇聚模型的分支起点，对这个起始分支节点实际走的路径数进行计算，然后把这个实际
Oracle 10g 的clusterware 32位下载地址 daizj oracle
Oracle 10g 的clusterware 32位下载地址 http://pan.baidu.com/share/link?shareid=531580&uk=421021908 http://pan.baidu.com/share/link?shareid=137223&uk=321552738 http://pan.baidu.com/share/l
非常好的介绍：Linux定时执行工具cron dongwei_6688 linux
Linux经过十多年的发展，很多用户都很了解Linux了，这里介绍一下Linux下cron的理解，和大家讨论讨论。cron是一个Linux 定时执行工具，可以在无需人工干预的情况下运行作业，本文档不讲cron实现原理，主要讲一下Linux定时执行工具cron的具体使用及简单介绍。新增调度任务推荐使用crontab -e命令添加自定义的任务（编辑的是/var/spool/cron下对应用户的cr
Yii assets目录生成及修改 dcj3sjt126com yii
assets的作用是方便模块化，插件化的，一般来说出于安全原因不允许通过url访问protected下面的文件，但是我们又希望将module单独出来，所以需要使用发布，即将一个目录下的文件复制一份到assets下面方便通过url访问。 assets设置对应的方法位置 \framework\web\CAssetManager.php assets配置方法在m
mac工作软件推荐 dcj3sjt126com mac
mac上的Terminal + bash ＋ screen组合现在已经非常好用了，但是还是经不起iterm＋zsh＋tmux的冲击。在同事的强烈推荐下，趁着升级mac系统的机会，顺便也切换到iterm＋zsh＋tmux的环境下了。我为什么要要iterm2 切换过来也是脑袋一热的冲动，我也调查过一些资料，看了下iterm的一些优点： * 兼容性好，远程服务器 vi 什么的低版本能很好兼
Memcached(三)、封装Memcached和Ehcache frank1234 memcached ehcache spring ioc
本文对Ehcache和Memcached进行了简单的封装，这样对于客户端程序无需了解ehcache和memcached的差异，仅需要配置缓存的Provider类就可以在二者之间进行切换，Provider实现类通过Spring IoC注入。 cache.xml <?xml version="1.0" encoding="UTF-8"?>
Remove Duplicates from Sorted List II hcx2013 remove
Given a sorted linked list, delete all nodes that have duplicate numbers, leaving only distinct numbers from the original list. For example,Given 1->2->3->3->4->4->5,
Spring4新特性——注解、脚本、任务、MVC等其他特性改进 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
MySQL安装文档 liyong0802 mysql
工作中用到的MySQL可能安装在两种操作系统中，即Windows系统和Linux系统。以Linux系统中情况居多。安装在Windows系统时与其它Windows应用程序相同按照安装向导一直下一步就即，这里就不具体介绍，本文档只介绍Linux系统下MySQL的安装步骤。 Linux系统下安装MySQL分为三种：RPM包安装、二进制包安装和源码包安装。二
使用VS2010构建HotSpot工程 p2p2500 HotSpot OpenJDK VS2010
1. 下载OpenJDK7的源码： http://download.java.net/openjdk/jdk7 http://download.java.net/openjdk/ 2. 环境配置 ▶
Oracle实用功能之分组后列合并 seandeng888 oracle 分组实用功能合并
1 实例解析由于业务需求需要对表中的数据进行分组后进行合并的处理，鉴于Oracle10g没有现成的函数实现该功能，且该功能如若用JAVA代码实现会比较复杂，因此，特将SQL语言的实现方式分享出来，希望对大家有所帮助。如下：表test 数据如下： ID,SUBJECTCODE,DIMCODE,VALUE 1&nbs
Java定时任务注解方式实现 tuoni java spring jvm xml jni
Spring 注解的定时任务，有如下两种方式：第一种： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http
11大Java开源中文分词器的使用方法和分词效果对比 yangshangchuan word分词器 ansj分词器 Stanford分词器 FudanNLP分词器 HanLP分词器
本文的目标有两个： 1、学会使用11大Java开源中文分词器 2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码，至于效果哪个好，那要用的人结合自己的应用场景自己来判断。 11大Java开源中文分词器，不同的分词器有不同的用法，定义的接口也不一样，我们先定义一个统一的接口： /** * 获取文本的所有分词结果, 对比

[论文笔记] 人脸检测方向系列论文

目录

1. MTCNN

2. FaceBoxes

3. PyramidBox

4. SRN

5. DSFD

6. RetinaFace

7. AInnoFace

你可能感兴趣的:(CV,杂谈,人脸检测,Face,Detection)