【论文笔记】:CrowdHuman: A Benchmark for Detecting Human in a Crowd

&Title:

CrowdHuman: A Benchmark for Detecting Human in a Crowd

&Summary

CrowdHuman的训练集、验证集和测试集分别包括15000,4370和5000幅图像。图片上的人体实例包含了三种标注,包括人体可见区域边界框标注、头部区域边界框标注和人体整体边界框标注。其设计是为了解决人群问题,可以更好的评估拥挤情况下的检测器。

&Research Objective

我们的目标是针对拥挤人群的情景推进人体检测的研究。我们收集并标注了一个大数据集,称为CrowdHuman,有大量的行人人群。

CrowdHuman的训练集、验证集和测试集分别包括15000,4370和5000幅图像。数据集进行了完全标注,包含众多场景。在训练集和验证集中共计有47万个人体实例,每幅图中的平均行人数量为22.6。我们还给出了三种标注,包括人体可见区域边界框标注头部区域边界框标注人体整体边界框标注

&Problem Statement

  • 行人检测数据集的先驱工作有INRIA,TudBrussels和Daimler、更大规模的数据集像 Caltech-USA和KITTI、大型多样化的行人检测数据集CityPersons,这些数据集很流行,它们都有一个密度低的问题,且拥挤人群的场景很少
  • 而且,这些数据集的协议允许标注者忽略并抛弃大量人群聚集的区域,因为完全标注人群区域非常困难,耗时太多

&Method(s)

提出了一种新的数据集称为CrowdHuman
CrowdHuman数据集特点:
【论文笔记】:CrowdHuman: A Benchmark for Detecting Human in a Crowd_第1张图片

  • 数据集规模:CrowdHuman训练子集共计有1.5万幅图像,标注了约34万个人体实例,约9.9万个忽略区域。与之前的行人检测数据集如CityPersons相比,数量多了10倍。人体的总计数量也比其他数据集多了很多。
  • 密度:在密度上,CrowdHuman数据集中平均每幅图中有约22.6个人体实例。CrowdHuman数据集与其他数据集相比,人体实例密度要大的多。Caltech和KITTI密度非常低,平均每幅图像不到1个人。CityPersons的密度接近7,增长很大,但仍然不够密集。对于COCOPersons来说,虽然其容量相对较大,但仍不能成为理想的人群场景的测试基准。多亏了我们数据集的预滤除和标注协议,CrowdHuman可以达到足够高的密度。
  • 多样性:多样性是数据集的重要因素。COCOPersons和CrowdHuman中的人姿势不限,领域宽广,而Caltech、KITTI和CityPersons都是由车辆在街道上录制的。相同人的数量也是很关键的。在如上表中第5行中所示,CrowdHuman中数量达到了约3.3万,而在Caltech和KITTI数据集中并不是稀疏取样的,得到的相同的人的数量很少。
  • 遮挡:为更好的分析遮挡程度的分布,我们将数据集分成“基本不遮挡”子集(遮挡小于30%),“部分遮挡”子集(遮挡大于30%小于70%),和“严重遮挡”子集(遮挡大于70%)。

Crowd Human数据集图像标注(三种标注框)
人体实例对应的三种边界框:

  • 对每个实例都详细标注了完全边界框。如果单个实例被部分遮挡,那么就要求标注者去补全不可见部分,画出一个完整的边界框。

  • 从图像中剪切出每个标注的例子,并将这些剪切出的区域给标注者用来画一条可见的边界框

  • 进一步将这些剪切出的区域标注出一个头部的边界框。所有标注都至少由另一位标注者进行二次检查以确保标注质量。

与其他数据集的不同注释类型的比较:
【论文笔记】:CrowdHuman: A Benchmark for Detecting Human in a Crowd_第2张图片

&Evaluation

标准行人数据集:Caltech、CityPersons
人体检测数据集:COCOPersons
头部检测数据集:Brainwash

实验的细节:

不同检测框的锚点高宽比:

全身框检测 可见/头部框检测
锚点高宽比 {1,1.5,2,2.5,3} {0.5,1,2}

基准检测器的参数设定:

FPN RetinaNet
迭代次数 60万 75万
什么时候降低learning_rate 15万 and 45万 18万 and 56万
短边像素 800 800
长边像素 1400 1400
  • 采用SGD在8GPU上优化网络。Mini-batch大小为每GPU 2幅图像。
  • 权值衰减和动量设置为0.0001和0.9

CrowdHuman上的实验结果:

可见人体检测结果:
【论文笔记】:CrowdHuman: A Benchmark for Detecting Human in a Crowd_第3张图片
整体人体检测结果:
【论文笔记】:CrowdHuman: A Benchmark for Detecting Human in a Crowd_第4张图片
头部检测结果:
【论文笔记】:CrowdHuman: A Benchmark for Detecting Human in a Crowd_第5张图片
更详细的实验细节,请参考论文

对于上面的三个框的检测结果,博主接下来会一个一个去复现。复现成功后,会在整理成一篇博客,进行记录。

注:关于CrowdHuman的标注格式,和转换代码等,可以看结尾的博客进行了解,博主也是刚入门不久,有错误的地方,还请指出,互相学习,共同进步。

&Conclusion

在论文中,作者给出了一个新的人体检测基准,其设计是为了解决人群问题。提出的CrowdHuman数据集有三方面的贡献

  • 第一,与现有的人体检测基准测试比较,给出的数据集更大、人群密度高的多。
  • 第二,对每个人体实例都进行了整体人体边界框、可见边界框和头部边界框标注。这些丰富的标注使得很多潜在的视觉算法和应用成为可能
  • 最后,作者提出的CrowdHuman数据集可以作为一个有效的预训练数据集。在行人检测的基准测试中已经给出了最好结果,如Caltech和CityPersons,还有头部检测的基准如Brainwash。

&Notes

博主的其他几篇关于CrowdHuman的文章:

  • CrowdHuman数据集格式 ——odgt文件格式
  • 【干货】CrowdHuman数据集标注格式odgt转COCO数据集标注格式json(附详细代码)
  • 【干货】mmdetection使用coco格式的CrowdHuman数据集进行训练及测试(附调参过程)

你可能感兴趣的:(#,数据层面,CrowdHuman)