(论文阅读14/100)End-to-end people detection in crowded scenes

文献阅读笔记

简介

题目

End-to-end people detection in crowded scenes

作者

Russell Stewart, Mykhaylo Andriluka

原文链接

https://arxiv.org/pdf/1506.04878.pdf

关键词

Null

研究问题

当前的人员检测器要么以滑动窗口的方式扫描图像,要么对一组离散的提议进行分类。

这项任务是具有挑战性的,因为它既需要将物体从背景中区分开来,又需要正确估计不同物体的数量和它们的位置。

要避免对同一对象的多次检测。

对象实例重叠时根据边界框的属性进行推理往往会得出错误的结果。

拥挤场景中,多个人常常近距离出现,使得区分附近的个体变得尤为困难。

研究方法

提出了一种基于图像解码的人员检测模型。要求以一幅图像作为输入,从而能够直接输出一组不同的检测假设。由于是联合生成预测,因此不需要非极大值抑制等常见的后处理步骤。

本文贡献一个使用一个新的损失函数来端到端地训练模型,该损失函数对检测集进行操作。

另一个技术贡献是表明可以成功地利用LSTM单元链将图像内容解码为可变长度的相干实值输出。

图像解码:首先使用来自谷歌公司的表达性图像特征。然后使用该图像的中间表示使用lstm进行训练得到一组预测对象。

研究结论

该方法在拥挤场景中检测人群这一具有挑战性的任务上非常有效。能够生成任意距离的预测。

额外知识

Bounding box regression:Region Proposal经过fine-tuning跟Ground Truth更加接近的方法

人脸检测中的bounding box regression详解-CSDN博客

你可能感兴趣的:(论文阅读,python,人工智能,计算机视觉,lstm)