中兴捧月2020年比赛CV方向思路

中兴捧月2020年比赛CV方向思路

今年的比赛主要分为以下5个门派
傅里叶派:信号
迪杰斯特拉派:智能网络调度
图灵派 :音视频
阿尔法·勒克斯特派:目标检测与跟踪
埃德加·考特派:数据库

阿尔法•勒克斯特_代码思路

一、题目

本次竞赛的主题为多目标检测与跟踪(MOT),主要是同时跟踪视频画面中的多个目标,得到目标的运动轨迹。
本竞赛针对视频监控领域的行人进行在线多目标跟踪。对于给定视频,通过行人检测以及多目标跟踪,确定行人的跟踪ID,记录行人运动轨迹。视频分为A_data,B_data;分别以不同的权重构成总分。

二、初始思路

Faster-Rcnn是何凯明等大神在2015年提出目标检测算法,该算法在2015年的ILSVRV和COCO竞赛中获得多项第一。Faster-Rcnn在目标检测中取得的优异效果使得我在刚开始的时候青睐于利用此网络检测视频动画中的行人确定目标的数量,然后结合其他算法来实现ID的匹配。虽然对于目标检测比较熟悉,但是不同行人的ID匹配算法不是很清楚,因此阅读该综述后[1]对多目标检测的实现算法有了较为清晰的认识。
在上述基础上利用谷歌学术和github了解到目前多目标检测的最新研究成果,如Towards-Realtime-MOT[2],FairMOT[3]等。后续实验主要结合这两篇论文及其开源代码和模型,调整实际的匹配参数来实现更好的实验结果。

三、实验阶段(A-data)

环境配置和预训练模型的加载请参考code文件夹下的README文件

Towards-Realtime-MOT

问题1:代码运行出来的结果是14分左右

解决办法:将网络标记的框标记在图片上发现标记的ID很乱,跟踪效果不好,调试后发现是数据集的帧数乱序了,因此将数据集按照帧数进行排序。

问题2:实验发现输出的txt结果中帧数少了一帧,同时第一帧图片未被检测。

解决办法:根据上述的现象,是每个Track的第一帧图片没被检测。将数据集中的每个Track的第一张图片名称重复。

实验结果

Baseline:73.88
通过调节track.py中的iou-thres,conf-thres,nms-thres以及调节卡尔曼滤波的匹配系数,得到的最佳的实验结果是:76.18,然后感觉模型的继续调参提升的幅度不会太大,因此考虑使用其他的模型测试,如FairMOT。

FairMOT

FairMOT的代码和Towards-Realtime-MOT的代码有很多相似之处,因此也是使用上述类似的方法调参。不过参数主要是在opts.py中。由此得到的最佳结果是77.96分。
B-data存在第一帧缺失的情况,需要重新copy第一帧并重命名。对于B-data则是使用在A-data上得到最高分数的参数跑出来的结果,最终得分为71.93.

对于B-data则是使用在A-data上得到最高分数的参数跑出来的结果,最终得分为71.93.

参考文献

[1] Luo W, Xing J, Milan A, et al. Multiple object tracking: A literature review[J]. arXiv preprint arXiv:1409.7618, 2014.
[2] Wang Z, Zheng L, Liu Y, et al. Towards Real-Time Multi-Object Tracking[J]. arXiv preprint arXiv:1909.12605, 2019.
[3] Zhan Y, Wang C, Wang X, et al. A Simple Baseline for Multi-Object Tracking[J]. arXiv preprint arXiv:2004.01888, 2020.

你可能感兴趣的:(深度学习)