目标检测算法——YOLOV2——stronger

    因为YOLOV2的创新并不突出,主要是更新了backbone和借鉴了faster RCNN或者SSD,后面又提出了YOLO9000,可以检测9000个类别。这个算是一个比较新颖的思路。

    整体思路:

    1、训练:融合imageNet 9000类和coco 80类的训练集。且并不需要重新标注imagenet 的检测框,训练时遇到coco数据回传检测loss,遇到image net数据回传分类loss。(这里我觉得应该是也把分类loss coco数据也被合并到imagenet)

    2、预测:YOLOv2给出的置信度就是pr(physical opbject) ,同时会给出边界框位置以及一个树状概率图。在这个概率图中找到概率最高的路径,当达到某一个阈值时停止,就用当前节点表示预测的类别。

    YOLO9000可以快速检测出超过9000个类别的物体,总体mAP值为19.7%。

    需要解决的问题:

    1、如何解决imagenet 9000类别的冲突问题。

    2、如何对应imagenet 标签和coco标签。

    解决方案:

    一、通过Word tree。

       狗这个label即属于犬科也属于家畜,这就很复杂了,完全是个图结构。因此作者采用WordTree来解决分类和检测数据集的标签问题,也就是说在这个树里面任意一个节点只能属于唯一一个节点(跟WordNet是有区别的)。

    *遍历Imagenet的label,然后在WordNet中寻找该label到根节点(指向一个物理对象)的路径;

    *如果路径直有一条,那么就将该路径直接加入到分层树结构中;

    *否则,所有路径中选择一条最短路径,加入到分层树。

    目标检测算法——YOLOV2——stronger_第1张图片

    

    训练时:使用multi-label模型,即假定一张图片可以有多个label,并且不要求label间独立,即使用多个softmax。

    预测时:条件概率模型的方式,某个节点的概率值等于该节点到根节点的所有条件概率之积。例如,如果想知道一张图片是不是“Norfolk terrier ”需要计算:

    

目标检测算法——YOLOV2——stronger_第2张图片

    为了验证这种方法作者在WordTree(用1000类别的ImageNet创建)上训练了Darknet-19模型。为了创建WordTree1k,作者天添加了很多中间节点,把标签由1000扩展到1369。训练过程中ground truth标签要顺着向根节点的路径传播。例如,如果一张图片被标记为“Norfolk terrier”,它也被标记为“dog” 和“mammal”等。为了计算条件概率,模型预测了一个包含1369个元素的向量,而且基于所有“同义词集”计算softmax,其中“同义词集”是同一概念的下位词。

    softmax操作也同时应该采用分组操作,下图上半部分为ImageNet对应的原生Softmax,下半部分对应基于WordTree的Softmax:

    

目标检测算法——YOLOV2——stronger_第3张图片

    最后在Imagenet1k数据集上的top-1 accuracy为72.9%,top-5 accuracy为91.2%;在WordTree1k数据集上的top-1 accuracy为71.9%,top-5 accuracy为90.4%。在WordTree1k数据集上的准确率要稍低一点,主要是因为那些新的类别的影响。

    

    然后作者开始融合ImageNet 9000和coco,进行联合训练,YOLO9000的主网络基本和YOLOv2类似,只不过每个grid cell只采用3个box prior。

参考链接:

1、https://mp.weixin.qq.com/s?__biz=MzIwOTc2MTUyMg==&mid=2247506971&idx=2&sn=25adc23007e59207c1b85947b08fd61d&chksm=976c7986a01bf0903c55996dfc3a6fab019d2c64a0581206f8b4969272b130db7f717b3e1eee&mpshare=1&scene=24&srcid=1012oSt758cdPDPzVnPqtjMK&sharer_sharetime=1602470478187&sharer_shareid=8395771074f344d1eff60d1ed0aa4986&key=b0e41fc55fd7ea00858edca66e2a68479916b8d2dbc455d0dffbf1a551733f14505759e4948b72c43caa3e2253c1fa74fa3872e506dcd6f52a3fd33a363e7ac7f7a737f348f7cdb889cdd2c89e13a97b7441c5be5d9a761a1a32d88c90f0f73436a421ca7885dbc0ba978d6b373ad308c9eae7339d56ec4a212525dc884b880c&ascene=14&uin=Mjc2NjkwMjgw&devicetype=Windows+10+x64&version=6300002f&lang=zh_CN&exportkey=Aew4EJcOy/UY2V/VNOV0w4s=&pass_ticket=O5ehYMSoJ93TW6DtX5rVbQ0W44ZL2Yf1xodDqFnjsm9ntWT+Kuef6ZZqlqK5cUWL&wx_header=0

2、https://zhuanlan.zhihu.com/p/35325884

3、https://blog.csdn.net/u014380165/article/details/77961414

4、https://www.cnblogs.com/sddai/p/14760055.html

你可能感兴趣的:(深度学习算法,深度学习,pytorch,视觉检测)