彻底搞懂VOC/YOLO标注格式《补充》

引言:在深度学习中,标注格式占据了半壁江山,没有这些标注,深度学习就是盲人摸象(只针对有监督学习哦!!!),就像是深度学习网络的先验知识,或者说是‘考试时,老师画的重点’。在很长一段时间处于迷茫状态,像个无头苍蝇到处乱飞,到处学习,没有进行系统性的学习,今天索性再学习一下题目的内容吧!!!

1.YOLO与VOC标注格式间的关系。

1》首先看一下YOLO标注格式(一般为一个txt文本文件,里面存放着一些数字,小琼表示:看不懂)

彻底搞懂VOC/YOLO标注格式《补充》_第1张图片 

 YOLO标注格式


	video_pic
	1111.png
	D:\pic\1111.png
	
		Unknown
	
	
		438
		655
		3
	
	0
	
		bottle
		Unspecified
		0
		0
		
			233
			176
			414
			467
		
	
	
		dog_head
		Unspecified
		0
		0
		
			55
			72
			242
			210
		
	
	
		dog_body
		Unspecified
		0
		0
		
			29
			209
			267
			644
		
	

VOC数据集标注格式

 2》YOLO标注格式讲解:

        每行总共有5个数字,总共有四行。

        2.1》首先是第一列数字,表示的是类别标签,在此处0-2,总共有3类(bottle-0\dog_head-1\dog_body-2),也就是这张图片包含三类数据。(每一行对应一类的标签)

        2.2》每一行的后四个数字代表的是一个矩形框(x,y,w,h)(x,y)代表矩形的中心坐标,(w,h)代表矩形的宽度和高度,(这里的坐标值都是经过归一化处理的,什么意思?就是在原图像上的坐标值都经过除以长宽后得到的,还是不懂,举个例子!!)

彻底搞懂VOC/YOLO标注格式《补充》_第2张图片

图片来源于网络,侵权联系删除        

 由上面的VOC标注数据格式可以知道狗头的标注位置为(55,72,242,210)次坐标表示的是狗头的  左上角的坐标(2处)与右下角 3,两个点的坐标:

dog_head
		Unspecified
		0
		0
		
			55
			72
			242
			210

 然而在YOLO数据集中的表示我们可以通过下面计算得到:

中心点1坐标:x=(xmin+xmax)/2 / 438 =0.339041095890411;   

                    y=(ymin+ymax)/2/ 655=0.2152671755725191

txt文件标注为:


1 0.339041 0.215267 0.426941 0.210687

(惊呆了,一模一样!!!)同理宽度和长度一样,只不过都除以一个宽和高

#

N.结束:

GAME OVER

如果理解错误,欢迎大家批评,及时纠正小琼的错误哦,真心感谢你的纠正!!!

如果小伙伴梦有疑问欢迎在评论区留言哦!!!

如果感觉不错的话!点个赞呗,不用客气!(O(∩_∩)O哈哈~)

欢迎和小伙伴梦一起学习,共同努力,加油!!!

你可能感兴趣的:(目标检测玩一玩,深度学习,目标检测,计算机视觉)