PASCAL VOC

参考网页:http://www.360doc.com/content/13/0517/10/1054746_286033689.shtml 

PASCAL VOC(pattern analysis,statistical modelling and computational learning    visual object classes)模式分析,统计建模,计算学习  视觉物体分类。
计算机视觉里面很大一块是在做物体的识别、检测还有分类(object recognition, detection and classification)。几乎在每一个应用领域都需要用到这三项功能,所以能否顺利的完成这三个功能,对检验一个算法的正确性和效率来说是至关重要的。所以每一个算法的设计者都会运用自己搜集到的场景图片对算法进行训练和检测,这个过程就逐渐的形成了数据集(dataset)。而不幸的是,这样形成的数据集存在着很大的偏向性。因为就算是作者可以的随机搜集图片,在筛选的时候也存在着作者对事物的主管判断,而这种判断在其他人眼中就会觉得不公平。同时为了比较不同的算法效率,设计者也会运用数据集来进行性能比较。所以如果你看的论文足够多的话,你会发现,大家的实验部分都会说:在某个数据集上我的算法是最牛X的;在某某数据集上我的算法和当前最牛X的其他地方差不多,但速度快/准确率高/误报率低;虽然我的算法在某数据集一般,但几个数据集做一下平均,我的最牛X……所以这些由算法设计者们创建的数据集并不是那么的有说服性。

所以这就催生了  Pascal VOC Challenge 的出现,当让这不是唯一的一个'标准’的数据集。Pascal 的全程是 Pattern Analysis, Statical Modeling and Computational Learning。PASCAL VOC 挑战赛是视觉对象的分类识别和检测的一个基准测试,提供了检测算法和学习性能的标准图像注释数据集和标准的评估系统。从2005年至今,该组织每年都会提供一系列类别的、带标签的图片,挑战者通过设计各种精妙的算法,仅根据分析图片内容来将其分类,最终通过准确率、召回率、效率来一决高下。如今,挑战赛和其所使用的数据集已经成为了对象检测领域普遍接受的一种标准。更多的自述和背景故事可以参见这篇 官方提供的说明文件。

起初Pascal 并不像现在这样完善和全面,刚开始委员会只提供了4个类别的图像,在2006年的时候增加到了10个类,2007年开始则增加到了20个类;同样是在2007年,加入了对人体轮廓布局(Person layout)的测试;测试图像的数量也由起初的1578张增加到了2007年高峰时期的9963张,随后的一年则出现了大幅下降,直到2010年图库数量重新达到高峰,并与2011年稳定在11530张;期间于2009年开始图库的构成发生了变化,这之前每年委员会都会重新制作图库,选择新的照片来构成新的数据集。而2009年开始则采用扩增的方式,只在原有图库的基础上加入新的图片;再有一点就是在2010年加入的动作识别项目和 Other 分类。



VOC 挑战提供两种参加形式,第一种是仅用委员会所提供的数据,进行算法机器学习和训练。第二种是用测试之外的那些数据进行算法的训练,例如那些商业系统。但不管怎样,这两种情况必须严格的利用提供的测试数据来生成最终的结果。测试数据不得用于训练和调试系统,比如通过利用运行多个参数的对比结果,选择出最好的算法。

如果将提供的训练数据用于挑战赛开发工具的一部分,包括特征选择和参数训练在内的所有开发工作,都必须设置单独的训练和验证数据。换句话说就是,将赛事委员会提供的数据分为训练组和验证组。最终挑战时,仅取算法第一次输出的结果。

2007年的时候委员会将训练、分类、测试用的所有标签都弄成了可用状态。但是从那以后,测试用的标签就失效了,取而代之的是将测试数据的结果发送到对比服务器进行对比。因为测试数据仅允许在算法中运行一次,赛事仅仅将第一次的输出结果判定为有效,所以强烈建议不要重复提交。同一种算法的提交次数将会受到严格的审核。评估服务器不是用来对算法进行优化的,不是你的训练机。

委员会也欢迎大家利用服务器的发布功能,将自己的测试结果发布在挑战赛最新的动态页面上,如果你希望对比你的算法与别人算法的区别,有两种途径,一是使用VOC2007那年提供的所有数据,原因前文已经交代过。二是单独利用最新的“traincal”进行交叉验证。另外为了防止作弊,委员会仅允许通过教育系统(也就是高校的邮件地址)或者公司的邮件进行结果的提交。

委员会所提供的图片集包括20个目录:人类;动物(鸟、猫、牛、狗、马、羊);交通工具(飞机、自行车、船、公共汽车、小轿车、摩托车、火车);室内(瓶子、椅子、餐桌、盆栽植物、沙发、电视)。都是一些日常中最常见的物体,位的就是能更好的体现算法的实用性。

挑战赛主要分为三个部分:图像的分类、识别、分割,另外还有一个'动态’分类项目,一个由 Image Net 举行的大规模识别竞赛和人类身体部位识别的附加赛项目。

分类就是让算法找出测试图片都是属于哪一个标签,对测试的图片进行分类,将图片对号入座。



检测则是检测出测试图片中由委员会特别圈定的内容,看看算法能否正确的符合圈定的内容。这个视屏可以帮助大家了解这个项目的意义。



分割是对图片进行像素级分割,也就是识别出的特定物体用一种颜色表示,其他的则作为背景。



动作分类则是在静态图片中预测人类的动作,比如有一张人类跑步的图片,算法根据身体各部位的位置特征判别这个动作是'running’。



人类轮廓识别就是识别标示出来的人体部位,这对于一张图片有多个人或者两个人身体部分纠缠在一起的图片识别有重要意义。



VOC2012年的赛事也在这个周一拉开了大幕,即日起,参赛者们就可以根据赛事规则,利用提供的开发工具进行算法和程序的设计,同时官方也提供了用于第一种参赛方式的训练用图片库。整个过程将一直持续到今年的欧洲计算机视觉大会( ECCV 2012)。想必如果在这种国际级别的标准赛事中获奖,将会给个人或者企业带来严重的加分效果。所以有能力的爱好者们和企业抓紧时间参赛去吧!

这里有一位叫' Yinan Yu’的中国人,在中科院的学术氛围下,于去年的挑战赛中取得了不错的成绩。另外参赛后一些比较 NB 的论文也被贴了出来供大家欣赏,其中一些也被 IEEE 收录,作为高品质论文的象征。

另外来自 这里的一篇文章也讨论了数据集的公正性,有兴趣的读者可以进行跳转。                            

你可能感兴趣的:(PASCAL VOC)