关于计算机视觉的识别与检索问题的思考

计算机视觉所有的识别与检索问题,目标追踪问题,行人检测问题,行人重识别问题,移动机器人目标跟随问题,都是想法设法找出跟随目标的不变量出来。有了不变量,才有谈论后续工作的可能性。

 

假如人都无法从图像中识别出目标,那么让计算机找出来也就无从谈起。

 

假如是一个数学问题,需要求解,我们的思路是,先证明问题有解,再求解。

 

问题有解是求解的必要条件。

 

只有问题有解,我们求解才是有意义的。否则就是徒劳的,求解一个没有解的问题,就像希腊神话里,每天推着石头到山上的西西福斯,石头快到顶就会滚下来,周而复始。

 

学生时代,数学课本经常出现证明题,一般都是存在性证明。

 

脱离了别人提问、我们解答的学生时代,进入真正解决问题的时候,我们很多人就忘记了关注一个问题的有解性。

 

但是这一部分展开的讨论很少。我们在计算机视觉方面的工作更像是胡子眉毛一把抓,任何对象拿来就求解。之后花大力气提高识别率。

 

识别问题是局部有解的问题。不同的识别对象,有解的条件不一样。控制领域关心一个解是否鲁棒,意思是就算条件苛刻,解依然存在。这个概念也可以用在计算机视觉识别领域。识别是否鲁棒?

 

人脸的特征随时间变化缓慢,人脸识别是鲁棒的。人体重识别就不鲁棒,因为被识别对象变化因素太多。能够唯一确定一个人的,几乎只能是DNA比对。仅仅靠视觉来重识别一个人,条件是很苛刻的,数学上会说这是一个很强的条件。被识别对象的变量越多,识别越不鲁棒,变化到一定程度,已经没有重识别的意义,比如光线差异巨大,视角差异巨大,服饰变化巨大,视觉上的视觉已经失去意义。

 

生物从出现感光细胞,到进化出眼球、视觉,用视觉处理环境,绝不仅仅是输入像素,对像素的各种处理。转到计算机视觉,就只剩下对像素的处理。我认为识别领域的泡沫太多,现在的计算机视觉处理问题的方式,本质上都是寻找像素之间关系,再数学一点说,都是寻找二维矩阵中数字关系,最后想要实现眼睛和大脑对问题处理的效果。

 

我们应该谨慎对待生物意义上和计算机软硬件层面上的输入层差异,这一差异是否遗漏了重要信息?假如遗漏了重要信息,我们想要的效果就达不到了。

你可能感兴趣的:(关于计算机视觉的识别与检索问题的思考)