转自知乎前辈:https://zhuanlan.zhihu.com/p/27485775
最近忙里偷闲,刚好有机会整理关于计算机视觉的一些理解。作为一个老兵,又作为一个时刻保持hungry的新人,将自己对cv的很多思考总结一下,仅以抛砖。可能有偏,管中窥豹而已。
大致分成以下几个部分吧:
A. 技术
B. 产品
C. 行业
先谈谈技术,也或许是因为技术是技术人最容易表达清楚的领域吧。最近越来越清晰的感觉到计算机视觉的问题和机器学习的问题更为接近了(排除掉图像预处理等诸多操作),基本上概括起来就3条:1. 描述(特征),或者用英文叫representation;2. 问题的刻画和理解,在这里我没有单一的使用loss function来表述这个问题,问题的刻画和理解应该有更广阔的含义,比如检索问题(当然检索实际上也可以通过loss function来描述);3. 算法、模型、求解:当有了『物』的描述,以及对于问题的刻画,我们需要找到对应的模型来进行求解。上面3条在计算机视觉领域同样适用。
a1. 可以说计算机视觉中有超过60%的工作我们都是在寻找对于图片的一个描述;这个描述可以是0-255的像素值,可以是颜色直方图的分布,可以是我们能够想到的通过各种算子计算到的图像上的局部的,全局的,梯度的,空域的,频域的,各种平滑、锐化、normalization之后的数值表达,也或者是通过类似bow方式获得的图像的统计表达(用block的相似性来表示图片),也或者是计算图像特征点之后的特征计算或者统计(用点的相似性来表示图片),也或者是通过深度学习学习到的某些卷积核作用于图片之后的表达。这些表达我们可能能够描述物理含义,也可能只有统计意义上的物理含义;但有一个趋势:就是这些表达越来越从图像的底层往语意层发生转移,其实追求就只有一个,那就是语意层级的相似性和区分度;无论是光照,大小,角度,噪声,模糊等等可能引起的描述的差异,那么我们终极的追求实际上是语意级的相似性。【在某一个场景下,化成灰我也能认识你】
a2. 问题的刻画和理解。描述这个问题之前我们先来看看目前cv领域最重要也最为基础的task:目标的检测、跟踪、识别,图像的检索,人脸的识别和验证,image caption,image generation,超解像,视觉slam(vo计算)等等,而这些任务本质上都可以概括成几个基本的问题:分类、回归、排序ranking、关联correlation;其实这几个基本的问题放到任何以机器学习为背景的数据科学里面同样适用。搜索引擎是典型的ranking问题,CTR预估是回归问题和ranking问题的结合,topic model是分类问题,人物画像是分类问题(估计把聚类问题归结到分类当中,不一定严谨,见谅),推荐是ranking为主,社交网络则是典型的correlation问题等等。目标检测是典型的分类问题,目前也开始演变成回归问题;物体识别、人脸识别是分类问题;跟踪也是典型的分类+回归的问题;图像检索是ranking问题;image caption是关联问题;image generation是回归问题,视觉slam中最核心的部分特征点的匹配是ranking问题。
a3. 算法、模型、求解:机器学习中一切能够用来求解分类、回归、排序、关联等问题的算法都能够使用,相应的技巧都能够使用,相应的优化方法都能够使用。
总结起来,我们已经有意或无意的在使用更为general的机器学习的方法来处理cv的问题,或者说是用更general的机器学习的观点来刻画和理解cv的应用。
产品,其实是我最不想去聊的一个话题。cv的产品层出不穷。监控行业中有大量对cv的需求,工业检测中也对cv的精度有很高的要求,人脸识别、物体识别等都是需求,image caption,拍立淘,百度明星脸,相册分类,手势识别、自然图片中的文字识别、手写识别等。总结起来我们实际上是在把任何需要【人的眼睛+人的记忆能力+人脑的想象力】的任何场景变成cv的场景。能变出什么样的花样呢?视力更好(能够识别比人眼更多的细节),记忆力更好(能够存储、检索比人脑更大的库),想象力更好(比如风格画的生成)。说几个我自己认为能够提升行业效率并真正产生行业价值的产品。
b1. 替代人的智能监控设备,不管智能监控目前是不是效果还不理想,从产品角度他是在替代人工提升行业效率;
b2. 基于视觉的ADAS设备,解放人的部分注意力;
b3. 类似face++等算法的服务,实际上是在通过计算换时间,也是在提升效率;
b4. 医疗图像分析,人脸验证(打卡、解锁),证件识别也实际上是通过密集计算来减少人工成本;
b5. 亚马逊未来超市中通过视觉拿到你所购买的商品信息,并通过人脸等技术完成支付;实际上依然是在通过技术来节省人力成本以及提升行业效率;包括格林深瞳早期希望通过shopping mall的视觉信息进行商业分析都是这个路子。
任何一个以cv为中心的产品,最终能够得以生存下来的原因除了博人眼球之外一定是因为他要么提升了行业效率(时间、人力、计算资源),要么改变了用户体验。
行业。轻易不敢谈行业的问题,既没有那个高度,也没有那个能力。一点愚见仅供参考。从入行cv有那么一段时间开始,就在思考cv本身只是一个工具吗?这个工具有可能成为某一个行业不可获取的技术吗?还真有那么几个领域cv不可或缺:
c1. 监控,产品的那一part已经说过,如果智能监控的算法能够好的落地,那cv在这中间一定是提升行业效率的;
c2. 云+端 一体化的cv能力的构建:无论是交通还是医疗领域,云端一体化的cv能力会是未来一个比较长时间的主题;
c3. 很多领域都对cv这个工具有需求,希望借此来完成之前不能完成的任务或者是提升效率;
cv本身有可能能够成为一个行业吗?比如人们对于信息的需求诞生了百度,人们对于商品的需求诞生了阿里,人们对于社交的需求诞生了腾讯,人们对于行、食的需求诞生了滴滴、新美大;那人们对于视觉能力的需求能够诞生什么呢?
从马斯洛需求层级来讲,人对于视觉能力的需求应该是和人对于出行的需求处于同一级?人对于更powerful的视觉能力的需求到底是什么呢?
见微知著?抑或博古通今?
那如果不仅仅是人,如果我们把cv也看成是一个to B的生意,那么B对于更powerful的cv能力的需求是什么呢?
留下这些问题,笔者也会多思考,也希望能够和读者多交流。
写到这里,依旧发现技术的那一part是最易书写的。