计算机视觉在不同的领域都得到了一些运用。下面是一些应用或者技术的概述。
1.特征探测&匹配
特征探测是指探测图像上有意思值得关注的区域或者点。当这些点被探测到,他们会拿去和一个特征集匹配。在许多应用上,特征探测&匹配在一个算法的早期步骤中很重要。
应用案例1:ASM(主动形状模型)算法
应用案例2:图像对齐。在我们想把大量图像融入到一个大的全景图像中。我们应该重视特征选择重要的方面。选择应该围绕以下几点:
几何不变性:如平移,旋转,缩放
亮度不变性:亮度,曝光
独特性
一旦这些特征点被找到,我们可以和大量的图像进行匹配,并在其中选择一张。
2.识别/探测
这一类方向是特别依赖深度学习,并且在最近取得了很大进步。这类方向的应用大概包括:人脸识别,图片分类,目标检测,图像内容场景理解。
识别探测图像还有很多挑战,例如:视角多变,图像缩放变化,类内变化,图像变形,影响遮挡,背景杂波,图片亮度。
让我们假设我们都知道人脸识别立马变成图像分类问题。
图像分类
图像分类在解决以下问题:给定一个已经标记为单一类别的图像,我们如何对一组不可见的图像预测他们的类别且有较高的准确性?这不是一个简单的任务,以及 不管之前提到的挑战,照片分类有着广泛的运用。所有的网上商店都使用这项技术自动的为他的商品分类, 而Airbnb有一个算法是来给他们租赁产品照片做分类。在公共场所,如市场或者机场, 交通拥堵可以被探测到以及被预防。
尽管图像分类在性能方面已经被证明了,但一些应用还需要更细的粒度来检测图像。
目标检测
目标检测解决了在同一个图像中确认多个目标的需求。此外,这些多个目标可分为不同的类别且通常用边界框来标识。目标探测可以在自动驾驶方面发现,自动驾驶技术探测行人,交通标志和其他车俩。目标检测也出现在制造业去探测产品和缺陷。此外,它在安全领域有着极大的角色,通过探测异常或可疑的包裹。也可以用于跟踪目标。跟踪本身就有很多应用在体育和健康护理行业,计算机能帮助病人恢复或者跟踪细胞活动。
照片内容场景理解
图像分类是尝试对一个图像进行归类而目标探测器是尝试在一张照片上检测目标,但两个方法都有共同的缺点在理解一张照片。换句话说,两个算法都没有考虑到照片内容,这是一个对人机交互系统的严重限制。
3.分割
有了图像分割技术,我们有了更细粒度的目标探测能力相对于目标探测器的边界框。图像分割是让每个像素都被分类。图像分割正广泛极速应用于探测肿瘤等病理学问题,无人驾驶中行人,信号灯的探测,卫星成像识别,天文学,制造业等方面。
4.基于特征的识别
如前所述,从图像中提取特征是第一步,在许多视觉算法的下一步是在不同的图像中匹配这些特征。匹配的一个重要部分是验证是否这一系列的匹配特征是否在几何上是一致的。通过特征位移来描述一个简单的2D或3D几何位移。计算出的运动可以用于一些应用,如图像拼接,自拍滤镜,增强现实等。
姿态估计
姿态估计是指通过一个系列2D点预测来估计一个目标的3D动作。在电影领域,他们已经被用来塑造在现实中存在的动漫形象,在自动驾驶领域,它可以用来探测司机的警觉性(反应),在健康护理领域,我们可以探测脊柱侧凸这些姿势问题。在农业中,他被用来检测预防疾病爆发。
运动恢复结构
我们如何通过一个视频源去创建一个3D模型
分解
该方法在1992年作为一个新技术被介绍,用于视频中检测到的关键特征重新建立一个3D模型,在运动时锁定特征,创建一个特征运动流,并从该运动流重建一个3D模型。如果你想把某个东西重建的更大该怎么办,如中国长城,显然,全部移动它很难。这种情况下,你可以飞到它的上面捕获它的视频流,并根据视频流重建3Dmodel。事实上,许多增强现实的应用都是分解被用于虚拟现实对象,如博物馆展览,谷歌地图,互联网照片,甚至YouTube。
密集运动估计
这是一项最久也是最常用的技术,但它很少为人知道。他在视频压缩,稳定和摘要方面广泛运用。
如果我们拿到以上图像序列,我们可以直观的知道图像序列中某些部分保持不变。例如一帧图像的信息可以跨很多帧重用,从而可以减小视频的大小。此外,如果有噪声和伪影在视频中,我们可以平均或者借用邻近帧图像来对我们的视频降噪。密集运动估计有许多的方法论,但是它易于理解,许多技术需要知识广泛。这在一定程度上时由于大量的视频被消费,据思科称,这将占互联网总消费80%。(大概理解为互联网上80%内容是视频。思考:视频的信息内容多吗?比之文字图片等?)
5计算摄影
在某种意义上,本章所讨论的一切可以看作是计算摄影,但在这里我们讨论的是在摄影性能达到新高度的深度学习技术如CNNs,GANs这些旧概念。不了解CNNs或者GANs没关系,下章我们会谈及,这章作为开胃菜。
超分辨率
当图像的空间分辨率比普通相机图像高、噪声小时,就会产生超分辨率。在深度学习之前,对多个输入图像进行对齐和组合的过程完成这种高分辨率的合成。另一种流行的方法是提高图像的像素和插值像素值。但twitter的研究者提出一个GAN模型叫做超分辨率GAN,是第一个能够在4*放大因子下推断逼真自然图像的框架。谷歌大脑也推出了自己的超分辨图像模型。超分辨率图像算法在现在的卫星图像处理,健康护理,显微镜和天文学方面都有很大应用潜力。
彩色化
一张图像的场景语义(内容)及其表面纹理为每张图像的颜色区域提供充分的线索。利用这些信息,能创建像素级的彩色分类器,产生一个 貌似合理的颜色能欺骗人类观察。
图像结构分析与合成
传统的图像结构分析与合成方法是继续尝试和源图像的频谱进行匹配,但是这样会产生形状噪声。这是它不足的地方,其他复杂的算法也至多能产生相同水平的结果。深度学习的提出再次拯救了这个令人注目的研究。答案再一次是GANs。但是用GANs存在的一个更重要的问题是:如何有一个算法预测一个图像是自然的还是人工创造的?如果中国问题可以归结为方程,他能为GAN服务,它将产生如下结果:
另外一个流行的GAN叫Pix2Pix可以将一个图片转换成另外一个,给人们一些创造活动提供新的有力工具。
立体图像的对应和呈现
这个过程是拿两张及以上的图像估计一个场景的3D模型,通过在图像中寻找匹配的像素,并将其从2维位置转换为3维深度。又一次,利用深度学习这些算法可以实现: