计算机视觉概述
1963年,计算机视觉之父拉里·罗伯茨首次描述了用计算机从2D图像中理解和构造物体3D信息的过程,开创了计算机视觉领域。随后在20世纪的缓慢进展中,科学家逐渐将研究方向从物体3D建模转入基于特征的物体识别。
直到2012年AlexNet的问世,给人工智能带来巨大的腾飞,也使得世界重燃对计算机视觉的兴趣。之后短暂的10年里,计算机视觉遍地开花,在分类、分割、检测、图像分析、面部识别、导航定位、追踪、OCR、视觉生成、自动驾驶等方向都取得了显著成果。随后,本文将对计算机视觉领域的核心任务与技术进行简要介绍。
1. 图像分类
图像分类泛指识别图像种类或标签的过程,可通过支持向量机、邻近算法、逻辑回归、神经网络等方式来实现。目前,该任务公认的准确度最高的大多是基于卷积神经网络和Transformer模型的方法。
卷积神经网络(CNN),可以简单理解为包含卷积计算的深度神经网络。最初卷积计算的引用相较于传统神经网络,主要有两大革新:
●稀疏连接,输出结果的任一单元,只跟输入图像的部分相关,从而摆脱全连接的高耦合性;
●参数共享,卷积核的共享使特征提取在图像不同地方复用,减小整体网络参数量,避免过拟合。经典的卷积神经网络一般包含卷积层、池化层和全连接层,通过层次递进的方式来提取深度特征从而实现图像分类,其中代表性的CNN网络有AlexNet、VGGNet、GoogleNet、ResNet及SENet等。
Transformer模型由Google研究团队于2017年提出,最早运用于自然语言处理(NLP)任务,带来了很大的技术变革;而Vision Transformer模型巧妙地将计算机视觉和自然语言处理的领域知识结合在了一起,杰出的例子有ViT、Swin-Transformer、DETR等。其中模型ViT率先打破壁垒,通过将图像分割成多块并逐一展平成序列的处理,加以位置信息(模拟语言模型的词嵌入),直接引用Transformer的编码器结构,再通过注意力学习和全局特征计算进行图像分类。
然而,简单的图像分类并不等于图像理解,这不足以应对复杂多变的场景。在实际场景中,图像识别不仅会面临目标遮挡、角度光影变化及运动等挑战,而且还会衍生出跟踪、定位、预测、诊断、统计甚至创作等复杂任务的需求,因此目标检测、文本及人脸识别、视频内容分析、图像生成等技术应运而生。
2. 目标检测
目标检测基于分类模型,需要一并解决图像识别中目标分类和定位两个问题。根据不同精度、速度、目标尺度等需求,目标检测模型基本可分为anchor-based的两阶段和单阶段,以及anchor-free的相关探索。anchor指的是一组预设边框,通过实际位置的偏移进行调整和训练。两阶段的模型会首先产生候选框,再分类筛选,而单阶段为了提高模型推理速度,会直接预测各目标的分类概率和坐标位置。
在工程实践中,以Yolo系列架构为代表的单阶段检测,因其高速、通用性强、精度可权衡等优点被广泛应用。其最初设计思想主要为将一个图像分为S*S网格,若分类目标中心点落在某网格,则其负责对该目标的预测,之后在预测的众候选框中挑选出最完整、置信度最高的结果。
3. 文本识别
文本识别泛指从拍摄图像、扫描文件、图片类文档中读取和整合文字。该技术不仅为信息编辑和录用节省大量人工成本,同时为大数据信息检索、存储、安全、质量管理等提供便利。这项技术在财务、商务、银行业中应用较多,例如票据自动录入、签名识别、文档信息提取等。
当前文本识别技术面临诸多挑战,例如在进行文字识别时会遇到手写风格、背景多样、文本字体、颜色、形状、大小的多变性、多语言、不同透视角度及遮挡等问题。针对这些问题,当前主流的检测方法包括基于候选框的文本检测和基于分割的文本检测。前者以目标检测的理念检测文本框,如R-CNN系列等。后者是对图像的单一象素先进行分类,判断是不是文本部分,再通过后处理得到文本框。
4. 人脸识别
人脸识别指通过采集人脸部的生物特征,在含有人的图像或视频流中,对其自动检测或跟踪。其核心部分在于相似度的计算与学习,即不同情景下,同一人的相关图像面部特征差异要远小于不同人之间的差异。训练好的模型通过计算相似度从人脸底库中确认身份。和上述技术一样,面部识别技术也面临着人脸角度多样、清晰度条件、遮挡、年龄等挑战。
5. 视频内容分析
视频内容分析技术,就是将时序信息与检测、识别、分类等任务相结合,具有非常广泛的应用场景。它可以自动化地处理视频中的信息,对场景目标和事件进行归类、分析、追踪,提高安全觉察和防范;也可以根据实际需求,对目标人员或物体进行识别认证、运动轨迹、异常活动、聚集密度、数量统计等;还可以对环境或特定区域进行监管,如温度、烟火、物质泄露、特定着装等的检测报警等。相比于静态图像,视频分析需要对任务目标在特定背景下的动态片段加以综合判断,因此会面临目标动态变化、运动模糊及遮挡等挑战。
6. 图像生成
作为虚拟现实技术的支柱之一,图像生成技术随着AI技术的发展不断推陈出新。图像生成可以理解为基于特定输入生成新的图像,而且可以指定新图像的风格,如将输入的照片转化为素描画形式、莫奈油画风格等。
代表性的图像生成方法是生成式对抗网络(GAN),由两部分独立结构组成:生成模型和判别模型。其中,生成模型负责生成与训练集相似度高的图像,判别模型则负责判断该图像是否为真实图像,两者形成对抗促进关系。通过两个模型间的不断博弈,直到生成模型产生以假乱真的结果,而辨别模型只能用50%的概率去随机猜测。
现今,图像生成技术已经融合了跨模态学习技术,可以应对多种形式的输入,如根据语音、文字描述、场景图、布局图等来生成对应的图像甚至视频。最近大火的DALLE-2、Stable Diffusion等就可以基于用户输入的文本创造出高质量、多样化且富有创造力的图像。
✦+
+
计算机视觉前沿技术发展趋势
随着深度学习的高速发展与广泛应用,计算机视觉技术在大量任务上取得了显著的成功。但是如果想在复杂多样的实际应用场景中取得满意的效果,仍有大量的问题亟待解决。针对这些问题,近些年计算机视觉前沿技术呈现出了三方面的发展趋势:
●自监督预训练,旨在解决现有深度学习方法对于大规模标注数据的依赖问题;
●基于海量多模态数据训练大模型,不仅能够广泛应用于下游任务,而且有希望实现语言、视觉等多模态的统一;
●深度学习的可解释性,旨在弥补深度学习方法在决策过程中不可解释的问题,这也是阻碍现有技术在医疗、金融和法律等领域广泛应用的关键因素。
在对自监督预训练的研究中,鉴于NLP领域中生成式预训练的成功,计算机视觉领域便一直在尝试这种去除部分数据后学习恢复的思想,但效果不甚理想。直到MAE的横空出世,在图像分类、目标检测、实例分割和语义分割都取得了比有监督预训练模型更好的结果。
CV领域的自监督预训练更接近视觉方向的本质,因为图像是客观存在的自然信号,并不像自然语言带有天然的语义,而通用AI的本质就在于从大量无标签的数据中学习知识。自监督预训练不但对于解决大规模标注数据需求问题有里程碑式的意义,也极大地推动了计算机视觉本质的研究。
BEiT-3大模型拥有数十亿参数量,并且在海量数据上进行训练,迁移到图像分类、目标检测、实例分割、语义分割、视觉推理、视觉问答、图片描述生成和跨模态检索等下游任务时都取得了不错的性能,一定程度上解决了AI应用碎片化的问题。
大模型在技术层面也趋于大一统:基于Transformer作为不同领域的统一架构,采用基于掩码数据建模的预训练方式,海量数据和超大参数量对于模型的泛化能力至关重要。大模型为AI赋能各行各业打下坚实的基础,让我们看到了AI处理现实世界复杂任务的无限潜力,这也意味着在未来更广泛、更高效AI体系的出现将成为可能。
深度学习的可解释性可以归结为三个核心词汇:Simulatability,指的是对模型本质的理解;Decomposability,是对于模型的模块化分析,了解每一个模块的作用;Algorithmic transparency,意味着人工神经网络优化过程的透明性,了解优化算法的动态。
在生命安全相关的场景中,鲁棒性是至关重要的,而深度学习的鲁棒性与可解释性息息相关。一方面在于模型性能的提高依赖于对模型本身的认知,另一方面在于可解释性对于检查模型漏洞的帮助。可解释性是可信AI不可或缺的一部分,能够护航AI产业的大规模落地。(未完待续)