百分点感知智能实验室:计算机视觉理论和应用研究

编者按:计算机视觉(ComputerVision,CV)是一门综合性的学科,是极富挑战性的重要研究领域,目前已经吸引了来自各个学科的研究者参加到对它的研究之中。

本文中,百分点感知智能实验室梳理了计算机视觉技术基本原理和发展历程,针对其当前主要的研究方向及落地应用情况进行了深入剖析,并分享了百分点科技在该领域的技术研究和实践成果。

一、概览

计算机视觉(ComputerVision,CV)是人工智能的一个领域,它与语音识别、自然语言处理共同成为人工智能最重要的三个核心领域也是应用最广泛的三个领域。计算机视觉使计算机和系统能够从数字图像、视频和其他视觉输入中获取有意义的信息,并根据这些信息采取行动或提出建议。如果人工智能使计算机能够思考,那么计算机视觉使它们能够看到、观察和理解。

计算机视觉的工作原理与人类视觉大致相同,只是人类具有领先优势。人类视觉具有上下文生命周期的优势,可以训练如何区分对象,判断它们有多远、它们是否在移动,以及图像中是否有问题等情况。计算机视觉训练机器执行这些功能,不是通过视网膜、视神经和视觉皮层,而是用相机、数据和算法,能够在更短的时间内完成。因为经过培训以检查产品或观察生产资产的系统可以在一分钟内分析数千个产品或流程,发现不易察觉的缺陷或问题,所以它可以迅速超越人类的能力。

  1. 计算机视觉工作原理

计算机视觉需要大量数据,它一遍又一遍地运行数据分析,直到辨别出区别并最终识别出图像。例如,要训练计算机识别咖啡杯,需要输入大量咖啡杯图像和类似咖啡杯的图像来学习差异并识别咖啡杯。现在一般使用深度学习中的卷积神经网络(Convolutional Neural Networks, CNN)来完成这一点,也就是说最新的科研方向和应用落地绝大多数都是基于深度学习的计算机视觉。

CNN 通过将图像分解为具有标签或标签的像素来帮助机器学习或深度学习模型“观察”,使用标签来执行卷积(对两个函数进行数学运算以产生第三个函数)并对其“看到”的内容进行预测。神经网络运行卷积并在一系列迭代中检查其预测的准确性,直到预测开始成真,然后以类似于人类的方式识别或查看图像。就像人类在远处观察图像一样,CNN 首先识别硬边缘和简单形状,然后在运行其预测的迭代时填充信息。

CNN推理过程可视化

  1. 计算机视觉发展历程

60多年来,科学家和工程师一直在努力开发让机器查看和理解视觉数据的方法。实验始于1959年,当时神经生理学家向一只猫展示了一系列图像,试图将其大脑中的反应联系起来。他们发现它首先对硬边或线条做出反应,从科学上讲,这意味着图像处理从简单的形状开始,比如直边。

大约在同一时期,第一个计算机图像扫描技术被开发出来,使计算机能够数字化和获取图像。1963年达到了另一个里程碑,当时计算机能够将二维图像转换为三维形式。在1960年代,人工智能作为一个学术研究领域出现,这也标志着人工智能寻求解决人类视觉问题的开始。

1974年引入了光学字符识别 (OCR) 技术,该技术可以识别以任何字体或字样打印的文本。同样,智能字符识别 (ICR) 可以使用神经网络破译手写文本。此后,OCR和ICR 进入文档和发票处理、车牌识别、移动支付、机器翻译等常见应用领域。

1982年,神经科学家David Marr确定视觉是分层工作的,并引入了机器检测边缘、角落、曲线和类似基本形状的算法。与此同时,计算机科学家Kunihiko Fukushima 开发了一个可以识别模式的细胞网络。该网络称为Neocognitron,在神经网络中包含卷积层。

到2000年,研究的重点是物体识别,到2001年,第一个实时人脸识别应用出现。视觉数据集如何标记和注释的标准化出现在2000年代。2010年,李飞飞所带领的团队为了提供一个非常全面、准确且标准化的可用于视觉对象识别的数据集创造出了ImageNet。它包含跨越一千个对象类别的数百万个标记图像,并以此数据集为基础每年举办一次软件比赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),为当今使用的 CNN 和深度学习模型奠定了基础。2012 年,多伦多大学的一个团队将 CNN 输入到图像识别竞赛中。该模型称为 AlexNet,它是由Yann LeCun于1994年提出的Lenet-5衍变而来,显著降低了图像识别的错误率第二名TOP-5错误率为26.2%(没有使用卷积神经网络),AlexNet获得冠军TOP-5错误率为15.3%。在这一突破之后,错误率下降到只有几个百分点(到2015年分类任务错误率只有3.6%)。

​LeNet网络结构示意图

​AlexNet网络结构示意图

二、计算机视觉主要研究方向

人类应用计算机视觉解决的最重要的问题是图像分类、目标检测和图像分割,按难度递增,其中图像分割主要包含了语义分

你可能感兴趣的:(计算机视觉,人工智能,机器学习)