计算机视觉调研--研究方向

1. 计算机视觉相关方向

图像分类

给定一组各自被标记为单一类别的图像,我们对一组新的测试图像的类别进行预测,并测量预测的准确性结果。图像分类问题需要面临以下几个挑战:视点变化,尺度变化,类内变化,图像变形,图像遮挡,照明条件和背景杂斑。
目前较为流行的图像分类架构是卷积神经网络(CNN),将图像送入网络,然后网络对图像数据进行分类。在2012年出现的AlexNet网络之后,又涌现了很多种使用卷积神经网络作为核心,并取得优秀成果的模型,如 ZFNet(2013),GoogLeNet(2014), VGGNet(2014), RESNET(2015),DenseNet(2016)等

目标检测 Object Detection

给定一张输入图片,算法能够自动找出图片中的常见物体,并将其所属类别位置输出出来,简言之,就是将物体在原图中框出。因此,衍生了人脸检测、车辆检测、文字识别等细分检测算法。常用的模型有R-CNN,Fast R-CNN,近年来,主要的目标检测算法已经转向更快、更高效的检测系统。这种趋势在 You Only Look Once(YOLO),Single Shot MultiBox Detector(SSD)和基于区域的全卷积网络( R-FCN )算法中尤为明显,这三种算法转向在整个图像上共享计算。

语义分割 Semantic Segmentation

将输入图像的每一个像素点进行归类,用一张图可以清晰地描述出来其内层意义。例如,我们可能需要区分图像中属于汽车的所有像素,并把这些像素涂成蓝色。常用的模型有全卷积网络( FCN ),SegNet等。

运动和跟踪 Motion & Tracking

在一段给定的视频中,在第一帧给出被跟踪物体的位置及尺度大小,在后续的视频当中,跟踪算法需要从视频中寻找被跟踪物体的位置,并适应视频中光照变化、运动模糊及表观的变化等。而实际上,跟踪是一个不适定问题,比如跟踪一辆车,如果从车尾开始跟踪,如果车辆在行进过程中外观发生很大变化,如旋转180度,现在的跟踪算法可能会出现“跟丢”的情况。所以,这一研究领域还有极大提升空间,也不属于非常热门的方向。鉴于 CNN 在图像分类和目标检测方面的优势,它已成为计算机视觉和视觉跟踪的主流深度模型。 一般来说,大规模的卷积神经网络可作为分类器和跟踪器来训练。具有代表性的跟踪算法有全卷积网络跟踪器( FCNT )和多域卷积神经网络( MD Net )

视觉问答 Visual Question & Answering

视觉问题的研究目的是根据输入图像,由用户进行提问,而算法自动根据提问内容进行回答。除此之
外,还有一种标题生成算法,即计算机根据图像自动生成一段描述该图像的文本,而不进行问答。对于此类跨越两种数据形态(如文本和图像)的算法,也可称之为多模态或跨模态问题

动作识别 Action Recognition

识别视频中的动作是一个充满挑战而又具有较高实际应用价值的任务。相比图像来说,视频内容和背景更加复杂多变,不同的动作类别之间具有相似性,而相同的类别在不同环境下又有着不同的特点。此外,由于拍摄造成的遮挡、抖动、视角变化等也为动作识别进一步带来了困难。在实际应用中,精确的动作识别有助于舆情监控,广告投放,以及很多其他视频理解相关的任务

三维重建 3D Reconstruction

通过摄像机获取场景物体的二维数据图像,并对此图像进行分析处理,再结合计算机视觉知识推导出现实环境中物体的三维信息。2D视觉领域几乎被基于学习的方法统治,尤其是深度学习;3D视觉领域仍以基于几何的方法为主,比如三维重建、视觉SLAM等。

2. 参考文献

计算机视觉都有哪些研究方向

你可能感兴趣的:(计算机视觉,计算机视觉,深度学习,目标检测)