《卷积神经网络与计算机视觉》阅读笔记 CH-1

图像处理与计算机视觉

0.概述

图像处理可以视为计算机视觉的预处理步骤。图像处理的目的是提取基本图像基元,包括边缘和角点、滤波、形态学操作等。主要集中于处理原始图像而不会给出关于这些图像的知识反馈。而计算机视觉产生图像的语义描述。基于输出信息的抽象级别,计算机视觉的任务可以分为三个不同的类别,即低级、中级和高级视觉。

1.低级视觉

基于提取的图像基元,可以在图像/视频上执行低级视觉任务。
图像匹配:针对给定的同一场景不同视点的一对图像,或者固定摄像机捕获的移动场景,自动识别图像的对应点。
光流计算和运动分析:光流是由对象或相机的运动引起的视觉场景中的对象、表面和边缘的明显运动的模式。光流是二维向量场,每个向量对应一个位移向量,指出从一帧到下一帧的点的移动。

2.中级视觉

提供比低级视觉更高水平的抽象。
推断物体的几何形状:几何视觉包括多视图几何、立体视觉和运动恢复结构(Structure from Motion,SfM),SfM从2D图像推断3D场景信息,使3D重建成为可能。
视觉运动捕捉和跟踪:估计2D和3D运动,包括可变形运动和关节运动。需要利用图像分割来查找图像中属于对象的区域来解决“对象如何移动”的问题。

3.高级视觉

基于图像的2D或3D结构的适当的分段表示,使用较低级别视觉提取,高级视觉完成对图像的连贯解释的任务。高级视觉确定场景中存在的对象并解释他们之间的相互关系。
对象识别
场景理解
图像理解和视频理解
如何实现健壮识别(例如从不同视点识别对象)仍是一个具有挑战性的问题。

你可能感兴趣的:(《卷积神经网络与计算机视觉》阅读笔记 CH-1)