[CS131] Lecture 1 Course Introduction

根据 Stanford CS131 课程写的笔记(大部分为 note 翻译),英语水平一般,如有错误请评论指正

Lecture 1 Course Introduction

什么是计算机视觉?

定义

  • 从数字图像中提取信息。这些信息可以随着定义不同而改变,可以是空间测量、现实增强等等
  • 构造一个可以理解图片意思并能应用的算法。

一个艰难的问题

50 年来,计算视觉都没有很好的被解决。
- 可以暴力算出棋类解法,但是无法写诗
- 目标识别比 3D 建模更难
- 计算机视觉难在像素和其意义的不同

理解人类视觉

视觉定义

  • 一个可以提取尽可能多的信息的传感器(眼睛、相机)。这方面相机优于人眼,因为可以通过技术看到更远的地方。
  • 处理器需要处理信息并提取其中的含义。这部分计算机视觉仍然落后于人类。

人类视觉系统

1962 年,科学家发现猫的一些视觉神经只有在特殊的线条位置、特别的角度会产生反映。由此引发了对人类视觉的研究。

人类视觉有多强?

  • 速度
    人类视觉系统效率极高,下图是人类对动物 / 非动物图片反映时间

    [CS131] Lecture 1 Course Introduction_第1张图片

  • 错觉
    人类视觉会因为专注于图片的重要部分而忽视不相关的小细节,如果信号十分接近背景,那就十分难以从图片的相关部分中检测和分割出来。

  • 环境(背景知识)
    人类依赖先前的知识来识别图片的线索(图片的重点、特殊位置会出现什么),这是计算机视觉难以做到的。环境也能帮助大脑补偿阴影中的颜色,但是有时候环境也会愚弄人类。

从大自然中学习

计算机视觉不是完全模仿人脑,然而,神经学家希望能深入了解视觉、语言和其他形式的智力背后的概念。

从图片中提取信息

可以提取两类信息:度量值、语义信息

度量设备

自动驾驶到未知地点需要扫描周围环境确定最佳路径,这时计算机视觉就可以作为度量设备测量环境并创造环境地图。立体摄像头通过三角测量提供深度信息,像眼睛一样。如果我们将视角点提高到包含物体所有面,我们就可以创造物体的 3D 表面,甚至可以通过 Google 图片重构一个纪念碑的 3D 模型。同时,计算机视觉还可以帮助机器理解物品的 3D 几何结构,以便于机器找到好的把握位置。

语义信息来源

在度量信息之上还包含着密集的语义信息。我们可以标记图片中的各种物体,例如:整个风景、人、动作、姿态、脸等等。医学图片也有很多语义信息,例如:通过皮肤细胞的图片来判断是否有癌症。

计算机视觉的应用

以下是一份不完全的计算机视觉应用列表
- 特效:将人类演员的动作表情复制到动画人物上。我们需要检测 3D 空间内演员脸上标记的准确位置,然后将它们重构到人物上,例如:阿凡达。
- 3D 城市模型:用于将无人机拍到的照片整合到一起,创建城市的 3D 模型。
- 风景识别:识别图片的拍摄地点。
- 面部检测:可以帮助相机识别并专注于人脸,拍出更好的照片。
- 光学字符检测:用于读取邮政编码之类,最老的应用之一。
- 移动视觉搜索:加快以图搜图的速度。
- 自动驾驶
- 自助收银
- 基于视觉的互动:Microsoft’s Kinect 和 任天堂的 Wii
- 增强现实: AR(Augmented Reality)
- 虚拟显示:VR(Virtual Reality)

你可能感兴趣的:(计算机视觉)