[深度学习基础] 深度学习基础及数学原理

图像分类 (image classification) 问题是指, 假设给定一系列离散的类别(categories)(如猫, 狗, 飞机, 货车, ...), 对于给定的图像, 从这些类别中赋予一个作为它的标记 (label). 图像分类问题是计算机视觉领域的核心问题之一, 也与目标检测 (object detection), 目标分割 (object segmentation) 等其他计算机视觉领域核心问题有密切的联系.

当今, 我们正处在信息时代和数字时代, 充斥着大量的数字图像, 诸多的实际应用场景需要计算机能正确和高效地理解图像, 图像分类正是理解图像的基础. 人类从图像中进行目标识别非常容易, 但是计算机看到的图像是一组 0 至 255 之间的数字, 语义鸿沟 (semantic gap) 的存在使图像识别成为一项极具挑战性的任务. 除此之外, 拍摄视角, 光照, 背景, 遮挡等因素可能使具有相同类别的图像之间像素值会十分不相似而不同类别的图像之间像素值很相似, 这使得我们不能通过显式地指定若干规则来对图像中的目标进行识别. 因此, 我们借鉴人类的学习过程, 给定很多的训练数据, 让计算机从训练数据中学习如何做分类, 这叫做数据驱动过程 (data-driven approach).


使用深度学习中卷积神经网络 (convolutional neuralnetwork, CNN) 是现在进行图像识别的主流方法, 目前效果最佳的卷积神经网络做图像分类的准确率已经超过人. 除图像分类外, 卷积神经网络还广泛应用于很多领域, 如目标识别, 图像分割, 视频分类, 场景分类, 人脸识别, 深度估计, 从图像中生成语言描述等. 


本文将如下安排: 第 2 章将简述图像识别问题的挑战以及为了应对挑战采用的数据驱动过程; 第 3 章将以 softmax 线性分类器为例介绍数据驱动过程的各个流程; 第 4 章使用神经网络扩展 softmax 线性分类器以解决非线性问题; 第 5 章讨论卷积神经网络的组成及学习方法; 第 6 章将讨论一些具体实现细节.


本文共计54页, 内容是之前几篇深度学习基础博客的总结以及参考文献罗列. 本文遵从CC BY-SA 3.0协议, 可在如下链接免费下载. 

深度学习基础及数学原理.pdf

你可能感兴趣的:(CNN,Basis)