【波兰】Boguslaw Cyganek 著
疑问:
1)目标检测?目标识别?概念定义及原理
2)如何实现?实现方法
3)如何应用?是否有成熟的框架或者开源项目?
总体感觉,这本书概念很多,很专业的一本图像目标检测与识别的书,很烧脑,很多我基本直接pass,记录下索引,需要时,回头细看。
以下的笔记,仅作为索引。
序
计算机视觉(CV)的关键技术:分类、检测、跟踪和识别。
本书配套的网址:www.wiley.com/go/cyganekobject,包含了代码,彩图,PPT,勘误表等。
第1章 引言
本书的脉络:
1)计算机视觉中的张量方法
2)分类方法和算法
3)目标检测和跟踪
4)目标识别
第2章 计算机视觉中的张量方法
本章的目标是展现用张量进行很好表示和分析的CV和PR的不同领域。
张量的两个最明显的特征是它们关于坐标系的变换规则;另一个是它们的多维性,该特性使得他们成为数据处理的恰当工具。
张量的概念
基于向量空间及其对偶空间的概念如下所述:
三种张量定义:
在数据挖掘中,使用多维阵列命名为张量。
将张量视为多维数据阵列,其中,每个维度分别对应于所述对象或现象的不同特征。
比如:3*4*2维的3D张量。一副简单彩色图像以及它的红绿蓝三个彩色通道,由于图像的每个元素(即一个像素)恰好具有三个独立的坐标,分别是列,行和通道,所以可以将其解释为三维数据阵列或者一个3D张量。对于视频序列,存在第四个自由指标--时间(帧编号)。
张量积:外积、缩并积、内(标量)积,正交张量,Frobenius范数。
张量距离测量:数据点之间的距离。
半度量、度量、大小不变测量、旋转不变测量、形状不变测量、张量距离
欧几里得图像距离和标准化变换。
张量场的滤波:最简单的方法是在每个通道或者分量中分别应用标量滤波。顺序统计滤波器和各向异性扩散滤波器。
采用结构张量观察图像
二维图像空间中的结构张量、空时结构张量、多通道和尺度空间结构张量、扩展结构张量
张量的特征分解和表示
张量不变量等等。
非常多的数学概念,我感觉要把线性代数拿出来好好复习一下。
第3章 分类方法和算法
分类是基于对目标的观察给目标命名的过程。
分类框架
在分类过程中,假设将多个目标分配到C个类之一。分类器、判别函数、最大成员规则。
用于目标识别的子空间方法
主成分分析(PCA):是数据分析中最重要的方法之一,其根源于统计学。
子空间模式分类:PCA可以用于降维和输入数据滤波,其也可以用于多个模式的直接分类。
目标识别的统计公式
参数化和非参数化方法、概率框架、贝叶斯决策规则(基于概率理论提供了模式识别中最重要的推理方法之一)、最大后验分类方案、
二元分类问题:在计算机视觉中一个常遇见的分类任务是二元分类,例如在CV中从背景中区分出一个物体。
参数化方法----混合高斯、卡尔曼滤波器(操作可以分为两个阶段:时间更新阶段(预测器);测量更新阶段(校正器))。
非参数化方法----基于直方图的技术、比较直方图、多维直方图的实现、Parzen方法(基于核的方法、最近邻方法)。
均值移位方法----均值移位是一种追踪分布模式(即最大概率密度位置)的非参数化方法。多特征跟踪、多目标跟踪。
神经网络----人工神经网络(ANN)背后的基本思想是产生计算机模型,这些模型在某种意义上模仿存在于大脑中的生物神经网络的行为。
概率神经网络(PNN):遵循于贝叶斯最大后验分类方法式以及Parzen核PDF估计式的分类方法。是经常用于多类分类问题方法。
汉明神经网络(HNN):可以进行模式分类,其特征可以用汉明距离来测量。直接实现了最近邻分类规则。
HNN的自联想版本包含4个神经元层,而异联想版本包含了5个神经元层。属于递归NN的范畴。
形态神经网络(MNN):构成了有趣甚至令人惊奇的一组神经网络,展现出了很多可取的属性,诸如高模式容量、耐受腐蚀及膨胀类型的噪声以及只需一步获得MNN响应的事实。
视觉模式识别中的核:核函数、核的实现
数据聚类:数据聚类的过程旨在发现数据之间的内部结构和关系。聚类的作用是将输入数据分为若干数据集,称为数据分割,其在每个分割内展现了共同的属性。
支持向量域描述:支持向量机(SVM)是一种相对新型的分类器。
第4章 目标检测和跟踪
致力于介绍目标检测和跟踪中的部分选定问题。这种情况下目标的特性是它们诸如色彩、形状、纹理或其他特质的显著特征。
问题是要辨别图像是否包含已定义的目标,如果包含,那么就指出它在图像中的位置。
直接像素分类:
基于颜色特性将目标从场景中分割出来。通过直接将像素分为目标和背景两类来实现。通过提供所允许的一组颜色或颜色范围来定义目标或可能属于目标的像素。另一方面,也可以明确定义背景,或者可以将背景理解为“所有其他值”。
基准数据采集;实例研究----人类皮肤检测;实例研究----基于像素的路标检测;采用分类器集成的基于像素的图像分割。
基本形状检测:
线、圆、椭圆等基本形状的检测属于CV的基本任务之一。基本形状是那些可以用某一数学模型进行参数化描述的形状,对于它们的检测,最流行的方法是Hough的方法。
线段的检测。凸形状的UpWrite检测。
图形检测:
从特征点进行的规则形状检测;显著点的聚类;自适应窗生长方法;图形验证。
实例研究----路标检测系统。
实例研究----路标跟踪和识别。
如前所述,目标检测意味着要找到目标在图像中的位置,并且找到它存在的确定性。目标跟踪意味着要找到该特定目标在一系列图像中的位置。
本节给出了在彩色视频中进行路标识别的系统,处理包括两个阶段:采用CamShift方法的模糊版本进行跟踪,随后采用形态神经网络MNN进行分类。
实例研究----用于目标跟踪的框架。
行人检测:图像预处理-->前景分割-->目标分类-->验证或细化-->跟踪--
第5章 目标识别
主要采用面向汽车系统的例子和实现对各种目标识别方法进行讨论。
从张量相位直方图和形态尺度空间进行的识别
基于不变量的识别:实例研究----采用仿射不变矩的象形图识别,基于统计不变量的路标识别方法。
基于模板的识别:用于路标识别的模板匹配;用于模板匹配的专用距离;采用对数极坐标和尺度空间进行的识别。
从可变形模型进行的识别
分类器集成
实例研究----用于从变形原型中进行路标识别的分类器集成。
基于张量分解的识别:
实例研究----采用张量分解方法进行的手写数字识别
用于驾驶员状态监控的人眼识别:
目标分类识别:
简单讨论解决大型图像数据库中目标分类的一般问题的最新方法。