bluecol

图像处理与计算机视觉基础，经典以及最近发展

本文的安排如下。第一部分是绪论。第二部分是图像处理中所需要用到的理论基础，主要是这个领域所涉及到的一些比较好的参考书籍。第三部分是计算机视觉中所涉及到的信号处理和模式识别文章。由于图像处理与图像分析太难区分了，第四部分集中讨论了它们。第五部分是计算机视觉部分。最后是小结。

Boosting
Clustering
Compressive Sensing
Decision Trees
Dynamical Programming
Expectation Maximization
Graphical Models
Hidden Markov Model
Independent Component Analysis
Information Theory
Kalman Filter
Pattern Recognition and Machine Learning
Principal Component Analysis
Random Forest
RANSAC
Singular Value Decomposition
Sparse Representation
Wavelet

图像处理与分析

Bilateral Filter
Color
Compression and Encoding
Contrast Enhancement
Deblur Restoration
Dehazing and Defog
Denoising
Edge Detection
Graph Cut
Hough Transform
Image Interpolation
Image Matting
Image Modeling
Image Quality Assessment
Image Registration
Image Retrieval
Image Segmentation
Level Set
Pyramid
Radon Transform
Scale Space
Snake
Super Resolution
Thresholding
Watershed

计算机视觉

Active Appearance Models
Active Shape Models
Background Modeling and Subtraction
Bag of Words
BRIEF
Camera Calibration and Stereo Vision
Color and Histogram Feature
Deformable Part Model
Distance Transformations
Face Detection
Face Recognition
FAST
Feature Extraction
Feature Matching
Harris
Histograms of Oriented Gradients
Image Distance
Image Stitching
KLT
Local Binary Pattern
Low-level Vision
Mean Shift
MSER
Object Detection
Object Tracking
OCR
Optical Flow
Particle Filter
Pedestrian and Human detection
Scene Classification
Shadow Detection
Shape
SIFT
SLAM
Texture Feature
TLD
Video Surveillance
Viola-Jones

结束语

绪论

为什么要写这篇文章

从2002年到现在，接触图像快十年了。虽然没有做出什么很出色的工作，不过在这个领域摸爬滚打了十年之后，发现自己对图像处理和计算机视觉的感情越来越深厚。下班之后看看相关的书籍和文献是一件很惬意的事情。平常的一大业余爱好就是收集一些相关的文章，尤其是经典的文章，到现在我的电脑里面已经有了几十G的文章。写这个文档的想法源于我前一段时间整理文献时的一个突发奇想，既然有这个多文献，何不整理出其中的经典，抓住重点来阅读，同时也可以共享给大家。于是当时即兴写了一个《图像处理与计算机视觉中的经典论文》。现在来看，那个文档写得很一般，所共享的论文也非常之有限。就算如此，还是得到了一些网友的夸奖，心里感激不尽。因此，一直想下定决心把这个工作给完善，力求做到尽量全面。

本文是对现有的图像处理和计算机视觉的经典书籍(后面会有推荐)的一个补充。一般的图像处理书籍都是介绍性的介绍某个方法，在每个领域内都会引用几十上百篇参考文献。有时候想深入研究这个领域的时候却发现文献太多，不知如何选择。但实际上在每个领域都有那么三五篇抑或更多是非读不可的经典文献。这些文献除了提出了很经典的算法，同时他们的Introduction和Related Work也是对所在的领域很好的总结。读通了这几篇文献也就等于深入了解了这个领域，比单纯的看书收获要多很多。写本文的目的就是想把自己所了解到的各个领域的经典文章整理出来，不用迷失在参考文献的汪洋大海里。

图像处理和计算机视觉的分类

按照当前流行的分类方法，可以分为以下三部分：

图像处理：对输入的图像做某种变换，输出仍然是图像，基本不涉及或者很少涉及图像内容的分析。比较典型的有图像变换，图像增强，图像去噪，图像压缩，图像恢复，二值图像处理等等。基于阈值的图像分割也属于图像处理的范畴。一般处理的是单幅图像。
图像分析：对图像的内容进行分析，提取有意义的特征，以便于后续的处理。处理的仍然是单幅图像。
计算机视觉：对图像分析得到的特征进行分析，提取场景的语义表示，让计算机具有人眼和人脑的能力。这时处理的是多幅图像或者序列图像，当然也包括部分单幅图像。

关于图像处理，图像分析和计算机视觉的划分并没有一个很统一的标准。一般的来说，图像处理的书籍总会或多或少的介绍一些图像分析和计算机视觉的知识，比如冈萨雷斯的数字图像处理。而计算机视觉的书籍基本上都会包括图像处理和图像分析，只是不会介绍的太详细。其实图像处理，图像分析和计算机视觉都可以纳入到计算机视觉的范畴：图像处理->低层视觉（low level vision），图像分析->中间层视觉（middle level vision），计算机视觉->高层视觉（high level vision）。这是一般的计算机视觉或者机器视觉的划分方法。在本文中，仍然按照传统的方法把这个领域划分为图像处理，图像分析和计算机视觉。

图像处理和计算机视觉开源库以及编程语言选择

目前在图像处理中有两种最重要的语言：c/c++和matlab。它们各有优点：c/c++比较适合大型的工程，效率较高，而且容易转成硬件语言，是工业界的默认语言之一。而matlab实现起来比较方便，适用于算法的快速验证，而且matlab有成熟的工具箱可以使用，比如图像处理工具箱，信号处理工具箱。它们有一个共同的特点：开源的资源非常多。在学术界matlab使用的非常多，很多作者给出的源代码都是matlab版本。最近由于OpenCV的兴起和不断完善，c/c++在图像处理中的作用越来越大。总的来说，c/c++和matlab都必须掌握，最好是精通，当然侧重在c/c++上对找工作会有很大帮助。

至于开源库，个人非常推荐OpenCV，主要有以下原因：

简单易入手。OpenCV进入OpenCV2.x的时代后，使用起来越来越简单,接口越来越傻瓜化，越来越matlab化。只要会imread,imwrite,imshow和了解Mat的基本操作就可以开始入手了。
OpenCV有一堆图像处理和计算机视觉的大牛在维护，bug在逐步减少，每个新的版本都会带来不同的惊喜。而且它已经或者逐步在移植到不懂的平台,并提供了对Python的很好的支持。
OpenCV上可以尝试各种最新以及成熟的技术，而不需要自己从头去写，比如人脸检测（Harr，LBP），DPM（Latent SVM），高斯背景模型，特征检测，聚类，hough变换等等。而且它还支持各种机器学习方法（SVM，NN，KNN，决策树，Boosting等），使用起来很简单。
文档内容丰富，并且给出了很多示例程序。当然也有一些地方文档描述不清楚，不过看看代码就很清楚了。
完全开源。可以从中间提取出任何需要的算法。

从学校出来后，除极少数会继续在学术圈里，大部分还是要进入工业界。现在在工业界，c/c++仍是主流，很多公司都会优先考虑熟悉或者精通OpenCV的。事实上，在学术界，现在OpenCV也大有取代matlab之势。以前的demo或者source code，很多作者都愿意给出matlab版本的，然后别人再呼哧呼哧改成c版本的。现在作者干脆给出c/c++版本，或者自己集成到OpenCV中去，这样能快速提升自己的影响力。

如果想在图像处理和计算机视觉界有比较深入的研究，并且以后打算进入这个领域工作的话，建议把OpenCV作为自己的主攻方向。如果找工作的时候敢号称自己精通OpenCV的话，肯定可以找到一份满意的工作。

本文的特点和结构，以及适合的对象

在本文面向的对象是即将进入或者刚刚进入图像处理和计算机视觉领域的童鞋，可以在阅读书籍的同时参阅这些文献，能对书中提到的算法有比较深刻的理解。由于本文涉及到的范围比较广，如果能对计算机视觉的资深从业者也有一定的帮助，我将倍感欣慰。为了不至太误人子弟，每一篇文章都或多或少的看了一下，最不济也看了摘要(这句话实在整理之前写的，实际上由于精力有限，好多文献都只是大概扫了一眼，然后看了看google的引用数，一般在1000以上就放上来了，把这些文章细细品味一遍也是我近一两年之内的目标)。在成文的过程中，我本人也受益匪浅，希望能对大家也有所帮助。

由于个人精力和视野的关系，有一些我未涉足过的领域不敢斗胆推荐，只是列出了一些引用率比较高的文章，比如摄像机标定和立体视觉。不过将来，由于工作或者其他原因，这些领域也会接触到，我会逐步增减这些领域的文章。尽管如此，仍然会有疏漏，忘见谅。同时文章的挑选也夹带了一些个人的喜好，比如我个人比较喜欢low level方向的，尤其是IJCV和PAMI上面的文章，因此这方面也稍微多点，希望不要引起您的反感。如果有什么意见或者建议，欢迎mail我。文章和资源我都会在我的CSDN blog和sina ishare同步更新。

图像处理与计算机视觉相关的书籍

数学

我们所说的图像处理实际上就是数字图像处理，是把真实世界中的连续三维随机信号投影到传感器的二维平面上，采样并量化后得到二维矩阵。数字图像处理就是二维矩阵的处理，而从二维图像中恢复出三维场景就是计算机视觉的主要任务之一。这里面就涉及到了图像处理所涉及到的三个重要属性：连续性，二维矩阵，随机性。所对应的数学知识是高等数学（微积分），线性代数（矩阵论），概率论和随机过程。这三门课也是考研的三门课，构成了图像处理和计算机视觉最基础的数学基础。如果想要更进一步，就要到网上搜搜林达华推荐的数学数目了。

信号处理

图像处理其实就是二维和三维信号处理，而处理的信号又有一定的随机性，因此经典信号处理和随机信号处理都是图像处理和计算机视觉中必备的理论基础。

经典信号处理
- 信号与系统(第2版) Alan V.Oppenheim etc.
- 离散时间信号处理(第2版) A.V.Oppenheim etc.
随机信号处理
- 统计信号处理基础: 估计与检测理论 Steven M.Kay etc.
- 自适应滤波器原理(第4版) Simon Haykin etc.
小波变换
- 信号处理的小波导引:稀疏方法 Tephane Malla etc.
信息论
- 信息论基础 Thomas M.Cover etc.

模式识别

Pattern Recognition and Machine Learning Bishop: Christopher M. Springer
模式识别: 西奥多里德斯著
Pattern Classification: Richard O. Duda etc.
Statistical Pattern Recognition: Andrew R. Webb etc.

图像处理与计算机视觉的书籍推荐

图像处理，分析与机器视觉: Sonka etc.
Image Processing, Analysis and Machine Vision

这本书是图像处理与计算机视觉里面比较全的一本书了，几乎涵盖了图像视觉领域的各个方面。中文版的个人感觉也还可以，值得一看。
数字图像处理: 冈萨雷斯等著
Digital Image Processing

数字图像处理永远的经典，现在已经出到了第三版，相当给力。我的导师曾经说过，这本书写的很优美，对写英文论文也很有帮助，建议购买英文版的。
计算机视觉：理论与算法: Richard Szeliski
Computer Vision: Theory and Algorithm

微软的Szeliski写的一本最新的计算机视觉著作。内容非常丰富，尤其包括了作者的研究兴趣，比如一般的书里面都没有的Image Stitching和Image Matting等。这也从另一个侧面说明这本书的通用性不如Sonka的那本。不过作者开放了这本书的电子版，可以有选择性的阅读。
Multiple View Geometry in Computer Vision: Harley etc.

引用达一万多次的经典书籍了。第二版到处都有电子版的。第一版曾出过中文版的，后来绝版了。网上也可以找到电子版。
计算机视觉：一种现代方法 D.A. Forsyth etc.
Computer Vision: A Modern Approach

MIT的经典教材。虽然已经过去十年了，还是值得一读。第二版已经在今年（2012年）出来了，在iask上可以找到非常清晰的版本，将近800页，补充了很多内容。
Machine vision: Theory, Algorithms, Practicalities: Davies etc.

为数不多的英国人写的书，偏向于工业。
数字图像处理: Pratt etc.
Digital Image Processing

写作风格独树一帜，也是图像处理领域很不错的一本书。网上也可以找到非常清晰的电子版。

小结

罗嗦了这么多，实际上就是几个建议：

基础书千万不可以扔，也不能低价处理给同学或者师弟师妹。不然到时候还得一本本从书店再买回来的。钱是一方面的问题，对着全新的书看完全没有看自己当年上过的课本有感觉。
遇到有相关的课，果断选修或者蹭之，比如随机过程，小波分析，模式识别，机器学习，数据挖掘，现代信号处理甚至泛函。多一些理论积累对将来科研和工作都有好处。
资金允许的话可以多囤一些经典的书，有的时候从牙缝里面省一点都可以买一本好书。不过千万不要像我一样只囤不看。

计算机视觉中的信号处理与模式识别

从本章开始，进入本文的核心章节。一共分三章，分别讲述信号处理与模式识别，图像处理与分析以及计算机视觉。与其说是讲述，不如说是一些经典文章的罗列以及自己的简单点评。与前一个版本不同的是，这次把所有的文章按类别归了类，并且增加了很多文献。分类的时候并没有按照传统的分类方法，而是划分成了一个个小的门类，比如SIFT，Harris都作为了单独的一类，虽然它们都可以划分到特征提取里面去。这样做的目的是希望能突出这些比较实用且比较流行的方法。为了以后维护的方法，按照字母顺序排的序。

本章的下载地址在：http://iask.sina.com.cn/u/2252291285/ish?folderid=868770

1. Boosting

Boosting是最近十来年来最成功的一种模式识别方法之一，个人认为可以和SVM并称为模式识别双子星。它真正实现了“三个臭皮匠，赛过诸葛亮”。只要保证每个基本分类器的正确率超过50%，就可以实现组合成任意精度的分类器。这样就可以使用最简单的线性分类器。Boosting在计算机视觉中的最成功的应用无疑就是Viola-Jones提出的基于Haar特征的人脸检测方案。听起来似乎不可思议，但Haar+Adaboost确实在人脸检测上取得了巨大的成功，已经成了工业界的事实标准，并且逐步推广到其他物体的检测。

Rainer Lienhart在2002 ICIP发表的这篇文章是Haar+Adaboost的最好的扩展，他把原始的两个方向的Haar特征扩展到了四个方向，他本人是OpenCV积极的参与着。现在OpenCV的库里面实现的Cascade Classification就包含了他的方法。这也说明了盛会（如ICIP，ICPR，ICASSP）也有好文章啊，只要用心去发掘。

[1997]          A Decision - Theoretic Generalization of Online Learning and an Application to Boosting
[1998]          Boosting the margin A new explanation for the effectiveness of voting methods
[2002 ICIP TR]  Empirical Analysis of Detection Cascades of Boosted Classifiers for Rapid ObjectDetection
[2003]          The Boosting Approach to Machine Learning An Overview
[2004 IJCV]     Robust Real-time Face Detection

2. Clustering

聚类主要有K均值聚类，谱聚类和模糊聚类。在聚类的时候如果自动确定聚类中心的数目是一个一直没有解决的问题。不过这也很正常，评价标准不同，得到的聚类中心数目也不一样。不过这方面还是有一些可以参考的文献，在使用的时候可以基于这些方法设计自己的准则。关于聚类，一般的模式识别书籍都介绍的比较详细，不过关于cluster validity讲的比较少，可以参考下面的文章看看。

[1989 PAMI]  Unsupervised Optimal Fuzzy Clustering
[1991 PAMI]  A Validity Measure for Fuzzy Clustering
[1995 PAMI]  On Cluster Validity for the Fuzzy C-means Model
[1998]       Some New Indexes of Cluster Validity
[1999 ACM]   Data Clustering A Review
[1999 JIIS]  On Clustering Validation Techniques
[2001]       Estimating the Number of Clusters in a Dataset via the Gap Statistic
[2001 NIPS]  On Spectral Clustering
[2002]       A Stability-based Method for Discovering Structure in Clustered Data
[2007]       A Tutorial on Spectral Clustering

3. Compressive Sensing

最近大红大紫的压缩感知理论。

[2006 TIT]  Compressed Sensing
[2008 SPM]  An Introduction to Compressive Sampling
[2011 TSP]  Structured Compressed Sensing From Theory to Applications

4. Decision Trees

对决策树感兴趣的同学这篇文章是非看不可的了。

[1986]  Introduction to Decision Trees

5. Dynamical Programming

动态规划也是一个比较使用的方法，这里挑选了一篇PAMI的文章以及一篇Book Chapter

[1990 PAMI]     Using Dynamic Programming for Solving Variational Problems in Vision
[Book Chapter]  Dynamic Programming

6. Expectation Maximization

EM是计算机视觉中非常常见的一种方法，尤其是对参数的估计和拟合，比如高斯混合模型。EM和GMM在Bishop的PRML里单独的作为一章，讲的很不错。关于EM的tutorial，网上也可以搜到很多。

[1977]      Maximum Likelihood from Incomplete Data via the EM Algorithm
[1996 SPM]  The Expectation-maximzation Algorithm

7. Graphical Models

伯克利的乔丹大仙的Graphical Model，可以配合这Bishop的PRML一起看。

[1999 ML]  An Introduction to Variational Methods for Graphical Models

8. Hidden Markov Model

HMM在语音识别中发挥着巨大的作用。在信号处理和图像处理中也有一定的应用。最早接触它是跟小波和检索相关的，用HMM来描述小波系数之间的相互关系，并用来做检索。这里提供一篇1989年的经典综述，几篇HMM在小波，分割，检索和纹理上的应用以及一本比较早的中文电子书，现在也不知道作者是谁，在这里对作者表示感谢。

[1989 ]     A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition
[1998 TSP]  Wavelet-based Statistical Signal Processing Using Hidden Markov Models
[2001 TIP]  Multiscale Image Segmentation Using Wavelet-domain Hidden Markov Models
[2002 TMM]  Rotation Invariant Texture Characterization and Retrieval Using Steerable Wavelet-domain Hidden Markov Models
[2003 TIP]  Wavelet-based Texture Analysis and Synthesis Using Hidden Markov Models

9. Independent Component Analysis

同PCA一样，独立成分分析在计算机视觉中也发挥着重要的作用。这里介绍两篇综述性的文章，最后一篇是第二篇的TR版本，内容差不多，但比较清楚一些。

[1999]     Independent Component Analysis a Tutorial
[2000 NN]  Independent Component Analysis Algorithms and Applications
[2000]     Independent Component Analysis Algorithms and Applications

10. Information Theory

计算机视觉中的信息论。这方面有一本很不错的书Information Theory in Computer Vision and Pattern Recognition。这本书有电子版，如果需要用到的话，也可以参考这本书。

[1995 NC]  An Information-Maximization Approach to Blind Separation and Blind Deconvolution
[2010]     An Information Theory Perspective on Computational Vision

11. Kalman Filter

这个话题在张贤达老师的现代信号处理里面讲的比较深入，还给出了一个有趣的例子。这里列出了Kalman的最早的论文以及几篇综述，还有Unscented Kalman Filter。同时也有一篇Kalman Filter在跟踪中的应用以及两本电子书。

[1960 Kalman]    A New Approach to Linear Filtering and Prediction Problems Kalman
[1970]           Least-squares Estimation from Gauss to Kalman
[1997 SPIE]      A New Extension of the Kalman Filter to Nonlinear System
[2000]           The Unscented Kalman Filter for Nonlinear Estimation
[2001 Siggraph]  An Introduction to the Kalman Filter Full
[2003]           A Study of the Kalman Filter Applied to Visual Tracking

12. Pattern Recognition and Machine Learning

模式识别名气比较大的几篇综述

[2000 PAMI]  Statistical Pattern Recognition: a Review
[2004 CSVT]  An Introduction to Biometric Recognition
[2010 SPM]   Machine Learning in Medical Imaging

13. Principal Component Analysis

著名的PCA，在特征的表示和特征降维上非常有用。

[2001 PAMI]     PCA versus LDA
[2001]          Nonlinear Component Analysisas a Kernel Eigenvalue Problem
[2002]          A Tutorial on Principal Component Analysis
[2004 PAMI]     Two-dimensional PCA a New Approach to Appearance-based Face Representation and Recognition
[2009]          A Tutorial on Principal Component Analysis
[2011]          Robust Principal Component Analysis
[Book Chapter]  Singular Value Decomposition and Principal Component Analysis

14. Random Forest

[2001 ML]  Random Forests

15. RANSAC

随机抽样一致性方法，与传统的最小均方误差等完全是两个路子。在Sonka的书里面也有提到。

[2009 BMVC]  Performance Evaluation of RANSAC Family

16. Singular Value Decomposition

对于非方阵来说，就是SVD发挥作用的时刻了。一般的模式识别书都会介绍到SVD。这里列出了K-SVD以及一篇BookChapter

[2006 TSP]      K-SVD An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation
[Book Chapter]  Singular Value Decomposition and Principal Component Analysis

17. Sparse Representation

这里主要是Proceeding of IEEE上的几篇文章

[2009 PAMI]   Robust Face Recognition via Sparse Representation
[2009 PIEEE]  Image Decomposition and Separation Using Sparse Representations An Overview
[2010 PIEEE]  Dictionaries for Sparse Representation Modeling
[2010 PIEEE]  It's All About the Data
[2010 PIEEE]  Matrix Completion With Noise
[2010 PIEEE]  On the Role of Sparse and Redundant Representations in Image Processing
[2010 PIEEE]  Sparse Representation for Computer Vision and Pattern Recognition
[2011 SPM]    Directionary Learning

18. Support Vector Machines

[1998]  A Tutorial on Support Vector Machines for Pattern Recognition
[2004]  LIBSVM A Library for Support Vector Machines

19. Wavelet

在小波变换之前，时频分析的工具只有傅立叶变换。众所周知，傅立叶变换在时域没有分辨率，不能捕捉局部频域信息。虽然短时傅立叶变换克服了这个缺点，但只能刻画恒定窗口的频率特性，并且不能很好的扩展到二维。小波变换的出现很好的解决了时频分析的问题，作为一种多分辨率分析工具，在图像处理中得到了极大的发展和应用。在小波变换的发展过程中，有几个人是不得不提的，Mallat， Daubechies，Vetteri， M.N.Do， Swelden，Donoho。Mallat和Daubechies奠定了第一代小波的框架，他们的著作更是小波变换的必读之作，相对来说，小波十讲太偏数学了，比较难懂。而Mallat的信号处理的小波导引更偏应用一点。Swelden提出了第二代小波，使小波变换能够快速方便的实现，他的功劳有点类似于FFT。而Donoho，Vetteri，Mallat及其学生们提出了Ridgelet, Curvelet, Bandelet,Contourlet等几何小波变换，让小波变换有了方向性，更便于压缩，去噪等任务。尤其要提的是M.N.Do，他是一个越南人，得过IMO的银牌，在这个领域著作颇丰。我们国家每年都有5个左右的IMO金牌，希望也有一两个进入这个领域，能够也让我等也敬仰一下。而不是一股脑的都进入金融，管理这种跟数学没有多大关系的行业，呵呵。很希望能看到中国的陶哲轩，中国的M.N.Do。

说到小波，就不得不提JPEG2000。在JPEG2000中使用了Swelden和Daubechies提出的用提升算法实现的9/7小波和5/3小波。如果对比JPEG和JPEG2000，就会发现JPEG2000比JPEG在性能方面有太多的提升。本来我以为JPEG2000的普及只是时间的问题。但现在看来，这个想法太Naive了。现在已经过去十几年了，JPEG2000依然没有任何出头的迹象。不得不说，工业界的惯性力量太强大了。如果以前的东西没有什么硬伤的话，想改变太难了。不巧的是，JPEG2000的种种优点在最近的硬件上已经有了很大的提升。压缩率？现在动辄1T，2T的硬盘，没人太在意压缩率。渐进传输？现在的网速包括无线传输的速度已经相当快了，渐进传输也不是什么优势。感觉现在做图像压缩越来越没有前途了，从最近的会议和期刊文档也可以看出这个趋势。不管怎么说，JPEG2000的Overview还是可以看看的。

[1989 PAMI]  A Theory for Multi-resolution Signal Decomposition: the Wavelet Representation
[1996 PAMI]  Image Representation Using 2D Gabor Wavelet
[1998 ]      Factoring Wavelet Transformation to Lifting Steps
[1998]       The Lifting Scheme a Construction of Second Generation Wavelets
[2000 TCE]   The JPEG2000 Still Image Coding System an Overview
[2002 TIP]   The Curvelet Transform for Image Denoising
[2003 TIP]   Gray and Color Image Contrast Enhancement by the Curvelet Transform
[2003 TIP]   Mathematical Properties of the JPEG2000 Wavelet Filters
[2003 TIP]   The Finite Ridgelet Transform for Image Representation
[2005 TIP]   Sparse Geometric Image Representations with Bandelets
[2005 TIP]   The Contourlet Transform an Efficient Directional Multiresolution Image Representation
[2010 SPM]   The Curvelet Transform

图像处理与分析

本章主要讨论图像处理与分析。虽然后面计算机视觉部分的有些内容比如特征提取等也可以归结到图像分析中来，但鉴于它们与计算机视觉的紧密联系，以及它们的出处，没有把它们纳入到图像处理与分析中来。同样，这里面也有一些也可以划归到计算机视觉中去。这都不重要，只要知道有这么个方法，能为自己所用，或者从中得到灵感，这就够了。

本章的下载地址在：http://iask.sina.com.cn/u/2252291285/ish?folderid=868771

1. Bilateral Filter

Bilateral Filter俗称双边滤波器是一种简单实用的具有保持边缘作用的平缓滤波器，由Tomasi等在1998年提出。它现在已经发挥着重大作用，尤其是在HDR领域。

[1998 ICCV]  Bilateral Filtering for Gray and Color Images
[2008 TIP]   Adaptive Bilateral Filter for Sharpness Enhancement and Noise Removal

2. Color

如果对颜色的形成有一定的了解，能比较深刻的理解一些算法。这方面推荐冈萨雷斯的数字图像处理中的相关章节以及Sharma在Digital Color Imaging Handbook中的第一章“Colorfundamentals for digital imaging”。跟颜色相关的知识包括Gamma，颜色空间转换，颜色索引以及肤色模型等，这其中也包括著名的EMD。

[1991 IJCV]  Color Indexing
[2000 IJCV]  The Earth Mover's Distance as a Metric for Image Retrieval
[2001 PAMI]  Color Invariance
[2002 IJCV]  Statistical Color Models with Application to Skin Detection
[2003]       A Review of RGBcolor spaces
[2007 PR]    A Survey of Skin-color Modeling and Detection Methods

3.Compression and Encoding

个人以为图像压缩编码并不是当前很热的一个话题，原因前面已经提到过。这里可以看看一篇对编码方面的展望文章

[2005 IEEE]  Trends and Perspectives in Image and Video Coding

4.Contrast Enhancement

对比度增强一直是图像处理中的一个恒久话题，一般来说都是基于直方图的，比如直方图均衡化。冈萨雷斯的书里面对这个话题讲的比较透彻。这里推荐几篇个人认为不错的文章。

[2002 IJCV]  Vision and theAtmosphere
[2003 TIP]   Gray and colorimage contrast enhancement by the curvelet transform
[2006 TIP]   Gray-levelgrouping (GLG) an automatic method for optimized image contrastenhancement-part II
[2006 TIP]   Gray-levelgrouping (GLG) an automatic method for optimized image contrastEnhancement-part I
[2007 TIP]   TransformCoefficient Histogram-Based Image Enhancement Algorithms Using Contrast Entropy
[2009 TIP]   A HistogramModification Framework and Its Application for Image Contrast Enhancement

5. Deblur (Restoration)

图像恢复或者图像去模糊一直是一个非常难的问题，尤其是盲图像恢复。港中文的Jiaya Jia老师在这方面做的不错，他在主页也给出了exe。这方面的内容也建议看冈萨雷斯的书。这里列出了几篇口碑比较好的文献，包括古老的Richardson-Lucy方法，几篇盲图像恢复的综述以及最近的几篇文章，尤以Fergus和Jiaya Jia的为经典。

[1972]           Bayesian-BasedIterative Method of Image Restoration
[1974]           An Iterative Techniquefor the Rectification of Observed Distributions
[1990 IEEE]      Iterativemethods for image deblurring
[1996 SPM]       Blind Image Deconvolution
[1997 SPM]       Digital Image Restoration
[2005]           Digital ImageReconstruction - Deblurring and Denoising
[2006 Siggraph]  RemovingCamera Shake from a Single Photograph
[2008 Siggraph]  High-quality Motion Deblurring from a Single Image
[2011 PAMI]      Richardson-Lucy Deblurring for Scenes under a Projective Motion Path

6. Dehazing and Defog

严格来说去雾化也算是图像对比度增强的一种。这方面最近比较好的工作就是He Kaiming等提出的Dark Channel方法。这篇论文也获得了2009的CVPR 最佳论文奖。2003年的广东高考状元已经于2011年从港中文博士毕业加入MSRA（估计当时也就二十五六岁吧），相当了不起。

[2008 Siggraph]  SingleImage Dehazing
[2009 CVPR]      Single ImageHaze Removal Using Dark Channel Prior
[2011 PAMI]      Single ImageHaze Removal Using Dark Channel Prior

7. Denoising

图像去噪也是图像处理中的一个经典问题，在数码摄影中尤其重要。主要的方法有基于小波的方法和基于偏微分方程的方法。

[1992 SIAM]  Imageselective Smoothing and Edge Detection by Nonlinear Diffusion. II
[1992 SIAM]  Imageselective Smoothing and Edge Detection by Nonlinear Diffusion
[1992]       Nonlinear Total Variation Based Noise Removal Algorithms
[1994 SIAM]  Signal and Image Restoration Using Shock Filters and Anisotropic Diffusion
[1995 TIT]   De-noising by Soft-thresholding
[1998 TIP]   Orientation Diffusions
[2000 TIP]   Adaptive Wavelet Thresholding for Image Denoising and Compression
[2000 TIP]   Fourth-order Partial Differential Equations for Noise Removal
[2001]       Denoising Through Wavelet Shrinkage
[2002 TIP]   The Curvelet Transform for Image Denoising
[2003 TIP]   Noise Removal Using Fourth-order Partial Differential Equation with Applications to Medical Magnetic Resonance Images in Space and Time
[2008 PAMI]  Automatic Estimation and Removal of Noise from a Single Image
[2009 TIP]   Is Denoising Dead

8. Edge Detection

边缘检测也是图像处理中的一个基本任务。传统的边缘检测方法有基于梯度算子，尤其是Sobel算子，以及经典的Canny边缘检测。到现在，Canny边缘检测及其思想仍在广泛使用。关于Canny算法的具体细节可以在Sonka的书以及canny自己的论文中找到，网上也可以搜到。最快最直接的方法就是看OpenCV的源代码，非常好懂。在边缘检测方面，Berkeley的大牛J Malik和他的学生在2004年的PAMI提出的方法效果非常好，当然也比较复杂。在复杂度要求不高的情况下，还是值得一试的。MIT的Bill Freeman早期的代表作Steerable Filter在边缘检测方面效果也非常好，并且便于实现。这里给出了几篇比较好的文献，包括一篇最新的综述。边缘检测是图像处理和计算机视觉中任何方向都无法逃避的一个问题，这方面研究多深都不为过。

[1980]         Theory of Edge Detection
[1983 Thesis]  Find edge
[1986 PAMI]    A Computational Approach to Edge Detection
[1990 PAMI]    Scale-space and Edge Detection Using Anisotropic Diffusion
[1991 PAMI]    The Design and Use of Steerable Filters
[1995 PR]      Multi-resolution Edge Detection Techniques
[1996 TIP]     Optimal Edge Detection in Two-dimensional Images
[1998 PAMI]    Local Scale Control for Edge Detection and Blur Estimation
[2003 PAMI]    Statistical Edge Detection Learning and Evaluating Edge Cues
[2004 IEEE]    Edge Detection Revisited
[2004 PAMI]    Design of Steerable Filters for Feature Detection Using Canny-like Criteria
[2004 PAMI]    Learning to Detect Natural Image Boundaries Using Local Brightness, Color, and Texture Cues
[2011 IVC]     Edge and Line Oriented Contour Detection State of the art

9. Graph Cut

基于图割的图像分割算法。在这方面没有研究，仅仅列出几篇引用比较高的文献。这里又见J Malik，当然还有华人杰出学者Jianbo Shi，他的主页非常搞笑，在醒目的位置标注Do not fly China Eastern Airlines … 看来是被坑过，而且坑的比较厉害。这个领域，俄罗斯人比较厉害。

[2000 PAMI]  Normalizedcuts and image segmentation
[2001 PAMI]  Fastapproximate energy minimization via graph cuts
[2004 PAMI]  What energyfunctions can be minimized via graph cuts

10.Hough Transform

虽然霍夫变换可以扩展到广义霍夫变换，但最常用的还是检测圆和直线。这方面同样推荐看OpenCV的源代码，一目了然。Matas在2000年提出的PPHT已经集成到OpenCV中去了。

[1986 CVGIU]  A Survey of the Hough Transform
[1989]        A Comparative Study of Hough Transform Methods for Circle Finding
[1992 PAMI]   Shapes Recognition Using the Straight Line Hough Transform Theory and Generalization
[1997 PR]     Extraction of Line Features in a Noisy Image
[2000 CVIU]   Robust Detection of Lines Using the Progressive Probabilistic Hough Transform

11. Image Interpolation

图像插值，偶尔也用得上。一般来说，双三次也就够了

[2000 TMI]  Interpolation Revisited

12. Image Matting

也就是最近，我才知道这个词翻译成中文是抠图，比较难听，不知道是谁开始这么翻译的。没有研究，请看文章以及Richard Szeliski的相关章节。以色列美女Levin在这方面有两篇PAMI。

[2008 Fnd]   Image and Video Matting A Survey
[2008 PAMI]  A Closed-form Solution to Natural Image Matting
[2008 PAMI]  Spectral Matting

13. Image Modeling

图像的统计模型。这方面有一本专门的著作Natural Image Statistics

[1994]       The Statistics of Natural Images
[2003 JMIV]  On Advances in Statistical Modeling of Natural Images
[2009 IJCV]  Fields of Experts
[2009 PAMI]  Modeling Multi-scale Subbands of Photographic Images with Fields of Gaussian Scale Mixtures

14. Image Quality Assessment

在图像质量评价方面，Bovik是首屈一指的。这位老师也很有意思，作为编辑出版了很多书。他也是IEEE的Fellow.

[2004 TIP]  Image Quality Assessment from Error Visibility to Structural Similarity
[2011 TIP]  Blind Image Quality Assessment from Natural Scene Statistics to Perceptual Quality

15. Image Registration

图像配准最早的应用在医学图像上，在图像融合之前需要对图像进行配准。在现在的计算机视觉中，配准也是一个需要理解的概念，比如跟踪，拼接等。在KLT中，也会涉及到配准。这里主要是综述文献。

[1992 MIA]   Image Matching asa Diffusion Process
[1992 PAMI]  A Method for Registration of 3-D Shapes
[1992]       A Survey of Image Registration Techniques
[1998 MIA]   A Survey of Medical Image Registration
[2003 IVC]   Image Registration Methods a Survey
[2003 TMI]   Mutual-information-based Registration of Medical Survey
[2011 TIP]   Hair is Registration

16. Image Retrieval

图像检索曾经很热，在2000年之后似乎消停了一段时间。最近各种图像的不变性特征提出来之后，再加上互联网搜索的商业需求，这个方向似乎又要火起来了，尤其是在工业界。这仍然是一个非常值得关注的方面。而且图像检索与目标识别具有相通之处，比如特征提取和特征降维。这方面的文章值得一读。在最后给出了两篇Book chapter，其中一篇还是中文的。

[2000 PAMI]  Content-based Image Retrieval at the end of the Early Years
[2000 TIP]   Pic to Seek Combining Color and Shape Invariant Features for Image Retrieval
[2002]       Content-based Image Retrieval Systems: A Survey
[2008]       Content-based Image Retrieval Literature: Survey
[2010]       Plant Image Retrieval Using Color, Shape and Texture Features
[2012 PAMI]  A Multi-media Retrieval Framework Based on Semi-supervised Ranking and Relevance Feedback

17. Image Segmentation

图像分割，非常基本但又非常难的一个问题。建议看Sonka和冈萨雷斯的书。这里给出几篇比较好的文章，再次看到了J Malik。他们给出了源代码和测试集，有兴趣的话可以试试。

[2004 IJCV]  Efficient Graph-based Image Segmentation
[2008 CVIU]  Image Segmentation Evaluation: A Survey of Unsupervised Methods
[2011 PAMI]  Contour Detection and Hierarchical Image Segmentation

18. Level Set

大名鼎鼎的水平集，解决了Snake固有的缺点。Level set的两位提出者Sethian和Osher最后反目，实在让人遗憾。个人以为，这种方法除了迭代比较费时，在真实场景中的表现让人生疑。不过，2008年ECCV上的PWP方法在结果上很吸引人。在重初始化方面，Chunming Li给出了比较好的解决方案.

[1995 PAMI]  Shape Modeling with Front Propagation a Level Set Approach
[2001 JCP]   Level Set Methods: an Overview and Some Recent Results
[2005 CVIU]  Geodesicactive Regions and Level Set Methods for Motion Estimation and Tracking
[2007 IJCV]  A Review of Statistical Approaches to Level Set Segmentation
[2008 ECCV]  Robust Real-time Visual Tracking using Pixel-wise Posteriors
[2010 TIP]   Distance Regularized Level Set Evolution and its Application to Image Segmentation

19.Pyramid

其实小波变换就是一种金字塔分解算法，而且具有无失真重构和非冗余的优点。Adelson在1983年提出的Pyramid优点是比较简单，实现起来比较方便。

[1983]  The LaplacianPyramid as a Compact Image Code

20. Radon Transform

Radon变换也是一种很重要的变换，它构成了图像重建的基础。关于图像重建和radon变换，可以参考章毓晋老师的书，讲的比较清楚。

[1993 PAMI]  Imagerepresentation via a finite Radon transform
[1993 TIP]   The fastdiscrete radon transform I theory
[2007 IVC]   Generalisedfinite radon transform for N×N images

21.Scale Space

尺度空间滤波在现代不变特征中是一个非常重要的概念，有人说SIFT的提出者Lowe是不变特征之父，而Linderburg是不变特征之母。虽然尺度空间滤波是Witkin最早提出的，但其理论体系的完善和应用还是Linderburg的功劳。其在1998年IJCV上的两篇文章值得一读，不管是特征提取方面还是边缘检测方面。

[1987]       Scale-spacefiltering
[1990 PAMI]  Scale-Spacefor Discrete Signals
[1994]       Scale-space theoryA basic tool for analysing structures at different scales
[1998 IJCV]  Edge Detectionand Ridge Detection with Automatic Scale Selection
[1998 IJCV]  FeatureDetection with Automatic Scale Selection

22. Snake

活动轮廓模型，改变了传统的图像分割的方法，用能量收缩的方法得到一个统计意义上的能量最小（最大）的边缘。

[1987 IJCV]  Snakes ActiveContour Models
[1996 ]      deformable modelin medical image A Survey
[1997 IJCV]  geodesicactive contour
[1998 TIP]   Snakes, shapes,and gradient vector flow
[2000 PAMI]  Geodesic activecontours and level sets for the detection and tracking of moving objects
[2001 TIP]   Active contourswithout edges

23. Super Resolution

超分辨率分析。对这个方向没有研究，简单列几篇文章。其中Yang Jianchao的那篇在IEEE上的下载率一直居高不下。

[2002]       Example-BasedSuper-Resolution
[2003 SPM]   Super-Resolution Image Reconstruction A Technical Overview
[2009 ICCV]  Super-Resolutionfrom a Single Image
[2010 TIP]   ImageSuper-Resolution Via Sparse Representation

24. Thresholding

阈值分割是一种简单有效的图像分割算法。这个topic在冈萨雷斯的书里面讲的比较多。这里列出OTSU的原始文章以及一篇不错的综述。

[1979 IEEE]  OTSU Athreshold selection method from gray-level histograms
[2001 JISE]  A Fast Algorithmfor Multilevel Thresholding
[2004 JEI]   Survey overimage thresholding techniques and quantitative performance evaluation

25. Watershed

分水岭算法是一种非常有效的图像分割算法，它克服了传统的阈值分割方法的缺点，尤其是Marker-Controlled Watershed，值得关注。Watershed在冈萨雷斯的书里面讲的比较详细。

[1991 PAMI]  Watersheds indigital spaces an efficient algorithm based on immersion simulations
[2001]       The WatershedTransform Definitions, Algorithms and Parallelizat on Strategies

计算机视觉

这一章是计算机视觉部分，主要侧重在底层特征提取，视频分析，跟踪，目标检测和识别方面等方面。对于自己不太熟悉的领域比如摄像机标定和立体视觉，仅仅列出上google上引用次数比较多的文献。有一些刚刚出版的文章，个人非常喜欢，也列出来了。

本章的下载地址：http://iask.sina.com.cn/u/2252291285/ish?folderid=868772

1. Active Appearance Models

活动表观模型和活动轮廓模型基本思想来源Snake，现在在人脸三维建模方面得到了很成功的应用，这里列出了三篇最初最经典的文章。对这个领域有兴趣的可以从这三篇文章开始入手。

[1998 ECCV]  Active Appearance Models
[2001 PAMI]  Active Appearance Models

2. Active Shape Models

[1995 CVIU]  Active Shape Models-their Training and Application

3. Background Modeling and Subtraction

背景建模一直是视频分析尤其是目标检测中的一项关键技术。虽然最近一直有一些新技术的产生，demo效果也很好，比如基于dynamical texture的方法。但最经典的还是Stauffer等在1999年和2000年提出的GMM方法，他们最大的贡献在于不用EM去做高斯拟合，而是采用了一种迭代的算法，这样就不需要保存很多帧的数据，节省了buffer。Zivkovic在2004年的ICPR和PAMI上提出了动态确定高斯数目的方法，把混合高斯模型做到了极致。这种方法效果也很好，而且易于实现。在OpenCV中有现成的函数可以调用。在背景建模大家族里，无参数方法（2000 ECCV）和Vibe方法也值得关注。

[1997 PAMI]   Pfinder: Real-time Tracking of the Human Body
[1999 CVPR]   Adaptive Background Mixture models for Real-time Tracking
[1999 ICCV]   Wall Flower Principles and Practice of Background Maintenance
[2000 ECCV]   Non-parametric Model for Background Subtraction
[2000 PAMI]   Learning Patterns of Activity Using Real-Time Tracking
[2002 PIEEE]  Background and Foreground Modeling Using Non-parametric Kernel Density Estimation for Visual Surveillance
[2004 ICPR]   Improved Adaptive Gaussian Mixture Model for Background Subtraction
[2004 PAMI]   Recursive Unsupervised Learning of Finite Mixture Models
[2006 PRL]    Efficient Adaptive Density Estimation per Image Pixel for the Task of Background Subtraction
[2011 TIP]    Vibe: A Universal Background Subtraction Algorithm for Video Sequences

4. Bag of Words

词袋，在这方面暂时没有什么研究。列出三篇引用率很高的文章，以后逐步解剖之。

[2003 ICCV]  Video Google AText Retrieval Approach to Object Matching in Videos
[2004 ECCV]  VisualCategorization with Bags of Keypoints
[2006 CVPR]  Beyond bags offeatures Spatial pyramid matching for recognizing natural scene categories

5. BRIEF

BRIEF是Binary Robust Independent Elementary Features的简称，是近年来比较受关注的特征描述的方法。ORB也是基于BRIEF的。

[2010 ECCV]  BRIEF Binary Robust Independent Elementary Features
[2011 ICCV]  ORB an Efficient Alternative to SIFT or SURF
[2012 PAMI]  BRIEF Computing a Local Binary Descriptor Very Fast

6. Camera Calibration and Stereo Vision

非常不熟悉的领域。仅仅列出了十来篇重要的文献，供以后学习。

[1979 Marr]   A Computational Theory of Human Stereo Vision
[1985]        Computational Vision and Regularization Theory
[1987 IEEE]   A Versatile Camera Calibration Technique for High-accuracy 3D Machine Vision Metrology Using Off-the-shelf TV Cameras and Lenses
[1987]        Probabilistic Solution of Ill-posed Problems in Computational Vision
[1988 PIEEE]  Ill-posed Problems in Early Vision
[1989 IJCV]   Kalman Filter-based Algorithms for Estimating Depth from Image Sequences
[1990 IJCV]   Relative Orientation
[1990 IJCV]   Using Vanishing Points for Camera Calibration
[1992 ECCV]   Camera Self-calibration Theory and Experiments
[1992 IJCV]   A Theory of Self-calibration of a Moving Camera
[1992 PAMI]   Camera Calibration with Distortion Models and Accuracy Evaluation
[1994 IJCV]   The Fundamental Matrix Theory, Algorithms, and Stability Analysis
[1994 PAMI]   A Stereo-matching Algorithm with an Adaptive Window Theory and Experiment
[1999 ICCV]   Flexible Camera Calibration by Viewing a Plane from Unknown Orientations
[1999 IWAR]   Markert Racking and HMD Calibration for a Video-based Augmented Reality Conferencing System
[2000 PAMI]   A Flexible New Technique for Camera Calibration

7. Color and Histogram Feature

这里面主要来源于图像检索，早期的图像检测基本基于全局的特征，其中最显著的就是颜色特征。这一部分可以和前面的Color知识放在一起的。

[1995 SPIE]  Similarity of Color Images
[1996 PR]    Image Retrieval Using Color and Shape
[1996]       Comparing Images Using Color Coherence Vectors
[1997]       Image Indexing Using Color Correlograms
[2001 TIP]   An Efficient Color Representation for Image Retrieval
[2009 CVIU]  Performance Evaluation of Local Colour Invariants

8. Deformable Part Model

大红大热的DPM，在OpenCV中有一个专门的topic讲DPM和latent SVM

[2008 CVPR]  A Discriminatively Trained, Multi-scale, Deformable Part Model
[2010 CVPR]  Cascade Object Detection with Deformable Part Models
[2010 PAMI]  Object Detection with Discriminatively Trained Part-based Models

9. Distance Transformations

距离变换，在OpenCV中也有实现。用来在二值图像中寻找种子点非常方便。

[1986 CVGIP]  Distance Transformations in Digital Images
[2008 ACM]    2D Euclidean Distance Transform Algorithms: A Comparative Survey

10. Face Detection

最成熟最有名的当属Haar+Adaboost

[1998 PAMI]  Neural Network-based Face Detection
[2002 PAMI]  Detecting Faces in Images: A Survey
[2002 PAMI]  Face Detection in Color Images
[2004 IJCV]  Robust Real-time Face Detection

11. Face Recognition

不熟悉，简单罗列之。

[1991]       Face Recognition Using Eigenfaces
[2000 PAMI]  Automatic Analysis of Facial Expressions: The State of the Art
[2000]       Face Recognition: A Literature Survey
[2006 PR]    Face Recognition from a Single Image per Person: A Survey
[2009 PAMI]  Robust Face Recognition via Sparse Representation

12. FAST

用机器学习的方法来提取角点，号称很快很好。

[2006 ECCV] Machine Learning for High-speed Corner Detection
[2010 PAMI] Faster and Better: A Machine Learning Approach to Corner Detection

13. Feature Extraction

这里的特征主要都是各种不变性特征，SIFT，Harris，MSER等也属于这一类。把它们单独列出来是因为这些方法更流行一点。关于不变性特征，王永明与王贵锦合著的《图像局部不变性特征与描述》写的还不错。Mikolajczyk在2005年的PAMI上的文章以及2007年的综述是不错的学习材料。

[1989 PAMI]  On the Detection of Dominant Points on Digital Curves
[1997 IJCV]  SUSAN — A New Approach to Low Level Image Processing
[2004 IJCV]  Matching Widely Separated Views based on Affine Invariant Regions
[2004 IJCV]  Scale & Affine Invariant Interest Point Detectors
[2005 PAMI]  A Performance Evaluation of Local Descriptors
[2006 IJCV]  A Comparison of Affine Region Detectors
[2007 FAT]   Local Invariant Feature Detectors - A Survey
[2011 IJCV]  Evaluation of Interest Point Detectors and Feature Descriptors

14. Feature Matching

[2012 PAMI]  LDA Hash Improved Matching with Smaller Descriptors

15. Harris

虽然过去了很多年，Harris角点检测仍然广泛使用，而且基于它有很多变形。如果仔细看了这种方法，从直观也可以感觉到这是一种很稳健的方法。

[1988 Harris]  A Combined Corner and Edge Detector

16. Histograms of Oriented Gradients

HoG方法也在OpenCV中实现了：HoG Descriptor。

[2005 CVPR]  Histograms of Oriented Gradients for Human Detection

17. Image Distance

[1993 PAMI] Comparing Images Using the Hausdorff Distance

18. Image Stitching

图像拼接，另一个相关的词是Panoramic。在Computer Vision: Algorithms and Applications一书中，有专门一章是讨论这个问题。这里的两面文章一篇是综述，一篇是这方面很经典的文章。

[2006 Fnd] Image Alignment and Stitching: A Tutorial
[2007 IJCV] Automatic Panoramic Image Stitching using Invariant Features

19. KLT

KLT跟踪算法，基于Lucas-Kanade提出的配准算法。除了三篇很经典的文章，最后一篇给出了OpenCV实现KLT的细节。

[1981]       An Iterative Image Registration Technique with an Application to Stereo Vision
[1994 CVPR]  Good Featuresto Track
[2004 IJCV]  Lucas-Kanade 20 Years: On A Unifying Framework

20. Local Binary Pattern

LBP。OpenCV的Cascade分类器也支持LBP，用来取代Haar特征。

[2002 PAMI]  Multi-resolution Gray-scale and Rotation Invariant Texture Classification with Local Binary Patterns
[2004 ECCV]  Face Recognition with Local Binary Patterns
[2006 PAMI]  Face Description with Local Binary Patterns
[2011 TIP]   Rotation-invariant Image and Video Description With Local Binary Pattern Features

21. Low-level Vision

关于Low-level vision的两篇很不错的文章

[1998 TIP]   A General Framework for Low Level Vision
[2000 IJCV]  Learning Low-level Vision

22. Mean Shift

均值漂移算法，在跟踪中非常流行的方法。Comaniciu在这个方面做出了重要的贡献。最后三篇，一篇是CVIU上的top download文章，一篇是最新的PAMI上关于Mean Shift的文章，一篇是OpenCV实现的文章。

[1995 PAMI]  Mean Shift, Mode Seeking, and Clustering
[2002 PAMI]  Mean Shift: a Robust Approach toward Feature Space Analysis
[2003 CVPR]  Mean-shift Blob Tracking Through Scale Space
[2009 CVIU]  Object Tracking using SIFT Features and Mean Shift
[2012 PAMI]  Mean Shift Trackers with Cross-bin Metrics

23. MSER

这篇文章发表在2002年的BMVC上，后来直接录用到2004年的IVC上，内容差不多。MSER在Sonka的书里面也有提到。

[2002 BMVC]  Robust Wide Baseline Stereo from Maximally Stable Extremal Regions
[2003]       MSER Author Presentation
[2004 IVC]   Robust Wide-baseline Stereo from Maximally Stable Extremal Regions
[2011 PAMI]  Are MSER Features Really Interesting

24. Object Detection

首先要说的是第一篇文章的作者，Kah-Kay Sung。他是MIT的博士，后来到新加坡国立任教，极具潜力的一个老师。不幸的是，他和他的妻子都在2000年的新加坡空难中遇难，让人唏嘘不已。

最后一篇文章也是Fua课题组的，作者给出的demo效果相当好。

[1998 PAMI]  Example-based Learning for View-based Human Face Detection
[2000 CVPR]  A Statistical Method for 3D Object Detection Applied to Faces and Cars
[2003 IJCV]  Learning the Statistics of People in Images and Video
[2011 PAMI]  Learning to Detect a Salient Object
[2012 PAMI]  A Real-time Deformable Detector

25. Object Tracking

跟踪也是计算机视觉中的经典问题。粒子滤波，卡尔曼滤波，KLT，mean shift，光流都跟它有关系。这里列出的是传统意义上的跟踪，尤其值得一看的是2008的Survey和2003年的Kernel based tracking。

[2003 PAMI]  Kernel-based Object Tracking
[2007 PAMI]  Tracking People by Learning their Appearance
[2008 ACM]   Object Tracking: A Survey
[2008 PAMI]  Segmentation and Tracking of Multiple Humans in Crowded Environments
[2011 PAMI]  Hough Forests for Object Detection, Tracking, and Action Recognition
[2011 PAMI]  Robust Object Tracking with Online Multiple Instance Learning
[2012 IJCV]  PWP 3D Real-time Segmentation and Tracking of 3D Objects

26. OCR

一个非常成熟的领域，已经很好的商业化了。

[1992 IEEE]  Historical Review of OCR Research and Development
             Video OCR: A Survey and Practitioner's Guide

27. Optical Flow

光流法，视频分析所必需掌握的一种算法。

[1981 AI]    Determine Optical Flow
[1994 IJCV]  Performance of Optical Flow Techniques
[1995 ACM]   The Computation of Optical Flow
[2004 TR]    Tutorial: Computing 2D and 3D Optical Flow
[2005 BOOK]  Optical Flow Estimation
[2008 ECCV]  Learning Optical Flow
[2011 IJCV]  A Database and Evaluation Methodology for Optical Flow

28. Particle Filter

粒子滤波，主要给出的是综述以及1998 IJCV上的关于粒子滤波发展早期的经典文章。

[1998 IJCV]  Condensation — Conditional Density Propagation for Visual Tracking
[2002 TSP]   A Tutorial on Particle Filters for Online Nonlinear Non-Gaussian Bayesian Tracking
[2002 TSP]   Particle Filters for Positioning, Navigation, and Tracking
[2003 SPM]   Particle Filter

29. Pedestrian and Human detection

仍然是综述类，关于行人和人体的运动检测和动作识别。

[1999 CVIU]  Visual Analysis of Human Movement: A Survey
[2001 CVIU]  A Survey of Computer Vision-based Human Motion Capture
[2005 TIP]   Image Change Detection Algorithms: A Systematic Survey
[2006 CVIU]  A Survey of Avdances in Vision-based Human Motion Capture
[2007 CVIU]  Vision-based Human Motion Analysis: An Overview
[2007 IJCV]  Pedestrian Detection via Periodic Motion Analysis
[2007 PR]    A Survey of Skin-color Modeling and Detection Methods
[2010 IVC]   A Survey on Vision-based Human Action Recognition
[2012 PAMI]  Pedestrian Detection: An Evaluation of the State of the Art

30. Scene Classification

当相机越来越傻瓜化的时候，自动场景识别就非常重要。这是比拼谁家的Auto功能做的比较好的时候了。

[2001 IJCV]  Modeling the Shape of the Scene: A Holistic Representation of the Spatial Envelope
[2001 PAMI]  Visual Word Ambiguity
[2007 PAMI]  A Thousand Words in a Scene
[2010 PAMI]  Evaluating Color Descriptors for Object and Scene Recognition
[2011 PAMI]  CENTRIST: A Visual Descriptor for Scene Categorization

31. Shadow Detection

[2003 PAMI]  Detecting Moving shadows - Algorithms and Evaluation

32. Shape

关于形状，主要是两个方面：形状的表示和形状的识别。形状的表示主要是从边缘或者区域当中提取不变性特征，用来做检索或者识别。这方面Sonka的书讲的比较系统。2008年的那篇综述在这方面也讲的不错。至于形状识别，最牛的当属J Malik等提出的Shape Context。

[1993 PR]    Improved Moment Invariants for Shape Discrimination
[1993 PR]    Pattern Recognition by Affine Moment Invariants
[1996 PR]    Image Retrieval Using Color and Shape
[2001 SMI]   Shape Matching Similarity Measures and Algorithms
[2002 PAMI]  Shape Matching and Object Recognition Using Shape Contexts
[2004 PR]    Review of Shape Representation and Description Techniques
[2006 PAMI]  Integral Invariants for Shape Matching
[2008]       A Survey of Shape Feature Extraction Techniques

33. SIFT

关于SIFT，实在不需要介绍太多，一万多次的引用已经说明问题了。SURF和PCA-SIFT也是属于这个系列。后面列出了几篇跟SIFT有关的问题。

[1999 ICCV]  Object Recognition from Local Scale-invariant Features
[2000 IJCV]  Evaluation of Interest Point Detectors
[2003 CVIU]  Speeded-up Robust Features (SURF)
[2004 CVPR]  PCA-SIFT A More Distinctive Representation for Local Image Descriptors
[2004 IJCV]  Distinctive Image Features from Scale-invariant Keypoints
[2010 IJCV]  Improving Bag-of-features for Large Scale Image Search
[2011 PAMI]  SIFT Flow Dense Correspondence across Scenes and its Applications

34. SLAM

Simultaneous Localization and Mapping, 同步定位与建图。

SLAM问题可以描述为: 机器人在未知环境中从一个未知位置开始移动,在移动过程中根据位置估计和地图进行自身定位,同时在自身定位的基础上建造增量式地图，实现机器人的自主定位和导航。

[2002 PAMI] Simultaneous Localization and Map-building Using Active Vision
[2007 PAMI] Mono SLAM Real-time Single Camera SLAM

35. Texture Feature

纹理特征也是物体识别和检索的一个重要特征集。

[1973]       Textural featuresfor image classification
[1979]       Statistical andstructural approaches to texture
[1996 PAMI]  Texturefeatures for browsing and retrieval of image data
[2002 PR]    Brief review ofinvariant texture analysis methods
[2012 TIP]   Color LocalTexture Features for Color Face Recognition

36. TLD

Kadal创立了TLD，跟踪学习检测同步进行，达到稳健跟踪的目的。他的两个导师也是大名鼎鼎，一个是发明MSER的Matas，一个是Mikolajczyk。他还创立了一个公司TLDVision s.r.o. 这里给出了他的系列文章，最后一篇是刚出来的PAMI。

[2009]       Online Learning of Robust Object Detectors during Unstable Tracking
[2010 CVPR]  P-N Learning Bootstrapping Binary Classifiers by Structural Constraints
[2010 ICIP]  Face-TLD Tracking-learning-detection Applied to Faces
[2012 PAMI]  Tracking-Learning-Detection

37. Video Surveillance

前面两个是两个很有名的视频监控系统，里面包含了很丰富的信息量，比如CMU的那个系统里面的背景建模算法也是相当简单有效的。最后一篇是比较近的综述。

[2000 CMU TR]  A System for Video Surveillance and Monitoring
[2000 PAMI]    W4 - Real-time Surveillance of People and their Activities
[2008 MVA]     The Evolution of Video Surveillance: An Overview

38. Viola-Jones

Haar+Adaboost的弱弱联手，组成了最强大的利器。在OpenCV里面有它的实现，也可以选择用LBP来代替Haar特征。

[2001 CVPR]  Rapid Object Detection Using a Boosted Cascade of Simple Features
[2004 IJCV]  Robust Real-time Face Detection

声明

本文系收藏转载，作者系Cato，github点此。原始地址点此。

你可能感兴趣的:(图像处理,模式识别,计算机视觉)

遥感影像的切片处理 sand&wich 计算机视觉 python 图像处理
在遥感影像分析中，经常需要将大尺寸的影像切分成小片段，以便于进行详细的分析和处理。这种方法特别适用于机器学习和图像处理任务，如对象检测、图像分类等。以下是如何使用Python和OpenCV库来实现这一过程，同时确保每个影像片段保留正确的地理信息。准备环境首先，确保安装了必要的Python库，包括numpy、opencv-python和xml.etree.ElementTree。这些库将用于图像处理
Python实现下载当前年份的谷歌影像 sand&wich python 开发语言
在GIS项目和地图应用中，获取最新的地理影像数据是非常重要的。本文将介绍如何使用Python代码从Google地图自动下载当前年份的影像数据，并将其保存为高分辨率的TIFF格式文件。这个过程涉及地理坐标转换、多线程下载和图像处理。关键功能该脚本的核心功能包括：坐标转换：支持WGS-84与WebMercator投影之间转换，以及处理中国GCJ-02偏移。自动化下载：多线程下载地图瓦片，提高效率。图像
Python实现TIFF 文件转换为 PNG 和 JPG 格式 sand&wich python 开发语言
在日常的图像处理工作中，可能会遇到需要将TIFF格式的图像转换为其他格式的情况，例如PNG和JPG。下面，本文将介绍如何使用Python和GDAL库实现这一功能。准备工作在开始之前，请确保已经安装了必要的库：GDAL（GeospatialDataAbstractionLibrary）可以使用以下命令安装GDAL：pipinstallgdal代码实现以下是一个将TIFF文件转换为PNG文件的示例代码
AI大模型的架构演进与最新发展季风泯灭的季节 AI大模型应用技术二人工智能架构
随着深度学习的发展，AI大模型（LargeLanguageModels,LLMs）在自然语言处理、计算机视觉等领域取得了革命性的进展。本文将详细探讨AI大模型的架构演进，包括从Transformer的提出到GPT、BERT、T5等模型的历史演变，并探讨这些模型的技术细节及其在现代人工智能中的核心作用。一、基础模型介绍：Transformer的核心原理Transformer架构的背景在Transfo
个人学习笔记7-6：动手学深度学习pytorch版-李沐浪子L 深度学习深度学习笔记计算机视觉 python 人工智能神经网络 pytorch
#人工智能##深度学习##语义分割##计算机视觉##神经网络#计算机视觉13.11全卷积网络全卷积网络（fullyconvolutionalnetwork，FCN）采用卷积神经网络实现了从图像像素到像素类别的变换。引入l转置卷积（transposedconvolution）实现的，输出的类别预测与输入图像在像素级别上具有一一对应关系：通道维的输出即该位置对应像素的类别预测。13.11.1构造模型下
计算机视觉中，Pooling的作用 Wils0nEdwards 计算机视觉人工智能
在计算机视觉中，Pooling（池化）是一种常见的操作，主要用于卷积神经网络（CNN）中。它通过对特征图进行下采样，减少数据的空间维度，同时保留重要的特征信息。Pooling的作用可以归纳为以下几个方面：1.降低计算复杂度与内存需求Pooling操作通过对特征图进行下采样，减少了特征图的空间分辨率（例如，高度和宽度）。这意味着网络需要处理的数据量会减少，从而降低了计算量和内存需求。这对大型神经网络
OpenCV图像处理技术（Python）——入门森屿_ opencv
©FuXianjun.AllRightsReserved.OpenCV入门图像作为人类感知世界的视觉基础，是人类获取信息、表达信息的重要手段，OpenCV作为一个开源的计算机视觉库，它包括几百个易用的图像成像和视觉函数，既可以用于学术研究，也可用于工业邻域，它于1999年由因特尔的GaryBradski启动，OpenCV库主要由C和C++语言编写，它可以在多个操作系统上运行。1.1图像处理基本操作
opencv学习：图像旋转的两种方法，旋转后的图片进行模板匹配代码实现夜清寒风学习 opencv 机器学习人工智能计算机视觉
图像旋转在图像处理中，rotate和rot90是两种常见的图像旋转方法，它们在功能和使用上有一些区别。下面我将分别介绍这两种方法，并解释它们的主要区别rot90方法rot90方法是NumPy提供的一种数组旋转函数，它主要用于对二维数组（如图像）进行90度的旋转。这个方法比较简单，只支持90度的倍数旋转，不支持任意角度旋转。使用NumPy进行旋转使用NumPy的rot90函数对模板图像进行旋转操作。
Python OpenCV图像处理：从基础到高级的全方位指南极客代码玩转Python 开发语言 python opencv 图像处理计算机视觉
目录第一部分：PythonOpenCV图像处理基础1.1OpenCV简介1.2PythonOpenCV安装1.3实战案例：图像显示与保存1.4注意事项第二部分：PythonOpenCV图像处理高级技巧2.1图像变换2.2图像增强2.3图像复原第三部分：PythonOpenCV图像处理实战项目3.1图像滤波3.2图像分割3.3图像特征提取第四部分：PythonOpenCV图像处理注意事项与优化策略4
服务器状态监控php源码,服务器状态监控_监控Linux服务器网站状态的SHELL脚本温糯米服务器状态监控php源码
摘要腾兴网为您分享:监控Linux服务器网站状态的SHELL脚本，蜗牛集市，同花顺，探客宝，手柄助手等软件知识，以及日期倒计时插件，云南省教育资源公共，rui手机桌面，小屁孩桌面便签，合金装备崛起复仇，朝夕日历，photoshop图像处理软件,一年级学生每日计划表，悟空找房，饿了吗外卖商家版，逃生，中国民宿网，realpolitiks，交通安全知识竞赛，雅思流利说等软件it资讯，欢迎关注腾兴网。1
CV、NLP、数据控掘推荐、量化海的那边- AI算法自然语言处理人工智能
下面是对CV（计算机视觉）、NLP（自然语言处理）、数据挖掘推荐和量化的简要概述及其应用领域的介绍：1.CV（计算机视觉，ComputerVision）定义：计算机视觉是一门让计算机能够从图像或视频中提取有用信息，并做出决策的学科。它通过模拟人类的视觉系统来识别、处理和理解视觉信息。主要任务：图像分类：识别图像中的物体并分类，比如猫、狗、车等。目标检测：在图像或视频中定位并识别多个对象，如人脸检测
多模态Transformer之文本与图像联合建模 - Transformer教程 shandianfk_com ChatGPT Transformer transformer 深度学习人工智能
大家好，今天我们来聊聊一个既前沿又有趣的话题——多模态Transformer，特别是文本与图像的联合建模。对于很多小伙伴来说，Transformer这个词已经不陌生了，但它不仅仅应用于自然语言处理，还能在图像处理、甚至是多模态数据的处理上大显身手。接下来，我会带大家深入了解什么是多模态Transformer，以及它是如何实现文本与图像的联合建模的。Transformer简介首先，我们简单回顾一下T
Matlab2024a安装教程是阿宇呢信息可视化开发语言
MATLAB是一款商业数学软件，用于算法开发、数据可视化、数据分析以及数值计算的高级技术计算语言和交互式环境，主要包括MATLAB和Simulink两大部分，可以进行矩阵运算、绘制函数和数据、实现算法、创建用户界面、连接其他编程语言的程序等，主要应用于工程计算、控制设计、信号处理与通讯、图像处理、信号检测、金融建模设计与分析等领域。1.解压安装包：①鼠标右击【MATLABR2024a(64bit)
Python计算机视觉编程第三章图像到图像的映射一只小小程序猿计算机视觉 python opencv
目录单应性变换直接线性变换算法仿射变换图像扭曲图像中的图像分段仿射扭曲创建全景图RANSAC拼接图像单应性变换单应性变换是将一个平面内的点映射到另一个平面内的二维投影变换。在这里，平面是指图像或者三维中的平面表面。单应性变换具有很强的实用性，比如图像配准、图像纠正和纹理扭曲，以及创建全景图像。单应性变换本质上是一种二维到二维的映射，可以将一个平面内的点映射到另一个平面上的对应点。代码如下：impo
DIODE：超高分辨率室内室外数据集（猫脸码客第186期）猫脸码客: catCode2024 开源数据集猫脸码客开源数据集超高分辨率室内室外数据集
亲爱的读者们，您是否在寻找某个特定的数据集，用于研究或项目实践？欢迎您在评论区留言，或者通过公众号私信告诉我，您想要的数据集的类型主题。小编会竭尽全力为您寻找，并在找到后第一时间与您分享。在计算机视觉和深度学习领域，深度信息作为三维空间感知的重要组成部分，对于实现高级视觉任务如场景理解、机器人导航、增强现实等具有至关重要的作用。然而，获取准确且密集的深度数据一直是一个挑战，尤其是在同时涵盖室内和室
深度学习入门篇：PyTorch实现手写数字识别 AI_Guru人工智能深度学习 pytorch 人工智能
深度学习作为机器学习的一个分支，近年来在图像识别、自然语言处理等领域取得了显著的成就。在众多的深度学习框架中，PyTorch以其动态计算图、易用性强和灵活度高等特点，受到了广泛的喜爱。本篇文章将带领大家使用PyTorch框架，实现一个手写数字识别的基础模型。手写数字识别简介手写数字识别是计算机视觉领域的一个经典问题，目的是让计算机能够识别并理解手写数字图像。这个问题通常作为深度学习入门的练习，因为
图像处理的作用（6幅图诗）静月园
静月园著2020年1月️4日1自然力出现的图形画面，即无序，又有形。奇妙令人联想无限。好象理石花纹，又类似草木树植。2为何要如此色彩？好奇怪哦！自然的物态鬼斧神工。3孩童们信手涂鸦，但是脑控制了手的动作，所绘画的物体形状代表了孩子们对环境人物的所看，所听，所理解的形状。脑的心理活动影像，被转换成手的动作输出到笔尖的移动动作上，于是我们看到了简单的结构形状图。而对于我们的写作者来说，我们的作家脑内有
OpenCV高阶操作富士达幸运星 opencv 人工智能计算机视觉
在图像处理与计算机视觉领域，OpenCV（OpenSourceComputerVisionLibrary）无疑是最为强大且广泛使用的工具之一。从基础的图像读取、1.图片的上下，采样下采样（Downsampling）下采样通常用于减小图像的尺寸，从而减少图像中的像素数。这个过程可以通过多种方法实现，但最常见的是通过图像金字塔中的pyrDown函数（在OpenCV中）或其他类似的滤波器（如平均池化、最
深入掌握大模型精髓：《实战AI大模型》带你全面理解大模型开发！努力的光头强人工智能 langchain prompt transformer 深度学习
今天，人工智能技术的快速发展和广泛应用已经引起了大众的关注和兴趣，它不仅成为技术发展的核心驱动力，更是推动着社会生活的全方位变革。特别是作为AI重要分支的深度学习，通过不断刷新的表现力已引领并定义了一场科技革命。大型深度学习模型（简称AI大模型）以其强大的表征能力和卓越的性能，在自然语言处理、计算机视觉、推荐系统等领域均取得了突破性的进展。尤其随着AI大模型的广泛应用，无数领域因此受益。AI大模型
opencv 之实战项目识别银行卡上的数字 SEVEN-YEARS opencv 计算机视觉人工智能
OpenCV之实战项目：识别银行卡上的数字引言在日常生活中，银行卡的识别是一个常见的需求，特别是在金融领域。本实战项目旨在使用OpenCV库来识别银行卡上的数字。我们将通过模板匹配的方法，结合图像处理技术，来准确识别银行卡上的数字序列。项目准备本项目需要安装Python和OpenCV库。确保已经安装了必要的库，并准备好银行卡图像和数字模板图像。实验素材定义函数importcv2defsort_co
【图像压缩】奇异值分解SVD灰色图像压缩（可设置压缩比）【含Matlab源码 4358期】 Matlab武动乾坤 Matlab图像处理（进阶版）matlab
✅博主简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，Matlab项目合作可私信。个人主页：海神之光代码获取方式：海神之光Matlab王者学习之路—代码获取方式⛳️座右铭：行百里者，半于九十。更多Matlab仿真内容点击Matlab图像处理（进阶版）路径规划（Matlab）神经网络预测与分类（Matlab）优化求解（Matlab）语音处理（Matlab）信号处理（Matlab）车间调度
计算机视觉—照相机（下） zidea
封面焦距(FieldofView)同一位置相机用不同焦距，28mmFieldofView就变小，85mm时候的Fieldofview也就是只有28度视野，每一个物体在通常尺寸的胶片上像素也就是越多，chromaticAberration焦距和是波长相关，不同颜色光聚焦在不同位置。这种现象在物体边缘尤为明显。颜色颜色说简单也简单，说复杂也复杂，我们在高中物理已经知道可见光是电磁波，不同颜色对应不同波
Python OpenCV精讲系列 - 高级图像处理技术（五）极客代码 Python OpenCV精讲 python opencv 图像处理开发语言人工智能计算机视觉
⚡️⚡️专栏：PythonOpenCV精讲⚡️⚡️本专栏聚焦于Python结合OpenCV库进行计算机视觉开发的专业教程。通过系统化的课程设计，从基础概念入手，逐步深入到图像处理、特征检测、物体识别等多个领域。适合希望在计算机视觉方向上建立坚实基础的技术人员及研究者。每一课不仅包含理论讲解，更有实战代码示例，助力读者快速将所学应用于实际项目中，提升解决复杂视觉问题的能力。无论是入门者还是寻求技能进
K-means 算法的介绍与应用小魏冬琅 matlab 算法 kmeans 机器学习
目录引言K-means算法的基本原理表格总结：K-means算法的主要步骤K-means算法的MATLAB实现优化方法与改进K-means算法的应用领域表格总结：K-means算法的主要应用领域结论引言K-means算法是一种经典的基于距离的聚类算法，在数据挖掘、模式识别、图像处理等多个领域中得到了广泛应用。其核心思想是将相似的数据对象聚类到同一个簇中，而使得簇内对象的相似度最大、簇间的相似度最小
计算机视觉中的数据增强方法总结 CV技术指南(公众号) CV技术总结计算机视觉深度学习卷积神经网络
前言：在计算机视觉方向，数据增强的本质是人为地引入人视觉上的先验知识，可以很好地提升模型的性能，目前基本成为模型的标配。最近几年逐渐出了很多新的数据增强方法，在本文将对数据增强做一个总结。本文介绍了数据增强的作用，数据增强的分类，数据增强的常用方法，一些特殊的方法，如Cutout，RandomErasing，Mixup，Hide-and-Seek，CutMix，GridMask，FenceMask
计算机视觉中，什么是Hide-and-Seek？ Wils0nEdwards 计算机视觉人工智能
是的，Hide-and-Seek技术主要是在弱监督学习领域中使用的，它的核心思想是通过随机遮掩输入图像的一部分，强迫模型学习更全面的特征，而不是仅仅依赖显著的局部信息。由于弱监督场景下的监督信号有限，例如只有少量的点标注、粗略标注或没有任何标注，模型容易过度依赖于图像中最显著的部分，而忽略其他信息。这种现象会导致模型只关注容易识别的局部特征，而无法理解物体的整体结构或捕捉更多的背景信息。1.Hid
基于VGG的猫狗识别卑微小鹿 tensorflow tensorflow
由于猫和狗的数据在这里，所以就做了一下分类的神经网络1、首先进行图像处理：importcsvimportglobimportosimportrandomos.environ['TF_CPP_MIN_LOG_LEVEL']='2'importtensorflowastffromtensorflowimportkerasfromtensorflow.kerasimportlayersimportnum
MATLAB车牌定位和识别系统清风明月来几时图像算法处理 matlab 开发语言
有很多方法可以实现MATLAB车牌的定位和识别系统。以下是一种可能的实现步骤：车牌定位：使用图像处理技术（如边缘检测、区域生长或颜色分割）来检测图像中的车牌区域。使用形态学操作来排除不符合车牌形状的区域。对车牌区域进行裁剪或调整大小，以便后续的识别。车牌识别：将车牌图像转换为灰度图像。使用图像处理技术（如二值化、滤波或增强）来减少噪音并突出字符。使用字符分割算法将车牌中的字符分开。使用特征提取方法
MATLAB车牌识别系统清风明月来几时图像算法处理 matlab 开发语言
MATLAB车牌识别系统是一个基于MATLAB开发的用于识别和提取车牌信息的系统。该系统使用图像处理和机器学习算法来实现车牌的定位和字符识别。以下是一个基本的MATLAB车牌识别系统的工作流程：图像预处理：首先，将输入的图像进行预处理，包括灰度化、高斯平滑、边缘检测等操作，以提高后续的车牌定位和字符识别的准确性。车牌定位：在预处理后的图像中，使用形态学运算和边缘检测算法来寻找车牌的位置。这可以通过
直方图匹配（Histogram Matching）姜太公钓鲸233 计算机视觉人工智能机器学习
直方图匹配（HistogramMatching），也被称为直方图规定化（HistogramSpecification）或直方图修正（HistogramEqualization），是一种图像处理技术，用于调整图像的直方图，以使其与某个目标直方图相匹配。目标直方图通常是用户定义的或者是希望获得的期望分布。直方图匹配的目标是改变图像的像素值分布，从而使其在视觉上更接近目标直方图。这对于图像增强、风格迁移
多线程编程之卫生间周凡杨 java 并发卫生间线程厕所
如大家所知，火车上车厢的卫生间很小，每次只能容纳一个人，一个车厢只有一个卫生间，这个卫生间会被多个人同时使用，在实际使用时，当一个人进入卫生间时则会把卫生间锁上，等出来时打开门，下一个人进去把门锁上，如果有一个人在卫生间内部则别人的人发现门是锁的则只能在外面等待。问题分析：首先问题中有两个实体，一个是人，一个是厕所，所以设计程序时就可以设计两个类。人是多数的，厕所只有一个（暂且模拟的是一个车厢）。
How to Install GUI to Centos Minimal sunjing linux Install Desktop GUI
http://www.namhuy.net/475/how-to-install-gui-to-centos-minimal.html I have centos 6.3 minimal running as web server. I’m looking to install gui to my server to vnc to my server. You can insta
Shell 函数 daizj shell 函数
Shell 函数 linux shell 可以用户定义函数，然后在shell脚本中可以随便调用。 shell中函数的定义格式如下： [function] funname [()]{ action; [return int;] } 说明： 1、可以带function fun() 定义，也可以直接fun() 定义,不带任何参数。 2、参数返回
Linux服务器新手操作之一周凡杨 Linux 简单操作
1.whoami 当一个用户登录Linux系统之后，也许他想知道自己是发哪个用户登录的。此时可以使用whoami命令。 [ecuser@HA5-DZ05 ~]$ whoami e
浅谈Socket通信（一）朱辉辉33 socket
在java中ServerSocket用于服务器端，用来监听端口。通过服务器监听，客户端发送请求，双方建立链接后才能通信。当服务器和客户端建立链接后，两边都会产生一个Socket实例，我们可以通过操作Socket来建立通信。首先我建立一个ServerSocket对象。当然要导入java.net.ServerSocket包 ServerSock
关于框架的简单认识西蜀石兰框架
入职两个月多，依然是一个不会写代码的小白，每天的工作就是看代码，写wiki。前端接触CSS、HTML、JS等语言，一直在用的CS模型，自然免不了数据库的链接及使用，真心涉及框架，项目中用到的BootStrap算一个吧，哦，JQuery只能算半个框架吧，我更觉得它是另外一种语言。后台一直是纯Java代码，涉及的框架是Quzrtz和log4j。都说学前端的要知道三大框架，目前node.
You have an error in your SQL syntax; check the manual that corresponds to your 林鹤霄
You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'option,changed_ids ) values('0ac91f167f754c8cbac00e9e3dc372
MySQL5.6的my.ini配置 aigo mysql
注意：以下配置的服务器硬件是：8核16G内存 [client] port=3306 [mysql] default-character-set=utf8 [mysqld] port=3306 basedir=D:/mysql-5.6.21-win
mysql 全文模糊查找便捷解决方案 alxw4616 mysql
mysql 全文模糊查找便捷解决方案 2013/6/14 by 半仙 [email protected] 目的: 项目需求实现模糊查找. 原则: 查询不能超过 1秒. 问题: 目标表中有超过1千万条记录. 使用like '%str%' 进行模糊查询无法达到性能需求. 解决方案: 使用mysql全文索引. 1.全文索引 : MySQL支持全文索引和搜索功能。MySQL中的全文索
自定义数据结构链表(单项 ,双向,环形) 百合不是茶单项链表双向链表
链表与动态数组的实现方式差不多, 数组适合快速删除某个元素链表则可以快速的保存数组并且可以是不连续的单项链表;数据从第一个指向最后一个实现代码: //定义动态链表 clas
threadLocal实例 bijian1013 java thread java多线程 threadLocal
实例1： package com.bijian.thread; public class MyThread extends Thread { private static ThreadLocal tl = new ThreadLocal() { protected synchronized Object initialValue() { return new Inte
activemq安全设置—设置admin的用户名和密码 bijian1013 java activemq
ActiveMQ使用的是jetty服务器, 打开conf/jetty.xml文件，找到 <bean id="adminSecurityConstraint" class="org.eclipse.jetty.util.security.Constraint"> <p
【Java范型一】Java范型详解之范型集合和自定义范型类 bit1129 java
本文详细介绍Java的范型，写一篇关于范型的博客原因有两个，前几天要写个范型方法(返回值根据传入的类型而定)，竟然想了半天，最后还是从网上找了个范型方法的写法；再者，前一段时间在看Gson, Gson这个JSON包的精华就在于对范型的优雅简单的处理，看它的源代码就比较迷糊，只其然不知其所以然。所以，还是花点时间系统的整理总结下范型吧。范型内容范型集合类范型类
【HBase十二】HFile存储的是一个列族的数据 bit1129 hbase
在HBase中，每个HFile存储的是一个表中一个列族的数据，也就是说，当一个表中有多个列簇时，针对每个列簇插入数据，最后产生的数据是多个HFile，每个对应一个列族，通过如下操作验证 1. 建立一个有两个列族的表 create 'members','colfam1','colfam2' 2. 在members表中的colfam1中插入50*5
Nginx 官方一个配置实例 ronin47 nginx 配置实例
user www www; worker_processes 5; error_log logs/error.log; pid logs/nginx.pid; worker_rlimit_nofile 8192; events { worker_connections 4096;} http { include conf/mim
java-15.输入一颗二元查找树，将该树转换为它的镜像，即在转换后的二元查找树中，左子树的结点都大于右子树的结点。用递归和循环 bylijinnan java
//use recursion public static void mirrorHelp1(Node node){ if(node==null)return; swapChild(node); mirrorHelp1(node.getLeft()); mirrorHelp1(node.getRight()); } //use no recursion bu
返回null还是empty bylijinnan java apache spring 编程
第一个问题，函数是应当返回null还是长度为0的数组（或集合）？第二个问题，函数输入参数不当时，是异常还是返回null？先看第一个问题有两个约定我觉得应当遵守： 1.返回零长度的数组或集合而不是null（详见《Effective Java》）理由就是，如果返回empty，就可以少了很多not-null判断： List<Person> list
[科技与项目]工作流厂商的战略机遇期 comsci 工作流
在新的战略平衡形成之前，这里有一个短暂的战略机遇期，只有大概最短6年，最长14年的时间，这段时间就好像我们森林里面的小动物，在秋天中，必须抓紧一切时间存储坚果一样，否则无法熬过漫长的冬季。。。。在微软，甲骨文，谷歌，IBM,SONY
过度设计-举例 cuityang 过度设计
过度设计，需要更多设计时间和测试成本，如无必要，还是尽量简洁一些好。未来的事情，比如访问量，比如数据库的容量，比如是否需要改成分布式都是无法预料的再举一个例子，对闰年的判断逻辑：　　1、 if($Year%4==0) return True; else return Fasle; 　　2、if ( ($Year%4==0 &am
java进阶，《Java性能优化权威指南》试读 darkblue086 java性能优化
记得当年随意读了微软出版社的.NET 2.0应用程序调试，才发现调试器如此强大，应用程序开发调试其实真的简单了很多，不仅仅是因为里面介绍了很多调试器工具的使用，更是因为里面寻找问题并重现问题的思想让我震撼，时隔多年，Java已经如日中天，成为许多大型企业应用的首选，而今天，这本《Java性能优化权威指南》让我再次找到了这种感觉，从不经意的开发过程让我刮目相看，原来性能调优不是简单地看看热点在哪里，
网络学习笔记初识OSI七层模型与TCP协议 dcj3sjt126com 学习笔记
协议：在计算机网络中通信各方面所达成的、共同遵守和执行的一系列约定　　计算机网络的体系结构：计算机网络的层次结构和各层协议的集合。　　两类服务：　　面向连接的服务通信双方在通信之前先建立某种状态，并在通信过程中维持这种状态的变化，同时为服务对象预先分配一定的资源。这种服务叫做面向连接的服务。　　面向无连接的服务通信双方在通信前后不建立和维持状态，不为服务对象
mac中用命令行运行mysql dcj3sjt126com mysql linux mac
参考这篇博客：http://www.cnblogs.com/macro-cheng/archive/2011/10/25/mysql-001.html 感觉workbench不好用（有点先入为主了）。 1，安装mysql 在mysql的官方网站下载 mysql 5.5.23 http://www.mysql.com/downloads/mysql/，根据我的机器的配置情况选择了64
MongDB查询（1）——基本查询[五] eksliang mongodb mongodb 查询 mongodb find
MongDB查询转载请出自出处：http://eksliang.iteye.com/blog/2174452 一、find简介 MongoDB中使用find来进行查询。 API:如下 function ( query , fields , limit , skip, batchSize, options ){.....} 参数含义： query:查询参数 fie
base64，加密解密经融加密，对接 y806839048 经融加密对接
String data0 = new String(Base64.encode(bo.getPaymentResult().getBytes(("GBK")))); String data1 = new String(Base64.decode(data0.toCharArray()),"GBK"); // 注意编码格式，注意用于加密，解密的要是同
JavaWeb之JSP概述 ihuning javaweb
什么是JSP？为什么使用JSP？ JSP表示Java Server Page，即嵌有Java代码的HTML页面。使用JSP是因为在HTML中嵌入Java代码比在Java代码中拼接字符串更容易、更方便和更高效。 JSP起源在很多动态网页中，绝大部分内容都是固定不变的，只有局部内容需要动态产生和改变。如果使用Servl
apple watch 指南啸笑天 apple
1. 文档 WatchKit Programming Guide（中译在线版 By @CocoaChina）译文译者原文概览 - 开始为 Apple Watch 进行开发 @星夜暮晨 Overview - Developing for Apple Watch 概览 - 配置 Xcode 项目 - Overview - Configuring Yo
java经典的基础题目 macroli java 编程
1.列举出 10个JAVA语言的优势 a:免费，开源，跨平台(平台独立性)，简单易用，功能完善，面向对象，健壮性，多线程，结构中立，企业应用的成熟平台, 无线应用 2.列举出JAVA中10个面向对象编程的术语 a:包，类，接口，对象，属性，方法，构造器，继承，封装，多态，抽象，范型 3.列举出JAVA中6个比较常用的包 Java.lang;java.util;java.io;java.sql;ja
你所不知道神奇的js replace正则表达式 qiaolevip 每天进步一点点学习永无止境纵观千象 regex
var v = 'C9CFBAA3CAD0'; console.log(v); var arr = v.split(''); for (var i = 0; i < arr.length; i ++) { if (i % 2 == 0) arr[i] = '%' + arr[i]; } console.log(arr.join('')); console.log(v.r
[一起学Hive]之十五-分析Hive表和分区的统计信息(Statistics) superlxw1234 hive hive分析表 hive统计信息 hive Statistics
关键字：Hive统计信息、分析Hive表、Hive Statistics 类似于Oracle的分析表，Hive中也提供了分析表和分区的功能，通过自动和手动分析Hive表，将Hive表的一些统计信息存储到元数据中。表和分区的统计信息主要包括：行数、文件数、原始数据大小、所占存储大小、最后一次操作时间等； 14.1 新表的统计信息对于一个新创建
Spring Boot 1.2.5 发布 wiselyman spring boot
Spring Boot 1.2.5已在7月2日发布，现在可以从spring的maven库和maven中心库下载。这个版本是一个维护的发布版，主要是一些修复以及将Spring的依赖提升至4.1.7(包含重要的安全修复)。官方建议所有的Spring Boot用户升级这个版本。项目首页 | 源

图像处理与计算机视觉基础，经典以及最近发展

图像处理与计算机视觉基础，经典以及最近发展

目录

绪论

图像处理与计算机视觉相关的书籍

计算机视觉中的信号处理与模式识别

图像处理与分析

计算机视觉

结束语

绪论

为什么要写这篇文章

图像处理和计算机视觉的分类

图像处理和计算机视觉开源库以及编程语言选择

本文的特点和结构，以及适合的对象

图像处理与计算机视觉相关的书籍

数学

信号处理

模式识别

图像处理与计算机视觉的书籍推荐

小结

计算机视觉中的信号处理与模式识别

1. Boosting

2. Clustering

3. Compressive Sensing

4. Decision Trees

5. Dynamical Programming

6. Expectation Maximization

7. Graphical Models

8. Hidden Markov Model

9. Independent Component Analysis

10. Information Theory

11. Kalman Filter

12. Pattern Recognition and Machine Learning

13. Principal Component Analysis

14. Random Forest

15. RANSAC

16. Singular Value Decomposition

17. Sparse Representation

18. Support Vector Machines

19. Wavelet

图像处理与分析

1. Bilateral Filter

2. Color

3.Compression and Encoding

4.Contrast Enhancement

5. Deblur (Restoration)

6. Dehazing and Defog

7. Denoising

8. Edge Detection

9. Graph Cut

10.Hough Transform

11. Image Interpolation

12. Image Matting

13. Image Modeling

14. Image Quality Assessment

15. Image Registration

16. Image Retrieval

17. Image Segmentation

18. Level Set

19.Pyramid

20. Radon Transform

21.Scale Space

22. Snake

23. Super Resolution

24. Thresholding

25. Watershed

计算机视觉

1. Active Appearance Models

2. Active Shape Models

3. Background Modeling and Subtraction

4. Bag of Words

5. BRIEF

6. Camera Calibration and Stereo Vision

7. Color and Histogram Feature

8. Deformable Part Model

9. Distance Transformations

10. Face Detection

11. Face Recognition

12. FAST

13. Feature Extraction