无监督学习(图像处理应用中)的前世今生

在机器学习和人工智能领域,相信大家都会非常了解机器学习可以分为有监督学习、无监督学习,或许中间再加一个半监督学习。我们也知道,目前大部分的有效和高精确度的学习方法都是使用有监督的学习方法来实现的。关于有监督,无监督和半监督的机器学习方法可以参考这篇文章《The 10 Algorithms Machine Learning Engineers Need to Know 》,同时,提供文章中提到的一本经典书籍之一:Peter Norvig教授的《人工智能——一种现代方法》

传统的无监督学习基本就是大家熟知的机器学习方法,例如聚类算法,主成分分析,支持向量机等,而这些传统机器学习方法更多的是基于统计学方法,而且没有反馈能力,以SVM为例,最容易出现的情况可能是过拟合,在训练数据集上的效果很好,但是换了数据集之后,效果会明显低于原来的效果,还有第二个容易出现的问题是训练集和测试机(实际运行环境)的正负数据比例越接近越好。因为这两点,导致在真实环境中,无监督的效果和适应性都并不是很高。

本文主要讲述的是无监督学习在图像处理中的应用,概括一下,目前在图像处理的无监督的研究致力的方向主要有是有是有三个方向:

1. 第一个方向主要着手于生成模型,本质上可以理解为在捕捉概率下同时出现的特征。这个方向推荐两篇论文,一篇是Hinton在1995年Science上发表的《The “wake-sleep” algorithm for unsupervised neural network》,中文介绍可以看这篇博客介绍 ,另外一篇是2005年在NIPS发表的《Describing visual scenes using transformed dirichlet processes》

2. 第二个方向是利用已有的生成特征,例如SIFT,HOG来描述图像,从而聚类训练数据,获得新的表达,这类方法同样注重中间层的表达学习。同样可以介绍两篇相关的论文,第一篇是2005年在ICCV发表的《Discovering objects and their location in images》,另一篇是Russell在2006年CVPR上发表的《Using multiple segmentations to discover objects and their extent in image collections》。 

3 第三个方向是当下研究比较集中的方法,通过大量的图像和视频,从像素层面学习图像的表达,相关的论文可以看参考资料。一开始,研究人员假设图像特征是稀疏的和可重构的,这样训练出来的特征表达只可以表达为一层的网络关系,后来Hinton和Salakhutdinov把这个方法拓展到了使用深度学习stacking layer-by-layer RBMs ,可以参考这个youtube的Learning Layers of Features by Stacking RBMs。相似的,Bengio延伸到了结合了RBM和自编码算法。后来,有一篇文章《Building high-level features using large scale unsupervised learning》证明了,尽管网络在无人监督的方式训练的,高层次的神经元仍然可以对语义对象高反应,如人类头部和脸猫。再进一步,Doersch 探索了使用空间上下文为线索,对神经网络进行无监督学习《Unsupervised visual repre- sentation learning by context prediction》。


参考资料:

用图片做无监督学习:

1. Reducing the dimensionality of data with neural networks

2. Building high-level features using large scale unsupervised learning 

3. Multimodal learning with deep boltzmann machines 

4. Pedestrian detection with unsupervised multi-stage feature learning 

5. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations 

6. Robust boltzmann machines for recognition and denoising 

7. The shape boltzmann machine: a strong model of object shape

8. Hierarchical face parsing via deep learning 

9. Representation learning: A review and new perspectives
10. Extract- ing and composing robust features with denoising autoencoders 

11. Unsupervised visual representation learning by context prediction 

用视频做无监督学习:

1. Slow feature analysis:unsupervised learning of invariances 

2. Learning hierarchical invariant spatio temporal features for action recognition with independent subspace analysis 

3.Unsupervised learning of video representations using lstms 

4. Deep learning of invariant features via simulated fixations in video 

5. Unsupervised learning of spatio-temporally coherent metrics 

6. Convolutional learning of spatio-temporal features 

7. Deep learning from temporal coherence in video 

8. Unsupervised learning of invariant features using video 


----------------------------------------------------------------------------------------------------------

P.S. 我司组织了一个计算机视觉的开发者交流微信群,目标是汇集【计算机视觉,图像处理,3D图像,视频处理,深度学习,机器学习】的开发者,一起分享开发经验,共同探讨技术,有兴趣入群的可以加我微信(WeChat: LaurenLuoYun),请注明“姓名-公司/学校-技术方向-加群”(纯交流的无需添加“加群”),谢谢。


你可能感兴趣的:(【机器视觉】,【图像处理】,【人工智能】)