视觉词袋模型

Bag of Visual Word
Motivation
 1)纹理识别(texture recognition)
 texton: refer to fundamental micro-structures in generic material images and the basic elements in early visual perception.
 纹理是由图像中一些基本的细小结构组成的,是早期视觉感知中的基本单元。局部的细小结构组合在一起,形成了图像中的纹理,这与BoV的思想有相同的地方。
 2)文档检索(Document Retrieval)
 文档检索基于关键字查询的方法中,Bag of Words方法非常流行,其基本思想是:统计语料库(Corpus)中的所有单词组成单词表,对于每一篇文档统计其中的单词出现的频次,用由这些单词频率组成的直方图来表示这篇文档。


Outline
 Bag of visual word类似于BoW模型,基本思想概括如下:
 1)提取特征(Extract Features)
 根据具体应用考虑,综合考虑特征的独特性、提取复杂性、效果好坏,处理是否方便等选择特征。
 2)学习视觉词袋(Learn Visual Vocabulary)
 统计图像数据库中出现的所有特征,去除冗余组成词袋。如果提取的图像特征过多,一般需要利用聚类算法先把相近的单词归为一类(类似于文档检索里的找词根),利用这些聚类结果来组成词袋。
 3)利用视觉词袋量化图像特征(Quantize features using visual vocabulary)
 4)利用词频表示图像(Represent images by frequencies of visual words)

你可能感兴趣的:(视觉词袋模型)