Video Google: A Text Retrieval Approach----词频那部分解释

作者

Josef Sivic and Andrew Zisserman

Robotics Research Group, Department of Engineering Science

University of Oxford, United Kingdom



词频-倒序文本频率,tf-idf,计算如下:假设有一个K的词典,每个文本都由一个k向量的Vd描述的加权词频。


其中,nid是单词i在文本d中出现的个数,nd是在文本d中所有单词的总数,ni是单词i在整个库中出现的次数。N是整个库中的文档数目。实际,nid/nd表示词频,logN/ni倒序文档频率


在图像检索中,假设一幅图img提取的特征点为nd,这些点经过量化之后,会对应K词典的某些单元,形成稀疏描述,nid是单词i在图片中的出现个数。N是当前库中的图片数目,ni是i在整个库中的出现数目。

理清思路:

1、nd是在提取img特征时就能获得,对应特征点总数

2、nid是在特征跟词库匹配完后,等到把所有特征塞入对应的K维链表后,统计个数

3、N是当前库中的图片数目

4、ni是i词在整个库中的出现数目,他是一个累积量,所以需要有一个空间量vo_num,每当一张模板加入时,把各个单词i的个数累加到vo_num中。



你可能感兴趣的:(Video Google: A Text Retrieval Approach----词频那部分解释)