图像检索中一些特征索引技术

1   引言

近年来 ,随着多媒体技术和计算机网络的飞速发展 , 全世界的数字图像的数量正以惊人的速度在增长。(1)为了使这些庞杂的图像中所包含的信息被有效的访问和利用 ,必然需要一种能够快速而且准确地查找访问图像的技术 , 即图像的检索技术。(2)随着大规模数字图像库的出现 , 传统的依赖于人工标注进行的基于文本的图像检索技术已经无法满足用户日益增长的要求 , 基于内容的图像检索技术便应运而生。

C B I R 的一般做法是先提取出图像的特征建立特征数据库 ,这样就把图像库中的一个实例转换成了特征空间中的一个点。 而图像特征一般都是高维的矢量数据 ,所以对图像基于内容的相似检索就转换为对高维特征矢量的最近邻检索。

与此同时 ,对于大规模的图像数据库而言 ,其特征数据库也是大规模的。 因此传统的顺序扫描方式必然满足不了用户的检索要求 ,这就迫切需要有合适的索引机制来辅助、 加速检索的进程 。 但是 ,传统的多数索引机制当处理的数据维数超过5时 ,其性能会急剧下降 ,甚至不如顺序扫描 ,这也就是通常所说的“ 维度灾难 ” 。 本文即以此为出发点 ,总结了 C B I R 中高维索引技术的研究现状 、 指出了其中存在的问题及今后的发展趋势 ,提出了一个新的索引机制。

 

2   已有的索引技术

对于大规模图像数据库来说 ,线性扫描已经满足不了用户的需求 ,因此需要利用相应的技术和数据结构来组织特征向量并管理搜索过程 ,从而加快查询的速度 , 这就是索引应对实现的基本功能。 多媒体数据库的索引机制与一般索引结构的一个重要区别在于它面临着“ 维度灾难 ” 带来的影响 。围绕着这个问题 ,近年来有很多研究者提出了很多的解决方法 , 这些方法可以分成五类 : 多维索引方法、 降维的方法 、 近似最近邻方法 、 多重填充曲线方法和基于过滤的方法

2.1   多维索引方法

多维索引方法 (Multidimensional Indexing Method, MIM ) 通过划分数据空间 ,根据划分对数据进行聚类并利用划分对搜索空间进行剪枝以提高查询效率。这类方法在处理低维数据效果很好 ,但在高维时其性能甚至差于顺序扫描。 最为成功的M I M 方法是基于树结构的索引方法 。 这些方法用某种策略把数据集里的数据点分成不同的簇 ,然后用某种覆盖对象 (Bounding Object )来近似表示每个簇 , 所有的覆盖对象通过树结构的方式进行组织。 在检索的时候这些覆盖对象能够提供簇内数据点到查询向量距离的下界 ( 就是用覆盖对象到查询向量的最小距离作为簇内数据点到查询向量距离的下界 ,因此覆盖对象是簇的“ 近似 ” 表示 ) ,并利用这些距离下界对树结构( 也就是数据空间 )进行剪枝 ,使得用户在不访问所有簇的情况下就能得到相似度检索的结果。

多维索引方法又可以分成两大类 : 一类是由 KD 树演化而来的 ;另一类则是由R 树演化而来 。 它们的关键区别在于对数据空间的划分方法不同 。 前者使用空间划分方法 ,沿着预先定义的超平面来划分数据空间 ,而不考虑数据的分布。 这样得到的区域是相互分离的,它们的合集则是整个空间。 后者使用数据划分方法 、 根据数据的分布对数据空间进行划分 。 这样的划分会产生一定的重叠 。 除了这两类方法以外 ,还有一些技术结合了多种方法以提高相应的性能 。

R 树以及其为基础的各种层次结构是现在最常用的对空间数据进行索引的数据结构 ,也是对高维数据索引的较早尝试。1984年 Guttman首次提出 R 树的概念。它是 B +树在空间上的扩展 ,其数据以空间中的最小包围矩形 (Minimal Bounding Rectangle, MBR )来表示 。有实验数据表明 , 当数据维数超过 5时 , R 树的性能急剧下降 。

SS树是一个类似 R树的索引结构 , 但它使用的是最小包围球 (MBSs) , 而不是最小包围矩形 ; S R 树则是对 SS树的扩展 , 并结合了 SS树和 R树方法的概念。它共同使用MBSs 和 MBRs作为近似区域。 该结构的性能超过R树和SS树 。

X树是 R树对高维数据的扩展 ,它通过记录树的划分历史来进行无重叠的划分 。 其性能超过了 R树和 T V树。

Hybrid2 树则结合了空间划分和数据划分各自的优点 ,并使用一个单独的维来划分节点 , 其性能超过SR树和hB树。 而A树的基本思想是使用虚拟包围矩形来近似表达最小包围矩形或最小包围对象 ,其性能超过S R树。Berchtold等人提出的金字塔技术使用了一个特定的划分策略。该技术把 d维数据空间分为 2d 个金字塔 , 这些金字塔共同的顶点位于数据空间的中心点 ,然后每一个金字塔都被分成与底边平行的一些面片 ,从而形成数据页面。 金字塔技术为每一个高维点关联一个值 , 这个值被作为 B + 2 树中的一个键值。 对于均匀分布的数据 , 金字塔技术超过了 X2 树和顺序扫描 。 但该索引结构对于近似最近邻搜索效果并不好,它只适用于范围查询。总之 ,对于上述众多的多维索引方法 , 其性能优劣没有一个固定的先后排序。 在不同的应用中 ,根据不同的评判原则 ,其性能之间的比较会产生不同的结果 。

2.2  近似最近邻方法

对于图像检索而言 ,由于图像特征本身就是图像的近似表示 ,特征向量意义上的最近邻并不是图像语义意义上的最近邻 ,所以即使精确最近邻检索的方式也并不保证给出图像检索的精确结果。 因此研究者也提出了很多基于近似最近邻的索引方法来试图解决维度灾难的问题。这里的“近似 ” 是在对图像的特征向量进行最近邻搜索的意义上的 ,即在特征向量的最近邻检索结果中引入一定的错误率ε , 然后进行近似的 , 而不是精确的最近邻检索。 其主要思想是通过某种“ 近似 ” 的方式放松对最近邻条件的要求 , 如用近似距离代替精确距离, 放松最近邻距离的限制以及减少访问的向量等。

2.3  降维

降维的方法是解决维度灾难的一个最直接的途径, 其主要思想是利用降维后的向量计算出来的近似距离代替精确距离。 它的基本过程是先利用单值分解离散小波变换 离散余弦变换等方法对数据集进行降维处理 ,然后利用传统的多维索引方法对降维后的数据建立索引 。

iMinMax ( θ )则利用了降维的思想来建立索引 。 它通过高维点的最大或最小坐标值把它们映射成一个一维的值 。通过改变 θ 的值 ,该方法能被优化以适应于不同分布的数据集 ,与其他的降维方法一样 , 该机制使用 B + 2 树对映射后的一维值进行索引。 iMinMax主要用于范围查询 , 不过也支持近似最近邻查询 ,但要以较多的运行时间来换取高的准确度。 对于范围查询 ,该方法超过了 VA 2 Fil e和金字塔技术。

2.4 多重空间填充曲线

基于多重空间填充曲线的索引方法是利用多 Rd→R1个的映射来降低需要访问的向量数 , 这种映射被称为空间填充曲线。 它将 Rd的数据点映射到实数轴上 ,从而提供了一种将 d维数据向量进行排序的方式。 在检索时 , 查询向量 q也先通过空间填充曲线映射到实数轴上 , 然后通过二分查找或者搜索树就可以很容易找到 q的近邻点。然而该映射的本质决定了某些在 Rd上近邻的点在实数轴上会互相远离 , 从而单个映射会给检索结果带来较大的错误率。 因此为了提高检索精度 ,需要引进多个映射并扩大每次在实数轴上的查询范围 。而这些都会不可避免地严重降低近似最近邻检索所带来的效率提高。

你可能感兴趣的:(图像处理,图像检索)