图像搜索引擎的3种类型：标签搜索、范例搜索和混合搜索

如果想构建一个图像搜索引擎，那如何对图像进行搜索呢？一种方式是依赖于与图像相关联的标签、关键字和文字描述，这种称为标签搜索，或者叫以文搜图。另一种方式是通过量化图像并提取一组数字来表示图像的颜色、纹理或者形状，然后通过对比图像之间相似度来搜索图像，这种成为范例搜索，或者叫以图搜图。最后一种是结合前面两种方式，既依赖与图像相关的文字信息，也同时量化图像本身，称为混合搜索。

标签搜索

在谷歌或百度输入关键字并点击搜索按钮，这是我们熟悉的文本搜索方式，而图像的标签搜索与文本搜索很相似。图像的标签搜索引擎很少关注图像本身，而依赖于文字线索。这些线索可以有各种来源，但主要方法是：

手动注释：

在这种情况下，管理员或者用户提供图像内容的标签和关键字。例如，我们来看下面这副来自于“侏罗纪公园”的屏幕截图。

图1 ：恐龙、速龙、厨房、餐厅厨房、男孩、害怕

我们会给这张图片关联那些标签和关键字呢。只要我们看这张图片几秒钟，我们就可以提出几个标签来描述图片：恐龙、速龙、厨房、餐厅厨房、男孩、害怕。这就是图像的手动注释，我们刚刚做的就是这个事情。

上下文提示：

通常，上下文提示仅适用于网页。与手动注释我们必须人工提取标签不同，上下文提示会自动检查图像周围的文字内容或图片标签。这种方法的缺点是我们要假设图像的内容与网页上的文本有关。这可能适用于诸如百度百科这样的网站，其页面上的图像与文章的内容高度相关，但是假如对本篇文章做上下文提示，则会错误的将侏罗纪公园图像与图像搜索引擎相关的一些关键字进行联系。

范例搜索

假如你是百度或者谷歌，你有数十亿的图片可以搜索。你会手动标记每个图片吗？当然不会。这太费时，也太昂贵了。上下文提示如何呢？这是一种自动的方法，但是我们上面提到了其局限性。仅仅依靠图像所在网页的文字做关联，可能会获得一些非常奇怪的结果。
我们可以考虑构建“范例搜索”图像搜索引擎。这些类型的图像搜索引擎尝试量化图像本身，称为基于内容的图像检索（CBIR）系统。一个简单的例子是通过图像中像素强度的平均值，标准偏差和偏度来表征图像的颜色。（如果只是构建一个简单的图像搜索引擎，在许多情况下，这种方法实际效果很好）
对于给定的图像数据集，我们将数据集中的所有图像都计算出特征值，并将其存储在磁盘上。当我们量化图像时，我们描述图像并提取图像特征。这些图像特征是图像的抽象，并用于表征图像内容。从图像集合中提取特征的过程称为索引。
假定现在我们从数据集中的每一个图像中都提取出了特征，如何进行搜索呢？第一步是为我们的系统提供一个查询图像，这是我们在数据集中寻找的一个范例。查询图像以与索引图像完全相同的方式提取特征。然后我们使用距离函数（如欧式距离）将我们的查询特征与索引数据集中的特征进行比对。然后根据相似性（欧几里德距离越小意味着越相似）的结果进行排序并显示出来。

混合方式

假如我们正在为Twitter建立一个图像搜索引擎。Twitter允许在推文中使用图片。同时，Twitter也允许你给自己的推文提供标签。
我们可以使用推文标签来建立图像的标签搜索，然后分析和量化图像本身特征，建立范例搜索。这样做的方式就是构建一个混合图像搜索引擎，其中包括文本关键字以及从图像中提取的特征。
最好的例子就是谷歌的图像搜索。谷歌的图像搜索是否实际分析图像本身特征？我打赌肯定有。但是谷歌首先是一个文本搜索引擎，因此它也允许你通过标签进行搜索。