今天笔者带来一个企业级的以图搜图的实战教程。其主要目的是学习一下以图搜图如果产品化后,需要用到一些什么样得数据存储,数据检索工具。
此项目技术选项如下:
图片数据存储工具:minio 一个轻量化的oss的分布式对象存储引擎
图片向量数据存储和检索工具:milvus 向量存储和检索引擎,内置了faiss,HNSW,annoy等多种ann向量检索算法。
图片向量化:resnet 算法进行抽取
前后端demo工具:gradio一个轻便的机器学习模型的demo部署包
上述工具的使用使得此以图搜图服务非常接近企业级别的可用程度,只需将前后端工具升级替换一下,就可以上线提供服务了。
接下来我就手把手的教大家开发一个以图搜图服务。
项目目录
- milvus这个目录:
是milvus 和 minio 安装yaml,milvus 服务和 minio服务都是通过docker 进行安装的,这样比较契合云原生的服务部署思想。 - ILSVRC2012_img_val目录:
本次服务的测试图片,只放了500多张图片。 - model目录:
放的是resnet的在 imagenet上预训练的模型权重下载地址,将模型下载下来后放到此文件夹下。 - tools 这个目录:
1.MilvusTools.py: milvus 客户端代码,实现了向量的插入,索引的构建,索引的加载和向量检索功能
2.MinioTools.py: minio 客户端代码,目前没实现特别有价值的代码。
3.ResNetEmbeding.py: 图片向量化工具的脚本 - SearchServer.py:
基于gradio实现的服务代码
项目地址在此https://github.com/wp931120/picSearch
milvus和minio的简介和安装
进入milvus 目录后执行一下命令,milvus 和 minio服务就启动起来了。
备注:milvus 单机版已经包含minio服务。
docker-compose up -d
接下来我们在安装一下milvus的可视化客户端 attu,执行一下命令。
docker run --name attu -p 8000:3000 -d -e MILVUS_URL={your machine IP} zilliz/attu:latest
从docker的面板上就可以看到目前启动了4个容器,一个milvus;一个 minio,端口是9090和9000 ;一个 attu,端口是3000,
还有一个etcd(此服务是一个key-value存储服务,主要用于共享配置和服务发现)。
通过localhost:3000即可访问attu服务,查看milvus存储的向量情况。
通过localhost:9000即可访问minio web服务客户端去查看存储的对象文件。并可以进行文件的增删改查。
图片导入minio
新建一个picture bucket,为了此bucket能被公网访问,将隐私设置改为public。然后就可以将图片上传到此bucket。
笔者将ILSVRC2012_img_val文件夹下的图片全部上传到minio。这样通过
http://localhost9000/picture/+图片名 即可访问到minio中的图片了。
milvus插入并加载图片向量
运行MilvusTools.py中的主函数,代码如下,主要做了如下动作:
1.远程拿到minio中的图片
2.采用预训练的resnet 对图片的特征向量进行抽取
3.将图片向量存入milvus向量数据库,并构建索引
4.想图片向量索引加载到内存,提高检索服务
milvusTool = MilvusTools()
miniotool = MinioTools()
pics = miniotool.lists_bucket("picture") ### 列出minio picture bucket中所有存储的图片
resnet = ResNetEmbeding("../model/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5") ###加载resnet 预训练向量
paths = []
embs = []
for i in pics:
path = "http://localhost:9000/picture/" + i
emb = resnet.extract_feature(path) ###抽取图片向量
paths.append(path)
embs.append(emb)
data = [paths, embs]
print(len(data[1]))
milvusTool.create_collection("picture") ###创建cellection
milvusTool.insert_data("picture", data) ###插入图片向量
milvusTool.build_index("picture", "pic_vec")###构建index
milvusTool.load("picture")###加载cellection到内存,提供检索
完成上述步骤后,我们就可以通过attu看到我们刚刚插入并加载的图片向量。
还可以看一看向量数据每个字段的具体取值。其中检索返回后返回的就是图片的minio地址。
启动gradio以图搜图服务
接下来运行SearchServer.py 的主函数,既可以通过7860端口范围以图搜图服务了。
百度找一张狗狗的图片搜一下试一试,返回的都是狗狗的图片。
百度再找一张螃蟹的图搜一下试一试,返回的都是螃蟹的图片。
结语
至此,一个以图搜图服务就搭建完成了,它有着完备的图像存储,向量存储,向量检索功能,并取大部分数据存储和检索服务都是基于docker的云原生部署,方便通过k8s进行管理和扩容。感兴趣的可以git clone下来玩一玩。https://github.com/wp931120/picSearch