企业级的以图搜图实战——milvus+minio+gradio

今天笔者带来一个企业级的以图搜图的实战教程。其主要目的是学习一下以图搜图如果产品化后,需要用到一些什么样得数据存储,数据检索工具。
此项目技术选项如下:

图片数据存储工具:minio 一个轻量化的oss的分布式对象存储引擎
图片向量数据存储和检索工具:milvus 向量存储和检索引擎,内置了faiss,HNSW,annoy等多种ann向量检索算法。
图片向量化:resnet 算法进行抽取
前后端demo工具:gradio一个轻便的机器学习模型的demo部署包

上述工具的使用使得此以图搜图服务非常接近企业级别的可用程度,只需将前后端工具升级替换一下,就可以上线提供服务了。

接下来我就手把手的教大家开发一个以图搜图服务。

项目目录

  • milvus这个目录:
    是milvus 和 minio 安装yaml,milvus 服务和 minio服务都是通过docker 进行安装的,这样比较契合云原生的服务部署思想。
  • ILSVRC2012_img_val目录:
    本次服务的测试图片,只放了500多张图片。
  • model目录:
    放的是resnet的在 imagenet上预训练的模型权重下载地址,将模型下载下来后放到此文件夹下。
  • tools 这个目录:
    1.MilvusTools.py: milvus 客户端代码,实现了向量的插入,索引的构建,索引的加载和向量检索功能
    2.MinioTools.py: minio 客户端代码,目前没实现特别有价值的代码。
    3.ResNetEmbeding.py: 图片向量化工具的脚本
  • SearchServer.py:
    基于gradio实现的服务代码

项目地址在此https://github.com/wp931120/picSearch

project.png

milvus和minio的简介和安装

进入milvus 目录后执行一下命令,milvus 和 minio服务就启动起来了。
备注:milvus 单机版已经包含minio服务。

docker-compose up -d

接下来我们在安装一下milvus的可视化客户端 attu,执行一下命令。

docker run --name attu -p 8000:3000 -d -e MILVUS_URL={your machine IP} zilliz/attu:latest

从docker的面板上就可以看到目前启动了4个容器,一个milvus;一个 minio,端口是9090和9000 ;一个 attu,端口是3000,
还有一个etcd(此服务是一个key-value存储服务,主要用于共享配置和服务发现)。


docker.png

通过localhost:3000即可访问attu服务,查看milvus存储的向量情况。


attu.png

通过localhost:9000即可访问minio web服务客户端去查看存储的对象文件。并可以进行文件的增删改查。
minio.png

图片导入minio

新建一个picture bucket,为了此bucket能被公网访问,将隐私设置改为public。然后就可以将图片上传到此bucket。

minio.png

笔者将ILSVRC2012_img_val文件夹下的图片全部上传到minio。这样通过
http://localhost9000/picture/+图片名 即可访问到minio中的图片了。

iminio.png

milvus插入并加载图片向量

运行MilvusTools.py中的主函数,代码如下,主要做了如下动作:
1.远程拿到minio中的图片
2.采用预训练的resnet 对图片的特征向量进行抽取
3.将图片向量存入milvus向量数据库,并构建索引
4.想图片向量索引加载到内存,提高检索服务

    milvusTool = MilvusTools() 
    miniotool = MinioTools()
    pics = miniotool.lists_bucket("picture") ### 列出minio picture bucket中所有存储的图片
    resnet = ResNetEmbeding("../model/resnet50_weights_tf_dim_ordering_tf_kernels_notop.h5") ###加载resnet 预训练向量
    paths = []
    embs = []
    for i in pics:
        path = "http://localhost:9000/picture/" + i
        emb = resnet.extract_feature(path) ###抽取图片向量
        paths.append(path)
        embs.append(emb)
    data = [paths, embs]
    print(len(data[1]))
    milvusTool.create_collection("picture") ###创建cellection
    milvusTool.insert_data("picture", data) ###插入图片向量
    milvusTool.build_index("picture", "pic_vec")###构建index
    milvusTool.load("picture")###加载cellection到内存,提供检索

完成上述步骤后,我们就可以通过attu看到我们刚刚插入并加载的图片向量。


collection.png

还可以看一看向量数据每个字段的具体取值。其中检索返回后返回的就是图片的minio地址。


vector.png

启动gradio以图搜图服务

接下来运行SearchServer.py 的主函数,既可以通过7860端口范围以图搜图服务了。
百度找一张狗狗的图片搜一下试一试,返回的都是狗狗的图片。


search1.png

百度再找一张螃蟹的图搜一下试一试,返回的都是螃蟹的图片。


search2.png

结语

至此,一个以图搜图服务就搭建完成了,它有着完备的图像存储,向量存储,向量检索功能,并取大部分数据存储和检索服务都是基于docker的云原生部署,方便通过k8s进行管理和扩容。感兴趣的可以git clone下来玩一玩。https://github.com/wp931120/picSearch

你可能感兴趣的:(企业级的以图搜图实战——milvus+minio+gradio)