向量检索-faiss检索

一、语义相似检索背景

1、为什么引入语义相似检索(向量检索)

问题引出 搜索引擎和搜索广告最难解决的问题是语义相似度

                   具体体现:召回和排序

 

Case1: "从北京到上海的机票""携程网"相似性

Case2"快递软件""菜鸟裹裹"相似性

 

2、语义相似度==向量检索?

   语义相似度包含:

  • 深度学习模型
  •  向量检索工程化实现

 

3、补充关键字召回率(倒排拉链截断)

  • 关键字召回可能存在拉链后面的长期得不到召回
  • 相关性强依赖Rwt模块分词的关键词匹配 

4、 语义相似度的关键点

 

(1).深度学习模型

      DSSM Deep Structured Semantic Models

      CNN-DSSM(CLSM  convolutional latent semantic model /CNN-DSSM)

      LSTM-DSSM(Long-Short-Term Memory)

向量检索-faiss检索_第1张图片
 
 
 

(2)  向量工程化实现

  • Faiss:索引库
  • Annoy: 树模型
  • HNSW: 紧密图
  • Milvus 服务引擎
  • Vearch京东服务引擎
  • NSG
总体流程如下:
向量检索-faiss检索_第2张图片
 
 

5、 Faiss索引库

向量索引需要解决的问题:

  • 高维向量距离计算
  • 高维向量的内存存储

名词解释:

  • 查询向量:用户的查询向量
  • 聚类中心向量(中心向量):在向量集合中训练出来的聚类向量,其实也是向量集合中的点
  • 样本向量: 聚类中心倒排拉链的向量集合
  • SDC(symmetric distance computation) 对称求距离
  • ADC(asymmetric distance computation) 非对称求距离
 
向量的内存压缩

      举例: d = 128维向量向量维度float 4个字节

                  3000w向量  3000*10000*128*4 = 14G内存(目前似乎我们不压缩也可以)

                   d = 512维向量56G内存

 

     乘积量化(Product Quantization

      量指的就是将一个空间划分为多个区域,然后为每个区域编码标识

      乘积的是高维空间可以看作是由多个低维空间相乘得到的

 
乘积量化(Product Quantization

举例:

       (1)假设1024维度的向量;分4段,每段256维,比如ABCD;

       (2)每段256维,针对每段使用256个聚类中心编号

       (3)每个聚类中心向量是256维的浮点数,256 * 4 =1024个字节

       (4)一共有256 * 4 = 1024个聚类中心向量

因此,一个 1024 维的原始浮点数向量(共 1024 * 4 字节)使用乘积量化压缩后,存储空间变为了 32 个比特

 
 
 

二、faiss索引库&向量化落地

 

1、Faiss从典型Case说起

Case: IndexIVFPQ + IndexFlatL2

向量检索-faiss检索_第3张图片

 

2、Faiss索引库训练

向量检索-faiss检索_第4张图片

(1)首先构造一级量化器(粗糙量化器)

faiss::IndexFlatL2 coarse_quantizer (d);默认构造的是L2距离;

目的:为了把向量空间的向量第一次分堆,在查询的时候能够根据到中心点距离迅速过滤掉大部分向量,加速查询,一级量化器目前测试发现最快的是HNSW索引图方式搜索

(2)构造二级量化器

faiss::IndexIVFPQ index (&coarse_quantizer, d,  ncentroids, 4, 8);

目的为了查询聚类中心的向量,返回topk;二级量化器传入的一个一级量化器,一级量化器的目的是在查询的时候快速定位的聚类中心,查询的时候也是先查询一级量化器,再查询二级量化器

 

(3)数据集问题

         在训练量化器之前,需要构建一个向量集合,以1500w向量为例,比如128维,需要申请内存1500*10000*128*4 = 7324M,大概需要7G内存注意我们插入向量的顺序就是召回向量的id,这个是一一对应的;

目前训练的时候是全部放内存的需要,所以需要提前计算好向量的维度,向量的数量,需要的机器内存大小等

3、Faiss 一级量化器训练

(1) 首先构造一级量化器(粗糙量化器)

入口函数Level1Quantizer::train_q1 (…)

向量检索-faiss检索_第5张图片

  •  K是聚类中心的数量,常规设置总向量的平方根
  • max_points_per_centroid 255默认值

(2) Faiss 二级量化器训练

入口函数IndexIVFPQ::train_residual (idx_t n, const float *x)

向量检索-faiss检索_第6张图片

从总向量 x 集合中随机选择 65536 pq.cp.max_points_per_centroid * pq.ksub   = 65536     Xslice是 65536 个向量集合,维度是 32
计算残差是计算的 65536 个向量与一级量化器的聚类中心的距离,   quantizer -> assign ( n , x , assign ) ; 这个函数是查询 65536 个向量,   

      assign返回的是n个聚类中心向量,里面可以有重复的中心向量残差可以看做是以一级量化器的为中心点的坐标系下各个向量表示,

      如下图:

向量检索-faiss检索_第7张图片

(3)Faiss 二级量化器计算残差

计算残差就是向量的各个维度和距离中心的差值

向量检索-faiss检索_第8张图片

 

(4) Faiss索引磁盘

数据下盘void write_index (const Index *idx, IOWriter *writer);

先写IndexIVFPQ * ivpq这种类型的索引,在write_ivf_header函数循环调用写了一级量化器的索引

向量检索-faiss检索_第9张图片

 

4、Faiss向量的add流程

Faiss Add流程其实是把向量集合添加到向量中心的倒排拉链中

向量检索-faiss检索_第10张图片

向量检索-faiss检索_第11张图片

向量检索-faiss检索_第12张图片

 

5、Faiss向量编码

(1)向量距离计算

向量检索-faiss检索_第13张图片向量检索-faiss检索_第14张图片向量检索-faiss检索_第15张图片

 

6、 Faiss向量检索流程

(1) 先查询一级量化器

查询以及量化器的目的是找到nprobe个聚类中心的

(2) 级量化器查询

     扫描器类型IVFPQScanner

向量检索-faiss检索_第16张图片

(3)  Faiss  级量化器查询步骤

距离计算

向量检索-faiss检索_第17张图片

向量检索-faiss检索_第18张图片

我们查询距离是非对称方法,第二张图,

SDC算法:先用PQ量化器对xy表示为对应的中心点q(x)q(y),然后用公式1来近似d(x,y)

ADC算法:只对y表示为对应的中心点q(y),然后用公式2来近似d(x,y)

参考文献:http://vividfree.github.io/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/2017/08/05/understanding-product-quantization

(4) Faiss向量检索整体流程示意图

向量检索-faiss检索_第19张图片

向量检索-faiss检索_第20张图片

 

(5) Faiss  级量化器查询核心函数

匿名函数init_result

这个函数是为了获取结果Topk,其中处理的是一个堆数据结构

向量检索-faiss检索_第21张图片

 匿名函数scan_one_list 扫描一个聚类中心的倒排拉链,并把数据使用堆排序返回TopK

向量检索-faiss检索_第22张图片

 

(6)Faiss  级量化器查询步骤1

   首先创建一个扫描器InvertedListScanner *scanner在本例中是IVFPQScanner类型   

   扫描器设置查询向量query,其实这个时候已经开始计算跟所有中心向量的距离

   扫描聚类中心节点列表

   根据中心点去查询倒排拉链,暴力搜索向量中心周围所有的点,并求距离

向量检索-faiss检索_第23张图片

向量检索-faiss检索_第24张图片

(7) Faiss  级量化器查询步骤2

查询的距离表示

距离计算是4个低维空间的距离之和,然后排序TopK

向量检索-faiss检索_第25张图片

 

7、Faiss FAQ

(1)  Faiss查询是否线程安全的?

Faiss本身是线程安全,但是Faiss内部在耗时统计代码中不是线程安全的,比如indexIVF_stats这个数据结构,就是搞了一个全局变量来统计耗时,这种方法仅仅使用在测试阶段

(2) Faiss可以同时查询Nquery,每个query都查询nprobe个中心点吗?

是的,每个query一级量化器都返回nprobe中心点

(3) Faiss查询优化问题

IndexIVF 存在几种模式 parallel_mode = 0 1;
nprobe Faiss 查询聚类中心的个数,一般值越小,查询效率越高
max_codes 代表扫描倒排链表的时候最大向量数量

 

(4) Faiss查询优化问题

注意:(1)parallel_mode=0的时候,max_codes设置一定值,比如1000才有效,否则无效,当nprobe >1 的时候,

设置max_codes才有效,因为如果nprobe=1相当于遍历一个中心点的倒排索引,遍历完才去判断是否break

无论max_codes设置多么小,都是需要遍历一个中心点的倒排拉链的

向量检索-faiss检索_第26张图片

 

(5) scan_codes聚类中心点的扫描可以离线化(主要耗时点

这个扫描是该聚类中心id周围样本向量所有距离计算,找出topk, 其实可以提前计算好分段距离,根据距离再量化成不同的分区---精度会下降

(6) faiss查询内存申请和释放问题

faiss内部为了支持线程安全每次查询都申请和释放大量内存,业务方往往在调用的时候单进程或多线程模型,大部分搜索处理模块线程数固定,不是每个query来了再启动一个线程,所以针对faiss内部频繁申请和释放内存可以使用线程存储的相关方法,循环使用内存,避免频繁申请和释放

 

二  向量化落地(部署)

1、独立部署向量

向量检索-faiss检索_第27张图片

2、向量作为索引类型

向量检索-faiss检索_第28张图片

3、无Faiss在线召回

向量检索-faiss检索_第29张图片

 

三 未来工作展望-深度优化

向量检索-faiss检索_第30张图片

  1. 向量召回后参考文本召回结果在底层合并
  2. 机器学习应用在底层索引模块打分
  3. 针对向量召回的特殊doc(文本匹配较差), 正排飘红优
  4. 在模型训练优化,提取content中的关键字+ query一起训练

 

四 参考文献

DSSM

https://www.cnblogs.com/wmx24/p/10157154.html

NSG

https://zhuanlan.zhihu.com/p/100716181

Faiss

https://github.com/facebookresearch/faiss/wiki

Vearch

https://vearch.readthedocs.io/zh_CN/latest/overview.html#id3

深度语义匹配模型

https://blog.csdn.net/qq_27590277/article/details/106264477

https://blog.csdn.net/ling620/article/details/95468908

https://zhuanlan.zhihu.com/p/39920446

https://www.cnblogs.com/guoyaohua/p/9229190.html

https://cloud.tencent.com/developer/article/1562482

http://www.wangqingbaidu.cn/article/dlp1516351259.html

https://www.jianshu.com/p/c578a77e7111

 

 

你可能感兴趣的:(搜索引擎,C++,后端开发,聚类,搜索引擎,机器学习,c++,自然语言处理)