ModaHub魔搭社区:AI原生云向量数据库MIlvus Cloud的倒置文件索引?

目录

VF

总结


VF

平面索引很不错,但它无法扩展。这就是向量搜索的数据结构发挥作用的地方。通过牺牲准确性来减少运行时间,以便显著提高查询速度和吞吐量。现在有很多索引策略,其中最常用的是倒置文件索引(IVF)。

抛开花哨的名字,IVF 实际上是相当简单的。IVF 通过将整个数据集按分片排列以减少整个搜索范围。所有分片都与一个中心点相关联,数据集中的每个向量都被分配到与其最近的中心点对应的分片。

ModaHub魔搭社区:AI原生云向量数据库MIlvus Cloud的倒置文件索引?_第1张图片

如果熟悉 FAISS,你应该对上图不会陌生。这是 Voronoi 图,直观地从两个维度展示了聚类分配。上图总共有 20 个单元(聚类),每个聚类的中心点显示为一个黑点。数据集中的所有点都将落入这 20 个区域中的一个。

聚类中心点通常用一种叫做 K-means 的聚类算法来确定。K-means 是一种交互式算法,其工作原理是首先随机选择 K 个点作为一组聚类。在每次迭代中,向量数据集中的所有点都被分配

你可能感兴趣的:(机器学习,python,人工智能,数据库,AI原生向量数据库,向量数据库,Milvus,Cloud)