海量数据相似数据查找方法(ANN):【高维稀疏向量的相似查找——MinHash, LSH, SimHash】【稠密向量的相似查找——Faiss、Annoy、ScaNN、Hnswlib】
主要分为高维稀疏向量和稠密向量两大方向。高维稀疏向量的相似查找——minhash,lsh,simhash针对高维稀疏数据情况,如何通过哈希技术进行快速进行相似查找。例如,推荐系统中item-user矩阵。如果你有item数量是百万级别,user是千万级别,这个矩阵是十分稀疏的。你如何计算每一个item的TopN相似item呢?同样海量文本场景,文本集合可以看成doc-word稀疏矩阵,如何求解每个