按领域调研——理论&工程实现

技术调研方法

https://www.jianshu.com/p/235f5e68b631

ANN调研

2、继续调研非度量空间的函数检索,当前主流的ANN方法的适应性总结如下:

a)LSH的方法,关键是找map,可以是一个map,或两个map,相关性高的就map到相似的。两个map即表示ad、query在两个不同空间,但这种方法其实是退化到的强represtation弱match的思路,不能解决核心问题;

b)聚类的方法(如PQ、kmeans等),仅对目标集处理,显然认为query与目标集在同一个空间;

c)基于tree的方法(如KD-tree、Ball-tree)核心就是找每个node的上、下界,metric-space & mercer-kernel & bregman-divergence等特殊空间,可基于其特性来容易找出其上下界。mecer-kernel明确是symmetric的,bregman-divergence虽然是asymmetric,但是x-y有意义,显然x,y也属于同空间;但对于更一般的match function来说,理论上可以支持x、y不在同一空间,但仅有目标集时,仅如何聚类成node就不够明显,计算每个node的上、下界就更不容易;

d)基于Graph方法,基于泰森多边形--对偶德劳内图的理论,支持x、y在不同空间,但是对于一般的match function,构建德劳内图几乎不可能,构建近似的small world图也几乎可不能。百度wsdm2020的论文方法,是假设目标集y足够密集(近乎连续),按l2构建,图游走就类似于"coodinate discent",可以找到local optimum,随机重复几次,可找到global optimum。

如上,目前看仅方法d)理论上可行。

3、基于方法d),demo实现中,待测试

你可能感兴趣的:(按领域调研——理论&工程实现)