BM25公式

 



 

其中qdC分别表示查询、文档和文档集合,|q||d|分别是查询q和文档d的长度,avdl是文档集合中文档的平均长度。w表示特征词项(Term)c(w,d)c(w,q)分别表示w出现在dq中的个数,N是文档集合中的文档总数,df(w)表示出现w的文档个数。p(w|C)表示C中出现w的概率。公式中的k1,k3,b,都是人工经验调节的参数。

 

BM25模型是一个经验启发式模型,存在着巨大的鲁棒性问题,具体表现在:

 

(1) 这些模型有需要人工经验调节的参数。同一模型在面对同一查询、同一文档集的情况下,不同的参数其取值结果性能相差较大;

(2) 如果参数不变,同一模型对同一查询,在不同的文档集上结果也会性能相差很大;

(3) 同一模型对不同查询,同一组参数,同一文档集合上的结果性能也会相差很大。

你可能感兴趣的:(C++,c,C#)