信息检索中的经典算法——BM25

BM25(Best Match25)是在信息检索系统中根据提出的query对document进行评分的算法。它主要由Stephen E. Robertson, Karen Spärck Jones等人在上世纪70到80年代提出。BM25算法首先由Okapi系统实现(Okapi是伦敦城市大学实现的信息检索系统),所以又称为Okapi BM25。


BM25是一种BOW(bag-of-words)模型,BOW模型只考虑document中词频,不考虑句子结构或者语法关系之类,把document当做装words的袋子,具体袋子里面可以是杂乱无章的。准确的说,BM25并不是一个单一的函数,而是一个评分函数家族,一个最著名的版本如下,给定一个Query T(由关键词t1, t2, ..., tn组成),则一个文档 d 的BM25得分为:

信息检索中的经典算法——BM25_第1张图片

你可能感兴趣的:(自然语言处理信息检索,信息检索,BM25,TF-IDF,IR)