TF-idf与BM25

TF-idf与BM25

TF-idf

TF-IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

tfidf=tf*idf-----tf(term frequence,词频)---idf(inverse document frequence,逆向文件频率)

tf:表示词条(关键字)在文本中出现的频率。

 

idf:某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目再将得到的商取对数得到

如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力

即:

 

缺点:

  1. 单纯地认为文本频率小的单词就越重要,文本频率大的单词就越无用。这对于大部分文本信息,并不是完全正确的

  2. 按照传统TF-IDF,往往一些生僻词的IDF(反文档频率)会比较高

你可能感兴趣的:(自然语言处理,tf-dif,BM25)