TF-IDF

词频TF

TF = 某个词在文章中的出现次数
TF = 某个词在文章中的出现次数 / 文章总词数
TF = 某个词在文章中的出现次数 / 拥有最高词频的词的次数

逆文档频率IDF

语料库(corpus)模拟语言的使用环境。
IDF = log(语料库的文档总数 / (包含该词的文档总数 + 1))

TF-IDF

TF-IDF = TF * IDF

你可能感兴趣的:(TF-IDF)