tf-idf算法实操

1.原理
tf-idf = tf * idf,反应一个词在该行业的重要性:如果词在该行业出现得频率高,且相对并不普遍,则认为这个词重要。
tf是词频 = 词出现次数/总词数。
idf是逆文档频率 = log{文档总数/包含该词文档数+1},+1的目的是防止分母为0。

2.中文tf-idf实验
还是用之前提到的维基百科语料作为算idf的数据源。先将数据源以自带的doc标签分成一个个文档,对每个文档,统计该文档的词集(ansj分词)。最后统计每个词在多少文档中出现,进一步算出idf。实验中用List>储存文档的词集,内存会吃不消,所以先分批用文件储存文档词集这个中间结果,再读取文件计算,将词的IDF值记录(固化)下来。

你可能感兴趣的:(tf-idf算法实操)