基于TF-IDF和余弦定理计算文本相似度进而进行分类

1. 首先解释一下什么是TF-IDF。

TF-IDF(Term Frequency-Inverse Document Frequency),汉译为词频-逆文本频率指数。一般来说,假设一篇文章中的某个词i出现的词数为Nwi,这篇文章总词数为N,则这个词对应的词频TFi=Nwi/N。逆文本频率指数IDF一般用于表示一个词的权重,其求解办法为IDFi=log(D/Dw),这里D指的是文本总量,Dw指的是词i在Dw篇文本中出现过。

则由TF与IDF的值可以计算出某个词i与文本的相关度x=IDFi*TFi。

2. 余弦定理与文本分类

计算文本之间的相似度可以使用余弦定理,那么我们就需要将两篇文本表示成特征向量的形式。我们假设有一个词量为6400的词典,这个词典基本涵盖了我们语料库里的词语,则每篇文章都可以表示成一个6400维的特征向量,每一维度都对应一个词语,每一维度的数值即为上述的相关度。则通过计算两篇文章的特征向量之间的角度,即可以知道这两篇文章所使用的词汇大致方向是否相同,即可以得出两篇文章的相似度。

基于文章之间的相似度即可采取自底向上不断合并的方法(Florian,1999),首先将文本两两进行余弦相似度计算,得出的余弦值大于某个阈值的两篇文本归为一类,如此可以得到几篇小类。再将新的小类作为一整篇新的文本,再两两计算余弦相似度,可以得到稍微大一些的几类,如此类推,直到某一类太大以致类内文本相似度太小为止。

你可能感兴趣的:(NLP)