参考:http://blog.sina.com.cn/s/blog_5caa94a0010122dz.html
在文本挖掘中计算2篇文章相似度常用向量空间模型中的余弦定理公式判断。
1、 向量空间模式介绍
2、 余弦定理
在空间模型中,两条线的夹角越小,它们的余弦值就越大,而它们越相似(重叠或者平行)。
举一个具体的例子,假如文档X和文档Y对应向量分别是x1,x2,...,x64000 和y1,y2,...,y64000,
3、 文本挖掘中把文档转换为向量空间
在文本挖掘中,对文档A分词,得到A1,A2,….An,计算得到分词的Tf-Idf: k1,k2,…kn;同样对文档C分词,得到C1,C2…Cn, 计算得到分词的Tf-Idf:d1,d2,…dn。以tf-idf作为分词的权重,则得到文档A的向量P={k1A1 ,k2A2…knAn},转换为P={x1,x2,…Xn}文档C的向量Z={d1C1,d2C2…dnCn},转换为Z={y1,y2….yn},计算文档A和C的相似度就是在向量空间模型中计算它们余弦值.