比较两个文本的相似性

使用余弦定理来实现对两个文本相似性的比较:

余弦公式

python代码位置:http://www.oschina.net/code/snippet_1180874_22866

此算法非常简单,但精确度不够高。但也可以通过简单的优化得到更好的结果,如以上代码就简单的加入了过渡功能。若再加入一个分词库,通过分词来比较中文的相似性,那就更好了。下面代码就用到了分词库实现文本的比较,效果提升明显。

使用分词以及余弦定理来比较两份文档的相似性的代码:

http://www.oschina.net/code/snippet_1180874_22869


原理解释参考此文章:http://my.oschina.net/BreathL/blog/42477

其它:https://pypi.python.org/pypi/NearDuplicatesDetection/0.2.0

这个python库号称可以比较两文本的相似度,但本人使用中文文件测试结果很不理想。不信大家可以试试。

你可能感兴趣的:(相似度,DUPLICATE,比较文本,near)