python 比较两个序列的相似度,不需要分词

code

通过Python来判断2个文字列的相似度的多少,合理使用的话就可以实现Google等搜索引擎中的 你是不是要找 的功能了。

import difflib
a=u'阿里巴巴'
b=u'阿里爸爸'
print difflib.SequenceMatcher(None,a,b).ratio()

0.75

返回的结果超过0.6就算很相似。看来目前完全人肉做近义词词典的工作有一部分可以自动化来实现了。

ref

http://pymotw.com/2/difflib/
http://jianslog.appspot.com/tag/Python
http://jianslog.appspot.com/tag/Python

你可能感兴趣的:(python,python)