python第三方库:fuzzywuzzy句子与句子间相似度

在互联网中信息的重复性太大,许多的文章都是拷贝过来简单的修改一下标题而已,需要有一样的工具来检查标题句子之间的相似度,这里有一个库:fuzzywuzzy

安装

git地址在:

https://github.com/seatgeek/fuzzywuzzy

安装方法:

pip install fuzzywuzzy

使用方法

使用ratio 算出两个句子间的相似度。这里同样也支持中文。

>>> from fuzzywuzzy import fuzz
>>> 
>>> fuzz.ratio("this is a test", "this is a test!")
97
>>> fuzz.ratio("你好", "你好啊")
80
>>> fuzz.ratio("你好", "我不是")
13
>>>

Process 求出集合中相似的几个句子。

>>> from fuzzywuzzy import process
>>> choices = ["Atlanta Falcons", "New York Jets", "New York Giants", "Dallas Cowboys"]
>>> process.extract("new york jets", choices, limit=2)
    [('New York Jets', 100), ('New York Giants', 78)]
>>> process.extractOne("cowboys", choices)
    ("Dallas Cowboys", 90)

你可能感兴趣的:(python第三方库,fuzzywuzzy)