大篇幅文件计算相似度

文本相似度算法之-simhash

大篇幅文件计算相似度_第1张图片
原文参考链接:
https://zhuanlan.zhihu.com/p/81026564

模糊匹配算法是什么?

模糊匹配的算法也分为两大类: 方法1:求两个文本 相似度 ,大于某个阈值时,则认为这两个文本一致。 方法2:对每个文本按照一定比率 (模糊度)进行信息抽取压缩,生成一串模糊代码 (matchCode),模糊代码近似代表原始文本,模糊代码之间进行 精确匹配 即可

模糊匹配算法和相似度算法是类似的。

基于编辑距离的相似度衡量

汉明距离(Hamming distance)
定义:两个等长的符号串之间的汉明距离是对应符号不同的位置个数。
汉明距离是用于测量两个序列之间的编辑距离的几个字符串度量之一。它以美国数学家理查德·海明命名。

大篇幅文件计算相似度_第2张图片

# 写法一:
def hamming_distance(string1, string2):
	dist_counter = 0
	for n in range(len(string1)):
		if string1[n] != string2[n]:
			dist_counter += 1
	return dist_counter

# 写法二:或者采用更短的表达式
sum(xi != yi for xi, yi in zip(x, y))

汉明距离参考文章链接

你可能感兴趣的:(相似度,分类)