相似度的几种常见计算方法

相似度的计算现有的关于相似度计算的方法,基本上都是基于向量的,也即计算两个向量之间的距离,距离越近越相似。下面是几种常见的相似度计算方法。

1.杰卡德相似系数

Jaccard(杰卡德)相似性系数主要用于计算符号度量或布尔值度量的样本间的相似度。
Jaccard(杰卡德)系数等于样本集交集的个数和样本集并集个数的比值。
在这里插入图片描述
Jaccard(杰卡德)距离是用两个集合中不同元素所占元素的比例来衡量两个集合(样本)的区分度。
在这里插入图片描述
Jaccard系数主要的应用的场景有:
1).过滤相似度很高的新闻,或者网页去重
2).考试防作弊系统
3).论文查重系统

2.余弦相似度

是通过计算两个向量的夹角余弦值来评估他们的相似度。
如图,假设 = (x1,y1), = (x2,y2),则余弦相似度的计算公式为:
相似度的几种常见计算方法_第1张图片相似度的几种常见计算方法_第2张图片
余弦相似度主要的应用的场景有:
1)推荐系统中的协同过滤
2)计算文本的相似性

3.通过距离计算相似度

二维空间中,假设 = (x1,y1), = (x2,y2)
1)欧式距离
在这里插入图片描述
2)曼哈顿距离
在这里插入图片描述
以上的都为二位向量,多维的可进行类比。

4.皮尔逊相关系数

一般用于计算两个定距变量间联系的紧密程度。假设有两个变量X,Y,则它们之间的相关系数为:
在这里插入图片描述
最终计算出的相关系数的含义可以有如下理解:
1)当相关系数为0时,X和Y两变量无关系。
2)当X的值增大(减小),Y值增大(减小),两个变量为正相关,相关系数在0.00与1.00之间。
3)当X的值增大(减小),Y值减小(增大),两个变量为负相关,相关系数在-1.00与0.00之间。
当两个变量的标准差都不为零时,相关系数才有定义,皮尔逊相关系数适用于:
1)两个变量之间是线性关系,都是连续数据。
2)两个变量的总体是正态分布,或接近正态的单峰分布。
3)两个变量的观测值是成对的,每对观测值之间相互独立。

你可能感兴趣的:(机器学习,数据挖掘)