机器学习(十三)——相似度的计算方法

无监督机器学习特点:
机器学习(十三)——相似度的计算方法_第1张图片
聚类特点:
机器学习(十三)——相似度的计算方法_第2张图片

对于聚类来说,相似性非常重要,下面我们就来看看相似度怎么算

1. 欧式距离和Jaccard系数

机器学习(十三)——相似度的计算方法_第3张图片
最经典的就是欧式距离(两点之间的距离,上图中的二维空间公式)
上图中右下角的第一个公式就是Jaccard系数,如果是距离的话第二个公式可以体现

相似度的两种测量方式:一个测量是高维空间里向量点和向量点的相似度;另一个是Jaccard系数(测量两个集合之间的相似度)

机器学习(十三)——相似度的计算方法_第4张图片

2. 余弦距离

机器学习(十三)——相似度的计算方法_第5张图片
假设一句话:我爱中国,被分成三个词:我,爱,中国,这三个词各出现一遍,则坐标为(1,1,1);另一句话:我100遍,爱100遍,中国*100遍,因为每个词都出现100遍,所以坐标为(100,100,100),把这两点连线,如果用欧式距离算相似度的话会很大,因为距离远,但这两句话表达的主题都是一样的,但是如果用角度来测量,这两个点和原点是在一条线的,角度为0,角度越小,相似度越大

余弦距离更适合文本

3. Person系数和相对熵

机器学习(十三)——相似度的计算方法_第6张图片

你可能感兴趣的:(机器学习)