距离
设特征空间X是n维实数空间的距离定义为:
这里.
当p=2时,称为欧式距离(Euclidean distance)
当p=1时,称为曼哈顿距离(Manhattan distance)
当时,它是各个坐标距离的最大值即:
欧氏距离(euclidean distance)
对于平面上的二点
欧氏距离定义为:
曼哈顿距离(街区距离)
闵可夫斯基距离
对于二个n维的变量A(x1,x2,…,xn)和B(y1,y2,…yn),闵氏距离为:
海明距离
在信息论中,二个字符串之间的海明距离是二个字符串对应位置的不同字符数。
如:A=(1011101),B=(1001001)
海明距离=2
杰卡德(Jaccard)相似度
其中A,B为集合
如网页相似度比较
网页 | 网页内容 |
---|---|
A | 努力建设国家级自然保护区 |
B | 保护自然保护区义不容辞 |
①分词处理:
A = {‘努力’,‘建设’,‘国家级’,‘自然保护区’}
B = {‘保护’,‘自然保护区’,‘义不容辞’}
②计算相似度:
A∩B = {‘自然保护区’}
A∪B = {‘努力’,‘建设’,‘国家级’,‘自然保护区’,‘保护’,‘义不容辞’}
J(A,B) = 1/6 = 0.17
余弦相似度
对于向量a(x1,y1)和b(x2,y2)的余弦值为:
对于n维时,
若
则
例:网页文本相似度计算
文本编号 | 内容 |
---|---|
A | 数据价值是一种数据艺术 |
B | 算法价值是一种算法艺术 |
① 分词处理:
A={‘数据’,‘价值’,‘是’,‘一种’,‘数据’,‘艺术’}
B={‘算法’,‘价值’,‘是’,‘一种’,‘算法’,‘艺术’}
② 计算并集A∪B
={‘数据’,‘价值’,‘是’,‘一种’,‘算法’,‘艺术’}
③ 词频计算:
A={数据(2),价值(1),是(1),一种(1),算法(0),艺术(1)}
B={数据(0),价值(1),是(1),一种(1),算法(2),艺术(1)}
④ 建立特征向量:
A=(2,1,1,1,0,1)
B=(0,1,1,1,2,1)
⑤ 相似度计算:
余弦相似度更侧重于方向问题。