缺失信息请看:http://download.csdn.net/source/2255151
相似度测度
在模式识别中,衡量和评估模式与模式之间相似度的标准或者准则是相似度测度,包括距离和角度两个方面。
一、距离:不同应用环境中对向量与向量距离的广义定义
1. 欧式距离(Euclid)
a) 定义:欧式距离即欧几里德度量,它是被定义在欧几里德空间中。
b) 公式:
定义点
c) 总结:X与Y的距离实质是(X-Y)的模: ,计算该距离之前要标准化模式向量单位
2. 马氏距离(Mahalanobis)
a) 定义:马氏距离表示数据的协方差距离,是有效计算未知样本集的相似度的方法
b) 公式:
定义多变量向量 ,其均值为 ,协方差矩阵为
定义 服从同一分布,且协方差矩阵为的随机变量,则 差异度:
c) 总结:当 =1时马氏距离就是欧氏距离;马氏距离能够考虑到各个样本特征之间的相互联系且尺度无关
3. 明氏距离(Minkowaki)
定义:明氏距离表示的是样本之间的街坊距离,如下图:
欧式距离 ------街坊距离
|
公式:
总结:当m=2是明氏距离与街坊距离相等
4. 汉明距离(Hamming)
a) 定义:汉明距离用于信息论中,它对应的是两个等长的字符串在相同位置上不同字符的个数。汉明重量是指一个字符串相对于与它等长的零字符串的汉明距离。
10011与11001的汉明距离是2, 10011的汉明重量是3
b) 总结:汉明距离是在信息误差检测和矫正码领域提出来的;
i. 信号距离:在数据传输过程中信号数据位发生翻转的次数;
ii. 编辑距离(Levenshtein):两个字符之间有一个转成另一个所用的最少的编辑操作次数,操作包括:替换、插入、删除一个字符
二、对角度的测度
1. 角度相似性函数
1) 定义:改函数即是向量之间的夹角余弦
2) 公式:
定义 两个向量
3) 总结:该函数反映了模式的几何特征,对放大和缩小相对变换无影响;
当 为1,0, 表示有k的特征, 表示Y无k的特征,则该函数表达的是X和Y共有的特征数目的相似度测量
2. Tanimoto测度
定义:Tanimoto测度两个模式的共有特征和共占有特征的比
公式
定义 两个向量
CSDN的文章发布系统真是不敢恭,缺失信息请看:http://download.csdn.net/source/2255151