汉明距离(Hamming Distance)

汉明距离(Hamming Distance)

定义

汉明距离以美国数学家理查德·卫斯里·汉明的名字命名,表示两个相同长度的字符串在相同位置上不同字符的个数。用d(x,y)来表示x和y两个字符串的汉明距离。汉明距离可以用来计算两个文本之间的相似度,根据不同字符的个数来判断两个文本是否相似。

d(10010,10000)=1
d(abcbc,abdab)=3

计算

根据定义,我们需要统计出相同位置上不同字符的个数,如何判断两个字符是否相同呢?如果两个字符都是数字,可以用a==b来判断,如果两个字符是非数字,可以用a.equals(b)来判断,但其实有更快速的方法。把两个字符进行异或运算,如果字符a和字符b相同,则a^b=0,我们只需要统计异或结果不为0的个数。

如果两个字符串长度不相等,则以短字符串长度截取长字符串,计算截取后的字符串与短字符串的汉明距离,加上两个字符串长度差。
以下是Java实现:

        // 数组汉明距离计算
        byte[] array1 = new byte[]{0,1,0,1,0,0,0,0,1,1,1,0,0};
        byte[] array2 = new byte[]{1,1,0,1,1,0,0,1,0,1,0,1,0};
        
        int count = 0;
        for (int i = 0; i < array1.length; i++) {
        	if ((array1[i] ^ array2[i]) != 0) {
        		count ++;
        	}
        }
        
        System.out.println(count);
        
        // 字符串汉明距离计算,先转换成字符数组
        String str1 = "abddfaerwerw";
        String str2 = "abddfaerw大rw";
        
        char[] arr1 = str1.toCharArray();
        char[] arr2 = str2.toCharArray();
        
        int count1 = 0;
        for (int i = 0; i < arr1.length; i++) {
        	if ((arr1[i] ^ arr2[i]) != 0) {
        		count1 ++;
        	}
        }
        
        System.out.println(count1);

你可能感兴趣的:(算法,算法)