字符串相似度(编辑距离算法)

编辑距离(Edit Distance),最先是由俄国科学家Vladimir Levenshtein在1965年发明,用他的名字命名,又称Levenshtein距离。是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个替换成另一个字符,插入一个字符,删除一个字符。


假设我们有两个字符串"syk"和"syko"。

1.将两个字符串分别写到行和列中,第一行和第一列的值从0开始增长。

s y k
0 1 2 3
s 1
y 2
k 3
o 4

2.A出得值取决于:左边的值(1)、上边的值(1)、左上角的值(0)。上面的值和左面的值都要求加1,这样得到1+1=2,1+1=2。A处由于是两个s相同,左上角的值加0.这样得到0+0=0。所以A处取他们里面最小的0.

s y k
0 1 2 3
s 1 A
y 2
k 3
o 4

3.同理,B出得值取决于:左边的值(0)、上边的值(2)、左上角的值(1)。上面的值和左面的值都要求加1,这样得到2+1=3, 0+1=1。 B处由于是t和s不相同,左上角的值加1.这样得到1+1=2。所以B处取他们里面最小的1.

s y k
0 1 2 3
s 1 0 B
y 2
k 3
o 4

4.依次生成矩阵

s y k
0 1 2 3
s 1 0 1 2
y 2 1 0 1
k 3 2 2 0
o 4 3 3 1

5.最后得到他们的距离=1,根据相似度计算公式:
(1-ld/(double)Math.max(syk.length(), syko.length()))
ld指的是最小编辑距离,就是矩阵最右下角最后求出的值。
所有最后的相似度值为1-1/4 = 0.75


局限性

由于需要利用矩阵,故空间复杂度为O(MN)。这个在两个字符串都比较短小的情况下,能获得不错的性能。不过,如果字符串比较长的情况下,就需要极大的空间存放矩阵。例如:两个字符串都是20000字符,则LD矩阵的大小为:20000 X 20000 X 2=800000000Byte=800MB。

java代码

public static double levenshtein(String str1, String str2) {
        //计算两个字符串的长度。
        int len1 = str1.length();
        int len2 = str2.length();
        //建立上面说的数组,比字符长度大一个空间
        int[][] dif = new int[len1 + 1][len2 + 1];
        //赋初值。
        for (int a = 0; a <= len1; a++) {
            dif[a][0] = a;
        }
        for (int a = 0; a <= len2; a++) {
            dif[0][a] = a;
        }
        //计算两个字符是否一样,计算左上的值
        int temp;
        for (int i = 1; i <= len1; i++) {
            for (int j = 1; j <= len2; j++) {
                if (str1.charAt(i - 1) == str2.charAt(j - 1)) {
                    temp = 0;
                } else {
                    temp = 1;
                }
                //取三个值中最小的
                dif[i][j] = min(dif[i - 1][j - 1] + temp, dif[i][j - 1] + 1,
                        dif[i - 1][j] + 1);
            }
        }
        System.out.println("字符串\"" + str1 + "\"与\"" + str2 + "\"的比较");
        //取数组右下角的值,同样不同位置代表不同字符串的比较
        System.out.println("差异步骤:" + dif[len1][len2]);
        //计算相似度
        float similarity = 1 - (float) dif[len1][len2] / Math.max(str1.length(), str2.length());
        System.out.println("相似度:" + similarity);
        return similarity;
    }

    //得到最小值
    private static int min(int... is) {
        int min = Integer.MAX_VALUE;
        for (int i : is) {
            if (min > i) {
                min = i;
            }
        }
        return min;
    }

你可能感兴趣的:(字符串相似度(编辑距离算法))