【动态规划】字符串编辑距离(Levenshtein距离)

最近在做项目的过程中需要计算两个字符串之间的编辑距离,所谓编辑距离,就是讲其中一个串变成另一个串需要的做少的操作次数,允许的操作包括:在任意位置添加一个字符、修改一个字符、删除一个字符。例如:

s1="123456"
s2="234561"

s2要变成s1,需要在首位添加一个'1',在末尾删除一个'1',共需要两次操作,所以s1和s2的编辑距离为2;

解决思路

设dis[i][j]表示s1的下标0到i的子串和s2的下标0到j的子串的编辑距离。
特殊情况:
显然dis[0][j]=j,dis[i][0]=i,此时其中一个串为空串,要将其变成另一个串则需要添加相应数量的字符。
一般情况,考虑三种操作:

  • 在s2相应子串后面添加新字符使其等于s1[i]:则dis[i][j]=dis[i-1][j]+1;
  • 删除s2相应子串的最后一个字符:dis[i][j]=dis[i][j-1]+1;
  • 将s2相应的子串的最后一个字符改成s1相应子串最后一个字符:
    此时要考虑两种情况:
    1、s1[i]=s2[j],此时不需要修改,dis[i][j]=dis[i-1][j-1]。
    2、s1[i]!=s2[j],此时需要一次修改,dis[i][j]=dis[i-1][j-1]+1;

综上,我们取三种情况中所求的距离最小的哪一个。
动态规划方程(edit即为为dis):



其中:


//参考代码
   public static int Levenshtein_dis(String s1,String s2){
        int dis[][] = new int[s1.length()+1][s2.length()+1];
        dis[0][0]=0;
        for (int i=1;i<=s1.length();++i) dis[i][0]=i;
        for (int j=1;j<=s2.length();++j) dis[0][j]=j;
        for (int i=1;i<=s1.length();++i){
            for (int j=1;j<=s2.length();++j){
                int cost=1;
                if (s1.charAt(i-1)==s2.charAt(j-1)) cost=0;
                int min;
                if (dis[i-1][j-1]+costdis[i-1][j]+1) min=dis[i-1][j]+1;
                dis[i][j]=min;
            }
        }
        return dis[s1.length()][s2.length()];
    }

你可能感兴趣的:(【动态规划】字符串编辑距离(Levenshtein距离))