[算法]字符串之间的编辑距离

来自编程之美的一题

  许多程序会大量使用字符串。对于不同的字符串,我们希望能够有办法判断其相似程序。我们定义一套操作方法来把两个不相同的字符串变得相同,具体的操作方法为:

  1.修改一个字符(如把“a”替换为“b”);

  2.增加一个字符(如把“abdd”变为“aebdd”);

  3.删除一个字符(如把“travelling”变为“traveling”);

    比如,对于“abcdefg”和“abcdef”两个字符串来说,我们认为可以通过增加/减少一个“g”的方式来达到目的。上面的两种方案,都仅需要一 次 。把这个操作所需要的次数定义为两个字符串的距离,而相似度等于“距离+1”的倒数。也就是说,“abcdefg”和“abcdef”的距离为1,相似度 为1/2=0.5。在此我们只需考虑字符串编辑距离即可。


  原文的分析与解法  

  不难看出,两个字符串的距离肯定不超过它们的长度之和(我们可以通过删除操作把两个串都转化为空串)。虽然这个结论对结果没有帮助,但至少可以知道,任意两个字符串的距离都是有限的。

  我们还是就住集中考虑如何才能把这个问题转化成规模较小的同样的子问题。如果有两个串A=xabcdae和B=xfdfa,它们的第一个字符是 相同的,只要计算A[2,...,7]=abcdae和B[2,...,5]=fdfa的距离就可以了。但是如果两个串的第一个字符不相同,那么可以进行 如下的操作(lenA和lenB分别是A串和B串的长度)。

 1.删除A串的第一个字符,然后计算A[2,...,lenA]和B[1,...,lenB]的距离。

  2.删除B串的第一个字符,然后计算A[1,...,lenA]和B[2,...,lenB]的距离。

  3.修改A串的第一个字符为B串的第一个字符,然后计算A[2,...,lenA]和B[2,...,lenB]的距离。

  4.修改B串的第一个字符为A串的第一个字符,然后计算A[2,...,lenA]和B[2,...,lenB]的距离。

  5.增加B串的第一个字符到A串的第一个字符之前,然后计算A[1,...,lenA]和B[2,...,lenB]的距离。

  6.增加A串的第一个字符到B串的第一个字符之前,然后计算A[2,...,lenA]和B[1,...,lenB]的距离。

  在这个题目中,我们并不在乎两个字符串变得相等之后的字符串是怎样的。所以,可以将上面的6个操作合并为:

  1.一步操作之后,再将A[2,...,lenA]和B[1,...,lenB]变成相字符串。

  2.一步操作之后,再将A[2,...,lenA]和B[2,...,lenB]变成相字符串。

  3.一步操作之后,再将A[1,...,lenA]和B[2,...,lenB]变成相字符串。

  如果熟悉动态规划的人很容易就看到这里使用动态规划最好,如果使用递归的话会重复计算很多子问题的。

这里是自底向上的动态规划,比自顶向下的动态规划快一个常数因子的速度,具体可以看看另一个博文[算法]添加最少字符数构成使字符串构成回文其中有自顶向下的,也有自底向上的两种做法。在这里就直接用自底向上的动态规划。有一个小技巧就是使用了滚动数组,空间复杂度降低了一个数量级。

    

#include <iostream>

using namespace std;

const int N = 1001;

int dp[2][N];

int foo(char* src, int srcLen, char* des, int desLen)

{

    int i, j;

    for(j = 0; j <= desLen; ++j)

    {

        dp[0][j] = j; 

    }

    int a, b;

    for(i = 1; i <= srcLen; ++i)

    {

        dp[i&1][0] = i;

        for(j = 1; j <= desLen; ++j)

        {

            if(src[i] == des[j])

            {

                dp[i&1][j] = dp[(i-1)&1][j-1];

            }

            else

            {

                a = dp[i&1][j-1] + 1;

                b = dp[(i-1)&1][j] + 1;

                dp[i&1][j] = a < b ? a : b;

            }

        }

    }

    return dp[srcLen&1][desLen];

}

int main(int argc, char** argv) { 

    char src[N]="abcd",des[N]="b55cd";

    cout<<foo(src,4,des,5);

    return 0;

}

没有测试太多数据,如果读者觉得哪里有问题,请留言评论,谢谢。

 

     


本文基于知识共享署名-非商业性使用 3.0 许可协议进行许可。欢迎转载、演绎,但是必须保留本文的署名林羽飞扬,若需咨询,请给我发信

你可能感兴趣的:(字符串)