动态规划求解编辑距离问题(转)

动态规划求解编辑距离问题(转)

 

题目描述:

要求两字符串有差异的字符个数。例如:
aaaaab aaa aa
aaaaac aab aa
这两个字符串,最大公共字串长度是5,但它们只有两个字符不同,函数输出值应为2。
如果是:
aaabbbcccddd
aaaeeeddd
函数的输出值应该是6。

比较形象地形容一下,把两个字符串排成上下两行,每个字符串都可以在任何位置插入空格以便上下对齐,每个列上至少有一个字符来自这两个字符串。当对齐程度最高的时候,没有对上的列的数即为函数输出值。
aaabbbcccddd
aaaeeeddd
最优对齐状态是:
aaabbbccc ddd
aaaeee     ddd
没有对上的列是6,函数输出值为6。
如果是:
abcde
acefg
最优对齐状态是:
abcde
a  c  efg
没有对上的列数是4,函数输出值为4。

问题抽象归类:(编辑距离问题)

设A和B是2个字符串。要用最少的字符操作将字符串A转换为字符串B。这里所说的字符操作包括:

(1)删除一个字符;
(2)插入一个字符;
(3)将一个字符改为另一个字符。
将字符串A变换为字符串B所用的最少字符操作数称为字符串A到B的编辑距离,记为d(A,B)。试设计一个有效算法,对任给的2个字符串A和B,计算出它们的编辑距离d(A,B)。
要求:
输入:第1行是字符串A,第2行是字符串B。
输出:字符串A和B的编辑距离d(A,B)

思路:动态规划

开一个二维数组d[i][j]来记录a0-ai与b0-bj之间的编辑距离,要递推时,需要考虑对其中一个字符串的删除操作、插入操作和替换操作分别花费的开销,从中找出一个最小的开销即为所求

具体算法:

首先给定第一行和第一列,然后,每个值d[i,j]这样计算:d[i][j]   =   min(d[i-1][j]+1,d[i][j-1]+1,d[i-1][j-1]+(s1[i]  ==  s2[j]?0:1));  
 最后一行,最后一列的那个值就是最小编辑距离 

代码:

  1. #include <stdio.h>   
  2. #include <string.h>   
  3. char  s1[1000],s2[1000];   
  4. int  min(int  a,int  b,int  c) {   
  5.     int  t = a < b ? a : b;   
  6.     return  t < c ? t : c;   
  7. }   
  8. void  editDistance(int  len1,int  len2) {   
  9.     int ** d=new int *[len1+1];
        for (int k=0;k<=len1;k++)
            d[k]=new int [len2+1];  
  10.     int  i,j;   
  11.     for (i = 0;i <= len1;i++)   
  12.         d[i][0] = i;   
  13.     for (j = 0;j <= len2;j++)   
  14.         d[0][j] = j;   
  15.     for (i = 1;i <= len1;i++)   
  16.         for (j = 1;j <= len2;j++) {   
  17.             int  cost = s1[i] == s2[j] ? 0 : 1;   
  18.             int  deletion = d[i-1][j] + 1;   
  19.             int  insertion = d[i][j-1] + 1;   
  20.             int  substitution = d[i-1][j-1] + cost;   
  21.             d[i][j] = min(deletion,insertion,substitution);   
  22.         }   
  23.     printf("%d/n" ,d[len1][len2]); 
  24.     for (int k=0;i<=len1;k++)
            delete[] d[k];
        delete[] d;
  25. }   
  26. int  main() {   
  27.     while (scanf("%s %s" ,s1,s2) != EOF)   
  28.         editDistance(strlen(s1),strlen(s2));   
  29. }  

转自:http://blog.csdn.net/yysdsyl/archive/2009/06/07/4249245.aspx

你可能感兴趣的:(c,算法,delete)