编辑距离问题(1)

编辑距离问题:

编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

例如将kitten一字转成sitting:

  1. sitten (k→s)
  2. sittin (e→i)
  3. sitting (→g)

俄罗斯科学家Vladimir Levenshtein在1965年提出这个概念。

【以上转自Weki百科】

《算法导论》(p218)上对这个问题的描述更为详细。此处对概念不做过多说明,这是一个典型的动态规划问题,用一句话来描述最优解就是求将源字符串src转换为目的字符串tar,所需要进行的最小操作数。

为此递归表达式如下:

dp[i][j]表示由字串s1[1..i]转换为字串s2[1,,j]的最小操作数,显然:

dp[0][j]=j*cost(delete);

dp[i][0]=i*cost(insert);

dp[i][j]=min{ dp[i-1][j-1]+cost(copy) if src[i]=tar[j] or dp[i-1][j-1]+cost(replace) if src[i]!=tar[j]   

                     or dp[i-1][j]+cost(delete),

                     or dp[i][j-1]+cost(insert)}

代码如下:

#include <iostream>
#include <vector>
#include <string>
using namespace std;

const int costCopy=0;
const int costReplace=1;
const int costDelete=1;
const int costInsert=1;

int levenshteinDistance(const string &s1,const string &s2){
  int len1=s1.size();
  int len2=s2.size();
  if(!len1) return len2;
  if(!len2) return len1;
  
  vector <vector <int> > dp(len1+1,vector <int>(len2+1,0));

  //initialize dp
  for(int i=1;i<len1+1;i++){
    dp[i][0]=dp[i-1][0]+costDelete;
  }
  for(int j=1;j<len2+1;j++){
    dp[0][j]=dp[0][j-1]+costInsert;
  }

  //dp
  for(int i=1;i<=len1;i++){
    for(int j=1;j<=len2;j++){
      int minDis=0;
      if(s1[i-1]==s2[j-1]){
        minDis=dp[i-1][j-1]+costCopy;
      }
      else{
        minDis=dp[i-1][j-1]+costReplace;
      }
      int tempDis=dp[i-1][j]+costDelete;
      if(minDis>tempDis){
        minDis=tempDis;
      }
      tempDis=dp[i][j-1]+costInsert;
      if(minDis>tempDis){
        minDis=tempDis;
      }
      dp[i][j]=minDis;
    }
  }
  cout<<"***************************"<<endl;
  for(int i=0;i<=len1;i++){
    for(int j=0;j<=len2;j++){
      cout<<dp[i][j]<<" ";
    }
    cout<<endl;
  }
  cout<<"**************************"<<endl;
  return dp[len1][len2];
}
int main(){
  string s1("sailn");
  string s2("failing");
  cout<<"编辑距离:"<<levenshteinDistance(s1,s2);
  return 0;
}

需要说明的一点是,我在程序中将copy,replace,insert以及delete操作的代价都设为特定的常数,并采用常量形式表示,程序运行结果如下:

编辑距离问题(1)_第1张图片

你可能感兴趣的:(算法导论)