给定一个源串和目标串,能够对源串进行如下操作:
1. 在给定位置上插入一个字符
2. 替换任意字符
3. 删除任意字符
写一个程序,返回最小操作数,使得对源串进行这些操作后等于目标串,源串和目标串的长度都小于2000。
此题常见的思路是动态规划,假如令dp[i][j] 表示源串S[0…i] 和目标串T[0…j] 的最短编辑距离,其边界:dp[0][j] = j,dp[i][0] = i,那么我们可以得出状态转移方程:
}
接下来,咱们重点解释下上述3个式子的含义
上述的解释清晰规范,但为啥这样做呢?
换一个角度,其实就是字符串对齐的思路。例如把字符串“ALGORITHM”,变成“ALTRUISTIC”,那么把相关字符各自对齐后,如下图所示:
把图中上面的源串S[0…i] = “ALGORITHM”编辑成下面的目标串T[0…j] = “ALTRUISTIC”,我们枚举字符串S和T最后一个字符s[i]、t[j]对应四种情况:(字符-空白)(空白-字符)(字符-字符)(空白-空白)。
由于其中的(空白-空白)是多余的编辑操作。所以,事实上只存在以下3种情况:
综上,可以写出简单的DP状态方程:
//dp[i,j]表示表示源串S[0…i] 和目标串T[0…j] 的最短编辑距离
dp[i, j] = min { dp[i - 1, j] + 1, dp[i, j - 1] + 1, dp[i - 1, j - 1] + (s[i] == t[j] ? 0 : 1) }
//分别表示:删除1个,添加1个,替换1个(相同就不用替换)。
参考代码如下:
/*注意:source和target字符串的长度不能超过d矩阵的限制*/ int EditDistance(const std::string& source, const std::string& target) { std::string::size_type i,j; int d[MAX_STRING_LEN][MAX_STRING_LEN] = { 0 }; for(i = 0; i <= source.length(); i++) d[i][0] = i; for(j = 0; j <= target.length(); j++) d[0][j] = j; for(i = 1; i <= source.length(); i++) { for(j = 1; j <= target.length(); j++) { if(source[i - 1] == target[j - 1]) { d[i][j] = d[i - 1][j - 1]; //不需要编辑操作 } else { int edIns = d[i][j - 1] + 1; //source 插入字符 int edDel = d[i - 1][j] + 1; //source 删除字符 int edRep = d[i - 1][j - 1] + 1; //source 替换字符 d[i][j] = std::min(std::min(edIns, edDel), edRep); } } } return d[source.length()][target.length()]; }
举一反三
1、传统的编辑距离里面有三种操作,即增、删、改,我们现在要讨论的编辑距离只允许两种操作,即增加一个字符、删除一个字符。我们求两个字符串的这种编辑距离,即把一个字符串变成另外一个字符串的最少操作次数。假定每个字符串长度不超过1000,只有大写英文字母组成。
2、有一亿个数,输入一个数,找出与它编辑距离在3以内的数,比如输入6(0110),找出0010等数,数是32位的。
实际上,关于这个“编辑距离”问题在搜索引擎中有着重要的作用,如搜索引擎关键字查询中拼写错误的提示,如下图所示,当你输入“Jult”后,因为没有这个单词“Jult”,所以搜索引擎猜测你可能是输入错误,进而会提示你是不是找“July”:
当然,面试官还可以继续问下去,如请问,如何设计一个比较这篇文章和上一篇文章相似性的算法?