算法设计与分析:Edit Distance(Week 9)

学号:16340008

题目:72. Edit Distance


Question:

Given two words word1 and word2, find the minimum number of operations required to convert word1 to word2.

You have the following 3 operations permitted on a word:

  1. Insert a character
  2. Delete a character
  3. Replace a character

Example 1:

Input: word1 = "horse", word2 = "ros"
Output: 3
Explanation: 
horse -> rorse (replace 'h' with 'r')
rorse -> rose (remove 'r')
rose -> ros (remove 'e')

Example 2:

Input: word1 = "intention", word2 = "execution"
Output: 5
Explanation: 
intention -> inention (remove 't')
inention -> enention (replace 'i' with 'e')
enention -> exention (replace 'n' with 'x')
exention -> exection (replace 'n' with 'c')
exection -> execution (insert 'u')

Answer:

该题为教材上的例题。题意是计算一个单词经过最少多少次“增,删,改”后能成为另一个单词。选这题是打算借打代码的机会更好的理解教材上的内容。

题目的重点在于如何将题目化为更小的子问题。对于字符串 x[1...m] 与 y[1...n]的编辑距离,我们可以考虑它的子串(前缀)x[1...i] 与 y[1...j]的编辑距离,记为 E(i, j)。对于 x[1...i] 与 y[1...j]的最右侧有以下三种情况:

  1. x[i] 对 空,即 E(i, j) = E(i-1, j) + 1
  2. 空 对 y[j],即 E(i, j) = E(i, j-1) + 1 
  3. x[i] 对 y[j],若 x[i] == y[j],则 E(i, j) = E(i-1, j-1),否则 E(i, j) = E(i-1, j-1) + 1,因此可记为 E(i, j) = (x[i] == y[j] ) ? E(i-1, j-1) : E(i-1, j-1) + 1

 而题目需要考虑的编辑距离是取最少的,由此综合上方三点可以总结出以下式子来分解问题:

E(i, j) = min { E(i-1, j) + 1, E(i, j-1) + 1, (x[i] == y[j] ) ? E(i-1, j-1) : E(i-1, j-1) + 1}

对于一个子问题分解到最后必然是 E(0, n)、E(n, 0)(n∈N)之一,而它们的值即为n。而我们的最终目的就是求 E(m, n)。调用递归即足以解决问题。

但是正如许多动态规划问题一样,子问题里包含大量的重复计算,因此简单地以三叉树地形式调用递归,时间复杂度将是O(3^n),这是不可接受的。因此我们也要像许多动态规划问题一样,利用内存存储已经求解过的子问题,在调用递归之前先检查,即可将时间复杂度压缩为O(n^2)(为了方便两个复杂度都假设m与n相等)。这里用一个二维数组是很好的选择。

因为子问题的最终尽头都是 E(0, n)、E(n, 0),因此我们需要预先定义二维数组的两条边(一行一列)。这里分别使用两个循环即可。而递归处,需要两个循环嵌套,在内层循环中求 E(m, n)。至于如何填这个二维数组,其实我们不需要关心。按行填按列填的结果是一样的。但是如果是在为了求 E(i, j)时求 E(i-1, j)(按教材的表格来说就是对一行从右往左填),我们需要检验表格中一个格子是否已被填过,虽然最终也能求出结果,但是这个检验是可以避免的。只要我们先求 E(i-1, j)再求 E(i, j),我们就可以保证每次求子问题时,子问题都已被解决。

最终得到以下代码(python3):

class Solution:
    def minDistance(self, word1, word2):
        """
        :type word1: str
        :type word2: str
        :rtype: int
        """
        
        m = len(word1)
        n = len(word2)

        table = [[0 for col in range(n+1)] for row in range(m+1)]

        for i in range(m+1):
            table[i][0] = i
        
        for j in range(n+1):
            table[0][j] = j
        
        for i in range(1, m+1):
            for j in range(1, n+1):
                table[i][j] = min(table[i-1][j] + 1, table[i][j-1] + 1, table[i-1][j-1] + (0 if word1[i-1] == word2[j-1] else 1))

        return table[m][n]

提交结果:算法设计与分析:Edit Distance(Week 9)_第1张图片 

而在code的时候需要留意的一个问题就是数组的范围。我们留意到表格的长宽分别是单词长度+1,因为要为 E(0, n)、E(n, 0) 预留位置。而在获取单词前缀的尾字母 x[i]时同样需要注意这里的下标数值越界问题。其余跟教材大致相同。

 

你可能感兴趣的:(算法设计与分析,Python3)