python最小编辑距离问题,动态规划

python最小编辑距离问题,动态规划

  • 问题描述
  • 思路
  • 代码
  • 运行结果

问题描述

给定一个长度为m和n的两个字符串,设有以下几种操作:替换(R),插入(I)和删除(D)。寻找到转换一个字符串插入到另一个需要修改的最小操作数量。这个数量就可以被视为最小编辑距离。如:acd与ace的距离为1,abc与cab的距离为1。
利用动态规划算法求解编辑距离问题。给定两个字符串,求由一个转成另一个所需要的最少编辑操作次数。
例子如下:

A\B a b c e
0 1 2 3 4
a 1 ----- ----- ----- -----
c 2 ----- ----- ----- -----
e 3 ----- ----- ----- -----
f 4 ----- ----- ----- -----

在5X5的列表中,s[i][j]表示:字符串A前i个字符与字符串B前j个字符的最短编辑距离。求最小编辑距离就是把这个列表填写完,s[4][4]的值即为所求的最小编辑距离。

思路

  • 1.当Ai和Bj的末尾字符A[i]==B[j]时,对末尾字符不需要进行编辑,
    diff = 0,step[i][j] = step[i-1][j-1]
  • 2.当Ai和Bj的末尾字符A[i]!=B[j]时,需要对其中之一的末尾进行编辑,
    diff = 1
    • 2.1先A[i-1]->B[j]再A[i]->B[j]
      step[i][j] = step[i-1][j]+diff
    • 2.2先A[i]->B[j-1]再A[i]->B[j]
      step[i][j] = step[i][j-1]+diff
    • 2.3先A[i-1]->B[j-1]再A[i]->B[j]
      step[i][j] = step[i-i][j-1]+diff
      取三种操作的最小值,就是Ai->Bj的最小编辑距离
      step[i][j] = min(step[i-1][j], step[i][j-1], step[i-i][j-1])+diff
  • 3.特殊情况,
    if(A == null)
    step[0][j] = j
    if(B == null)
    step[i][0] = i
  • 4.最后step[len(A)][len(B)]即为A->B的最小标记距离。

填写s[1]过程:
A[1]==B[1],s[1][1]=min(s[1][0],s[0][0],s[0][1])+0=0
A[1]!=B[2],s[1][2]=min(s[1][1],s[0][1],s[0][2])+1=1
A[1]!=B[3],s[1][3]=min(s[1][2],s[0][2],s[0][3])+1=2
A[1]!=B[4],s[1][4]=min(s[1][3],s[0][3],s[0][4])+1=3

A\B a b c e
0 1 2 3 4
a 1 0 1 2 3
c 2 ----- ----- ----- -----
e 3 ----- ----- ----- -----
f 4 ----- ----- ----- -----

填写s[2]过程:
A[2]!=B[1],s[2][1]=min(s[2][0],s[1][0],s[1][1])+1=1
A[2]!=B[2],s[2][2]=min(s[2][1],s[1][1],s[1][2])+1=1
A[2]==B[3],s[2][3]=min(s[2][2],s[1][2],s[1][3])+0=1
A[2]!=B[4],s[2][4]=min(s[2][3],s[1][3],s[1][4])+1=2

A\B a b c e
0 1 2 3 4
a 1 0 1 2 3
c 2 1 1 1 2
e 3 ----- ----- ----- -----
f 4 ----- ----- ----- -----

重复步骤,将列表填写完

A\B a b c e
0 1 2 3 4
a 1 0 1 2 3
c 2 1 1 1 2
e 3 2 2 2 1
f 4 3 3 3 2

所以A—>B编辑距离为2次,操作为:acef在字符ac之间插入字符b,删除字符f

代码

A = input("输入字符串1:")
B = input("输入字符串2:")
def minDistance(w1,w2):
	m,n = len(w1),len(w2)
	if(m==0):
		return m
	if(n==0):
		return n
	step = [[0]*(n+1)for _ in range(m+1)]
	for i in range(1,m+1):step[i][0]=i
	for j in range(1,n+1):step[0][j]=j
	for i in range(1,m+1):
		for j in range(1,n+1):
			if w1[i-1] == w2[j-1] :
				diff=0
			else:diff=1
			step[i][j] = min(step[i-1][j-1],min(step[i-1][j],step[i][j-1]))+diff	
	return step[m][n]
print(minDistance(A,B))

运行结果

python最小编辑距离问题,动态规划_第1张图片

你可能感兴趣的:(算法作业)