JAVA算法:最长公共子序列—动态规划算法

最长公共子序列—动态规划算法(Longest Common Subsequence)

让我们来讨论如何使用动态规划算法来解决LCS问题。

LCS问题陈述:给定两个序列,找出两个序列中存在的最长子序列的长度。

子序列是以相同的相对顺序出现的序列,但不一定是连续的。例如,“abc”、“abg”、“bdf”、“aeg”、“'”acefg“等等都是“abcdefg”的子序列。所以一个长度为n的字符串有2^n个不同的可能子序列。

它是一个经典的计算机科学问题,是diff(一个输出两个文件之间差异的文件比较程序)的基础,在生物信息学中有着广泛的应用。

举例:

对于给定的字符串 “ABCDGH” 和 “AEDFHR”,其最长公共子序列为: “ADH”,最长公共子序列的长度为:3。
对于给定的字符串 “AGGTAB” 和 “GXTXAYB”,其最长公共子序列为:“GTAB”,最长公共子序列的长度为:4。

算法分析

这个问题的简单解决方案是生成两个给定序列的所有子序列,并找到最长的匹配子序列。根据时间复杂性,这个解是指数的。让我们看看这个问题如何具有动态规划(DP)问题的两个重要特性。

最优子结构

输入序列分别为长度m和n的X[0..m-1]和Y[0..n-1]。

设L(x[0..m-1],y[0..n-1])为两个序列X和Y的LCS的长度,下面是L(X[0..m-1],Y[0..n-1])的递归定义。

如果两个序列的最后一个字符匹配(或X[m-1]==Y[n-1]),则

L(X[0..m-1],Y[0..n-1])= 1+L(X[0..m-2],Y[0..n-2])

如果两个序列的最后一个字符不匹配(或X[m-1]!= Y[n-1)]

L(X[0..m-1],Y[0..n-1])=最大值(L(X[0..m-2],Y[0..n-1]),L(X[0..m-1],Y[0..n-2]))

例如:

1)考虑输入字符串“aggtab”和“gxtxayb”。最后一个字符与字符串匹配。因此,LCS的长度可以写为:

L(“aggtab”,“gxtxayb”)=1+L(“aggta”,“gxtxay”)。

JAVA算法:最长公共子序列—动态规划算法_第1张图片

 

2)考虑输入字符串“abcdgh”和“aedfhr”。最后一个字符与字符串不匹配。因此,LCS的长度可以写为:

L(“abcdgh”,“aedfhr”)=max(L(“abcdg”,“aedfhr”),L(“abcdgh”,“aedfh”))

因此,LCS问题具有最优的子结构性质,利用子问题的解可以解决主要问题。

重叠子问题

下面是LCS问题的简单递归实现。实现只遵循上面提到的递归结构。

package com.bean.algorithm.basic;

public class LongestCommonSubsequence {
	/* A Naive recursive implementation of LCS problem in java */

	/* Returns length of LCS for X[0..m-1], Y[0..n-1] */
	int lcs(char[] X, char[] Y, int m, int n) {
		if (m == 0 || n == 0)
			return 0;
		if (X[m - 1] == Y[n - 1])
			return 1 + lcs(X, Y, m - 1, n - 1);
		else
			return max(lcs(X, Y, m, n - 1), lcs(X, Y, m - 1, n));
	}

	/* Utility function to get max of 2 integers */
	int max(int a, int b) {
		return (a > b) ? a : b;
	}

	public static void main(String[] args) {
		LongestCommonSubsequence lcs = new LongestCommonSubsequence();
		String s1 = "AGGTAB";
		String s2 = "GXTXAYB";

		char[] X = s1.toCharArray();
		char[] Y = s2.toCharArray();
		int m = X.length;
		int n = Y.length;

		System.out.println("Length of LCS is" + " " + lcs.lcs(X, Y, m, n));
	}

}

输出结果:

Length of LCS is 4

上述幼稚的递归方法在最坏情况下的时间复杂度为O(2^n),当x和y的所有字符都不匹配(即lcs的长度为0)时,最坏情况发生。考虑到上述实现,下面是输入字符串“axyt”和“ayzx”的部分递归树。

JAVA算法:最长公共子序列—动态规划算法_第2张图片

 在上面的部分递归树中,LCS(“axy”,“ayz”)被求解两次。如果我们画出一个完整的递归树,那么我们可以看到有许多子问题被一次又一次地解决。因此,该问题具有重叠的子结构性质,可以通过动态规划算法来避免同一子问题的重新计算。下面是LCS问题的动态规划算法实现。

package com.bean.algorithm.basic;

public class LongestCommonSubsequence2 {
	/* Dynamic Programming Java implementation of LCS problem */
	/* Returns length of LCS for X[0..m-1], Y[0..n-1] */
	int lcs(char[] X, char[] Y, int m, int n) {
		int L[][] = new int[m + 1][n + 1];

		/*
		 * Following steps build L[m+1][n+1] in bottom up fashion. Note that L[i][j]
		 * contains length of LCS of X[0..i-1] and Y[0..j-1]
		 */
		for (int i = 0; i <= m; i++) {
			for (int j = 0; j <= n; j++) {
				if (i == 0 || j == 0)
					L[i][j] = 0;
				else if (X[i - 1] == Y[j - 1])
					L[i][j] = L[i - 1][j - 1] + 1;
				else
					L[i][j] = max(L[i - 1][j], L[i][j - 1]);
			}
		}
		return L[m][n];
	}

	/* Utility function to get max of 2 integers */
	int max(int a, int b) {
		return (a > b) ? a : b;
	}

	public static void main(String[] args) {
		LongestCommonSubsequence2 lcs = new LongestCommonSubsequence2();
		String s1 = "AGGTAB";
		String s2 = "GXTXAYB";

		char[] X = s1.toCharArray();
		char[] Y = s2.toCharArray();
		int m = X.length;
		int n = Y.length;

		System.out.println("Length of LCS is" + " " + lcs.lcs(X, Y, m, n));
	}

}

程序运行结果:

Length of LCS is 4

上述实现的时间复杂度为O(mn),比简单递归实现的最坏情况下的时间复杂度要好得多。

你可能感兴趣的:(算法分析与设计)