字符串算法之最长公共子序列

最长公共子序列,即 longest common subsequence,LCS。一个字符串删掉任意字符后所形成的字符串,不要求连续,注意和最长公共子串的区别。

LCS的应用:论文查重,图形相似度比较,基因序列比较等。


暴力求解:

分别求出X、Y串的子序列,而后进行搜索比较,容易得到该算法复杂度为O(2^m · 2^n ),显然不可取


动态规划:

设有两个字符串X[1....m],Y[1....n],求其最长公共子串

假设Xi Yi为两个字符串从1开始数的第i个字符,若xm=yn,则xm必在最长公共子序列中,即

设Z为最长公共子串,那么 Z = LCS(Xm,Yn)= LCS(Xm-1, Yn-1) + xm;

若不相等,则 Z =  max{LCS(Xm-1,Yn),LCS(Xm,Yn-1)};

则使用二维数组C[m][n], C[i][j]记录序列Xi和Yi的最长公共子序列的长度,当i或者j等于0时,公共子序列长度为0,即C[i][j]=0;

那么:

字符串算法之最长公共子序列_第1张图片

实现代码:

字符串算法之最长公共子序列_第2张图片字符串算法之最长公共子序列_第3张图片


如果是要求出最长递增序列的,可将原序列排序后求两个序列的最长公共子序列。


你可能感兴趣的:(字符串算法之最长公共子序列)