最长公共子序列(LCS)

此文全文参考自:https://blog.csdn.net/dq_dm/article/details/45043689,特此感谢!
然后自己参考了:http://www.ahathinking.com/archives/115.html 和July的ppt讲义《十分钟搞定LCS》,为表示版权,特地留下July的log:)。

一、最长公共子序列定义

最长公共子序列,即Longest Common Subsequence,LCS
子序列:一个序列S任意删除若干个字符得到新序列T,则T叫做S的子序列。
最长公共子序列:两个序列X和Y的公共子序列中,长度最长的那个,定义为X和Y的最长公共子序列。
注意:最长公共子串要求联系,而最长公共子序列未必连续。

二、LCS的意义和应用

       求两个序列中最长的公共子序列算法,广泛的应用在图形相似处理、媒体流的相似比较、计算生物学方面。生物学家常常利用该算法进行基因序列比对,由此推测序列的结构、功能和演化过程。
       LCS可以描述两段文字之间的“相似度”,即它们的雷同程度,从而能够用来辨别抄袭。另一方面,对一段文字进行修改之后,计算改动前后文字的最长公共子序列,将除此子序列外的部分提取出来,这种方法判断修改的部分,往往十分准确。简而言之,百度知道、百度百科都用得上。

三、暴力破解:穷举法

1)假定序列X,Y的长度分别为m,n;

2)X的一个子序列即下标序列{1, 2, …, m}的严格递增子序列,因此,X共有2m个不同子序列;同理,Y有2n个不同子序列,从而穷举搜索法需要指数时间O(2m . 2n);

3)对X的每一个子序列,检查它是否也是Y的子序列,从而确定它是否为X和Y的公共子序列,并且在检查过程中选出最长的公共子序列;

显然,不可取。

四、LCS解法

什么是LCS记号?
最长公共子序列(LCS)_第1张图片

结尾符相等时

若Xm = Yn(最后一个字符相同),则:Xm与Yn的最长公共子序列Zk的最后一个字符必定为Xm(也=Yn)。
即有:

Zk= Xm= Yn
LCS(Xm,Yn) = LCS(Xm-1,Yn-1)+Xm

公式:
最长公共子序列(LCS)_第2张图片

举例:
最长公共子序列(LCS)_第3张图片

结尾符不相等时

1)如果xm≠yn,那么zk≠xm意味着Z是xm-1和Y的一个LCS。也就是
LCS(Xm,Yn)=LCS(Xm-1,Yn)
2)如果xm≠yn,那么zk≠yn意味着Z是X和Yn-1的一个LCS。也就是,
LCS(Xm,Yn)=LCS(Xm,Yn-1)

公式:
最长公共子序列(LCS)_第4张图片

举例:
最长公共子序列(LCS)_第5张图片

总结

这里写图片描述

五、LCS代码

伪代码:

最长公共子序列(LCS)_第6张图片

举例:

最长公共子序列(LCS)_第7张图片

代码(仅计算LCS长度):
int Lcs_length(string s1, string s2)
{
    int m = s1.size(); //字符串1的长度
    int n = s2.size();

    //int dp[m + 1][n + 1];
    vector<vector<int> > dp(m+1,vector<int>(n+1,0));
    for (int j = 0; j < n; ++j)
        dp[0][j] = 0;  //first rank init 0
    for (int i = 0; i < m; ++i)
        dp[i][0] = 0;  //first column init 0

    for (int i = 1; i <= m; ++i)
        for (int j = 1; j <= n; ++j)
        {
            if (s1[i] == s2[j])
            {
                dp[i][j] = dp[i - 1][j - 1] + 1;
            }
            else
            {
                dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]); //max value
            }
        }

    return dp[m][n];
}
代码(计算LCS长度并打印其中一个公共子序列):
void  Lcs_lengthAndStr(string s1, string s2)
{
    int m = s1.size(); //字符串1的长度
    int n = s2.size();

    //int dp[m + 1][n + 1];
    vector<vector<int> > dp(m+1,vector<int>(n+1,0));
    for (int j = 0; j < n; ++j)
        dp[0][j] = 0;  //first rank init 0
    for (int i = 0; i < m; ++i)
        dp[i][0] = 0;  //first column init 0

    for (int i = 1; i <= m; ++i)
        for (int j = 1; j <= n; ++j)
        {
            if (s1[i] == s2[j])
            {
                dp[i][j] = dp[i - 1][j - 1] + 1;
            }
            else
            {
                dp[i][j] = max(dp[i - 1][j], dp[i][j - 1]); //max value
            }
        }

    printf("len of LCS is: %d\n", dp[m][n]);

    /* 输出LCS 本来是逆序打印的,可以写一递归函数完成正序打印
    这里采用的方法是将Y作为临时存储LCS的数组,最后输出Y
    */
    int i = m;
    int j = n;
    char Y[200];  //Y存放LCS字符串,后面也可以使用new char*或者string
    int k = dp[i][j];
    Y[k] = '\0';
    while (i && j)
    {
        if (dp[i][j] == dp[i - 1][j - 1] + 1)
        {
            Y[--k] = s1[i - 1];
            --i; --j;
        }
        else if (dp[i - 1][j] > dp[i][j - 1])
        {
            --i;
        }
        else
        {
            --j;
        }
    }
    printf("%s\n", Y);
}

你可能感兴趣的:(数据结构与算法)