求两个DNA序列的最长公共子序列

新冠状病毒的基因序列

2019年12月下旬,武汉出现了多例不明原因的病毒性肺炎病例。之后,中国疾病预防控制中心确定此次致病的病原体为一种新的冠状病毒。1月12日,世界卫生组织将其命名为“2019新型冠状病毒(2019-nCoV)”。为了弄清新型冠状病毒的起源,中国疾控中心等机构的研究人员对住院患者的样本进行高通量测序,获得了完整和部分的2019-nCoV基因组序列。接着对这些2019-nCoV基因组和其他冠状病毒的基因组开展系统进化分析,以便确定这些病毒的进化史,帮助推断其可能的来源。

上述的研究就属于计算机和生物医学的交叉领域的相关研究,我们称之为生物信息学。在生物信息学中,我们以DNA为例说明基因序列的相似度研究。DNA (脱氧核糖核酸 )是生命体中主要的遗传物质 , 能将遗传信息由亲代传到子代. 它是一种线性 多聚脱氧核糖核苷酸 , 由碱基、戊糖及磷酸组成. 所有 DNA的主链均相同 , 只是腺嘌呤 (A)、鸟嘌呤(G)、胞嘧啶 ©和胸腺嘧啶 (T)这 4种碱基的排列顺序不同. 不同生物体的 DNA具有自己独特的碱基顺序 , 遗传信息是由碱基顺序体现的 , 所以 , 进行 DNA序列的比较 (即观察 4种碱基在主链上的排列顺序 )是非常重要的. 通过比较不同物种的 DNA序列 , 得出其相似度 , 从而可以推断出物种间亲缘关系的远近.。

现在给你两个由AGCT四个字母构成的字符串,请你求出两个DNA序列的最长公共子序列。

输入格式:
两行,每行一个字符串,分别表示一个DNA序列(每个字符串长度不超过1000)。

输出格式:
一个数,最长公共子序列元素的个数。

输入样例:
在这里给出一组输入。例如:

AGCT
ATT

输出样例:
在这里给出相应的输出。例如:

2

#include
#include
using namespace std;

#define MAX 1005

char a[MAX],b[MAX];
int f[MAX][MAX],g[MAX][MAX];

void getans(int n,int m){
	if(!n || !m) return;
	if(g[n][m] == 1){
		getans(n-1,m-1);
	}
	else if(g[n][m] == -1) getans(n-1,m);
	else getans(n,m-1);
}

int main(){
	scanf("%s%s",a+1,b+1);
	int lena = strlen(a+1),lenb = strlen(b+1);
	for(int i = 1;i <= lena; ++i) {
		for(int j = 1;j <= lenb; ++j) {
			if(f[i-1][j] > f[i][j]) { 
                f[i][j] = f[i-1][j]; 
                g[i][j] = -1;
                }
			if(f[i][j-1] > f[i][j]) { 
                f[i][j] = f[i][j-1]; 
                g[i][j] = 0;
                }
			if(a[i] == b[j]) {
				if(f[i-1][j-1] + 1 > f[i][j]) {
					g[i][j] = 1;
					f[i][j] = f[i-1][j-1] + 1;
				}
			} 
		}
	}
	if(!f[lena][lenb]) 
        cout << 0;
	else{
        cout << f[lena][lenb];
		getans(lena,lenb);
	}
    system("pause");
	return 0;
}

你可能感兴趣的:(求两个DNA序列的最长公共子序列)