数据结构实验病毒感染检测问题(C++)

         医学研究者最近发现了某些新病毒,通过对这些病毒的分析,得知他们的DNA序列都是环状的。现在研究者已收集了大量的病毒DNA和人的DNA数据,想快速检测出这些人是否感染了相应的病毒。为了方便研究,研究者将人的DNA和病毒DNA均表示成由一些字母组成的字符串序列,然后检测某种病毒DNA序列是否在患者的DNA序列中出现过,如果出现过,这此人感染了该病毒,否则没有感染。例如,假设病毒的DNA序列为baa,患者1的DNA序列为aaabbba,则感染。患者2的DNA序列为babbba,则未感染。(注意:人的DNA序列是线性的,而病毒的DNA序列是环状的)。

         研究者将待检测的数据保存在一个文本文件中,文件格式和内容规定如下:文件有num+1行,第一行有一个整数num,表示有num个待检测的任务(num<=300)。接下来每行i(2<=i<=num+1)对应一个任务,每行有两个数据,用空格分隔,第一个数据表示病毒的DNA序列(长度<=6000),第二个数据表示人的DNA序列(长度<=10000)。

        要求将检测结果输出到文件中,文件中包括num行,每行有三个数据,用空格分隔,前两个数据分别表示输入文件中对应病毒的DNA序列和人的DNA序列,如果该人感染了对应的病毒,该行第三个数据则为“YES”,否则为“NO”。 

        思路:我直接采用的kmp算法,可以参考博客点击打开链接,能有效改善时间复杂度。考虑到病毒基因是环状的,所以将两个一样的数组首尾相连,弄了个循环来更新匹配数组的值,这样就满足环状的要求,设置一个标记,用来判断是否匹配。注意要将匹配串清零,以防出错。

        注意:有些让用BF来写,本文不再给出代码,可以参考代码写出一个BF函数即可。

#include 
#include
#include
using namespace std;

char str[12005],pat[12005],pat1[12005];//pat为模式串,str为主串
int Next[12005]; //Next[x]下标x表示匹配失败处字符下标
//模式串pat的前缀与x位置的后缀的最大匹配字符个数-1
void GetNext(char *pat)
{
    int LenPat = strlen(pat);
    int i = 0,j = -1;
    Next[0] = -1;
    while(i < LenPat)
    {
        if(j == -1 || pat[i] == pat[j])
        {
            i++,j++;
            Next[i] = j;
        }
        else
            j = Next[j];
    }
}

int KMP()
{
    int LenStr = strlen(str);
    int LenPat = strlen(pat);
    GetNext(pat);
    int i = 0,j = 0;
    while(i < LenStr)
    {
        if(j == -1 || str[i] == pat[j])
            i++,j++;
        else
            j = Next[j];
        if(j == LenPat)
            return 1;
    }
    return -1;//没找到匹配位置
}
int main()
{
    //freopen("输入文件夹名字","r",stdin);       从文件读取数据
    //freopen("输出文件夹名字","w",stdout);   输出重定向
    int n;
    scanf("%d",&n);
    while(n--)
    {
        scanf("%s%s",pat1,str);
        char s[6005];
        memset(pat,'\0',sizeof(pat));//每次将pat数组清零
        bool flag=false;
        strcpy(s,pat1);
        int len = strlen(s);
        strcat(pat1,s);
        for(int i=0;i<=len;++i)
        {
            for(int j=0;j

结果检测

你可能感兴趣的:(KMP,字符串)