文件外排序

对于文件中的数据,将它们读取出来,放到一个空间中,通常会用快排来排序,然后再放回去。

但是如果数据量非常大,一个文件中也存不下,或者即使存下读取再使用快排也不是很高效,那么就会使用归并排序。但是归并不是直接用,在归并排序前,我们先将大文件分割成N份,保证每份的大小可以加载到内存中,那么就可以把每个小文件加载到内存中,使用快排排成有序,再写回小文件,这样每个小文件就都有序了,就可以两个小文件归并了。每个小文件也都需要文件名,给后续归并用。

先看快排部分

void MergeSortFile(const char* file)
{
    FILE* fout = fopen(file, "r");
    if (fout == NULL)
    {
        printf("打开文件失败\n");
        exit(-1);
    }

    //分割成一段一段数据,内存排序后写到小文件
    int n = 10;
    int a[10];
    memset(a, 0, sizeof(int) * n);
    int i = 0;
    int num = 0;
    char subfile[20];
    int filei = 1;
    while (fscanf(fout, "%d\n", &num) != EOF)//读入的格式就是文件中数据存储的格式,这里就说明数据存储是一个数据占一行
    {
        if (i < n - 1)
            a[i++] = num;
        else
        {
            a[i] = num;
            QuickSort(a, 0, n - 1);
            sprintf(subfile, "sub\\sub_sort%d.txt", filei++);//这里就把数据放到每个小文件中,并且每个小文件都有自己的名字,中间的双引号的内容就是放进sub文件夹中sub_sort1,sub_sort2...中
            FILE* fin = fopen(subfile, "w");
            if (fin == NULL)
            {
                printf("打开文件失败\n");
                exit(-1);
            }
            for (int i = 0; i < n; i++)
            {
                fprintf(fin, "%d\n", a[i]);
            }
            fclose(fin);
            i = 0;
            memset(a, 0, sizeof(int) * n);
        }
    }

    //利用互相归并到文件,实现整体有序
    char mfile[100];
    char file1[20] = "sub\\sub_sort1.txt";
    char file2[20];
    for (int i = 2; i <= n; ++i)
    {
        sprintf(file2, "sub\\sub_sort%d.txt", i);

        //读取file1和file2,归并出mfile
        _MergeFile(file1, file2, mfile);
    }
    fclose(fout);
}

写到这里,程序已经生成了10份文件了,接下来就是归并函数_MergeFile。

void _MergeFile(const char* file1, const char* file2, const char* mfile)
{
    FILE* fout1 = fopen(file1, "r");
    if (fout1 == NULL)
    {
        printf("打开文件失败\n");
        exit(-1);
    }
    FILE* fout2 = fopen(file2, "r");
    if (fout2 == NULL)
    {
        printf("打开文件失败\n");
        exit(-1);
    }
    FILE* fin = fopen(mfile, "r");
    if (fin == NULL)
    {
        printf("打开文件失败\n");
        exit(-1);
    }
    int num1 = 0, num2 = 0;
    int ret1 = fscanf(fout1, "%d\n", &num1);
    int ret2 = fscanf(fout2, "%d\n", &num2);
    while (ret1 != EOF && ret2!= EOF)
    {
        if (num1 < num2)
        {
            fprintf(fin, "%d\n", num1);
            ret1 = fscanf(fout1, "%d\n", &num1);
        }
        else
        {
            fprintf(fin, "%d\n", num2);
            ret2 = fscanf(fout2, "%d\n", &num2);
        }
    }
    while (ret1 != EOF)
    {
        fprintf(fin, "%d\n", num1);
        ret1 = fscanf(fout1, "%d\n", &num1);
    }
    while (ret2 != EOF)
    {
        fprintf(fin, "%d\n", num2);
        ret2 = fscanf(fout2, "%d\n", &num2);
    }
    fclose(fout1);
    fclose(fout2);
    fclose(fin);
}

用ret1和ret2是因为,文件指针是自动往后走的,比较一次后,假如num2小,那么num2应当读下一个数和num1继续比,num1不能继续往后读,如果把两个fscanf放在while的括号里,那就不可控了。

下面的两个while如果也是写fscanf != EOF,那么容易把一个空间中最后一个数据丢掉,所以也是用ret来判断。

不过取名字这里有点麻烦,我们的想法是file1和file2一开始指向头两个文件sub_sort1.txt 和sub_sort2.txt,这两个文件归并成的文件就是第一个mfile,也就是12.txt,然后让file1指向mfile文件,file1就变成了12.txt,file2指向下一个文件sub_sort3.txt,再次归并,形成新的mfile。

改后的代码

    //利用互相归并到文件,实现整体有序
    char mfile[100] = "12";
    char file1[20] = "1";
    char file2[20] = "2";
    for (int i = 2; i <= n; ++i)
    {
        //mfile的名字就从12开始,下一个就是123,1234。

        //读取file1和file2,归并出mfile
        _MergeFile(file1, file2, mfile);
        strcpy(file1, mfile);
        sprintf(file2, "%d", i + 1);
        sprintf(mfile, "%s%d", mfile, i + 1);
    }

结束。

你可能感兴趣的:(初阶数据结构的学习,算法,数据结构,c++,排序算法)