对于文件中的数据,将它们读取出来,放到一个空间中,通常会用快排来排序,然后再放回去。
但是如果数据量非常大,一个文件中也存不下,或者即使存下读取再使用快排也不是很高效,那么就会使用归并排序。但是归并不是直接用,在归并排序前,我们先将大文件分割成N份,保证每份的大小可以加载到内存中,那么就可以把每个小文件加载到内存中,使用快排排成有序,再写回小文件,这样每个小文件就都有序了,就可以两个小文件归并了。每个小文件也都需要文件名,给后续归并用。
先看快排部分
void MergeSortFile(const char* file)
{
FILE* fout = fopen(file, "r");
if (fout == NULL)
{
printf("打开文件失败\n");
exit(-1);
}
//分割成一段一段数据,内存排序后写到小文件
int n = 10;
int a[10];
memset(a, 0, sizeof(int) * n);
int i = 0;
int num = 0;
char subfile[20];
int filei = 1;
while (fscanf(fout, "%d\n", &num) != EOF)//读入的格式就是文件中数据存储的格式,这里就说明数据存储是一个数据占一行
{
if (i < n - 1)
a[i++] = num;
else
{
a[i] = num;
QuickSort(a, 0, n - 1);
sprintf(subfile, "sub\\sub_sort%d.txt", filei++);//这里就把数据放到每个小文件中,并且每个小文件都有自己的名字,中间的双引号的内容就是放进sub文件夹中sub_sort1,sub_sort2...中
FILE* fin = fopen(subfile, "w");
if (fin == NULL)
{
printf("打开文件失败\n");
exit(-1);
}
for (int i = 0; i < n; i++)
{
fprintf(fin, "%d\n", a[i]);
}
fclose(fin);
i = 0;
memset(a, 0, sizeof(int) * n);
}
}
//利用互相归并到文件,实现整体有序
char mfile[100];
char file1[20] = "sub\\sub_sort1.txt";
char file2[20];
for (int i = 2; i <= n; ++i)
{
sprintf(file2, "sub\\sub_sort%d.txt", i);
//读取file1和file2,归并出mfile
_MergeFile(file1, file2, mfile);
}
fclose(fout);
}
写到这里,程序已经生成了10份文件了,接下来就是归并函数_MergeFile。
void _MergeFile(const char* file1, const char* file2, const char* mfile)
{
FILE* fout1 = fopen(file1, "r");
if (fout1 == NULL)
{
printf("打开文件失败\n");
exit(-1);
}
FILE* fout2 = fopen(file2, "r");
if (fout2 == NULL)
{
printf("打开文件失败\n");
exit(-1);
}
FILE* fin = fopen(mfile, "r");
if (fin == NULL)
{
printf("打开文件失败\n");
exit(-1);
}
int num1 = 0, num2 = 0;
int ret1 = fscanf(fout1, "%d\n", &num1);
int ret2 = fscanf(fout2, "%d\n", &num2);
while (ret1 != EOF && ret2!= EOF)
{
if (num1 < num2)
{
fprintf(fin, "%d\n", num1);
ret1 = fscanf(fout1, "%d\n", &num1);
}
else
{
fprintf(fin, "%d\n", num2);
ret2 = fscanf(fout2, "%d\n", &num2);
}
}
while (ret1 != EOF)
{
fprintf(fin, "%d\n", num1);
ret1 = fscanf(fout1, "%d\n", &num1);
}
while (ret2 != EOF)
{
fprintf(fin, "%d\n", num2);
ret2 = fscanf(fout2, "%d\n", &num2);
}
fclose(fout1);
fclose(fout2);
fclose(fin);
}
用ret1和ret2是因为,文件指针是自动往后走的,比较一次后,假如num2小,那么num2应当读下一个数和num1继续比,num1不能继续往后读,如果把两个fscanf放在while的括号里,那就不可控了。
下面的两个while如果也是写fscanf != EOF,那么容易把一个空间中最后一个数据丢掉,所以也是用ret来判断。
不过取名字这里有点麻烦,我们的想法是file1和file2一开始指向头两个文件sub_sort1.txt 和sub_sort2.txt,这两个文件归并成的文件就是第一个mfile,也就是12.txt,然后让file1指向mfile文件,file1就变成了12.txt,file2指向下一个文件sub_sort3.txt,再次归并,形成新的mfile。
改后的代码
//利用互相归并到文件,实现整体有序
char mfile[100] = "12";
char file1[20] = "1";
char file2[20] = "2";
for (int i = 2; i <= n; ++i)
{
//mfile的名字就从12开始,下一个就是123,1234。
//读取file1和file2,归并出mfile
_MergeFile(file1, file2, mfile);
strcpy(file1, mfile);
sprintf(file2, "%d", i + 1);
sprintf(mfile, "%s%d", mfile, i + 1);
}
结束。