yqtaowhu

磁盘排序

转自大神
博客：http://blog.csdn.net/v_JULY_v/article/details/6451990


作者:July，yansha，5，编程艺术室。
出处：http://blog.csdn.net/v_JULY_v 。



前奏

    经过几天的痛苦沉思，最终决定，把原程序员面试题狂想曲系列正式更名为程序员编程艺术系列，同时，狂想曲创作组更名为编程艺术室。之所以要改名，我们考虑到三点：1、为面试服务不能成为我们最终或最主要的目的，2、我更愿把解答一道道面试题，ACM题等各类程序设计题目的过程，当做一种艺术来看待，3、艺术的提炼本身是一个非常非常艰难的过程，但我们乐意接受这个挑战。

    ok，如果任何人对本编程艺术系列有任何意见，或发现了本编程艺术系列任何问题，漏洞，bug，欢迎随时提出，我们将虚心接受并感激不尽，以为他人创造更好的价值，更好的服务。



第一节、如何给磁盘文件排序
问题描述：
输入：给定一个文件，里面最多含有n个不重复的正整数（也就是说可能含有少于n个不重复正整数），且其中每个数都小于等于n，n=10^7。
输出：得到按从小到大升序排列的包含所有输入的整数的列表。
条件：最多有大约1MB的内存空间可用，但磁盘空间足够。且要求运行时间在5分钟以下，10秒为最佳结果。

分析：下面咱们来一步一步的解决这个问题，
    1、归并排序。你可能会想到把磁盘文件进行归并排序，但题目要求你只有1MB的内存空间可用，所以，归并排序这个方法不行。
    2、位图方案。熟悉位图的朋友可能会想到用位图来表示这个文件集合。例如正如编程珠玑一书上所述，用一个20位长的字符串来表示一个所有元素都小于20的简单的非负整数集合，边框用如下字符串来表示集合{
    1,2,3,5,8,13}：

0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0

上述集合中各数对应的位置则置1，没有对应的数的位置则置0。

    参考编程珠玑一书上的位图方案，针对我们的10^7个数据量的磁盘文件排序问题，我们可以这么考虑，由于每个7位十进制整数表示一个小于1000万的整数。我们可以使用一个具有1000万个位的字符串来表示这个文件，其中，当且仅当整数i在文件中存在时，第i位为1。采取这个位图的方案是因为我们面对的这个问题的特殊性：1、输入数据限制在相对较小的范围内，2、数据没有重复，3、其中的每条记录都是单一的整数，没有任何其它与之关联的数据。
    所以，此问题用位图的方案分为以下三步进行解决：

第一步，将所有的位都置为0，从而将集合初始化为空。
第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。
第三步，检验每一位，如果该位为1，就输出对应的整数。
    经过以上三步后，产生有序的输出文件。令n为位图向量中的位数（本例中为1000 0000），程序可以用伪代码表示如下：

[cpp] view plain copy print?
//磁盘文件排序位图方案的伪代码  
//copyright@ Jon Bentley  
//July、updated，2011.05.29。  

//第一步，将所有的位都初始化为0  
for i ={
    0,....n}      
   bit[i]=0;  
//第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。  
for each i in the input file     
   bit[i]=1;  

//第三步，检验每一位，如果该位为1，就输出对应的整数。  
for i={
    0...n}      
  if bit[i]==1        
    write i on the output file  
    上面只是为了简单介绍下位图算法的伪代码之抽象级描述。显然，咱们面对的问题，可不是这么简单。下面，我们试着针对这个要分两趟给磁盘文件排序的具体问题编写完整代码，如下。

[cpp] view plain copy print?
//copyright@ yansha  
//July、2010.05.30。  
//位图方案解决10^7个数据量的文件的排序问题  
//如果有重复的数据，那么只能显示其中一个 其他的将被忽略  
#include   
#include   
#include   
#include   
using namespace std;  

const int max_each_scan = 5000000;  

int main()  
{  
    clock_t begin = clock();  
    bitset bit_map;  
    bit_map.reset();  

    // open the file with the unsorted data  
    FILE *fp_unsort_file = fopen("data.txt", "r");  
    assert(fp_unsort_file);  
    int num;  

    // the first time scan to sort the data between 0 - 4999999  
    while (fscanf(fp_unsort_file, "%d ", &num) != EOF)  
    {  
        if (num < max_each_scan)  
            bit_map.set(num, 1);  
    }  

    FILE *fp_sort_file = fopen("sort.txt", "w");  
    assert(fp_sort_file);  
    int i;  

    // write the sorted data into file  
    for (i = 0; i < max_each_scan; i++)  
    {  
        if (bit_map[i] == 1)  
            fprintf(fp_sort_file, "%d ", i);  
    }  

    // the second time scan to sort the data between 5000000 - 9999999  
    int result = fseek(fp_unsort_file, 0, SEEK_SET);  
    if (result)  
        cout << "fseek failed!" << endl;  
    else  
    {  
        bit_map.reset();  
        while (fscanf(fp_unsort_file, "%d ", &num) != EOF)  
        {  
            if (num >= max_each_scan && num < 10000000)  
            {  
                num -= max_each_scan;  
                bit_map.set(num, 1);  
            }  
        }  
        for (i = 0; i < max_each_scan; i++)  
        {  
            if (bit_map[i] == 1)  
                fprintf(fp_sort_file, "%d ", i + max_each_scan);  
        }  
    }  

    clock_t end = clock();  
    cout<<"用位图的方法，耗时："<cout << (end - begin) / CLK_TCK << "s" << endl;  
    fclose(fp_sort_file);  
    fclose(fp_unsort_file);  
    return 0;  
}  
 而后测试了一下上述程序的运行时间，采取位图方案耗时14s，即14000ms：



本章中，生成大数据量（1000w）的程序如下，下文第二节的多路归并算法的c++实现和第三节的磁盘文件排序的编程实现中，生成的1000w数据量也是用本程序产生的，且本章内生成的1000w数据量的数据文件统一命名为“data.txt”。

[cpp] view plain copy print?
//purpose:  生成随机的不重复的测试数据  
//copyright@ 2011.04.19 yansha  
//1000w数据量，要保证生成不重复的数据量，一般的程序没有做到。  
//但，本程序做到了。  
//July、2010.05.30。  
#include   
#include   
#include   
using namespace std;  

const int size = 10000000;  
int num[size];  

int main()  
{  
    int n;  
    FILE *fp = fopen("data.txt", "w");  
    assert(fp);  

    for (n = 1; n <= size; n++)    
        //之前此处写成了n=0;n
        num[n] = n;  
    srand((unsigned)time(NULL));  
    int i, j;  

    for (n = 0; n < size; n++)  
    {  
        i = (rand() * RAND_MAX + rand()) % 10000000;  
        j = (rand() * RAND_MAX + rand()) % 10000000;  
        swap(num[i], num[j]);  
    }  

    for (n = 0; n < size; n++)  
        fprintf(fp, "%d ", num[n]);  
    fclose(fp);  
    return 0;  
}  
    不过很快，我们就将意识到，用此位图方法，严格说来还是不太行，空间消耗10^7/8还是大于1M（1M=1024*1024空间，小于10^7/8）。
    既然如果用位图方案的话，我们需要约1.25MB（若每条记录是8位的正整数的话，则10000000/(1024*1024*8) ~= 1.2M）的空间，而现在只有1MB的可用存储空间，那么究竟该作何处理呢?

updated && correct：

   @yansha： 上述的位图方案，共需要扫描输入数据两次，具体执行步骤如下：

第一次，只处理1—4999999之间的数据，这些数都是小于5000000的，对这些数进行位图排序，只需要约5000000/8=625000Byte，也就是0.625M，排序后输出。
第二次，扫描输入文件时，只处理4999999-10000000的数据项，也只需要0.625M（可以使用第一次处理申请的内存）。
因此，总共也只需要0.625M
位图的的方法有必要强调一下，就是位图的适用范围为针对不重复的数据进行排序，若数据有重复，位图方案就不适用了。

    3、多路归并。诚然，在面对本题时，还可以通过计算分析出可以用如2的位图法解决，但实际上，很多的时候，我们都面临着这样一个问题，文件太大，无法一次性放入内存中计算处理，那这个时候咋办呢？分而治之，大而化小，也就是把整个大文件分为若干大小的几块，然后分别对每一块进行排序，最后完成整个过程的排序。k趟算法可以在kn的时间开销内和n/k的空间开销内完成对最多n个小于n的无重复正整数的排序。

    比如可分为2块（k=2，1趟反正占用的内存只有1.25/2M），1~4999999，和5000000~9999999。先遍历一趟，首先排序处理1~4999999之间的整数（用5000000/8=625000个字的存储空间来排序0~4999999之间的整数），然后再第二趟，对5000001~1000000之间的整数进行排序处理。在稍后的第二节、第三节、第四节，我们将详细阐述并实现这种多路归并排序磁盘文件的方案。
    4、读者思考。经过上述思路3的方案之后，现在有两个局部有序的数组了，那么要得到一个完整的排序的数组，接下来改怎么做呢?或者说，如果是K路归并，得到k个排序的子数组，把他们合并成一个完整的排序数组，如何优化？或者，我再问你一个问题，K路归并用败者树 和 胜者树 效率有什么差别?这些问题，请读者思考。



第二节、多路归并算法的c++实现

    本节咱们暂抛开咱们的问题，阐述下有关多路归并算法的c++实现问题。在稍后的第三节，咱们再来具体针对咱们的磁盘文件排序问题阐述与实现。

    在了解多路归并算法之前，你还得了解归并排序的过程，因为下面的多路归并算法就是基于这个流程的。其实归并排序就是2路归并，而多路归并算法就是把2换成了k，即多（k）路归并。下面，举个例子来说明下此归并排序算法，如下图所示，我们对数组8 3 2 6 7 1 5 4进行归并排序：



    归并排序算法简要介绍：
一、思路描述：
    设两个有序的子文件(相当于输入堆)放在同一向量中相邻的位置上：R[low..m]，R[m+1..high]，先将它们合并到一个局部的暂存向量R1(相当于输出堆)中，待合并完成后将R1复制回R[low..high]中。

    二路归并排序的过程是：
    (1)把无序表中的每一个元素都看作是一个有序表，则有n个有序子表；
    (2)把n个有序子表按相邻位置分成若干对（若n为奇数，则最后一个子表单独作为一组），每对中的两个子表进行归并，归并后子表数减少一半；
    (3)反复进行这一过程，直到归并为一个有序表为止。

    二路归并排序过程的核心操作是将一维数组中相邻的两个有序表归并为一个有序表。

二、分类：
    归并排序可分为：多路归并排序、两路归并排序 。
    若归并的有序表有两个，叫做二路归并。一般地，若归并的有序表有k个，则称为k路归并。二路归并最为简单和常用，既适用于内部排序，也适用于外部排序。本文着重讨论外部排序下的多（K）路归并算法。

三、算法分析： 
    1、稳定性:归并排序是一种稳定的排序。
    2、存储结构要求:可用顺序存储结构。也易于在链表上实现。
    3、时间复杂度: 对长度为n的文件，需进行lgn趟二路归并，每趟归并的时间为O(n)，故其时间复杂度无论是在最好情况下还是在最坏情况下均是O(nlgn)。。
    4、空间复杂度:需要一个辅助向量来暂存两有序子文件归并的结果，故其辅助空间复杂度为O(n)，显然它不是就地排序。
       注意:若用单链表做存储结构，很容易给出就地的归并排序。

    总结：与快速排序相比，归并排序的最大特点是，它是一种稳定的排序方法。归并排序一般多用于外排序。但它在内排方面也占有重要地位，因为它是基于比较的时间复杂度为O(N*Log(N))的排序算法中唯一稳定的排序，所以在需要稳定内排序时通常会选择归并排序。归并排序不要求对序列可以很快地进行随机访问，所以在链表排序的实现中很受欢迎。

    好的，介绍完了归并排序后，回到咱们的问题。由第一节，我们已经知道，当数据量大到不适合在内存中排序时，可以利用多路归并算法对磁盘文件进行排序。

    我们以一个包含很多个整数的大文件为例，来说明多路归并的外排序算法基本思想。假设文件中整数个数为N(N是亿级的)，整数之间用空格分开。首先分多次从该文件中读取M（十万级）个整数，每次将M个整数在内存中使用快速排序之后存入临时文件，然后使用多路归并将各个临时文件中的数据再次整体排好序后存入输出文件。显然，该排序算法需要对每个整数做2次磁盘读和2次磁盘写。以下是本程序的流程图：



    本程序是基于以上思想对包含大量整数文件的从小到大排序的一个简单实现，这里没有使用内存缓冲区，在归并时简单使用一个数组来存储每个临时文件的第一个元素。下面是多路归并排序算法的c++实现代码（在第四节，将给出多路归并算法的c实现）： 

[cpp] view plain copy print?
//copyright@ 纯净的天空 && yansha    
//5、July，updated，2010.05.28。    
#include     
#include     
#include     
//#include "ExternSort.h"using namespace std;    
//使用多路归并进行外排序的类    
//ExternSort.h    
/** 大数据量的排序* 多路归并排序* 以千万级整数从小到大排序为例* 一个比较简单的例子，没有建立内存缓冲区*/    
#ifndef EXTERN_SORT_H    
#define EXTERN_SORT_H    

#include class ExternSort    
{    
public:    
    void sort()    
    {    
        time_t start = time(NULL);    
        //将文件内容分块在内存中排序，并分别写入临时文件      
        int file_count = memory_sort();    
        //归并临时文件内容到输出文件    
        merge_sort(file_count);    
        time_t end = time(NULL);printf("total time:%f/n", (end - start) * 1000.0/ CLOCKS_PER_SEC);    
    }    

    //input_file:输入文件名    
    //out_file:输出文件名    
    //count: 每次在内存中排序的整数个数    
    ExternSort(const char *input_file, const char * out_file, int count)    
    {    
        m_count = count;    
        m_in_file = new char[strlen(input_file) + 1];    
        strcpy(m_in_file, input_file);    
        m_out_file = new char[strlen(out_file) + 1];    
        strcpy(m_out_file, out_file);    
    }    
    virtual ~ExternSort()    
    {    
        delete [] m_in_file;    
        delete [] m_out_file;    
    }    
private:    
    int m_count;     
    //数组长度char *m_in_file;      
    //输入文件的路径    
    char *m_out_file;     
    //输出文件的路径    
protected:    
    int read_data(FILE* f, int a[], int n)    
    {    
        int i = 0;    
        while(i < n && (fscanf(f, "%d", &a[i]) != EOF))     
            i++;    
        printf("read:%d integer/n", i);    
        return i;    
    }    
    void write_data(FILE* f, int a[], int n)    
    {    
        for(int i = 0; i < n; ++i)    
            fprintf(f, "%d ", a[i]);    
    }    
    char* temp_filename(int index)    
    {    
        char *tempfile = new char[100];    
        sprintf(tempfile, "temp%d.txt", index);    
        return tempfile;    
    }    
    static int cmp_int(const void *a, const void *b)    
    {    
        return *(int*)a - *(int*)b;    
    }    

    int memory_sort()    
    {    
        FILE* fin = fopen(m_in_file, "rt");    
        int n = 0, file_count = 0;int *array = new int[m_count];    

        //每读入m_count个整数就在内存中做一次排序，并写入临时文件    
        while(( n = read_data(fin, array, m_count)) > 0)    
        {    
            qsort(array, n, sizeof(int), cmp_int);   //这里，调用了库函数阿，在第四节的c实现里，不再调qsort。      
            char *fileName = temp_filename(file_count++);    
            FILE *tempFile = fopen(fileName, "w");    
            free(fileName);    
            write_data(tempFile, array, n);    
            fclose(tempFile);    
        }    
        delete [] array;    
        fclose(fin);    
        return file_count;    
    }    

    void merge_sort(int file_count)    
    {    
        if(file_count <= 0)     
            return;    
        //归并临时文件FILE *fout = fopen(m_out_file, "wt");    
        FILE* *farray = new FILE*[file_count];    
        int i;    
        for(i = 0; i < file_count; ++i)    
        {    
            char* fileName = temp_filename(i);    
            farray[i] = fopen(fileName, "rt");    
            free(fileName);    
        }    
        int *data = new int[file_count];    
        //存储每个文件当前的一个数字    
        bool *hasNext = new bool[file_count];    
        //标记文件是否读完    
        memset(data, 0, sizeof(int) * file_count);    
        memset(hasNext, 1, sizeof(bool) * file_count);    
        for(i = 0; i < file_count; ++i)    
        {    
            if(fscanf(farray[i], "%d", &data[i]) == EOF)    
                //读每个文件的第一个数到data数组    
                hasNext[i] = false;    
        }    

        while(true)    
        {    
            //求data中可用的最小的数字，并记录对应文件的索引    
            int min = data[0];    
            int j = 0;    
            while (j < file_count && !hasNext[j])    
                j++;    
            if (j >= file_count)      
                //没有可取的数字，终止归并    
                break;    
            for(i = j + 1; i < file_count; ++i)    
            {    
                if(hasNext[i] && min > data[i])    
                {    
                    min = data[i];    
                    j = i;    
                }    
            }    
            if(fscanf(farray[j], "%d", &data[j]) == EOF)     
                //读取文件的下一个元素    
                hasNext[j] = false;    
            fprintf(fout, "%d ", min);    
        }    

        delete [] hasNext;    
        delete [] data;    
        for(i = 0; i < file_count; ++i)    
        {    
            fclose(farray[i]);    
        }  
        delete [] farray;    
        fclose(fout);    
    }    
};    
#endif    

//测试主函数文件    
/** 大文件排序* 数据不能一次性全部装入内存* 排序文件里有多个整数，整数之间用空格隔开*/    

const unsigned int count = 10000000;     
// 文件里数据的行数const unsigned int number_to_sort = 1000000;     
//在内存中一次排序的数量    
const char *unsort_file = "unsort_data.txt";     
//原始未排序的文件名    
const char *sort_file = "sort_data.txt";     
//已排序的文件名    
void init_data(unsigned int num);     

//随机生成数据文件    

int main(int argc, char* *argv)    
{    
    srand(time(NULL));    
    init_data(count);    
    ExternSort extSort(unsort_file, sort_file, number_to_sort);    
    extSort.sort();    
    system("pause");    
    return 0;    
}    

void init_data(unsigned int num)    
{    
    FILE* f = fopen(unsort_file, "wt");    
    for(int i = 0; i < num; ++i)    
        fprintf(f, "%d ", rand());    
    fclose(f);    
}   
程序测试：读者可以继续用小文件小数据量进一步测试。



第三节、磁盘文件排序的编程实现

    ok，接下来，我们来编程实现上述磁盘文件排序的问题，本程序由两部分构成：
1、内存排序
由于要求的可用内存为1MB，那么每次可以在内存中对250K的数据进行排序，然后将有序的数写入硬盘。
那么10M的数据需要循环40次，最终产生40个有序的文件。
2、归并排序

将每个文件最开始的数读入(由于有序，所以为该文件最小数)，存放在一个大小为40的first_data数组中；
选择first_data数组中最小的数min_data，及其对应的文件索引index；
将first_data数组中最小的数写入文件result，然后更新数组first_data(根据index读取该文件下一个数代替min_data)；
判断是否所有数据都读取完毕，否则返回2。
所以，本程序按顺序分两步，第一步、Memory Sort，第二步、Merge Sort。程序的流程图，如下图所示（感谢F的绘制）。



然后，编写的完整代码如下：

[cpp] view plain copy print?
//copyright@ yansha  
//July、updated，2011.05.28。  
#include   
#include   
#include   
#include   
using namespace std;  

int sort_num = 10000000;  
int memory_size = 250000;    

//每次只对250k个小数据量进行排序  
int read_data(FILE *fp, int *space)  
{  
    int index = 0;  
    while (index < memory_size && fscanf(fp, "%d ", &space[index]) != EOF)  
        index++;  
    return index;  
}  

void write_data(FILE *fp, int *space, int num)  
{  
    int index = 0;  
    while (index < num)  
    {  
        fprintf(fp, "%d ", space[index]);  
        index++;  
    }  
}  

// check the file pointer whether valid or not.  
void check_fp(FILE *fp)  
{  
    if (fp == NULL)  
    {  
        cout << "The file pointer is invalid!" << endl;  
        exit(1);  
    }  
}  

int compare(const void *first_num, const void *second_num)  
{  
    return *(int *)first_num - *(int *)second_num;  
}  

string new_file_name(int n)  
{  
    char file_name[20];  
    sprintf(file_name, "data%d.txt", n);  
    return file_name;  
}  

int memory_sort()  
{  
    // open the target file.  
    FILE *fp_in_file = fopen("data.txt", "r");  
    check_fp(fp_in_file);  
    int counter = 0;  
    while (true)  
    {  
        // allocate space to store data read from file.  
        int *space = new int[memory_size];  
        int num = read_data(fp_in_file, space);  
        // the memory sort have finished if not numbers any more.  
        if (num == 0)  
            break;  

        // quick sort.  
        qsort(space, num, sizeof(int), compare);  
        // create a new auxiliary file name.  
        string file_name = new_file_name(++counter);  
        FILE *fp_aux_file = fopen(file_name.c_str(), "w");  
        check_fp(fp_aux_file);  

        // write the orderly numbers into auxiliary file.  
        write_data(fp_aux_file, space, num);  
        fclose(fp_aux_file);  
        delete []space;  
    }  
    fclose(fp_in_file);  

    // return the number of auxiliary files.  
    return counter;  
}  

void merge_sort(int file_num)  
{  
    if (file_num <= 0)  
        return;  
    // create a new file to store result.  
    FILE *fp_out_file = fopen("result.txt", "w");  
    check_fp(fp_out_file);  

    // allocate a array to store the file pointer.  
    FILE **fp_array = new FILE *[file_num];  
    int i;  
    for (i = 0; i < file_num; i++)  
    {  
        string file_name = new_file_name(i + 1);  
        fp_array[i] = fopen(file_name.c_str(), "r");  
        check_fp(fp_array[i]);  
    }  

    int *first_data = new int[file_num];     
    //new出个大小为0.1亿/250k数组，由指针first_data指示数组首地址  
    bool *finish = new bool[file_num];  
    memset(finish, false, sizeof(bool) * file_num);  

    // read the first number of every auxiliary file.  
    for (i = 0; i < file_num; i++)  
        fscanf(fp_array[i], "%d ", &first_data[i]);  
    while (true)  
    {  
        int index = 0;  
        while (index < file_num && finish[index])  
            index++;  

        // the finish condition of the merge sort.  
        if (index >= file_num)  
            break;  
        //主要的修改在上面两行代码，就是merge sort结束条件。  
        //要保证所有文件都读完，必须使得finish[0]...finish[40]都为真  
        //July、yansha，555，2011.05.29。  

        int min_data = first_data[index];  
        // choose the relative minimum in the array of first_data.  
        for (i = index + 1; i < file_num; i++)  
        {  
            if (min_data > first_data[i] && !finish[i])     
                //一旦发现比min_data更小的数据first_data[i]  
            {  
                min_data = first_data[i];      
                //则置min_data<-first_data[i]index = i;                     
                //把下标i 赋给index。  
            }  
        }  

        // write the orderly result to file.  
        fprintf(fp_out_file, "%d ", min_data);  
        if (fscanf(fp_array[index], "%d ", &first_data[index]) == EOF)  
            finish[index] = true;  
    }  

    fclose(fp_out_file);  
    delete []finish;  
    delete []first_data;  
    for (i = 0; i < file_num; i++)  
        fclose(fp_array[i]);  
    delete [] fp_array;  
}  

int main()  
{  
    clock_t start_memory_sort = clock();  
    int aux_file_num = memory_sort();  
    clock_t end_memory_sort = clock();  
    cout << "The time needs in memory sort: " << end_memory_sort - start_memory_sort << endl;  
    clock_t start_merge_sort = clock();  
    merge_sort(aux_file_num);  
    clock_t end_merge_sort = clock();  
    cout << "The time needs in merge sort: " << end_merge_sort - start_merge_sort << endl;  
    system("pause");  
    return 0;  
}  
其中，生成数据文件data.txt的代码在第一节已经给出。

程序测试：

    1、咱们对1000W数据进行测试，打开半天没看到数据，

    2、编译运行上述程序后，data文件先被分成40个小文件data[1....40]，然后程序再对这40个小文件进行归并排序，排序结果最终生成在result文件中，自此result文件中便是由data文件的数据经排序后得到的数据。



    3、且，我们能看到，data[i]，i=1...40的每个文件都是有序的，如下图：



    4、最终的运行结果，如下，单位统一为ms：



    由上观之，我们发现，第一节的位图方案的程序效率是最快的，约为14s，而采用上述的多路归并算法的程序运行时间约为25s。时间主要浪费在读写磁盘IO上，且程序中用的库函数qsort也耗费了不少时间。所以，总的来说，采取位图方案是最佳方案。

小数据量测试：

    我们下面针对小数据量的文件再测试一次，针对20个小数据，每趟对4个数据进行排序，即5路归并，程序的排序结果如下图所示。

运行时间：

0ms，可以忽略不计了，毕竟是对20个数的小数据量进行排序：



沙海拾贝：

    我们不在乎是否能把一个软件产品或一本书最终完成，我们更在乎的是，在完成这个产品或创作这本书的过程中，读者学到了什么，能学到什么?所以，不要一味的马上就想得到一道题目的正确答案，请跟着我们一起逐步走向山巅。

第四节、多路归并算法的c实现

    本多路归并算法的c实现原理与上述c++实现一致，不同的地方体现在一些细节处理上，且对临时文件的排序，不再用系统提供的快排，即上面的qsort库函数，是采用的三数中值的快速排序（个数小于3用插入排序）的。而我们知道，纯正的归并排序其实就是比较排序，在归并过程中总是不断的比较，为了从两个数中挑小的归并到最终的序列中。ok，此程序的详情请看：

[cpp] view plain copy print?
//copyright@ 555  
//July、2011.05.29。  
#include   
#include    
#include      
#include   
#include   

void swap_int(int* a,int* b)  
{      
    int c;      
    c = *a;      
    *a = *b;      
    *b = c;  
}  

//插入排序  
void InsertionSort(int A[],int N)  
{      
    int j,p;      
    int tmp;     
    for(p = 1; p < N; p++)      
    {         
        tmp = A[p];  
        for(j = p;j > 0 && A[j - 1] >tmp;j--)          
        {              
            A[j] = A[j - 1];          
        }         

        A[j] = tmp;     
    }  
}  

//三数取中分割法  
int Median3(int A[],int Left,int Right)  
{  
    int Center = (Left + Right) / 2;  
    if (A[Left] > A[Center])  
        swap_int(&A[Left],&A[Center]);  
    if (A[Left] > A[Right])  
        swap_int(&A[Left],&A[Right]);  
    if (A[Center] > A[Right])  
        swap_int(&A[Center],&A[Right]);  
    swap_int(&A[Center],&A[Right - 1]);  
    return A[Right - 1];  
}  

//快速排序  
void QuickSort(int A[],int Left,int Right)  
{  
    int i,j;  
    int Pivot;  
    const int Cutoff = 3;  
    if (Left + Cutoff <= Right)  
    {  
        Pivot = Median3(A,Left,Right);  
        i = Left;  
        j = Right - 1;  
        while (1)  
        {  
            while(A[++i] < Pivot){;}  
            while(A[--j] > Pivot){;}  
            if (i < j)  
                swap_int(&A[i],&A[j]);  
            else  
                break;  
        }  
        swap_int(&A[i],&A[Right - 1]);   

        QuickSort(A,Left,i - 1);  
        QuickSort(A,i + 1,Right);  
    }  
    else  
    {  
        InsertionSort(A+Left,Right - Left + 1);  
    }  
}  

//const int  KNUM  = 40;          
//分块数  
const int  NUMBER = 10000000;   
//输入文件最大读取的整数的个数  
//为了便于测试，我决定改成小文件小数据量进行测试。  
const int  KNUM  = 4;          
//分块数const int  NUMBER = 100;   
//输入文件最大读取的整数的个数  
const char *in_file = "infile.txt";  
const char *out_file = "outfile.txt";  
//#define OUTPUT_OUT_FILE_DATA  
//数据量大的时候,没必要把所有的数全部打印出来，所以可以把上面这句注释掉。  
void  gen_infile(int n)  
{  
    int i;  
    FILE *f = fopen(in_file, "wt");   
    for(i = 0;i < n; i++)  
        fprintf(f,"%d ",rand());  
    fclose(f);  
}  

int  read_data(FILE *f,int a[],int n)  
{  
    int i = 0;  
    while ((i < n) && (fscanf(f,"%d",&a[i]) != EOF))    
        i++;  
    printf("read: %d integer/n",i);  
    return i;  
}  

void  write_data(FILE *f,int a[],int n)  
{  
    int i;for(i = 0; i< n;i++)  
        fprintf(f,"%d ",a[i]);  
}  

char* temp_filename(int index)  
{  
    char *tempfile = (char*) malloc(64*sizeof(char));  
    assert(tempfile);  
    sprintf(tempfile, "temp%d.txt", index);  
    return tempfile;  
}  

//K路串行读取  
void k_num_read(void)  
{  
    char* filename;  
    int i,cnt,*array;  
    FILE* fin;  
    FILE* tmpfile;  
    //计算knum,每路应读取的整数个数int n = NUMBER/KNUM;  
    if (n * KNUM < NUMBER)n++;  

    //建立存储分块读取的数据的数组  
    array = (int*)malloc(n * sizeof(int));assert(array);  
    //打开输入文件  
    fin = fopen(in_file,"rt");  
    i = 0;  

    //分块循环读取数据,并写入硬盘上的临时文件  
    while ( (cnt = read_data(fin,array,n))>0)  
    {  
        //对每次读取的数据,先进行快速排序,然后写入硬盘上的临时文件  
        QuickSort(array,0,cnt - 1);  
        filename = temp_filename(i++);  
        tmpfile = fopen(filename,"w");  
        free(filename);  
        write_data(tmpfile,array,cnt);  
        fclose(tmpfile);  
    }  
    assert(i == KNUM);  
    //没有生成K路文件时进行诊断  
    //关闭输入文件句柄和临时存储数组  
    fclose(fin);  
    free(array);  
}  

//k路合并(败者树)  
void k_num_merge(void)  
{  
    FILE *fout;  
    FILE **farray;  
    char *filename;  
    int  *data;  
    char *hasNext;  
    int i,j,m,min;  
#ifdef OUTPUT_OUT_FILE_DATAint id;  
#endif  
    //打开输出文件  
    fout = fopen(out_file,"wt");  
    //打开各路临时分块文件  
    farray = (FILE**)malloc(KNUM*sizeof(FILE*));  
    assert(farray);  
    for(i = 0; i< KNUM;i++)  
    {  
        filename = temp_filename(i);  
        farray[i] = fopen(filename,"rt");  
        free(filename);  
    }  

    //建立KNUM个元素的data,hasNext数组,存储K路文件的临时数组和读取结束状态  
    data = (int*)malloc(KNUM*sizeof(int));  
    assert(data);  
    hasNext = (char*)malloc(sizeof(char)*KNUM);  
    assert(hasNext);  
    memset(data, 0, sizeof(int) * KNUM);  
    memset(hasNext, 1, sizeof(char) * KNUM);  

    //读K路文件先读取第一组数据,并对读取结束的各路文件设置不可再读状态  
    for(i = 0; i < KNUM; i++)  
    {  
        if(fscanf(farray[i], "%d", &data[i]) == EOF)  
        {  
            hasNext[i] = 0;  
        }  
    }  

    //读取各路文件,利用败者树从小到大输出到输出文件  
#ifdef OUTPUT_OUT_FILE_DATAid = 0;  
#endif  

    j  = 0;F_LOOP:  
    if (j < KNUM)      
        //以下这段代码嵌套过深，日后应尽量避免此类问题。  
    {  
        while(1==1)  
        {  
            min = data[j];  
            m = j;  
            for(i = j+1; i < KNUM; i++)  
            {  
                if(hasNext[i] == 1  && min > data[i])  
                {  
                    min = data[i];m = i;  
                }  
            }  

            if(fscanf(farray[m], "%d", &data[m]) == EOF)   
            {  
                hasNext[m] = 0;  
            }  
            fprintf(fout, "%d ", min);  
#ifdef OUTPUT_OUT_FILE_DATAprintf("fout :%d  %d/n",++id,min);  
#endif  
            if (m == j && hasNext[m] == 0)  
            {  
                for (i = j+1; i < KNUM; i++)  
                {  
                    if (hasNext[m] != hasNext[i])  
                    {  
                        m = i;  
                        //第i个文件未读完,从第i个继续往下读  
                        break;  
                    }  
                }  
                if (m != j)  
                {  
                    j = m;  
                    goto F_LOOP;  
                }  
                break;  
            }  
        }  
    }  

    //关闭分配的数据和数组      
    free(hasNext);     
    free(data);         
    for(i = 0; i < KNUM; ++i)     
    {          
        fclose(farray[i]);     
    }     
    free(farray);      
    fclose(fout);  
}  

int main()      
{     
    time_t start = time(NULL),end,start_read,end_read,start_merge,end_merge;  
    gen_infile(NUMBER);      
    end = time(NULL);     
    printf("gen_infile data time:%f/n", (end - start) * 1000.0/ CLOCKS_PER_SEC);  
    start_read = time(NULL);k_num_read();      
    end_read = time(NULL);     
    printf("k_num_read time:%f/n", (end_read - start_read) * 1000.0/ CLOCKS_PER_SEC);  
    start_merge = time(NULL);  
    k_num_merge();      
    end_merge = time(NULL);      
    printf("k_num_merge time:%f/n", (end_merge - start_merge) * 1000.0/ CLOCKS_PER_SEC);     
    end = time(NULL);     
    printf("total time:%f/n", (end - start) * 1000.0/ CLOCKS_PER_SEC);      
    return 0;    
}    
程序测试：

在此，我们先测试下对10000000个数据的文件进行40趟排序，然后再对100个数据的文件进行4趟排序（读者可进一步测试）。如弄几组小点的数据,输出ID和数据到屏幕，再看程序运行效果。

10个数, 4组
40个数, 5组
55个数, 6组
100个数, 7组






（备注：1、以上所有各节的程序运行环境为windows xp + vc6.0 + e5200 cpu 2.5g主频，2、感谢5为本文程序所作的大量测试工作）

全文总结：

1、关于本章中位图和多路归并两种方案的时间复杂度及空间复杂度的比较，如下：

              时间复杂度       空间复杂度
位图         O(N)               0.625M
多位归并   O(Nlogn)        1M   

（多路归并，时间复杂度为O（k*n/k*logn/k ），严格来说，还要加上读写磁盘的时间，而此算法绝大部分时间也是浪费在这上面）

2、bit-map

适用范围：可进行数据的快速查找，判重，删除，一般来说数据范围是int的10倍以下
基本原理及要点：使用bit数组来表示某些元素是否存在，比如8位电话号码
扩展：bloom filter可以看做是对bit-map的扩展

问题实例：
1)已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。
8位最多99 999 999，大概需要99m个bit，大概10几m字节的内存即可。
2)2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

将bit-map扩展一下，用2bit表示一个数即可，0表示未出现，1表示出现一次，2表示出现2次及以上。或者我们不用2bit来进行表示，我们用两个bit-map即可模拟实现这个2bit-map。

3、[外排序适用范围]大数据的排序，去重基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树扩展。问题实例：1).有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词。这个数据具有很明显的特点，词的大小为16个字节，但是内存只有1m做hash有些不够，所以可以用来排序。内存可以当输入缓冲区使用。 

4、海量数据处理

    有关海量数据处理的方法或面试题可参考此文，十道海量数据处理面试题与十个方法大总结。日后，会逐步实现这十个处理海量数据的方法。同时，送给各位一句话，解决问题的关键在于熟悉一个算法，而不是某一个问题。熟悉了一个算法，便通了一片题目。

本章完。

    updated：有一读者朋友针对本文写了一篇文章为，海量数据多路归并排序的c++实现（归并时利用了败者树），地址为：http://www.cnblogs.com/harryshayne/archive/2011/07/02/2096196.html。谢谢，欢迎参考。

    版权所有，本人对本blog内所有任何内容享有版权及著作权。网络转载，请以链接形式注明出处。

你可能感兴趣的:(C++,面试题,编程,磁盘)

OpenCV直线段检测算法类cv::line_descriptor::LSDDetector 村北头的码农 OpenCV opencv 算法人工智能
操作系统：ubuntu22.04OpenCV版本：OpenCV4.9IDE:VisualStudioCode编程语言：C++11算法描述该类用于实现LSD(LineSegmentDetector)直线段检测算法。LSD是一种快速、准确的直线检测方法，能够在不依赖边缘检测的前提下直接从图像中提取出直线段。它是OpenCV的line_descriptor模块的一部分，常用于计算机视觉任务如图像拼接、S
云服务器性能优化全攻略：CPU、内存、磁盘IO调优实战 Gloria歌洛莉亚 c语言数据库服务器 python 性能优化
在云计算时代，服务器性能直接影响应用响应速度、用户体验和运营成本。无论是高并发网站、实时数据分析还是机器学习训练，优化云服务器性能都是开发者必须掌握的核心技能。本攻略将从CPU调度、内存管理、磁盘IO三个维度，结合Linux系统特性和实际场景，提供可落地的优化方案。一、CPU性能调优：从调度策略到并行计算1.1CPU资源监控与瓶颈定位实时监控工具：top-c#动态查看进程CPU占用（按P键按CPU
Java Spring 框架的低代码开发平台选型与实践
JavaSpring框架的低代码开发平台选型与实践关键词：JavaSpring、低代码开发、平台选型、快速开发、企业应用、微服务架构、可视化编程摘要：本文深入探讨了基于JavaSpring框架的低代码开发平台选型与实践。文章首先介绍了低代码开发的概念和Spring框架的优势，然后详细分析了主流低代码平台的架构特点和适用场景。通过对比评估指标、核心功能和技术实现，提供了科学的选型方法论。文章还包含了
云服务器磁盘IO性能优化的测试与配置方法
云服务器磁盘IO性能优化的测试与配置方法在云计算环境中，磁盘IO性能直接影响着应用程序的响应速度和系统整体稳定性。本文将深入解析云服务器磁盘IO性能优化的关键技术路径，从测试方法论到配置调整方案，帮助运维人员突破存储瓶颈。我们将重点探讨如何通过科学的基准测试定位问题，并给出针对不同云服务商环境的实用优化策略。云服务器磁盘IO性能优化的测试与配置方法一、理解云磁盘IO性能的核心指标云服务器磁盘IO性
AE电脑中文版软件下载及安装教程安装包百度网盘地址免费破解版一键安装激活方法心墙
提示：以下是安装教程，安装包资源等放在下面，请往下翻。其他版本安装方法类似。安装教程：1.鼠标右击【Ae2024(64bit)】压缩包（win11及以上系统需先点击“显示更多选项”）【解压到Ae2024(64bit)】。2.打开解压后的文件夹，鼠标右击【Setup】选择【以管理员身份运行】。3.点击【文件夹图标】，点击【更改位置】。4.①双击打开需要将软件安装的磁盘（如：D盘）②新建一个【Ae】文
Verilator 的文件目录结构(腾讯元宝) dadaobusi verilator
当然可以！我们来详细分析Verilator的Git仓库（GitHub上的官方仓库：https://github.com/verilator/verilator）的文件目录结构，帮助你理解它的代码组织方式以及各个部分的功能。一、Verilator的Git仓库概览Verilator是一个用C++编写的高性能Verilog/SystemVerilogRTL仿真器，其源代码仓库结构清晰，模块化程度较高。整
Verilator的src目录(腾讯元宝) dadaobusi verilator
src/目录是Verilator的核心源代码所在目录，包含了实现Verilator主要功能的C++源文件（.cpp文件）以及部分头文件（.h文件）。这些文件共同构成了Verilator的仿真引擎、信号管理、波形生成等核心功能。由于Verilator的代码规模较大且功能复杂，src/目录下的文件通常按照功能模块进行组织，但并没有像lib/目录那样明确地划分为多个子目录。因此，我们需要逐个分析src/
verilator如何实现RTL的仿真(腾讯混元)
Verilator是一个用于将Verilog或SystemVerilogRTL（寄存器传输级）代码转换为C++或SystemC模型的工具，主要用于高性能的功能仿真和验证。它不是像ModelSim或VCS那样的传统事件驱动仿真器，而是通过静态编译的方式将RTL转换为可执行的C++代码，从而实现高效仿真。下面详细介绍Verilator实现RTL仿真的流程与实现细节。一、Verilator的基本工作流程
python第一次作业
1.技术面试题（1）TCP与UDP的区别是什么？**答：1.TCP是面向连接的协议，而UDP是元连接的协议2.TCP协议传输是可靠的，而UDP协议的传输是“尽力而为3.TCP是可以实现流控，而UDP不行4.TCP可以实现分段，而UDP不行5.TCP的传输速率较慢，占用资源较大，UDP传输速率快，占用资源小。TCP/UDP的应用场景不同TCP适合可靠性高的效率要求低的，UDP可靠性低，效率高。（2）
python www_hhhhhhh python java 面试
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程：是操作系统进行资源分配的基本单位，拥有独立的地址空间、进程控制块，每个进程之间相互隔离。例如，打开一个终端窗口会启动一个bash进程。线程：是操作系统调度的基本单位，隶属于进程，共享进程的资源，但有独立的线程控制块和栈。线程切换开销远小于进程。例如，一个Web服务器的单个进程中，多个线程可同时处理不同客户
Python lambda表达式：匿名函数的适用场景与限制梦幻南瓜 python python 服务器 linux
目录1.Lambda表达式概述1.1Lambda表达式的基本语法1.2简单示例2.Lambda表达式的核心特点2.1匿名性2.2简洁性2.3即时性2.4函数式编程特性3.Lambda表达式的适用场景3.1作为高阶函数的参数3.2简单的数据转换3.3条件筛选3.4GUI编程中的回调函数3.5Pandas数据处理4.Lambda表达式的限制4.1只能包含单个表达式4.2没有语句4.3缺乏文档字符串4.
【python】 www_hhhhhhh python 面试职场和发展
1.技术面试题（1）TCP与UDP的区别是什么？答：TCP（传输控制协议）和UDP（用户数据报协议）是两种常见的传输层协议，主要区别在于连接方式和可靠性。TCP是面向连接的协议，传输数据前需建立连接，通过三次握手确保连接可靠，传输过程中有确认、重传和顺序控制机制，保证数据完整、按序到达，适用于网页浏览、文件传输等对可靠性要求高的场景。UDP是无连接的协议，无需建立连接即可发送数据，不保证数据可靠传
Python星球日记 - 第8天：函数基础 Code_流苏 Python星球日记 python 函数 def关键字函数参数返回值
引言：上一篇：Python星球日记-第7天：字典与集合名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）目录一、函数的定义与调用1.什么是函数？2.如何定义函数-`def`关键字3.函数调用方式二、参数与返回值1.函数参数类型2.如何传递参数3.返回值和`return`语句三、局部变量与全局变量1.变量作用域概念2.局部变
华为OD机试2025C卷 - 小明的幸运数 (C++ & Python & JAVA & JS & GO) 无限码力华为od 华为OD机试2025C卷华为OD2025C卷华为OD机考2025C卷
小明的幸运数华为OD机试真题目录点击查看:华为OD机试2025C卷真题题库目录｜机考题库+算法考点详解华为OD机试2025C卷100分题型题目描述小明在玩一个游戏，游戏规则如下：在游戏开始前，小明站在坐标轴原点处（坐标值为0）.给定一组指令和一个幸运数，每个指令都是一个整数，小明按照指令前进指定步数或者后退指定步数。前进代表朝坐标轴的正方向走，后退代表朝坐标轴的负方向走。幸运数为一个整数，如果某个
存档python爬虫、Web学习资料
1python爬虫学习学习Python爬虫是个不错的选择，它能够帮你高效地获取网络数据。下面为你提供系统化的学习路径和建议：1.打好基础首先要掌握Python基础知识，这是学习爬虫的前提。比如：变量、数据类型、条件语句、循环等基础语法。列表、字典等常用数据结构的操作。函数、模块和包的使用方法。文件读写操作。推荐通过阅读《Python编程：从入门到实践》这本书或者在Codecademy、LeetCo
华为OD 机试 2025 B卷 - 周末爬山 (C++ & Python & JAVA & JS & GO) 无限码力华为OD机试真题刷题笔记华为od 华为OD2025B卷华为OD机考2025B卷华为OD机试2025B卷华为OD机试
周末爬山华为OD机试真题目录点击查看:华为OD机试2025B卷真题题库目录｜机考题库+算法考点详解华为OD机试2025B卷200分题型题目描述周末小明准备去爬山锻炼，0代表平地，山的高度使用1到9来表示，小明每次爬山或下山高度只能相差k及k以内，每次只能上下左右一个方向上移动一格，小明从左上角(0,0)位置出发输入描述第一行输入mnk(空格分隔)。代表m*n的二维山地图，k为小明每次爬山或下山高度
Python,C++,Go开发芯片电路设计APP Geeker-2025 python c++golang
#芯片电路设计APP-Python/C++/Go综合开发方案##系统架构设计```mermaidgraphTDA[Web前端]-->B(Python设计界面)B-->C(GoAPI网关)C-->D[C++核心引擎]D-->E[硬件加速]F[数据库]-->CG[EDA工具链]-->DH[云服务]-->C```##技术栈分工|技术|应用领域|优势||------|----------|------||
软件测试面试题：SQL注入漏洞产生的原因？如何防止？
SQL注入漏洞产生的原因？如何防止？SQL注入产生的原因：程序开发过程中不注意规范书写sql语句和对特殊字符进行过滤，导致客户端可以通过全局变量POST和GET提交一些sql语句正常执行。防止SQL注入的方式：开启配置文件中的magic_quotes_gpc和magic_quotes_runtime设置执行sql语句时使用addslashes进行sql语句转换Sql语句书写尽量不要省略双引号和单引
RabbitMQ面试精讲 Day 3：Exchange类型与路由策略详解在未来等你 RabbitMQ面试专栏 RabbitMQ 消息队列 Exchange 路由策略 AMQP 面试题分布式系统
【RabbitMQ面试精讲Day3】Exchange类型与路由策略详解文章标签RabbitMQ,消息队列,Exchange,路由策略,AMQP,面试题,分布式系统文章简述本文是"RabbitMQ面试精讲"系列第3天内容，深入解析RabbitMQ的核心组件——Exchange及其路由策略。文章详细剖析4种Exchange类型(Direct/Fanout/Topic/Header)的工作原理和适用场景
C语言面向对象编程小恶魔巴巴塔 c语言开发语言
1.内核通用链表一、什么是list_head？list_head是Linux内核中自己实现的一种双向循环链表的结构，定义在中。它设计得非常轻巧、灵活，广泛用于内核模块、驱动、进程调度、网络协议栈等。它的关键思想是：将链表结构嵌入到你的数据结构中，从而实现通用链表操作。二、结构定义structlist_head{structlist_head*next,*prev;};每一个list_head实际就
pyside6使用1 窗体、信号和槽
一、概要由于作者前期很多年都在使用C++和Qt框架进行项目的开发工作，故可以熟练的使用Qt框架。Qt框架在界面设计以及跨平台运用方面，有着巨大的优势，而界面设计恰恰是python的短板，故使用pyside6实现python和Qt的互补。1.1pyside6安装更新pip工具：pipinstall--upgradepip命令行执行如下指令：pipinstallpyside6-ihttps://pyp
拼多多SQL面试题：连续3次为球队得分的球员名单
连续3次为球队得分的球员名单1.数据准备createtabletb_score(team_nameVARCHAR(50)COMMENT'球队名称',player_idINTCOMMENT'球员ID',player_nameVARCHAR(50)COMMENT'球员姓名',scoreINTCOMMENT'得分',score_timeDATETIMECOMMENT'得分时间');INSERTINTOt
RabbitMQ------发布确认（单个确认、批量确认、未确认）（四）
RabbitMQ------发布确认（四）发布确认原理生产者将信道设置为confirm模式，一旦信道进入confirm模式，所有再该信道上面发布的消息都会被指派一个唯一的ID（从1开始），一旦消息被投递到所有匹配的队列后，broker就会发送一个确认给生产者（包含消息的唯一ID），这就使得生产者知道消息已经正确到达目的地的队列了，如果消息和队列是可以持久化的，那么确认消息就会将消息写入磁盘之后发出
技术演进中的开发沉思-15 window编程系列：内存体系结构（下） chilavert318 熬之滴水穿石 windows
今天接着上个章节没讲完的内容继续，在我眼里Windows内存体系结构就如同深埋在海底的神秘宝藏，承载着系统运行的关键密码，今天我们从其中的页面保护属性、实例分析与数据对齐说起。一、页面保护属性在Windows的内存世界里，页面保护属性就像是一支训练有素的守护者联盟，它们日夜坚守岗位，守护着数据的安全与稳定，确保系统能够有条不紊地运行。每一种保护属性都有着独特的职责与使命，它们相互协作，共同构建起一
人工智能真的能编程吗？研究勾勒出自主软件工程的障碍 WSSWWWSSW 人工智能软件工程
想象一下这样一个未来：人工智能悄然承担起软件开发的繁重工作：重构杂乱无章的代码、迁移遗留系统以及排查竞态条件，这样人类工程师就可以专注于架构、设计以及那些机器仍然无法解决的真正新颖的问题。最近的进展似乎让这个未来近在咫尺，但麻省理工学院计算机科学与人工智能实验室（CSAIL）以及其他几家合作机构的研究人员发表的一篇新论文指出，要实现这个潜在的未来，需要认真审视当前面临的挑战。这篇题为《面向软件工程
Unity与VS2015协同调试C#脚本实战指南带你玩遍北海道
本文还有配套的精品资源，点击获取简介：Unity是广受青睐的跨平台游戏引擎，C#是其主要编程语言。VisualStudio2015作为一个强大的IDE，支持对Unity项目中的C#代码进行深入调试。本文将指导你如何设置VisualStudio2015作为Unity项目的官方外部脚本编辑器，并详细说明如何在VS2015中进行代码调试，包括断点设置、启动调试、调试操作和性能优化等步骤。了解这些调试技巧
Linux系统编程（六）线程同步、互斥机制小仇学长 Linux linux 线程互斥锁信号量
本文目录前述：同步机制的引入及概念一、互斥锁1.定义2.互斥锁常用方法3.相关函数（1）头文件（2）创建互斥锁（3）销毁互斥锁（4）加锁（5）解锁4.使用例程二、条件变量1.相关函数（1）创建条件变量（2）注销条件变量（3）等待条件变量成立（4）条件变量激发（使条件变量成立）2.使用注意3.使用例程三、信号灯1.分类2.信号灯操作3.相关函数4.使用例程四、原子操作（内核层）1.优势2.常用的原子
7、开启C与Unity 3D的编程之旅珊珊333333 Unity C#Unity 3D 编程基础
开启C#与Unity3D的编程之旅1.前期准备在进行每一个教程之前，都有一个名为Scene的场景文件。在整个学习过程中，教程通常从下载项目中的Scene文件开始。打开场景的方法有两种：-直接在项目面板的Assets目录下双击场景图标。-选择File→OpenScene来打开项目中的任何场景。2.学习回顾与要点创建并将新的C#文件分配给对象并不复杂，在Unity3D编辑器中有多种方法可以实现。添加代
Linux利用多线程和线程同步实现一个简单的聊天服务器
1.概述本文实现一个基于TCP/IP的简单多人聊天室程序。它包含一个服务器端和一个客户端：服务器能够接收多个客户端的连接，并将任何一个客户端发来的消息广播给所有其他连接的客户端；客户端则可以连接到服务器，发送消息并接收来自其他人的消息。该Demo运用了网络编程（SocketAPI）、多线程（Pthreads）以及线程同步（互斥锁）技术，以实现并发处理和数据共享安全。2.核心技术网络编程(Socke
python学习路线（从菜鸟到起飞）突突突然不会编了 python 学习开发语言
以下是基于2025年最新技术趋势的Python学习路线，综合多个权威资源整理而成，涵盖从零基础到进阶应用的全流程，适合不同学习目标（如Web开发、数据分析、人工智能等）的学习者。路线分为基础、进阶、实战、高级、方向拓展五个阶段，并附学习资源推荐：一、基础阶段（1-2个月）目标：掌握Python核心语法与编程思维，熟悉开发环境。环境搭建安装Python3.10+，配置PyCharm或VSCode开发
java工厂模式 3213213333332132 java 抽象工厂
工厂模式有 1、工厂方法 2、抽象工厂方法。下面我的实现是抽象工厂方法, 给所有具体的产品类定一个通用的接口。 package 工厂模式; /** * 航天飞行接口 * * @Description * @author FuJianyong * 2015-7-14下午02:42:05 */ public interface SpaceF
nginx频率限制+python测试 ronin47 nginx 频率 python
部分内容参考：http://www.abc3210.com/2013/web_04/82.shtml 首先说一下遇到这个问题是因为网站被攻击，阿里云报警，想到要限制一下访问频率，而不是限制ip（限制ip的方案稍后给出）。nginx连接资源被吃空返回状态码是502，添加本方案限制后返回599，与正常状态码区别开。步骤如下：
java线程和线程池的使用 dyy_gusi ThreadPool thread Runnable timer
java线程和线程池一、创建多线程的方式 java多线程很常见，如何使用多线程，如何创建线程，java中有两种方式，第一种是让自己的类实现Runnable接口，第二种是让自己的类继承Thread类。其实Thread类自己也是实现了Runnable接口。具体使用实例如下： 1、通过实现Runnable接口方式 1 2
Linux 171815164 linux
ubuntu kernel http://kernel.ubuntu.com/~kernel-ppa/mainline/v4.1.2-unstable/ 安卓sdk代理 mirrors.neusoft.edu.cn 80 输入法和jdk sudo apt-get install fcitx su
Tomcat JDBC Connection Pool g21121 Connection
Tomcat7 抛弃了以往的DBCP 采用了新的Tomcat Jdbc Pool 作为数据库连接组件，事实上DBCP已经被Hibernate 所抛弃，因为他存在很多问题，诸如：更新缓慢，bug较多，编译问题，代码复杂等等。 Tomcat Jdbc P
敲代码的一点想法永夜-极光 java 随笔感想
入门学习java编程已经半年了,一路敲代码下来,现在也才1w+行代码量,也就菜鸟水准吧,但是在整个学习过程中,我一直在想,为什么很多培训老师,网上的文章都是要我们背一些代码?比如学习Arraylist的时候,教师就让我们先参考源代码写一遍,然
jvm指令集程序员是怎么炼成的 jvm 指令集
转自：http://blog.csdn.net/hudashi/article/details/7062675#comments 将值推送至栈顶时 const ldc push load指令 const系列该系列命令主要负责把简单的数值类型送到栈顶。(从常量池或者局部变量push到栈顶时均使用) 0x02 &nbs
Oracle字符集的查看查询和Oracle字符集的设置修改 aijuans oracle
本文主要讨论以下几个部分：如何查看查询oracle字符集、修改设置字符集以及常见的oracle utf8字符集和oracle exp 字符集问题。一、什么是Oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储，处理，检索数据。它使数据库工具，错误消息，排序次序，日期，时间，货
png在Ie6下透明度处理方法 antonyup_2006 css 浏览器 Firebug IE
由于之前到深圳现场支撑上线，当时为了解决个控件下载，我机器上的IE8老报个错，不得以把ie8卸载掉，换个Ie6,问题解决了，今天出差回来，用ie6登入另一个正在开发的系统，遇到了Png图片的问题，当然升级到ie8(ie8自带的开发人员工具调试前端页面JS之类的还是比较方便的，和FireBug一样，呵呵)，这个问题就解决了，但稍微做了下这个问题的处理。我们知道PNG是图像文件存储格式，查询资
表查询常用命令高级查询方法(二) 百合不是茶 oracle 分页查询分组查询联合查询
----------------------------------------------------分组查询 group by having --平均工资和最高工资 select avg(sal)平均工资,max(sal) from emp ; --每个部门的平均工资和最高工资
uploadify3.1版本参数使用详解 bijian1013 JavaScript uploadify3.1
使用：绑定的界面元素<input id='gallery'type='file'/>$("#gallery").uploadify({设置参数，参数如下}); 设置的属性： id: jQuery(this).attr('id'),//绑定的input的ID langFile: 'http://ww
精通Oracle10编程SQL(17)使用ORACLE系统包 bijian1013 oracle 数据库 plsql
/* *使用ORACLE系统包 */ --1.DBMS_OUTPUT --ENABLE:用于激活过程PUT,PUT_LINE,NEW_LINE,GET_LINE和GET_LINES的调用 --语法：DBMS_OUTPUT.enable(buffer_size in integer default 20000); --DISABLE:用于禁止对过程PUT,PUT_LINE,NEW
【JVM一】JVM垃圾回收日志 bit1129 垃圾回收
将JVM垃圾回收的日志记录下来，对于分析垃圾回收的运行状态，进而调整内存分配(年轻代，老年代，永久代的内存分配)等是很有意义的。JVM与垃圾回收日志相关的参数包括： -XX:+PrintGC -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintGCDateStamps -Xloggc -XX:+PrintGC 通
Toast使用白糖_ toast
Android中的Toast是一种简易的消息提示框，toast提示框不能被用户点击，toast会根据用户设置的显示时间后自动消失。创建Toast 两个方法创建Toast makeText(Context context, int resId, int duration) 参数：context是toast显示在
angular.identity boyitech AngularJS AngularJS API
angular.identiy 描述: 返回它第一参数的函数. 此函数多用于函数是编程. 使用方法: angular.identity(value); 参数详解: Param Type Details value * to be returned. 返回值: 传入的value 实例代码: <!DOCTYPE HTML>
java-两整数相除，求循环节 bylijinnan java
import java.util.ArrayList; import java.util.List; public class CircleDigitsInDivision { /** * 题目：求循环节，若整除则返回NULL，否则返回char*指向循环节。先写思路。函数原型：char*get_circle_digits(unsigned k,unsigned j)
Java 日期周年 Chen.H java C++c C#
/** * java日期操作(月末、周末等的日期操作) * * @author * */ public class DateUtil { /** */ /** * 取得某天相加(减)後的那一天 * * @param date * @param num *
[高考与专业]欢迎广大高中毕业生加入自动控制与计算机应用专业 comsci 计算机
不知道现在的高校还设置这个宽口径专业没有,自动控制与计算机应用专业,我就是这个专业毕业的,这个专业的课程非常多,既要学习自动控制方面的课程,也要学习计算机专业的课程,对数学也要求比较高.....如果有这个专业,欢迎大家报考...毕业出来之后,就业的途径非常广..... 以后
分层查询（Hierarchical Queries） daizj oracle 递归查询层次查询
Hierarchical Queries If a table contains hierarchical data, then you can select rows in a hierarchical order using the hierarchical query clause: hierarchical_query_clause::= start with condi
数据迁移 daysinsun 数据迁移
最近公司在重构一个医疗系统，原来的系统是两个.Net系统，现需要重构到java中。数据库分别为SQL Server和Mysql，现需要将数据库统一为Hana数据库，发现了几个问题，但最后通过努力都解决了。 1、原本通过Hana的数据迁移工具把数据是可以迁移过去的，在MySQl里面的字段为TEXT类型的到Hana里面就存储不了了，最后不得不更改为clob。 2、在数据插入的时候有些字段特别长
C语言学习二进制的表示示例 dcj3sjt126com c basic
进制的表示示例 # include <stdio.h> int main(void) { int i = 0x32C; printf("i = %d\n", i); /* printf的用法 %d表示以十进制输出 %x或%X表示以十六进制的输出 %o表示以八进制输出 */ return 0; }
NsTimer 和 UITableViewCell 之间的控制 dcj3sjt126com ios
情况是这样的: 一个UITableView, 每个Cell的内容是我自定义的 viewA viewA上面有很多的动画, 我需要添加NSTimer来做动画, 由于TableView的复用机制, 我添加的动画会不断开启, 没有停止, 动画会执行越来越多. 解决办法: 在配置cell的时候开始动画, 然后在cell结束显示的时候停止动画查找cell结束显示的代理
MySql中case when then 的使用 fanxiaolong casewhenthenend
select "主键", "项目编号", "项目名称","项目创建时间", "项目状态","部门名称","创建人" union (select pp.id as "主键", pp.project_number as &
Ehcache（01）——简介、基本操作 234390216 cache ehcache 简介 CacheManager crud
Ehcache简介目录 1 CacheManager 1.1 构造方法构建 1.2 静态方法构建 2 Cache 2.1&
最容易懂的javascript闭包学习入门 jackyrong JavaScript
http://www.ruanyifeng.com/blog/2009/08/learning_javascript_closures.html 闭包（closure）是Javascript语言的一个难点，也是它的特色，很多高级应用都要依靠闭包实现。下面就是我的学习笔记，对于Javascript初学者应该是很有用的。一、变量的作用域要理解闭包，首先必须理解Javascript特殊
提升网站转化率的四步优化方案 php教程分享数据结构 PHP 数据挖掘 Google 活动
网站开发完成后,我们在进行网站优化最关键的问题就是如何提高整体的转化率，这也是营销策略里最最重要的方面之一，并且也是网站综合运营实例的结果。文中分享了四大优化策略：调查、研究、优化、评估，这四大策略可以很好地帮助用户设计出高效的优化方案。 PHP开发的网站优化一个网站最关键和棘手的是，如何提高整体的转化率，这是任何营销策略里最重要的方面之一，而提升网站转化率是网站综合运营实力的结果。今天，我就分
web开发里什么是HTML5的WebSocket？ naruto1990 Web html5 浏览器 socket
当前火起来的HTML5语言里面，很多学者们都还没有完全了解这语言的效果情况，我最喜欢的Web开发技术就是正迅速变得流行的 WebSocket API。WebSocket 提供了一个受欢迎的技术，以替代我们过去几年一直在用的Ajax技术。这个新的API提供了一个方法，从客户端使用简单的语法有效地推动消息到服务器。让我们看一看6个HTML5教程介绍里的 WebSocket API：它可用于客户端、服
Socket初步编程——简单实现群聊 Everyday都不同 socket 网络编程初步认识
初次接触到socket网络编程，也参考了网络上众前辈的文章。尝试自己也写了一下，记录下过程吧：服务端：（接收客户端消息并把它们打印出来） public class SocketServer { private List<Socket> socketList = new ArrayList<Socket>(); public s
面试：Hashtable与HashMap的区别（结合线程） toknowme
昨天去了某钱公司面试，面试过程中被问道 Hashtable与HashMap的区别？当时就是回答了一点，Hashtable是线程安全的，HashMap是线程不安全的，说白了，就是Hashtable是的同步的，HashMap不是同步的，需要额外的处理一下。今天就动手写了一个例子，直接看代码吧 package com.learn.lesson001; import java
MVC设计模式的总结 xp9802 设计模式 mvc 框架 IOC
随着Web应用的商业逻辑包含逐渐复杂的公式分析计算、决策支持等，使客户机越来越不堪重负，因此将系统的商业分离出来。单独形成一部分，这样三层结构产生了。其中‘层’是逻辑上的划分。三层体系结构是将整个系统划分为如图2.1所示的结构[3] （1）表现层（Presentation layer）：包含表示代码、用户交互GUI、数据验证。该层用于向客户端用户提供GUI交互，它允许用户