程序员编程艺术：第十章、如何给10^7个数据量的磁盘文件排序

转自：http://blog.csdn.net/v_july_v/article/details/6451990

前奏

经过几天的痛苦沉思，最终决定，把原程序员面试题狂想曲系列正式更名为程序员编程艺术系列，同时，狂想曲创作组更名为编程艺术室。之所以要改名，我们考虑到三点：1、为面试服务不能成为我们最终或最主要的目的，2、我更愿把解答一道道面试题，ACM题等各类程序设计题目的过程，当做一种艺术来看待，3、艺术的提炼本身是一个非常非常艰难的过程，但我们乐意接受这个挑战。

同时，本系列程序编程艺术-算法卷，大致分为三个部分：第一部分--程序设计，大凡如面试题目/ACM题目/poj的题目等各类程序设计的题，只要是好的，值得设计或深究的题目，我们都不拒绝。同时，紧扣实际，不断寻找更高效的算法解决实际问题。第二部分--算法研究，主要以我个人此前写的原创作品-十三个经典算法研究系列为题材，力争通俗易懂，详略得当的剖析各类经典的算法，并予以编程实现。第三部分--编码素养，主要包括程序员编码过程中一些编码规范等各类及其需要注意的问题。

如果有可能的话，此TAOPP系列将采取TAOCP那样的形式，出第一卷、第二卷、...。编程艺术来自哪里?编程采取合适的数据结构?寻求更高效的算法?或者，好的编码规范?希望，本TAOPP系列最终能给你一个完整的答复。

ok，如果任何人对本编程艺术系列有任何意见，或发现了本编程艺术系列任何问题，漏洞，bug，欢迎随时提出，我们将虚心接受并感激不尽，以为他人创造更好的价值，更好的服务。

第一节、如何给磁盘文件排序
问题描述：
输入：一个最多含有n个不重复的正整数（也就是说可能含有少于n个不重复正整数）的文件，其中每个数都小于等于n，且n=10^7。
输出：得到按从小到大升序排列的包含所有输入的整数的列表。
条件：最多有大约1MB的内存空间可用，但磁盘空间足够。且要求运行时间在5分钟以下，10秒为最佳结果。

分析：下面咱们来一步一步的解决这个问题，
1、归并排序。你可能会想到把磁盘文件进行归并排序，但题目要求你只有1MB的内存空间可用，所以，归并排序这个方法不行。
2、位图方案。熟悉位图的朋友可能会想到用位图来表示这个文件集合。例如正如编程珠玑一书上所述，用一个20位长的字符串来表示一个所有元素都小于20的简单的非负整数集合，边框用如下字符串来表示集合{1,2,3,5,8,13}：

0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0

上述集合中各数对应的位置则置1，没有对应的数的位置则置0。

参考编程珠玑一书上的位图方案，针对我们的10^7个数据量的磁盘文件排序问题，我们可以这么考虑，由于每个7位十进制整数表示一个小于1000万的整数。我们可以使用一个具有1000万个位的字符串来表示这个文件，其中，当且仅当整数i在文件中存在时，第i位为1。采取这个位图的方案是因为我们面对的这个问题的特殊性：1、输入数据限制在相对较小的范围内，2、数据没有重复，3、其中的每条记录都是单一的整数，没有任何其它与之关联的数据。
所以，此问题用位图的方案分为以下三步进行解决：

第一步，将所有的位都置为0，从而将集合初始化为空。
第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。
第三步，检验每一位，如果该位为1，就输出对应的整数。

经过以上三步后，产生有序的输出文件。令n为位图向量中的位数（本例中为1000 0000），程序可以用伪代码表示如下：

     view plain 
   
 //磁盘文件排序位图方案的伪代码  
 //copyright@ Jon Bentley  
 //July、updated，2011.05.29。  
   
 //第一步，将所有的位都初始化为0  
 for i ={0,....n}      
    bit[i]=0;  
 //第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。  
 for each i in the input file     
    bit[i]=1;  
   
 //第三步，检验每一位，如果该位为1，就输出对应的整数。  
 for i={0...n}      
   if bit[i]==1        
     write i on the output file  

上面只是为了简单介绍下位图算法的伪代码之抽象级描述。显然，咱们面对的问题，可不是这么简单。下面，我们试着针对这个要分两趟给磁盘文件排序的具体问题编写完整代码，如下。

     view plain 
   
 //copyright@ yansha  
 //July、2010.05.30。  
 //位图方案解决10^7个数据量的文件的排序问题  
 //如果有重复的数据，那么只能显示其中一个 其他的将被忽略  
 #include <iostream>  
 #include <bitset>  
 #include <assert.h>  
 #include <time.h>  
 using namespace std;  
   
 const int max_each_scan = 5000000;  
   
 int main()  
 {  
     clock_t begin = clock();  
     bitset<max_each_scan> bit_map;  
     bit_map.reset();  
       
     // open the file with the unsorted data  
     FILE *fp_unsort_file = fopen("data.txt", "r");  
     assert(fp_unsort_file);  
     int num;  
   
     // the first time scan to sort the data between 0 - 4999999  
     while (fscanf(fp_unsort_file, "%d ", &num) != EOF)  
     {  
         if (num < max_each_scan)  
             bit_map.set(num, 1);  
     }  
       
     FILE *fp_sort_file = fopen("sort.txt", "w");  
     assert(fp_sort_file);  
     int i;  
       
     // write the sorted data into file  
     for (i = 0; i < max_each_scan; i++)  
     {  
         if (bit_map[i] == 1)  
             fprintf(fp_sort_file, "%d ", i);  
     }  
       
     // the second time scan to sort the data between 5000000 - 9999999  
     int result = fseek(fp_unsort_file, 0, SEEK_SET);  
     if (result)  
         cout << "fseek failed!" << endl;  
     else  
     {  
         bit_map.reset();  
         while (fscanf(fp_unsort_file, "%d ", &num) != EOF)  
         {  
             if (num >= max_each_scan && num < 10000000)  
             {  
                 num -= max_each_scan;  
                 bit_map.set(num, 1);  
             }  
         }  
         for (i = 0; i < max_each_scan; i++)  
         {  
             if (bit_map[i] == 1)  
                 fprintf(fp_sort_file, "%d ", i + max_each_scan);  
         }  
     }  
       
     clock_t end = clock();  
     cout<<"用位图的方法，耗时："<<endl;  
     cout << (end - begin) / CLK_TCK << "s" << endl;  
     fclose(fp_sort_file);  
     fclose(fp_unsort_file);  
     return 0;  
 }  

而后测试了一下上述程序的运行时间，采取位图方案耗时14s，即14000ms：

本章中，生成大数据量（1000w）的程序如下，下文第二节的多路归并算法的c++实现和第三节的磁盘文件排序的编程实现中，生成的1000w数据量也是用本程序产生的，且本章内生成的1000w数据量的数据文件统一命名为“data.txt”。

view plain

//purpose:  生成随机的不重复的测试数据

//copyright@ 2011.04.19 yansha

//1000w数据量，要保证生成不重复的数据量，一般的程序没有做到。

//但，本程序做到了。

//July、2010.05.30。

#include <iostream>

#include <time.h>

#include <assert.h>

using namespace std;



const int size = 10000000;

int num[size];



int main()

{

    int n;

    FILE *fp = fopen("data.txt", "w");

    assert(fp);



    for (n = 1; n <= size; n++)

        //之前此处写成了n=0;n<size。导致下面有一段小程序的测试数据出现了0，特此订正。

        num[n] = n;

    srand((unsigned)time(NULL));

    int i, j;



    for (n = 0; n < size; n++)

    {

        i = (rand() * RAND_MAX + rand()) % 10000000;

        j = (rand() * RAND_MAX + rand()) % 10000000;

        swap(num[i], num[j]);

    }



    for (n = 0; n < size; n++)

        fprintf(fp, "%d ", num[n]);

    fclose(fp);

    return 0;

}

不过很快，我们就将意识到，用此位图方法，严格说来还是不太行，空间消耗10^7/8还是大于1M（1M=1024*1024空间，小于10^7/8）。
既然如果用位图方案的话，我们需要约1.25MB（若每条记录是8位的正整数的话，则10000000/(1024*1024*8) ~= 1.2M）的空间，而现在只有1MB的可用存储空间，那么究竟该作何处理呢?

updated && correct：

@yansha：上述的位图方案，共需要扫描输入数据两次，具体执行步骤如下：

第一次，只处理1—4999999之间的数据，这些数都是小于5000000的，对这些数进行位图排序，只需要约5000000/8=625000Byte，也就是0.625M，排序后输出。
第二次，扫描输入文件时，只处理4999999-10000000的数据项，也只需要0.625M（可以使用第一次处理申请的内存）。
因此，总共也只需要0.625M

位图的的方法有必要强调一下，就是位图的适用范围为针对不重复的数据进行排序，若数据有重复，位图方案就不适用了。

3、多路归并。把这个文件分为若干大小的几块，然后分别对每一块进行排序，最后完成整个过程的排序。k趟算法可以在kn的时间开销内和n/k的空间开销内完成对最多n个小于n的无重复正整数的排序。比如可分为2块（k=2，1趟反正占用的内存只有1.25/2M），1~4999999，和5000000~9999999。先遍历一趟，首先排序处理1~4999999之间的整数（用5000000/8=625000个字的存储空间来排序0~4999999之间的整数），然后再第二趟，对5000001~1000000之间的整数进行排序处理。在稍后的第二节、第三节、第四节，我们将详细阐述并实现这种多路归并排序磁盘文件的方案。
4、读者思考。经过上述思路3的方案之后，现在有两个局部有序的数组了，那么要得到一个完整的排序的数组，接下来改怎么做呢?或者说，如果是K路归并，得到k个排序的子数组，把他们合并成一个完整的排序数组，如何优化？或者，我再问你一个问题，K路归并用败者树和胜者树效率有什么差别?这些问题，请读者思考。

第二节、多路归并算法的c++实现

本节咱们暂抛开咱们的问题，阐述下有关多路归并算法的c++实现问题。在稍后的第三节，咱们再来具体针对咱们的磁盘文件排序问题阐述与实现。

在了解多路归并算法之前，你还得了解归并排序的过程，因为下面的多路归并算法就是基于这个流程的。其实归并排序就是2路归并，而多路归并算法就是把2换成了k，即多（k）路归并。下面，举个例子来说明下此归并排序算法，如下图所示，我们对数组8 3 2 6 7 1 5 4进行归并排序：

    归并排序算法简要介绍：
一、思路描述：
    设两个有序的子文件(相当于输入堆)放在同一向量中相邻的位置上：R[low..m]，R[m+1..high]，先将它们合并到一个局部的暂存向量R1(相当于输出堆)中，待合并完成后将R1复制回R[low..high]中。

    二路归并排序的过程是：
    (1)把无序表中的每一个元素都看作是一个有序表，则有n个有序子表；
    (2)把n个有序子表按相邻位置分成若干对（若n为奇数，则最后一个子表单独作为一组），每对中的两个子表进行归并，归并后子表数减少一半；
    (3)反复进行这一过程，直到归并为一个有序表为止。

    二路归并排序过程的核心操作是将一维数组中相邻的两个有序表归并为一个有序表。

二、分类：
    归并排序可分为：多路归并排序、两路归并排序。
    若归并的有序表有两个，叫做二路归并。一般地，若归并的有序表有k个，则称为k路归并。二路归并最为简单和常用，既适用于内部排序，也适用于外部排序。本文着重讨论外部排序下的多（K）路归并算法。

三、算法分析：
    1、稳定性:归并排序是一种稳定的排序。
    2、存储结构要求:可用顺序存储结构。也易于在链表上实现。
    3、时间复杂度: 对长度为n的文件，需进行lgn趟二路归并，每趟归并的时间为O(n)，故其时间复杂度无论是在最好情况下还是在最坏情况下均是O(nlgn)。。
    4、空间复杂度:需要一个辅助向量来暂存两有序子文件归并的结果，故其辅助空间复杂度为O(n)，显然它不是就地排序。
       注意:若用单链表做存储结构，很容易给出就地的归并排序。

    总结：与快速排序相比，归并排序的最大特点是，它是一种稳定的排序方法。归并排序一般多用于外排序。但它在内排方面也占有重要地位，因为它是基于比较的时间复杂度为O(N*Log(N))的排序算法中唯一稳定的排序，所以在需要稳定内排序时通常会选择归并排序。归并排序不要求对序列可以很快地进行随机访问，所以在链表排序的实现中很受欢迎。

好的，介绍完了归并排序后，回到咱们的问题。由第一节，我们已经知道，当数据量大到不适合在内存中排序时，可以利用多路归并算法对磁盘文件进行排序。

我们以一个包含很多个整数的大文件为例，来说明多路归并的外排序算法基本思想。假设文件中整数个数为N(N是亿级的)，整数之间用空格分开。首先分多次从该文件中读取M（十万级）个整数，每次将M个整数在内存中使用快速排序之后存入临时文件，然后使用多路归并将各个临时文件中的数据再次整体排好序后存入输出文件。显然，该排序算法需要对每个整数做2次磁盘读和2次磁盘写。以下是本程序的流程图：

本程序是基于以上思想对包含大量整数文件的从小到大排序的一个简单实现，这里没有使用内存缓冲区，在归并时简单使用一个数组来存储每个临时文件的第一个元素。下面是多路归并排序算法的c++实现代码（在第四节，将给出多路归并算法的c实现）：

     view plain 
   
 //copyright@ 纯净的天空 && yansha  
 //5、July，updated，2010.05.28。  
 #include <iostream>  
 #include <ctime>  
 #include <fstream>  
 //#include "ExternSort.h"using namespace std;  
 //使用多路归并进行外排序的类  
 //ExternSort.h  
 /** 大数据量的排序* 多路归并排序* 以千万级整数从小到大排序为例* 一个比较简单的例子，没有建立内存缓冲区*/  
 #ifndef EXTERN_SORT_H  
 #define EXTERN_SORT_H  
   
 #include <cassert>class ExternSort  
 {  
 public:  
   void sort()  
   {  
     time_t start = time(NULL);  
     //将文件内容分块在内存中排序，并分别写入临时文件    
     int file_count = memory_sort();  
     //归并临时文件内容到输出文件  
      merge_sort(file_count);  
     time_t end = time(NULL);printf("total time:%f/n", (end - start) * 1000.0/ CLOCKS_PER_SEC);  
     }  
   
     //input_file:输入文件名  
      //out_file:输出文件名  
      //count: 每次在内存中排序的整数个数  
     ExternSort(const char *input_file, const char * out_file, int count)  
     {  
       m_count = count;  
       m_in_file = new char[strlen(input_file) + 1];  
       strcpy(m_in_file, input_file);  
       m_out_file = new char[strlen(out_file) + 1];  
       strcpy(m_out_file, out_file);  
     }  
     virtual ~ExternSort()  
      {  
        delete [] m_in_file;  
        delete [] m_out_file;  
      }  
 private:  
   int m_count;   
    //数组长度char *m_in_file;    
    //输入文件的路径  
    char *m_out_file;   
    //输出文件的路径  
 protected:  
   int read_data(FILE* f, int a[], int n)  
   {  
     int i = 0;  
     while(i < n && (fscanf(f, "%d", &a[i]) != EOF))   
     i++;  
     printf("read:%d integer/n", i);  
     return i;  
   }  
   void write_data(FILE* f, int a[], int n)  
   {  
     for(int i = 0; i < n; ++i)  
       fprintf(f, "%d ", a[i]);  
   }  
   char* temp_filename(int index)  
   {  
     char *tempfile = new char[100];  
     sprintf(tempfile, "temp%d.txt", index);  
     return tempfile;  
   }  
   static int cmp_int(const void *a, const void *b)  
   {  
     return *(int*)a - *(int*)b;  
   }  
   int memory_sort()  
   {  
     FILE* fin = fopen(m_in_file, "rt");  
     int n = 0, file_count = 0;int *array = new int[m_count];  
   
     //每读入m_count个整数就在内存中做一次排序，并写入临时文件  
   while(( n = read_data(fin, array, m_count)) > 0)  
   {  
     qsort(array, n, sizeof(int), cmp_int);   //这里，调用了库函数阿，在第四节的c实现里，不再调qsort。    
      char *fileName = temp_filename(file_count++);  
     FILE *tempFile = fopen(fileName, "w");  
     free(fileName);  
     write_data(tempFile, array, n);  
     fclose(tempFile);  
   }  
   delete [] array;  
   fclose(fin);  
   return file_count;  
 }  
   
 void merge_sort(int file_count)  
 {  
   if(file_count <= 0)   
    return;  
   //归并临时文件FILE *fout = fopen(m_out_file, "wt");  
   FILE* *farray = new FILE*[file_count];  
   int i;  
   for(i = 0; i < file_count; ++i)  
   {  
     char* fileName = temp_filename(i);  
     farray[i] = fopen(fileName, "rt");  
     free(fileName);  
   }  
   int *data = new int[file_count];  
   //存储每个文件当前的一个数字  
   bool *hasNext = new bool[file_count];  
   //标记文件是否读完  
   memset(data, 0, sizeof(int) * file_count);  
   memset(hasNext, 1, sizeof(bool) * file_count);  
   for(i = 0; i < file_count; ++i)  
   {  
     if(fscanf(farray[i], "%d", &data[i]) == EOF)  
     //读每个文件的第一个数到data数组  
     hasNext[i] = false;  
   }  
   while(true)  
   {  
     //求data中可用的最小的数字，并记录对应文件的索引  
     int min = data[0];  
     int j = 0;  
     while (j < file_count && !hasNext[j])  
       j++;  
       if (j >= file_count)    
       //没有可取的数字，终止归并  
         break;  
       for(i = j + 1; i < file_count; ++i)  
       {  
         if(hasNext[i] && min > data[i])  
         {  
           min = data[i];  
           j = i;  
         }  
       }  
       if(fscanf(farray[j], "%d", &data[j]) == EOF)   
       //读取文件的下一个元素  
        hasNext[j] = false;  
       fprintf(fout, "%d ", min);  
     }  
     delete [] hasNext;  
     delete [] data;  
     for(i = 0; i < file_count; ++i)  
     {  
       fclose(farray[i]);  
     }delete [] farray;  
     fclose(fout);  
    }  
 };  
 #endif  
   
 //测试主函数文件  
 /** 大文件排序* 数据不能一次性全部装入内存* 排序文件里有多个整数，整数之间用空格隔开*/  
   
 const unsigned int count = 10000000;   
 // 文件里数据的行数const unsigned int number_to_sort = 1000000;   
 //在内存中一次排序的数量  
 const char *unsort_file = "unsort_data.txt";   
 //原始未排序的文件名  
 const char *sort_file = "sort_data.txt";   
 //已排序的文件名  
 void init_data(unsigned int num);   
   
 //随机生成数据文件  
   
 int main(int argc, char* *argv)  
 {  
   srand(time(NULL));  
   init_data(count);  
   ExternSort extSort(unsort_file, sort_file, number_to_sort);  
   extSort.sort();  
   system("pause");  
   return 0;  
 }  
   
 void init_data(unsigned int num)  
 {  
   FILE* f = fopen(unsort_file, "wt");  
   for(int i = 0; i < num; ++i)  
   fprintf(f, "%d ", rand());  
   fclose(f);  
 }  

程序测试：读者可以继续用小文件小数据量进一步测试。

第三节、磁盘文件排序的编程实现

ok，接下来，我们来编程实现上述磁盘文件排序的问题，本程序由两部分构成：
1、内存排序
由于要求的可用内存为1MB，那么每次可以在内存中对250K的数据进行排序，然后将有序的数写入硬盘。
那么10M的数据需要循环40次，最终产生40个有序的文件。
2、归并排序

将每个文件最开始的数读入(由于有序，所以为该文件最小数)，存放在一个大小为40的first_data数组中；
选择first_data数组中最小的数min_data，及其对应的文件索引index；
将first_data数组中最小的数写入文件result，然后更新数组first_data(根据index读取该文件下一个数代替min_data)；
判断是否所有数据都读取完毕，否则返回2。

所以，本程序按顺序分两步，第一步、Memory Sort，第二步、Merge Sort。程序的流程图，如下图所示（感谢F的绘制）。

然后，编写的完整代码如下：

     view plain 
   
 //copyright@ yansha  
 //July、updated，2011.05.28。  
 #include <iostream>  
 #include <string>  
 #include <algorithm>  
 #include <time.h>  
 using namespace std;  
   
 int sort_num = 10000000;  
 int memory_size = 250000;    
   
 //每次只对250k个小数据量进行排序  
 int read_data(FILE *fp, int *space)  
 {  
     int index = 0;  
     while (index < memory_size && fscanf(fp, "%d ", &space[index]) != EOF)  
         index++;  
     return index;  
 }  
   
 void write_data(FILE *fp, int *space, int num)  
 {  
     int index = 0;  
     while (index < num)  
     {  
         fprintf(fp, "%d ", space[index]);  
         index++;  
     }  
 }  
   
 // check the file pointer whether valid or not.  
 void check_fp(FILE *fp)  
 {  
     if (fp == NULL)  
     {  
         cout << "The file pointer is invalid!" << endl;  
         exit(1);  
     }  
 }  
   
 int compare(const void *first_num, const void *second_num)  
 {  
     return *(int *)first_num - *(int *)second_num;  
 }  
   
 string new_file_name(int n)  
 {  
     char file_name[20];  
     sprintf(file_name, "data%d.txt", n);  
     return file_name;  
 }  
   
 int memory_sort()  
 {  
     // open the target file.  
     FILE *fp_in_file = fopen("data.txt", "r");  
     check_fp(fp_in_file);  
     int counter = 0;  
     while (true)  
     {  
         // allocate space to store data read from file.  
         int *space = new int[memory_size];  
         int num = read_data(fp_in_file, space);  
         // the memory sort have finished if not numbers any more.  
         if (num == 0)  
             break;  
   
         // quick sort.  
         qsort(space, num, sizeof(int), compare);  
         // create a new auxiliary file name.  
         string file_name = new_file_name(++counter);  
         FILE *fp_aux_file = fopen(file_name.c_str(), "w");  
         check_fp(fp_aux_file);  
   
         // write the orderly numbers into auxiliary file.  
         write_data(fp_aux_file, space, num);  
         fclose(fp_aux_file);  
         delete []space;  
     }  
     fclose(fp_in_file);  
   
     // return the number of auxiliary files.  
     return counter;  
 }  
   
 void merge_sort(int file_num)  
 {  
     if (file_num <= 0)  
         return;  
     // create a new file to store result.  
     FILE *fp_out_file = fopen("result.txt", "w");  
     check_fp(fp_out_file);  
   
     // allocate a array to store the file pointer.  
     FILE **fp_array = new FILE *[file_num];  
     int i;  
     for (i = 0; i < file_num; i++)  
     {  
         string file_name = new_file_name(i + 1);  
         fp_array[i] = fopen(file_name.c_str(), "r");  
         check_fp(fp_array[i]);  
     }  
   
     int *first_data = new int[file_num];     
     //new出个大小为0.1亿/250k数组，由指针first_data指示数组首地址  
     bool *finish = new bool[file_num];  
     memset(finish, false, sizeof(bool) * file_num);  
   
     // read the first number of every auxiliary file.  
     for (i = 0; i < file_num; i++)  
         fscanf(fp_array[i], "%d ", &first_data[i]);  
     while (true)  
     {  
         int index = 0;  
         while (index < file_num && finish[index])  
             index++;  
   
         // the finish condition of the merge sort.  
         if (index >= file_num)  
             break;  
         //主要的修改在上面两行代码，就是merge sort结束条件。  
         //要保证所有文件都读完，必须使得finish[0]...finish[40]都为真  
         //July、yansha，555，2011.05.29。  
   
         int min_data = first_data[index];  
         // choose the relative minimum in the array of first_data.  
         for (i = index + 1; i < file_num; i++)  
         {  
             if (min_data > first_data[i] && !finish[i])     
                 //一旦发现比min_data更小的数据first_data[i]  
             {  
                 min_data = first_data[i];      
                 //则置min_data<-first_data[i]index = i;                     
                 //把下标i 赋给index。  
             }  
         }  
   
         // write the orderly result to file.  
         fprintf(fp_out_file, "%d ", min_data);  
         if (fscanf(fp_array[index], "%d ", &first_data[index]) == EOF)  
             finish[index] = true;  
     }  
   
     fclose(fp_out_file);  
     delete []finish;  
     delete []first_data;  
     for (i = 0; i < file_num; i++)  
         fclose(fp_array[i]);  
     delete [] fp_array;  
 }  
   
 int main()  
 {  
     clock_t start_memory_sort = clock();  
     int aux_file_num = memory_sort();  
     clock_t end_memory_sort = clock();  
     cout << "The time needs in memory sort: " << end_memory_sort - start_memory_sort << endl;  
     clock_t start_merge_sort = clock();  
     merge_sort(aux_file_num);  
     clock_t end_merge_sort = clock();  
     cout << "The time needs in merge sort: " << end_merge_sort - start_merge_sort << endl;  
     system("pause");  
     return 0;  
 }  

其中，生成数据文件data.txt的代码在第一节已经给出。

程序测试：

1、咱们对1000W数据进行测试，打开半天没看到数据，

2、编译运行上述程序后，data文件先被分成40个小文件data[1....40]，然后程序再对这40个小文件进行归并排序，排序结果最终生成在result文件中，自此result文件中便是由data文件的数据经排序后得到的数据。

3、且，我们能看到，data[i]，i=1...40的每个文件都是有序的，如下图：

4、最终的运行结果，如下，单位统一为ms：

由上观之，我们发现，第一节的位图方案的程序效率是最快的，约为14s，而采用上述的多路归并算法的程序运行时间约为25s。时间主要浪费在读写磁盘IO上，且程序中用的库函数qsort也耗费了不少时间。所以，总的来说，采取位图方案是最佳方案。

小数据量测试：

我们下面针对小数据量的文件再测试一次，针对20个小数据，每趟对4个数据进行排序，即5路归并，程序的排序结果如下图所示。

运行时间：

0ms，可以忽略不计了，毕竟是对20个数的小数据量进行排序：

沙海拾贝：

我们不在乎是否能把一个软件产品或一本书最终完成，我们更在乎的是，在完成这个产品或创作这本书的过程中，读者学到了什么，能学到什么?所以，不要一味的马上就想得到一道题目的正确答案，请跟着我们一起逐步走向山巅。

第四节、多路归并算法的c实现

本多路归并算法的c实现原理与上述c++实现一致，不同的地方体现在一些细节处理上，且对临时文件的排序，不再用系统提供的快排，即上面的qsort库函数，是采用的三数中值的快速排序（个数小于3用插入排序）的。而我们知道，纯正的归并排序其实就是比较排序，在归并过程中总是不断的比较，为了从两个数中挑小的归并到最终的序列中。ok，此程序的详情请看：

     view plain 
   
 //copyright@ 555  
 //July、2011.05.29。  
 #include <assert.h>  
 #include <time.h>   
 #include <stdio.h>     
 #include <memory.h>  
 #include <stdlib.h>  
   
 void swap_int(int* a,int* b)  
 {      
     int c;      
     c = *a;      
     *a = *b;      
     *b = c;  
 }  
   
 //插入排序  
 void InsertionSort(int A[],int N)  
 {      
     int j,p;      
     int tmp;     
     for(p = 1; p < N; p++)      
     {         
         tmp = A[p];  
         for(j = p;j > 0 && A[j - 1] >tmp;j--)          
         {              
             A[j] = A[j - 1];          
         }         
           
         A[j] = tmp;     
     }  
 }  
   
 //三数取中分割法  
 int Median3(int A[],int Left,int Right)  
 {  
     int Center = (Left + Right) / 2;  
     if (A[Left] > A[Center])  
         swap_int(&A[Left],&A[Center]);  
     if (A[Left] > A[Right])  
         swap_int(&A[Left],&A[Right]);  
     if (A[Center] > A[Right])  
         swap_int(&A[Center],&A[Right]);  
     swap_int(&A[Center],&A[Right - 1]);  
     return A[Right - 1];  
 }  
   
 //快速排序  
 void QuickSort(int A[],int Left,int Right)  
 {  
     int i,j;  
     int Pivot;  
     const int Cutoff = 3;  
     if (Left + Cutoff <= Right)  
     {  
         Pivot = Median3(A,Left,Right);  
         i = Left;  
         j = Right - 1;  
         while (1)  
         {  
             while(A[++i] < Pivot){;}  
             while(A[--j] > Pivot){;}  
             if (i < j)  
                 swap_int(&A[i],&A[j]);  
             else  
                 break;  
         }  
         swap_int(&A[i],&A[Right - 1]);   
           
         QuickSort(A,Left,i - 1);  
         QuickSort(A,i + 1,Right);  
     }  
     else  
     {  
         InsertionSort(A+Left,Right - Left + 1);  
     }  
 }  
   
 //const int  KNUM  = 40;          
 //分块数  
 const int  NUMBER = 10000000;   
 //输入文件最大读取的整数的个数  
 //为了便于测试，我决定改成小文件小数据量进行测试。  
 const int  KNUM  = 4;          
 //分块数const int  NUMBER = 100;   
 //输入文件最大读取的整数的个数  
 const char *in_file = "infile.txt";  
 const char *out_file = "outfile.txt";  
 //#define OUTPUT_OUT_FILE_DATA  
 //数据量大的时候,没必要把所有的数全部打印出来，所以可以把上面这句注释掉。  
 void  gen_infile(int n)  
 {  
     int i;  
     FILE *f = fopen(in_file, "wt");   
     for(i = 0;i < n; i++)  
         fprintf(f,"%d ",rand());  
     fclose(f);  
 }  
   
 int  read_data(FILE *f,int a[],int n)  
 {  
     int i = 0;  
     while ((i < n) && (fscanf(f,"%d",&a[i]) != EOF))    
         i++;  
     printf("read: %d integer/n",i);  
     return i;  
 }  
   
 void  write_data(FILE *f,int a[],int n)  
 {  
     int i;for(i = 0; i< n;i++)  
         fprintf(f,"%d ",a[i]);  
 }  
   
 char* temp_filename(int index)  
 {  
     char *tempfile = (char*) malloc(64*sizeof(char));  
     assert(tempfile);  
     sprintf(tempfile, "temp%d.txt", index);  
     return tempfile;  
 }  
   
 //K路串行读取  
 void k_num_read(void)  
 {  
     char* filename;  
     int i,cnt,*array;  
     FILE* fin;  
     FILE* tmpfile;  
     //计算knum,每路应读取的整数个数int n = NUMBER/KNUM;  
     if (n * KNUM < NUMBER)n++;  
   
     //建立存储分块读取的数据的数组  
     array = (int*)malloc(n * sizeof(int));assert(array);  
     //打开输入文件  
     fin = fopen(in_file,"rt");  
     i = 0;  
       
     //分块循环读取数据,并写入硬盘上的临时文件  
     while ( (cnt = read_data(fin,array,n))>0)  
     {  
         //对每次读取的数据,先进行快速排序,然后写入硬盘上的临时文件  
         QuickSort(array,0,cnt - 1);  
         filename = temp_filename(i++);  
 

你可能感兴趣的:(程序员编程艺术：第十章、如何给10^7个数据量的磁盘文件排序)

C语言浮点数实现之实例（二） EmbSW_Guru_Wx C语言实践 c语言开发语言单片机 mcu 嵌入式硬件
上一章《C语言浮点数实现（一）》给大家讲解了浮点数的由来、组成以及由于浮点数导致的世界级重大事故，以提高大家对学习浮点数积极性，了解浮点数的重要性。虽说大多数场景基本上不会在意这些细节，但是难免会遇见少数场景哈！例如：某迪的底盘团队就遇见过，如果没记错的话，该问题从发现到解决总计用时接近一周左右。可能有朋友会发出疑问，迪子的研发团队如此庞大，怎么会出现这种问题？这里就给大家解释一下，这并不完全是迪
Rust基础语法 Sean2077 rust
以下是Rust语言基础语法的核心要点，结合与JavaScript的对比，帮助前端开发者快速掌握核心概念：一、变量与常量1.变量声明Rust：变量默认不可变，需用mut显式声明可变性。letx=5;//不可变变量letmuty=10;//可变变量y+=1;//允许修改JavaScript对比：constx=5;//不可变常量lety=10;//可变变量2.常量Rust：必须显式标注类型，命名风格全大
Rust高级特性 Sean2077 rust
以下是Rust语言的高级特性详解，结合与前端开发的关联场景，帮助开发者突破进阶瓶颈：一、所有权系统（Ownership）核心概念所有权三原则：每个值有唯一所有者值的作用域结束时自动释放（无需手动内存管理）赋值或传参时可能转移所有权（针对堆数据）与JS的差异：JS依赖垃圾回收（GC），而Rust在编译期通过所有权规则确保内存安全。高级应用场景fntake_ownership(s:String){/*
干货｜4类开发人员宝藏级工具推荐北洛学Ai sublime text 编辑器 intellij-idea pycharm vim intellij idea visualstudio
文末可领取免费工具～一、浏览器浏览器特点推荐指数默认搜索引擎内核谷歌浏览器干净快速无广告占用内存小插件丰富用户体验好谷歌搜索引擎可修改默认搜索引擎为百度Blink（多进程架构、异步加载与渲染）360极速浏览器简洁无广告速度快兼容IE内核插件生态360搜索Chromium高速内核（Blink）兼容IE内核（Trident）搜狗浏览器首创“网页关注”功能风格简洁自带的搜索引擎为搜狗搜索Chromium
DeepSeek +飞书多维表格中配置DeepSeek-R1模型 meisongqing 数字化知识管理 DeepSeek+前沿科技人工智能飞书 DeepSeek
以下是在飞书多维表格中配置DeepSeek模型的具体步骤及注意事项，综合多个实际案例整理而成：一、基础配置流程创建多维表格登录飞书后，新建一个多维表格，删除默认冗余列，保留至少一列作为输入字段（如“文本内容”或“链接”）。示例场景：若需批量处理文案，可保留第一列命名为“原始文案”，用于存放待处理内容。添加DeepSeek-R1字段点击表格顶部的“+”号，选择「探索字段捷径」→搜索“DeepSeek
React 开发（十二）：使用 Context API 进行全局状态管理全栈探索者chen react react.js javascript 前端前端框架开发语言 ecmascript 学习
React开发（十二）：使用ContextAPI进行全局状态管理目录前言ContextAPI介绍2.1什么是ContextAPI2.2ContextAPI的优势创建Context3.1创建一个新的Context3.2ContextProvider的使用使用Context的组件4.1通过Context获取数据4.2更新Context中的数据完整示例：用户认证状态管理5.1创建用户认证Context5
归档重做日志archived log (明显) 比redo log重做日志文件小 jnrjian 数据库 oracle
归档重做日志(明显)比重做日志文件小。(文档ID1356604.1)日志切换将由于以下原因发生：1.由于在重做日志文件已满之前强制创建存档而记录和设计的行为SQL>altersystemswitchlogfile;SQL>altersystemarchivelogcurrent;RMAN>backuparchivelogall;RMAN>backupdatabaseplusarchivelog;A
随机2级域名引导页HTML源码酷爱码 html HTML
源码介绍随机2级域名引导页HTML源码,每次点进去都随机一个域名前缀。修改跳转域名在350行代码，源码由HTML+CSS+JS组成，记事本打开源码文件可以进行内容文字之类的修改，双击html文件可以本地运行效果预览源码免费获取随机2级域名引导页HTML源码
精准测量电机转速：基于STM32的开源解决方案萧佳轩Maureen
精准测量电机转速：基于STM32的开源解决方案【下载地址】用STM32测电机转速这个程序是我在实习期间编写的，用于测量电机转速。采用的方法是测周法，即在规定的计时时间内测量电机转了多少圈。使用的MCU是STM32F103RCT6，代码可以在KEIL环境中打开，然后下载到开发板上运行。你可以使用MDK的软件仿真功能来监视转速变量。我当时测得的转速大约是200，用示波器测量也是200，因此可以确认程序
rust 命令行工具rsup管理前端npm依赖 heroboyluck rust 前端 rust rsup 命令行工具
学习了一年的rust了，但是不知道用来做些什么，也没能赋能到工作中，现在前端基建都已经开始全面进入rust领域了，rust的前端生态是越来越好。但是自己奈何水平不够，想贡献点什么，无从下手。遂想自己捣鼓个什么东西，可以帮助到日常工作的。记录一下在完成功能时遇到的一些问题，以及是怎么解决的。解决的需求公司有很多项目，都是依赖公司技术部门的一个框架，虽然说不行，但还是要用，里面有一些基础业务功能，也是
React应用中的状态管理：Redux vs Context API 几何心凉前端入门之旅 react.js 状态模式前端
聚沙成塔·每天进步一点点本文回顾⭐专栏简介React应用中的状态管理：ReduxvsContextAPI1.引言2.Redux2.1Redux简介2.2Redux的核心概念2.2.1单一状态树（SingleSourceofTruth）2.2.2Actions2.2.3Reducers2.2.4Store2.3Redux的优点2.4Redux的缺点3.ContextAPI3.1ContextAPI简
Visual Basic语言的折线图宦如云包罗万象 golang 开发语言后端
使用VisualBasic绘制折线图引言折线图是数据可视化中一种常见的图表类型，它能够有效地展示随时间变化的数据趋势。VisualBasic（VB）作为一种易于学习和使用的编程语言，提供了丰富的图形界面功能，使得绘制折线图成为可能。本文将深入探讨如何使用VisualBasic来绘制折线图，包括相关的理论背景、具体实现代码以及应用场景。一、折线图的基本概念折线图，又称为线形图，是一种通过点和线的方式
Flink 内容分享(一)：Fink原理、实战与性能优化(一)_flink原理、实战与性能优化(1) 2401_84166965 程序员 flink 性能优化大数据
分治法在大数据处理中的应用不仅有助于提高处理效率，还可以充分利用分布式计算和存储资源，从而更好地应对大数据量和复杂性。然而，在应用分治法时需要考虑合适的数据分割策略、任务调度、结果合并等问题，以确保分治法的正确性和性能。然而，分布式计算也带来了一些挑战，如数据一致性、通信开销、任务调度等问题，需要综合考虑各种因素来设计和优化分布式系统。同时，分布式计算也需要开发者具备分布式系统设计和调优的知识和技
基于单片机PID算法电机转速控制系统设计 01单片机设计单片机单片机算法嵌入式硬件
**单片机设计介绍，基于单片机PID算法电机转速控制系统设计文章目录一概要二、功能设计设计思路三、软件设计原理图五、程序六、文章目录一概要基于单片机PID算法电机转速控制系统设计是一个结合了单片机控制技术、PID控制算法和电机驱动技术的综合性项目。以下是对其设计概要的简要介绍：一、系统概述该系统通过单片机实现PID控制算法，以实现对电机转速的精确控制。PID控制算法根据设定的目标转速与实际转速
计算机组成原理————计算机运算方法精讲＜1＞原码表示法光军ultra 计算机组成原理机器数组成原理
第一部分：无符号数和有符号数的概念1.无符号数计算机中的数均存放在寄存器当中，通常称寄存器的位数为机器字长，所谓无符号数，就是指没有fu5号的数，在寄存器中的每一位均可用来存放数值，当存放有符号数时，需要留出位置存放符号，机器字长相同时，无符号数与有符号数所对应的数值范围是不同的，以机器字长为16位为例，无符号表示范围为0~65535，而有符号数的表示范围为-32768到+327672.有符号数机
Rust从入门到精通之进阶篇：17.宏编程基础 aimmon Rust从入门到精通系列 rust 开发语言后端
宏编程基础宏是Rust中强大的元编程工具，允许你编写可以生成其他代码的代码。与函数不同，宏在编译时展开，可以实现更灵活的代码生成和重用模式。在本章中，我们将探索Rust的宏系统，包括声明宏和过程宏的基础知识。宏与函数的区别在深入宏编程之前，让我们先了解宏与函数的主要区别：展开时机：宏在编译时展开，而函数在运行时调用类型检查：函数参数在定义时指定类型，而宏可以接受不同类型的参数可变参数：宏可以接受可
组件组合和Context API在React中的应用小涵前端框架 react.js 前端前端框架开发语言 javascript React 青少年编程
组件组合和ContextAPI在React中的应用推荐超级课程：本地离线DeepSeekAI方案部署实战教程【完全版】Docker快速入门到精通Kubernetes入门到大师通关课AWS云服务快速入门实战目录组件组合和ContextAPI在React中的应用组件组合：属性穿透：组件嵌套在嵌套组件间传递数据PropDrilling的挑战和ContextAPI作为替代方案组件组合和属性穿透是React
Windows 下 Rust 快速安装指南 Sean2077 rust
以下是为前端开发工程师定制的Windows下Rust快速安装指南，结合你已安装的VSCode环境，从安装到开发环境配置一步到位：一、安装Rust前的必要准备1.安装C++构建工具Rust在Windows默认依赖MicrosoftC++构建工具（推荐）或MinGW（轻量但需手动配置）。推荐方案（MSVC）：下载VisualStudio2022BuildTools，勾选“使用C++的桌面开发”组件。替
可迭代（Iterable）对象与对应的迭代器(Iterator)对象被放养的研究生 Python 算法比赛 python 开发语言
常见可迭代对象有string,list,tuple,set,dictionary,可迭代（Iterable）对象和迭代器(Iterator)对象不同，比如，打印字符串对象，输出的是字符串，打印字符串迭代器对象，输出的是字符串迭代器的地址。但是作为输入，可迭代对象与对应迭代器对象是等价的。例如，字符串对象str与字符串迭代器对象it作为list()的输入，输出都是[‘1’,‘2’,‘3’]，代码如下
解压多个文件被放养的研究生 bash
Linuxfortarin*.tar.gz;dotarxvf$tar;donefortarin*.tar.bz2;dotarxvf$tar;doneWindowsPowerShellGet-ChildItem-Filter*.tar.gz|ForEach-Object{tar-xzvf$_.Name}说明：Get-ChildItem-Filter*.tar.gz获取当前目录下所有.tar.gz文件
【无标题】小鱼叉 python
PowerShell的执行策略限制导致的PyCharm终端不执行处理方法：这个错误是由于PowerShell的执行策略限制导致的。在Windows系统上，PowerShell有不同的执行策略来控制脚本的运行。默认情况下，可能会禁止运行脚本以提高安全性。要解决这个问题，可以按照以下步骤进行操作：以管理员身份运行PowerShell：在开始菜单中找到PowerShell，右键点击并选择“以管理员身份运
深度探索：DeepSeek的技术水平究竟如何？小焱创作 AI改变未来人工智能人工智能写作 ai写作深度学习神经网络 ai chatgpt
深度探索：DeepSeek的技术水平究竟如何？在人工智能（AI）技术日新月异的今天，一款名为DeepSeek的国产AI大模型正以其卓越的性能和独特的优势，在全球范围内引发广泛关注。DeepSeek不仅在中国市场崭露头角，更在国际舞台上展现了其强大的竞争力和创新能力。那么，DeepSeek的技术水平究竟如何？本文将从多个维度对DeepSeek进行深入探索。一、DeepSeek的技术背景与核心优势De
Spring Boot数据库连接池楚楚ccc Java系列 spring boot 数据库后端
SpringBoot默认使用HikariCP数据库连接池；HikariCPisa"zero-overhead"productionreadyJDBCconnectionpool.HikariCP是一个“零开销”的JDBC连接池产品；作者BrettWooldridge，他是一个从2008年一直生活在日本东京的的美国人开发开源的；日语发音是Hi-ka-li（lee）Hikari的意思是光，“光”的意思
字符串对象函数为什么要内卷，摆烂不香吗 java 前端服务器
字符串对象函数可变对象与不可变对象列表是可变对象：可以修改列表中的元素甚至长度字符串是不可变对象：不可以修改字符串中的元素包括长度注意：也就意味着对字符串的修改一律不是在本身修改而是创建一个新的字符串！>>>arr=[1,2,3]>>>arr[0]=4>>>arr[4,2,3]>>>s="ABC">>>s[0]'A'>>>s[0]="D"Traceback(mostrecentcalllast):
Git操作天空之城y git
1gitinit项目初始化（init）成仓库2、gitadd管理文件3、gitcommit-m告诉Git，把文件提交到仓库4、gitstatus查看当前管理文件的状态，命令5、gitlog查看提交（commit）的历史记录，命令6、gitreflog查看所有的提交记录7gitreset--hard版本号版本回滚8、gitstash把没有提交的代码暂存在某个地方8.1、gitstashpop进行把暂
人工智能之数学基础：基于正交变换将矩阵对角化每天五分钟玩转人工智能机器学习深度学习之数学基础人工智能矩阵线性代数正交变换矩阵对角化机器学习
本文重点如果矩阵A的特征向量构成的矩阵P可逆，那么矩阵A是一定可以被对角化的。但是如果矩阵P不可逆，那么是一定不可以被对角化的。我们前面还学过了如果一个矩阵A是实对称矩阵，那么这个矩阵是一定可以被对角化的，我们可以通过一个正交矩阵（正交矩阵一定是可逆的）将矩阵A对角化，现在的问题是如何找到这个正交矩阵来完成对实对称矩阵A的对角化？实对称矩阵的对角化实对称矩阵的特征值都是实数，实对称矩阵的对应于不同
10天学会嵌入式技术之C语言-Day-9 昊昊昊昊昊明嵌入式之C语言 c语言 java 开发语言
第十三章自定义数据类型13.1枚举13.3.1什么是枚举枚举（Enumeration）是C语言中的一种用户自定义数据类型，用于定义一组相关的常量。枚举使我们可以为这些常量分配有意义的名字，从而提高代码的可读性和可维护性。如果我们定义一个变量，用来表示一周中的一天，该变量的值只能从七个有效值中选择，枚举可以帮助我们限制变量的有效值。13.1.2如何定义枚举（1）语法格式枚举使用enum关键字来定义，
水溶性四氧化三铁纳米颗粒的制备方法星贝爱科生物-xb 水溶性四氧化三铁纳米颗粒
水溶性四氧化三铁纳米颗粒是一种重要的纳米材料，以下是其相关介绍：制备方法共沉淀法：将铁盐和亚铁盐溶液混合，在碱性条件下共沉淀生成四氧化三铁纳米颗粒，然后通过表面修饰使其具有水溶性。例如，羧基化四氧化三铁纳米颗粒（共沉淀法）就是在XFJ66基础上修饰DMSA而获得羧基，将油溶性纳米颗粒转换成水溶性纳米颗粒，更适合在生物领域应用。油相热分解法：先在油相中合成四氧化三铁纳米颗粒，再通过表面修饰使其具有水
Requests高级使用指南：状态保持、会话管理与异常处理小L工程师爬虫知识点 python 网络爬虫爬虫 selenium 课程设计数据分析
在现代网络爬虫和API交互中，简单的GET/POST请求往往不能满足需求。本文将深入探讨Pythonrequests库的高级特性，包括状态保持、会话管理以及常见异常处理，帮助你更好地模拟浏览器行为，完成复杂的网页采集任务。1.HTTP状态保持与Cookie管理1.1为什么需要CookieHTTP协议是无状态的，这意味着服务器不会记住之前的请求信息。Cookie的引入解决了这个问题，它允许服务器在客
BGP路由反射器燕大虾仁网络服务器运维
在同一个AS域内，由于水平分割导致要想学习到整个区域内的BGP路由，则要和区域内所有BGP设备建立互联关系，这样就会有很多的报文交互。为了减少资源的浪费，从众多路由器中选择一个性能好的作为反射器，它为其他的路由器服务，其他路由器称为它的客户端。它接受所有客户端和非客户端的路由更新信息，收到信息后会向所有的客户端和非客户端反射该信息，让其他的客户端和非客户端都知道。但是它接受非客户端的更新信息不会向
springmvc 下 freemarker页面枚举的遍历输出杨白白 enum freemarker
spring mvc freemarker 中遍历枚举 1枚举类型有一个本地方法叫values（），这个方法可以直接返回枚举数组。所以可以利用这个遍历。 enum public enum BooleanEnum { TRUE(Boolean.TRUE, "是"), FALSE(Boolean.FALSE, "否");
实习简要总结 byalias 工作
来白虹不知不觉中已经一个多月了，因为项目还在需求分析及项目架构阶段，自己在这段时间都是在学习相关技术知识，现在对这段时间的工作及学习情况做一个总结：（1）工作技能方面大体分为两个阶段，Java Web 基础阶段和Java EE阶段 1）Java Web阶段在这个阶段，自己主要着重学习了 JSP, Servlet, JDBC, MySQL，这些知识的核心点都过了一遍，也
Quartz——DateIntervalTrigger触发器 eksliang quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208559 一.概述 simpleTrigger 内部实现机制是通过计算间隔时间来计算下次的执行时间，这就导致他有不适合调度的定时任务。例如我们想每天的 1：00AM 执行任务，如果使用 SimpleTrigger，间隔时间就是一天。注意这里就会有一个问题，即当有 misfired 的任务并且恢复执行时，该执行时间
Unix快捷键 18289753290 unix Unix；快捷键;
复制，删除，粘贴： dd:删除光标所在的行 &nbs
获取Android设备屏幕的相关参数酷的飞上天空 android
包含屏幕的分辨率以及屏幕宽度的最大dp 高度最大dp TextView text = (TextView)findViewById(R.id.text); DisplayMetrics dm = new DisplayMetrics(); text.append("getResources().ge
要做物联网？先保护好你的数据蓝儿唯美数据
根据Beecham Research的说法，那些在行业中希望利用物联网的关键领域需要提供更好的安全性。在Beecham的物联网安全威胁图谱上，展示了那些可能产生内外部攻击并且需要通过快速发展的物联网行业加以解决的关键领域。 Beecham Research的技术主管Jon Howes说：“之所以我们目前还没有看到与物联网相关的严重安全事件，是因为目前还没有在大型客户和企业应用中进行部署，也就
Java取模（求余）运算随便小屋 java
整数之间的取模求余运算很好求，但几乎没有遇到过对负数进行取模求余，直接看下面代码： /** * * @author Logic * */ public class Test { public static void main(String[] args) { // TODO A
SQL注入介绍 aijuans sql注入
二、SQL注入范例这里我们根据用户登录页面 <form action="" > 用户名：<input type="text" name="username"><br/> 密码：<input type="password" name="passwor
优雅代码风格 aoyouzi 代码
总结了几点关于优雅代码风格的描述：代码简单：不隐藏设计者的意图，抽象干净利落，控制语句直截了当。接口清晰：类型接口表现力直白，字面表达含义，API 相互呼应以增强可测试性。依赖项少：依赖关系越少越好，依赖少证明内聚程度高，低耦合利于自动测试，便于重构。没有重复：重复代码意味着某些概念或想法没有在代码中良好的体现，及时重构消除重复。战术分层：代码分层清晰，隔离明确，
布尔数组百合不是茶 java 布尔数组
androi中提到了布尔数组; 布尔数组默认的是false, 并且只会打印false或者是true 布尔数组的例子; 根据字符数组创建布尔数组 char[] c = {'p','u','b','l','i','c'}; //根据字符数组的长度创建布尔数组的个数 boolean[] b = new bool
web.xml之welcome-file-list、error-page bijian1013 java web.xml servlet error-page
welcome-file-list 1.定义： <welcome-file-list> <welcome-file>login.jsp</welcome> </welcome-file-list> 2.作用：用来指定WEB应用首页名称。 error-page1.定义： <error-page&g
richfaces 4 fileUpload组件删除上传的文件 sunjing clear Richfaces 4 fileupload
页面代码 <h:form id="fileForm"> <rich:
技术文章备忘 bit1129 技术文章
Zookeeper http://wenku.baidu.com/view/bab171ffaef8941ea76e05b8.html http://wenku.baidu.com/link?url=8thAIwFTnPh2KL2b0p1V7XSgmF9ZEFgw4V_MkIpA9j8BX2rDQMPgK5l3wcs9oBTxeekOnm5P3BK8c6K2DWynq9nfUCkRlTt9uV
org.hibernate.hql.ast.QuerySyntaxException: unexpected token: on near line 1解决方案白糖_ Hibernate
文章摘自：http://blog.csdn.net/yangwawa19870921/article/details/7553181 在编写HQL时，可能会出现这种代码： select a.name,b.age from TableA a left join TableB b on a.id=b.id 如果这是HQL，那么这段代码就是错误的，因为HQL不支持
sqlserver按照字段内容进行排序 bozch 按照内容排序
在做项目的时候，遇到了这样的一个需求：从数据库中取出的数据集，首先要将某个数据或者多个数据按照地段内容放到前面显示，例如:从学生表中取出姓李的放到数据集的前面； select * fro
编程珠玑-第一章-位图排序 bylijinnan java 编程珠玑
import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; import java.io.IOException; import java.io.Writer; import java.util.Random; public class BitMapSearch {
Java关于==和equals chenbowen00 java
关于==和equals概念其实很简单，一个是比较内存地址是否相同，一个比较的是值内容是否相同。虽然理解上不难，但是有时存在一些理解误区，如下情况： 1、 String a = "aaa"; a=="aaa"; ==> true 2、 new String("aaa")==new String("aaa
[IT与资本]软件行业需对外界投资热情保持警惕 comsci it
我还是那个看法,软件行业需要增强内生动力,尽量依靠自有资金和营业收入来进行经营,避免在资本市场上经受各种不同类型的风险,为企业自主研发核心技术和产品提供稳定,温和的外部环境... 如果我们在自己尚未掌握核心技术之前,企图依靠上市来筹集资金,然后使劲往某个领域砸钱,然
oracle 数据块结构 daizj oracle 块数据块块结构行目录
oracle 数据块是数据库存储的最小单位，一般为操作系统块的N倍。其结构为：块头－－〉空行－－〉数据，其实际为纵行结构。块的标准大小由初始化参数DB_BLOCK_SIZE指定。具有标准大小的块称为标准块（Standard Block）。块的大小和标准块的大小不同的块叫非标准块（Nonstandard Block）。同一数据库中，Oracle9i及以上版本支持同一数据库中同时使用标
github上一些觉得对自己工作有用的项目收集 dengkane github
github上一些觉得对自己工作有用的项目收集技能类 markdown语法中文说明回到顶部全文检索 elasticsearch bigdesk elasticsearch管理插件回到顶部 nosql mapdb 支持亿级别map, list, 支持事务. 可考虑做为缓存使用 C
初二上学期难记单词二 dcj3sjt126com english word
dangerous 危险的 panda 熊猫 lion 狮子 elephant 象 monkey 猴子 tiger 老虎 deer 鹿 snake 蛇 rabbit 兔子 duck 鸭 horse 马 forest 森林 fall 跌倒；落下 climb 爬；攀登 finish 完成；结束 cinema 电影院；电影 seafood 海鲜；海产食品 bank 银行
8、mysql外键(FOREIGN KEY)的简单使用 dcj3sjt126com mysql
一、基本概念 1、MySQL中“键”和“索引”的定义相同，所以外键和主键一样也是索引的一种。不同的是MySQL会自动为所有表的主键进行索引，但是外键字段必须由用户进行明确的索引。用于外键关系的字段必须在所有的参照表中进行明确地索引，InnoDB不能自动地创建索引。 2、外键可以是一对一的，一个表的记录只能与另一个表的一条记录连接，或者是一对多的，一个表的记录与另一个表的多条记录连接。 3、如
java循环标签 Foreach shuizhaosi888 标签 java循环 foreach
1. 简单的for循环 public static void main(String[] args) { for (int i = 1, y = i + 10; i < 5 && y < 12; i++, y = i * 2) { System.err.println("i=" + i + " y="
Spring Security（05）——异常信息本地化 234390216 exception Spring Security 异常信息本地化
异常信息本地化 Spring Security支持将展现给终端用户看的异常信息本地化，这些信息包括认证失败、访问被拒绝等。而对于展现给开发者看的异常信息和日志信息（如配置错误）则是不能够进行本地化的，它们是以英文硬编码在Spring Security的代码中的。在Spring-Security-core-x
DUBBO架构服务端告警Failed to send message Response javamingtingzhao 架构 DUBBO
废话不多说，警告日志如下，不知道有哪位遇到过，此异常在服务端抛出(服务器启动第一次运行会有这个警告)，后续运行没问题，找了好久真心不知道哪里错了。 WARN 2015-07-18 22:31:15,272 com.alibaba.dubbo.remoting.transport.dispatcher.ChannelEventRunnable.run(84)
JS中Date对象中几个用法 leeqq JavaScript Date 最后一天
近来工作中遇到这样的两个需求 1. 给个Date对象，找出该时间所在月的第一天和最后一天 2. 给个Date对象，找出该时间所在周的第一天和最后一天需求1中的找月第一天很简单，我记得api中有setDate方法可以使用使用setDate方法前，先看看getDate var date = new Date(); console.log(date); // Sat J
MFC中使用ado技术操作数据库你不认识的休道人 sql mfc
1.在stdafx.h中导入ado动态链接库 #import"C:\Program Files\Common Files\System\ado\msado15.dll" no_namespace rename("EOF","end")2.在CTestApp文件的InitInstance()函数中domodal之前写::CoIniti
Android Studio加速 rensanning android studio
Android Studio慢、吃内存！启动时后会立即通过Gradle来sync & build工程。（1）设置Android Studio a) 禁用插件 File -> Settings... Plugins 去掉一些没有用的插件。比如：Git Integration、GitHub、Google Cloud Testing、Google Cloud
各数据库的批量Update操作 tomcat_oracle java oracle sql mysql sqlite
MyBatis的update元素的用法与insert元素基本相同，因此本篇不打算重复了。本篇仅记录批量update操作的 sql语句，懂得SQL语句，那么MyBatis部分的操作就简单了。　　注意：下列批量更新语句都是作为一个事务整体执行，要不全部成功，要不全部回滚。 MSSQL的SQL语句　WITH R AS（　　SELECT 'John' as name, 18 as
html禁止清除input文本输入缓存 xp9802 input
多数浏览器默认会缓存input的值，只有使用ctl+F5强制刷新的才可以清除缓存记录。如果不想让浏览器缓存input的值，有2种方法：方法一：在不想使用缓存的input中添加 autocomplete="off"; eg: <input type="text" autocomplete="off" name