weixin_30275415

【参考】给大数据量的磁盘文件排序

Eg - 数据结构与算法分析 外部排序 noteton

如何给磁盘文件排序

问题描述

输入：给定一个文件，里面最多含有n个不重复的正整数（也就是说可能含有少于n个不重复正整数），且其中每个数都小于等于n，n=107。
输出：得到按从小到大升序排列的包含所有输入的整数的列表。
条件：最多有大约1MB的内存空间可用，但磁盘空间足够。且要求运行时间在5分钟以下，10秒为最佳结果。
分析：思考过程，首先大致有两种方案，
　1. 归并排序。你可能会想到磁盘文件进行归并排序，但题目要求你只有1MB的内存空间可用，所以，归并排序这个方案不行。
　2. 位图方案。熟悉位图的朋友可能会想到用位图来表示这个文件集合。正如编译珠玑一书上所述，用一个20位长的字符串来表示一个所有元素都小于20的简单非负整数集合，边框用如下字符串来表示集合{1,2,3,5,8,13}；
0 1 1 1 0 1 0 0 1 0 0 0 0 1 0 0 0 0 0 0
上述集合中各数对应的位置为1，没有对应的数的位置为0；
　　参考编程珠玑里的位图解决方法，将这里的7位十进制整数表示一个小于1000万的整数。我们可以使用一个具有1000万个位的字符串来表示这个文件，其中，当且仅当整数i在文件中存在时，第i位为1，采用这个位图的方案是建立在在这个问题的特殊性上的：
　1. 输入数据限制在相对较小的范围内。
　2. 数据没有重复。
　3. 其中的每条记录都是单一的整数，没有任何其他与之关联的数据。
　　所以，此问题用位图的方案分为以下三步进行解决：

第一步：将所有的位都置为0，从而将集合初始化为空。
第二步：通过输入文件中的每一个整数来建立集合，将每个对应的位都置为1。
第三步：检验每一位，如果该位为1，就输出对应的整数。
　　经过以上三步后，就能产生有序的输出文件。令ｎ为位图向量中的位数（本例中为1000 0000），程序可以用伪代码表示如下：

//磁盘文件排序位图方案的伪代码  
//copyright@ Jon Bentley  
//July、updated，2011.05.29。  

//第一步，将所有的位都初始化为0  
for i ={0,....n}      
   bit[i]=0;  
//第二步，通过读入文件中的每个整数来建立集合，将每个对应的位都置为1。  
for each i in the input file     
   bit[i]=1;  

//第三步，检验每一位，如果该位为1，就输出对应的整数。  
for i={0...n}      
  if bit[i]==1        
    write i on the output file

完整代码如下：

//copyright@ yansha  
//July、2010.05.30。  
//位图方案解决10^7个数据量的文件的排序问题  
//如果有重复的数据，那么只能显示其中一个 其他的将被忽略  
#include   
#include   
#include   
#include   
using namespace std;  

const int max_each_scan = 5000000;  

int main()  
{  
    clock_t begin = clock();  
    bitset bit_map;  
    bit_map.reset();  

    // open the file with the unsorted data  
    FILE *fp_unsort_file = fopen("data.txt", "r");  
    assert(fp_unsort_file);  
    int num;  

    // the first time scan to sort the data between 0 - 4999999  
    while (fscanf(fp_unsort_file, "%d ", &num) != EOF)  
    {  
        if (num < max_each_scan)  
            bit_map.set(num, 1);  
    }  

    FILE *fp_sort_file = fopen("sort.txt", "w");  
    assert(fp_sort_file);  
    int i;  

    // write the sorted data into file  
    for (i = 0; i < max_each_scan; i++)  
    {  
        if (bit_map[i] == 1)  
            fprintf(fp_sort_file, "%d ", i);  
    }  

    // the second time scan to sort the data between 5000000 - 9999999  
    int result = fseek(fp_unsort_file, 0, SEEK_SET);  
    if (result)  
        cout << "fseek failed!" << endl;  
    else  
    {  
        bit_map.reset();  
        while (fscanf(fp_unsort_file, "%d ", &num) != EOF)  
        {  
            if (num >= max_each_scan && num < 10000000)  
            {  
                num -= max_each_scan;  
                bit_map.set(num, 1);  
            }  
        }  
        for (i = 0; i < max_each_scan; i++)  
        {  
            if (bit_map[i] == 1)  
                fprintf(fp_sort_file, "%d ", i + max_each_scan);  
        }  
    }  

    clock_t end = clock();  
    cout<<"用位图的方法，耗时："<

 
   
 
   
 
   其中产生大数据量（1000W）的程序（生成的数据量的数据文件统一名称为“data.txt”）如下： 
    
   /*
#define _CRT_SECURE_NO_WARNINGS
//purpose:  生成随机的不重复的测试数据  
//copyright@ 2011.04.19 yansha  
//1000w数据量，要保证生成不重复的数据量，一般的程序没有做到。  
//但，本程序做到了。  
//July、2010.05.30。  
#include   
#include   
#include   
using namespace std;

const int size = 10000000;
int num[size];

int main()
{
    clock_t begin = clock();
    int n;
    FILE *fp = fopen("data.txt", "w");
    assert(fp);

    for (n = 1; n <= size; n++)
        //之前此处写成了n=0;n
 
   
 
   
 
   而后测试了一下上述程序的运行时间，采取位图方案耗时14s，即14000ms：
 
   　　在July的博文中原来是直接用10000000的最大数组来进行操作的，很明显，100000008=1250000>1048576(1M)，已经不符合题目要求，所以，经过修改之后，将数组大小改成5000000，并且分两次进行排序，内存使用这才符合了要求。
 　　1. 第一次，只处理1-4999999之间的数据，这些数都是小于5000000的，对这些数进行位图排序，只需要约50000008=625000Byte,也就是0.625MB，排序后输出。
 　　2. 第二次，扫描输入文件时，只处理4999999-10000000的数据项，也只需要0.625MB（可以使用第一次处理申请的内存）。
 　　因此，总共也只需要0.625MB。
 　　位图的方法有必要强调一下，位图的适用范围为针对不重复的数据进行排序，若数据有重复，位图方案就不适用了。 
   多路归并算法的C++实现 
   　　在了解多路归并算法之前，先说明一下归并排序，其实归并排序就是2路归并，而多路归并算法就是把2换成了k，即多（k）路归并。下面，举个例子：我们对数组8 3 2 6 7 1 5 4

 归并排序算法简要介绍：
 一、思路描述：
 　　设两个有序的子文件(相当于输入堆)放在同一向量中相邻的位置上：R[low..m]，R[m+1..high]，先将它们合并到一个局部的暂存向量R1(相当于输出堆)中，待合并完成后将R1复制回R[low..high]中。 
   二路归并排序的过程是：
 (1)把无序表中的每一个元素都看作是一个有序表，则有n个有序子表；
 (2)把n个有序子表按相邻位置分成若干对（若n为奇数，则最后一个子表单独作为一组），每对中的两个子表进行归并，归并后子表数减少一半；
 (3)反复进行这一过程，直到归并为一个有序表为止。 
   　　二路归并排序过程的核心操作是将一维数组中相邻的两个有序表归并为一个有序表。 
   二、分类：
 归并排序可分为：多路归并排序、两路归并排序 。
 　　若归并的有序表有两个，叫做二路归并。一般地，若归并的有序表有k个，则称为k路归并。二路归并最为简单和常用，既适用于内部排序，也适用于外部排序。本文着重讨论外部排序下的多（K）路归并算法。
 　　
 三、算法分析：
 1、稳定性:归并排序是一种稳定的排序。
 2、存储结构要求:可用顺序存储结构。也易于在链表上实现。
 3、时间复杂度: 对长度为n的文件，需进行lgn趟二路归并，每趟归并的时间为O(n)，故其时间复杂度无论是在最好情况下还是在最坏情况下均是O(nlgn)。。
 4、空间复杂度:需要一个辅助向量来暂存两有序子文件归并的结果，故其辅助空间复杂度为O(n)，显然它不是就地排序。
 注意:若用单链表做存储结构，很容易给出就地的归并排序。　
 　　总结：与快排相比，归并排序的最大特点是，它是一种稳定的排序方法。归并排序一般多用于外排序，但它在内排方面也占有重要地位，因为它是基于比较的时间复杂度为O(N∗log(N))的排序算法中唯一稳定的排序，所以在需要稳定内排序时通常会选择归并排序。归并排序不要求对序列可以很快地进行随机访问，所以在链表排序的实现中很受欢迎。
 　　下面以一个包含很多个整数的大文件为例，来说明多路归并的外排序算法基本思想。
 　　假设文件中整数个数为N(N是亿级的)，整数之间用空格分开。首先分多次从该文件中读取M（十万级）个整数，每次将M个整数在内存中使用快速排序之后存入临时文件，然后使用多路归并将各个临时文件中的数据再次整体排好序后存入输出文件。显然，该排序算法需要对每个整数做2次磁盘读和2次磁盘写。以下是本程序的流程图：

 　　程序测试：读者可以继续用小文件小数据量进一步测试。
 　　 
   　　本程序是基于以上思想对包含大量整数文件的从小到大排序的一个简单实现，这里没有使用内存缓冲区，在归并时简单使用一个数组来存储每个临时文件的第一个元素。下面是多路归并排序算法的c++实现代码（在第四节，将给出多路归并算法的c实现）： 
    
   //有误，未改正
//copyright@ 纯净的天空 && yansha    
//5、July，updated，2010.05.28。    
#include     
#include     
#include     
//#include "ExternSort.h"using namespace std;    
//使用多路归并进行外排序的类    
//ExternSort.h    
/** 大数据量的排序* 多路归并排序* 以千万级整数从小到大排序为例* 一个比较简单的例子，没有建立内存缓冲区*/    
#ifndef EXTERN_SORT_H    
#define EXTERN_SORT_H    

#include class ExternSort    
{    
public:    
    void sort()    
    {    
        time_t start = time(NULL);    
        //将文件内容分块在内存中排序，并分别写入临时文件      
        int file_count = memory_sort();    
        //归并临时文件内容到输出文件    
        merge_sort(file_count);    
        time_t end = time(NULL);printf("total time:%f/n", (end - start) * 1000.0/ CLOCKS_PER_SEC);    
    }    

    //input_file:输入文件名    
    //out_file:输出文件名    
    //count: 每次在内存中排序的整数个数    
    ExternSort(const char *input_file, const char * out_file, int count)    
    {    
        m_count = count;    
        m_in_file = new char[strlen(input_file) + 1];    
        strcpy(m_in_file, input_file);    
        m_out_file = new char[strlen(out_file) + 1];    
        strcpy(m_out_file, out_file);    
    }    
    virtual ~ExternSort()    
    {    
        delete [] m_in_file;    
        delete [] m_out_file;    
    }    
private:    
    int m_count;     
    //数组长度char *m_in_file;      
    //输入文件的路径    
    char *m_out_file;     
    //输出文件的路径    
protected:    
    int read_data(FILE* f, int a[], int n)    
    {    
        int i = 0;    
        while(i < n && (fscanf(f, "%d", &a[i]) != EOF))     
            i++;    
        printf("read:%d integer/n", i);    
        return i;    
    }    
    void write_data(FILE* f, int a[], int n)    
    {    
        for(int i = 0; i < n; ++i)    
            fprintf(f, "%d ", a[i]);    
    }    
    char* temp_filename(int index)    
    {    
        char *tempfile = new char[100];    
        sprintf(tempfile, "temp%d.txt", index);    
        return tempfile;    
    }    
    static int cmp_int(const void *a, const void *b)    
    {    
        return *(int*)a - *(int*)b;    
    }    

    int memory_sort()    
    {    
        FILE* fin = fopen(m_in_file, "rt");    
        int n = 0, file_count = 0;int *array = new int[m_count];    

        //每读入m_count个整数就在内存中做一次排序，并写入临时文件    
        while(( n = read_data(fin, array, m_count)) > 0)    
        {    
            qsort(array, n, sizeof(int), cmp_int);   //这里，调用了库函数阿，在第四节的c实现里，不再调qsort。      
            char *fileName = temp_filename(file_count++);    
            FILE *tempFile = fopen(fileName, "w");    
            free(fileName);    
            write_data(tempFile, array, n);    
            fclose(tempFile);    
        }    
        delete [] array;    
        fclose(fin);    
        return file_count;    
    }    

    void merge_sort(int file_count)    
    {    
        if(file_count <= 0)     
            return;    
        //归并临时文件FILE *fout = fopen(m_out_file, "wt");    
        FILE* *farray = new FILE*[file_count];    
        int i;    
        for(i = 0; i < file_count; ++i)    
        {    
            char* fileName = temp_filename(i);    
            farray[i] = fopen(fileName, "rt");    
            free(fileName);    
        }    
        int *data = new int[file_count];    
        //存储每个文件当前的一个数字    
        bool *hasNext = new bool[file_count];    
        //标记文件是否读完    
        memset(data, 0, sizeof(int) * file_count);    
        memset(hasNext, 1, sizeof(bool) * file_count);    
        for(i = 0; i < file_count; ++i)    
        {    
            if(fscanf(farray[i], "%d", &data[i]) == EOF)    
                //读每个文件的第一个数到data数组    
                hasNext[i] = false;    
        }    

        while(true)    
        {    
            //求data中可用的最小的数字，并记录对应文件的索引    
            int min = data[0];    
            int j = 0;    
            while (j < file_count && !hasNext[j])    
                j++;    
            if (j >= file_count)      
                //没有可取的数字，终止归并    
                break;    
            for(i = j + 1; i < file_count; ++i)    
            {    
                if(hasNext[i] && min > data[i])    
                {    
                    min = data[i];    
                    j = i;    
                }    
            }    
            if(fscanf(farray[j], "%d", &data[j]) == EOF)     
                //读取文件的下一个元素    
                hasNext[j] = false;    
            fprintf(fout, "%d ", min);    
        }    

        delete [] hasNext;    
        delete [] data;    
        for(i = 0; i < file_count; ++i)    
        {    
            fclose(farray[i]);    
        }  
        delete [] farray;    
        fclose(fout);    
    }    
};    
#endif    

//测试主函数文件    
/** 大文件排序* 数据不能一次性全部装入内存* 排序文件里有多个整数，整数之间用空格隔开*/    

const unsigned int count = 10000000;     
// 文件里数据的行数const unsigned int number_to_sort = 1000000;     
//在内存中一次排序的数量    
const char *unsort_file = "unsort_data.txt";     
//原始未排序的文件名    
const char *sort_file = "sort_data.txt";     
//已排序的文件名    
void init_data(unsigned int num);     

//随机生成数据文件    

int main(int argc, char* *argv)    
{    
    srand(time(NULL));    
    init_data(count);    
    ExternSort extSort(unsort_file, sort_file, number_to_sort);    
    extSort.sort();    
    system("pause");    
    return 0;    
}    

void init_data(unsigned int num)    
{    
    FILE* f = fopen(unsort_file, "wt");    
    for(int i = 0; i < num; ++i)    
        fprintf(f, "%d ", rand());    
    fclose(f);    
} 
   
 
   
 
   磁盘文件排序的编程实现 
   　　ok，接下来，我们来编程实现上述磁盘文件排序的问题，本程序由两部分构成：
 1、内存排序
 由于要求的可用内存为1MB，那么每次可以在内存中对250K的数据进行排序，然后将有序的数写入硬盘。
 那么10M的数据需要循环40次，最终产生40个有序的文件。
 2、归并排序 
    
    将每个文件最开始的数读入(由于有序，所以为该文件最小数)，存放在一个大小为40的first_data数组中； 
    选择first_data数组中最小的数min_data，及其对应的文件索引index； 
    将first_data数组中最小的数写入文件result，然后更新数组first_data(根据index读取该文件下一个数代替min_data)； 
    判断是否所有数据都读取完毕，否则返回2。 
    
   　　所以，本程序按顺序分两步，第一步、Memory Sort，第二步、Merge Sort。程序的流程图，如下图所示（感谢F的绘制）。


 然后，编写的完整代码如下： 
    
   //data1显示有问题，过程尚未仔细看！！！！
//copyright@ yansha  
//July、updated，2011.05.28。  
#include   
#include   
#include   
#include   
using namespace std;  

int sort_num = 10000000;  
int memory_size = 250000;    

//每次只对250k个小数据量进行排序  
int read_data(FILE *fp, int *space)  
{  
    int index = 0;  
    while (index < memory_size && fscanf(fp, "%d ", &space[index]) != EOF)  
        index++;  
    return index;  
}  

void write_data(FILE *fp, int *space, int num)  
{  
    int index = 0;  
    while (index < num)  
    {  
        fprintf(fp, "%d ", space[index]);  
        index++;  
    }  
}  

// check the file pointer whether valid or not.  
void check_fp(FILE *fp)  
{  
    if (fp == NULL)  
    {  
        cout << "The file pointer is invalid!" << endl;  
        exit(1);  
    }  
}  

int compare(const void *first_num, const void *second_num)  
{  
    return *(int *)first_num - *(int *)second_num;  
}  

string new_file_name(int n)  
{  
    char file_name[20];  
    sprintf(file_name, "data%d.txt", n);  
    return file_name;  
}  

int memory_sort()  
{  
    // open the target file.  
    FILE *fp_in_file = fopen("data.txt", "r");  
    check_fp(fp_in_file);  
    int counter = 0;  
    while (true)  
    {  
        // allocate space to store data read from file.  
        int *space = new int[memory_size];  
        int num = read_data(fp_in_file, space);  
        // the memory sort have finished if not numbers any more.  
        if (num == 0)  
            break;  

        // quick sort.  
        qsort(space, num, sizeof(int), compare);  
        // create a new auxiliary file name.  
        string file_name = new_file_name(++counter);  
        FILE *fp_aux_file = fopen(file_name.c_str(), "w");  
        check_fp(fp_aux_file);  

        // write the orderly numbers into auxiliary file.  
        write_data(fp_aux_file, space, num);  
        fclose(fp_aux_file);  
        delete []space;  
    }  
    fclose(fp_in_file);  

    // return the number of auxiliary files.  
    return counter;  
}  

void merge_sort(int file_num)  
{  
    if (file_num <= 0)  
        return;  
    // create a new file to store result.  
    FILE *fp_out_file = fopen("result.txt", "w");  
    check_fp(fp_out_file);  

    // allocate a array to store the file pointer.  
    FILE **fp_array = new FILE *[file_num];  
    int i;  
    for (i = 0; i < file_num; i++)  
    {  
        string file_name = new_file_name(i + 1);  
        fp_array[i] = fopen(file_name.c_str(), "r");  
        check_fp(fp_array[i]);  
    }  

    int *first_data = new int[file_num];     
    //new出个大小为0.1亿/250k数组，由指针first_data指示数组首地址  
    bool *finish = new bool[file_num];  
    memset(finish, false, sizeof(bool) * file_num);  

    // read the first number of every auxiliary file.  
    for (i = 0; i < file_num; i++)  
        fscanf(fp_array[i], "%d ", &first_data[i]);  
    while (true)  
    {  
        int index = 0;  
        while (index < file_num && finish[index])  
            index++;  

        // the finish condition of the merge sort.  
        if (index >= file_num)  
            break;  
        //主要的修改在上面两行代码，就是merge sort结束条件。  
        //要保证所有文件都读完，必须使得finish[0]...finish[40]都为真  
        //July、yansha，555，2011.05.29。  

        int min_data = first_data[index];  
        // choose the relative minimum in the array of first_data.  
        for (i = index + 1; i < file_num; i++)  
        {  
            if (min_data > first_data[i] && !finish[i])     
                //一旦发现比min_data更小的数据first_data[i]  
            {  
                min_data = first_data[i];      
                //则置min_data<-first_data[i]index = i;                     
                //把下标i 赋给index。  
            }  
        }  

        // write the orderly result to file.  
        fprintf(fp_out_file, "%d ", min_data);  
        if (fscanf(fp_array[index], "%d ", &first_data[index]) == EOF)  
            finish[index] = true;  
    }  

    fclose(fp_out_file);  
    delete []finish;  
    delete []first_data;  
    for (i = 0; i < file_num; i++)  
        fclose(fp_array[i]);  
    delete [] fp_array;  
}  

int main()  
{  
    clock_t start_memory_sort = clock();  
    int aux_file_num = memory_sort();  
    clock_t end_memory_sort = clock();  
    cout << "The time needs in memory sort: " << end_memory_sort - start_memory_sort << endl;  
    clock_t start_merge_sort = clock();  
    merge_sort(aux_file_num);  
    clock_t end_merge_sort = clock();  
    cout << "The time needs in merge sort: " << end_merge_sort - start_merge_sort << endl;  
    system("pause");  
    return 0;  
} 
   
 
   
 
   最终的运行结果，如下，单位统一为ms：

 　　由上观之，我们发现，第一节的位图方案的程序效率是最快的，约为14s，而采用上述的多路归并算法的程序运行时间约为25s。时间主要浪费在读写磁盘IO上，且程序中用的库函数qsort也耗费了不少时间。所以，总的来说，采取位图方案是最佳方案。 
   多路归并算法的c实现 
    
    //copyright@ 555  
//July、2011.05.29。  
#include   
#include    
#include      
#include   
#include   

void swap_int(int* a,int* b)  
{      
    int c;      
    c = *a;      
    *a = *b;      
    *b = c;  
}  

//插入排序  
void InsertionSort(int A[],int N)  
{      
    int j,p;      
    int tmp;     
    for(p = 1; p < N; p++)      
    {         
        tmp = A[p];  
        for(j = p;j > 0 && A[j - 1] >tmp;j--)          
        {              
            A[j] = A[j - 1];          
        }         

        A[j] = tmp;     
    }  
}  

//三数取中分割法  
int Median3(int A[],int Left,int Right)  
{  
    int Center = (Left + Right) / 2;  
    if (A[Left] > A[Center])  
        swap_int(&A[Left],&A[Center]);  
    if (A[Left] > A[Right])  
        swap_int(&A[Left],&A[Right]);  
    if (A[Center] > A[Right])  
        swap_int(&A[Center],&A[Right]);  
    swap_int(&A[Center],&A[Right - 1]);  
    return A[Right - 1];  
}  

//快速排序  
void QuickSort(int A[],int Left,int Right)  
{  
    int i,j;  
    int Pivot;  
    const int Cutoff = 3;  
    if (Left + Cutoff <= Right)  
    {  
        Pivot = Median3(A,Left,Right);  
        i = Left;  
        j = Right - 1;  
        while (1)  
        {  
            while(A[++i] < Pivot){;}  
            while(A[--j] > Pivot){;}  
            if (i < j)  
                swap_int(&A[i],&A[j]);  
            else  
                break;  
        }  
        swap_int(&A[i],&A[Right - 1]);   

        QuickSort(A,Left,i - 1);  
        QuickSort(A,i + 1,Right);  
    }  
    else  
    {  
        InsertionSort(A+Left,Right - Left + 1);  
    }  
}  

//const int  KNUM  = 40;          
//分块数  
const int  NUMBER = 10000000;   
//输入文件最大读取的整数的个数  
//为了便于测试，我决定改成小文件小数据量进行测试。  
const int  KNUM  = 4;          
//分块数const int  NUMBER = 100;   
//输入文件最大读取的整数的个数  
const char *in_file = "infile.txt";  
const char *out_file = "outfile.txt";  
//#define OUTPUT_OUT_FILE_DATA  
//数据量大的时候,没必要把所有的数全部打印出来，所以可以把上面这句注释掉。  
void  gen_infile(int n)  
{  
    int i;  
    FILE *f = fopen(in_file, "wt");   
    for(i = 0;i < n; i++)  
        fprintf(f,"%d ",rand());  
    fclose(f);  
}  

int  read_data(FILE *f,int a[],int n)  
{  
    int i = 0;  
    while ((i < n) && (fscanf(f,"%d",&a[i]) != EOF))    
        i++;  
    printf("read: %d integer/n",i);  
    return i;  
}  

void  write_data(FILE *f,int a[],int n)  
{  
    int i;for(i = 0; i< n;i++)  
        fprintf(f,"%d ",a[i]);  
}  

char* temp_filename(int index)  
{  
    char *tempfile = (char*) malloc(64*sizeof(char));  
    assert(tempfile);  
    sprintf(tempfile, "temp%d.txt", index);  
    return tempfile;  
}  

//K路串行读取  
void k_num_read(void)  
{  
    char* filename;  
    int i,cnt,*array;  
    FILE* fin;  
    FILE* tmpfile;  
    //计算knum,每路应读取的整数个数int n = NUMBER/KNUM;  
    if (n * KNUM < NUMBER)n++;  

    //建立存储分块读取的数据的数组  
    array = (int*)malloc(n * sizeof(int));assert(array);  
    //打开输入文件  
    fin = fopen(in_file,"rt");  
    i = 0;  

    //分块循环读取数据,并写入硬盘上的临时文件  
    while ( (cnt = read_data(fin,array,n))>0)  
    {  
        //对每次读取的数据,先进行快速排序,然后写入硬盘上的临时文件  
        QuickSort(array,0,cnt - 1);  
        filename = temp_filename(i++);  
        tmpfile = fopen(filename,"w");  
        free(filename);  
        write_data(tmpfile,array,cnt);  
        fclose(tmpfile);  
    }  
    assert(i == KNUM);  
    //没有生成K路文件时进行诊断  
    //关闭输入文件句柄和临时存储数组  
    fclose(fin);  
    free(array);  
}  

//k路合并(败者树)  
void k_num_merge(void)  
{  
    FILE *fout;  
    FILE **farray;  
    char *filename;  
    int  *data;  
    char *hasNext;  
    int i,j,m,min;  
#ifdef OUTPUT_OUT_FILE_DATAint id;  
#endif  
    //打开输出文件  
    fout = fopen(out_file,"wt");  
    //打开各路临时分块文件  
    farray = (FILE**)malloc(KNUM*sizeof(FILE*));  
    assert(farray);  
    for(i = 0; i< KNUM;i++)  
    {  
        filename = temp_filename(i);  
        farray[i] = fopen(filename,"rt");  
        free(filename);  
    }  

    //建立KNUM个元素的data,hasNext数组,存储K路文件的临时数组和读取结束状态  
    data = (int*)malloc(KNUM*sizeof(int));  
    assert(data);  
    hasNext = (char*)malloc(sizeof(char)*KNUM);  
    assert(hasNext);  
    memset(data, 0, sizeof(int) * KNUM);  
    memset(hasNext, 1, sizeof(char) * KNUM);  

    //读K路文件先读取第一组数据,并对读取结束的各路文件设置不可再读状态  
    for(i = 0; i < KNUM; i++)  
    {  
        if(fscanf(farray[i], "%d", &data[i]) == EOF)  
        {  
            hasNext[i] = 0;  
        }  
    }  

    //读取各路文件,利用败者树从小到大输出到输出文件  
#ifdef OUTPUT_OUT_FILE_DATAid = 0;  
#endif  

    j  = 0;F_LOOP:  
    if (j < KNUM)      
        //以下这段代码嵌套过深，日后应尽量避免此类问题。  
    {  
        while(1==1)  
        {  
            min = data[j];  
            m = j;  
            for(i = j+1; i < KNUM; i++)  
            {  
                if(hasNext[i] == 1  && min > data[i])  
                {  
                    min = data[i];m = i;  
                }  
            }  

            if(fscanf(farray[m], "%d", &data[m]) == EOF)   
            {  
                hasNext[m] = 0;  
            }  
            fprintf(fout, "%d ", min);  
#ifdef OUTPUT_OUT_FILE_DATAprintf("fout :%d  %d/n",++id,min);  
#endif  
            if (m == j && hasNext[m] == 0)  
            {  
                for (i = j+1; i < KNUM; i++)  
                {  
                    if (hasNext[m] != hasNext[i])  
                    {  
                        m = i;  
                        //第i个文件未读完,从第i个继续往下读  
                        break;  
                    }  
                }  
                if (m != j)  
                {  
                    j = m;  
                    goto F_LOOP;  
                }  
                break;  
            }  
        }  
    }  

    //关闭分配的数据和数组      
    free(hasNext);     
    free(data);         
    for(i = 0; i < KNUM; ++i)     
    {          
        fclose(farray[i]);     
    }     
    free(farray);      
    fclose(fout);  
}  

int main()      
{     
    time_t start = time(NULL),end,start_read,end_read,start_merge,end_merge;  
    gen_infile(NUMBER);      
    end = time(NULL);     
    printf("gen_infile data time:%f/n", (end - start) * 1000.0/ CLOCKS_PER_SEC);  
    start_read = time(NULL);k_num_read();      
    end_read = time(NULL);     
    printf("k_num_read time:%f/n", (end_read - start_read) * 1000.0/ CLOCKS_PER_SEC);  
    start_merge = time(NULL);  
    k_num_merge();      
    end_merge = time(NULL);      
    printf("k_num_merge time:%f/n", (end_merge - start_merge) * 1000.0/ CLOCKS_PER_SEC);     
    end = time(NULL);     
    printf("total time:%f/n", (end - start) * 1000.0/ CLOCKS_PER_SEC);      
    return 0;    
} 
    
 
    
 
    
   程序测试： 
   在此，我们先测试下对10000000个数据的文件进行40趟排序，然后再对100个数据的文件进行4趟排序（读者可进一步测试）。如弄几组小点的数据,输出ID和数据到屏幕，再看程序运行效果。 
   10个数, 4组
 40个数, 5组
 55个数, 6组
 100个数, 7组


 （备注：1、以上所有各节的程序运行环境为windows xp + vc6.0 + e5200 cpu 2.5g主频，2、感谢5为本文程序所作的大量测试工作）
 全文总结： 
   1、关于本章中位图和多路归并两种方案的时间复杂度及空间复杂度的比较，如下： 
    
     
      
        
      时间复杂度 
      空间复杂度 
      
     
     
      
      位图 
      O(N) 
      0.625M 
      
      
      多位归并 
      O(Nlogn) 
      1M 
      
     
    
   （多路归并，时间复杂度为O（kn/klogn/k ），严格来说，还要加上读写磁盘的时间，而此算法绝大部分时间也是浪费在这上面） 
   2、bit-map 
   适用范围：可进行数据的快速查找，判重，删除，一般来说数据范围是int的10倍以下
 基本原理及要点：使用bit数组来表示某些元素是否存在，比如8位电话号码
 扩展：bloom filter可以看做是对bit-map的扩展 
   问题实例：
 1)已知某个文件内包含一些电话号码，每个号码为8位数字，统计不同号码的个数。
 8位最多99 999 999，大概需要99m个bit，大概10几m字节的内存即可。
 2)2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。 
   将bit-map扩展一下，用2bit表示一个数即可，0表示未出现，1表示出现一次，2表示出现2次及以上。或者我们不用2bit来进行表示，我们用两个bit-map即可模拟实现这个2bit-map。 
   3、[外排序适用范围]大数据的排序，去重基本原理及要点：外排序的归并方法，置换选择败者树原理，最优归并树扩展。问题实例：1).有一个1G大小的一个文件，里面每一行是一个词，词的大小不超过16个字节，内存限制大小是1M。返回频数最高的100个词。这个数据具有很明显的特点，词的大小为16个字节，但是内存只有1m做hash有些不够，所以可以用来排序。内存可以当输入缓冲区使用。  
   4、海量数据处理 
   有关海量数据处理的方法或面试题可参考此文，十道海量数据处理面试题与十个方法大总结。日后，会逐步实现这十个处理海量数据的方法。同时，送给各位一句话，解决问题的关键在于熟悉一个算法，而不是某一个问题。熟悉了一个算法，便通了一片题目。 
   本章完。 
   updated：有一读者朋友针对本文写了一篇文章为，海量数据多路归并排序的c++实现（归并时利用了败者树），地址为：http://www.cnblogs.com/harryshayne/archive/2011/07/02/2096196.html。 
    
   参考链接 
    
    主要参考v_JULY_v的博文“ 程序员编程艺术：第十章、如何给10^7个数据量的磁盘文件排序”，本文乃其拜读笔记，相同之处，版权归大牛所有。

	时间复杂度	空间复杂度
位图	O(N)	0.625M
多位归并	O(Nlogn)	1M

 
  转载于:https://www.cnblogs.com/gitlinux/p/3890786.html

【Linux | 网络】socket编程 - 使用UDP实现服务端向客户端提供简单的服务是阿建吖! 【网络】【Linux】网络 linux udp
目录一、UdpServerSever（客户端发送信息，服务端直接返回信息）1.1Comm.hpp（公共数据）1.2Log.hpp（日志）1.3InetAddr.hpp（管理sockaddr_in相关信息）1.4NoCopy.hpp（防拷贝）1.5UdpServer.hpp（服务端封装）1.6Main.cpp（服务端）1.7UdpClient.cpp（客户端）二、UdpServerExecute（客
2025 Next.js项目提前编译并在服务器风吹落叶花飘荡前端 javascript 服务器开发语言
要让一个Next.js项目提前编译并在服务器上运行，可以按照以下步骤操作：1.本地构建项目首先在开发环境中完成构建：#安装依赖pnpminstall#生产环境构建（生成优化版本）npmrunbuild这会生成：.next/目录（包含编译后的应用）public/目录（静态资源）node_modules/（生产依赖）2.准备部署文件需要上传到服务器的文件：.next/public/package.js
JVM内存泄漏与内存溢出：原理详解与实战应对策略
一、核心概念深度解析内存问题一直是Java开发者面临的重要挑战，理解内存泄漏和内存溢出的本质区别是解决这类问题的第一步。1.1内存泄漏（MemoryLeak）定义：当应用程序不再需要某些对象时，由于仍然存在对这些对象的引用，导致垃圾收集器（GC）无法回收这些内存空间。关键特征：渐进式发展，如同慢性病通常由编码缺陷引起最终可能导致内存溢出1.2内存溢出（OutOfMemoryError）定义：是内存
python中的pydantic是什么？ John Song Python python 前端开发语言 pydantic
Pydantic是Python中一个用于数据验证和设置管理的库，主要通过Python类型注解（TypeHints）来定义数据结构，并自动验证输入数据的合法性。它广泛应用于API开发（如FastAPI）、配置管理、数据序列化等场景。核心功能数据验证自动检查输入数据是否符合类型和约束条件（如字符串长度、数字范围等）。类型转换将原始数据（如JSON、字典）转换为Python类型（如datetime、En
构建一个vue2的项目并安装echarts 啃火龙果的兔子开发DEMO echarts javascript 前端
构建Vue2项目并安装ECharts5.2.2下面是从零开始构建Vue2项目并安装指定版本ECharts的完整步骤：1.创建Vue2项目#安装VueCLI（如果尚未安装）npminstall-g@vue/cli#创建Vue2项目vuecreatevue2-echarts-demo#选择Vue2预设#手动选择特性时确保选择Vue2.x2.进入项目目录并安装ECharts5.2.2cdvue2-ech
JSZip 使用详解啃火龙果的兔子开发DEMO 前端 javascript
JSZip使用详解JSZip是一个用于创建、读取和编辑ZIP文件的JavaScript库，完全在浏览器中运行，也支持Node.js环境。安装浏览器环境Node.js环境npminstalljszip#或yarnaddjszip基本使用1.创建一个ZIP文件constJSZip=require("jszip");//Node.js中需要constzip=newJSZip();//添加文本文件zip.
Mammoth.js 使用详解啃火龙果的兔子开发DEMO 前端 javascript
Mammoth.js使用详解Mammoth.js是一个用于将Word文档（.docx）转换为HTML或Markdown的JavaScript库，支持浏览器和Node.js环境。安装浏览器环境Node.js环境npminstallmammoth#或yarnaddmammoth基本使用1.将DOCX转换为HTML//浏览器中使用input[type=file]获取文件document.getEleme
异物检测的计算机视觉算法技术路线思绪漂移计算机视觉算法人工智能
异物检测的计算机视觉算法技术路线在现代智能监测系统中，异物检测有着其必要性和运维重要性，通过计算机视觉算法，可以实时识别各种异常物体，为设备安全运行提供有力保障。本文将介绍异物检测的主要技术路线。一、分类识别适应场景分类识别技术主要适用于已知目标类别的异物检测场景。在运维环境中，这类场景包括：固定区域内的障碍物监测（如轨道区域的石块、工具、动物等）关键部件的异物附着检测（如固定装置上的杂物）安全通
基于Clangd索引Linux内核源代码，提供跳转和补全 yann_qu linux 服务器内核 LSP VSCode Neovim Vim
基于Clangd索引Linux内核源代码，提供跳转和补全适用于Neovim、Vim、VSCode等支持LSP的编辑器。1操作示例1.1操作环境操作系统：Ubuntu20.04inwsl2编辑器：VSCodeLSP：Clangd内核版本：longterm5.15.1451.2准备工作由于gcc和clang并非完全兼容，使用gcc编译后生成的compile_commands.json中可能包含clan
【macOS】【Swift】【RTF】黑色文字在macOS深色外观下看不清的解决方法 goodmao macos
【macOS】【Swift】【RTF】黑色文字在macOS深色外观下看不清的解决方法遇到这个问题，Cursor高效率地忙乎了一个小时，给出了很多方案并做了修改，但都没生效。kimi还给出了：在深色外观下，将黑色文字转成白色；保存时，再反转的方法。我都感觉：不是我当前App所需要的效果。==========最后，找到很简单的方法，一行代码即可。当macOS的外观设置为深色时，RTF文件读取后，如果文
构建你的AI应用开发平台：如何在Ubuntu上使用Docker部署Dify kaixin_啊啊商业合作 cpolar 人工智能 ubuntu docker
文章目录前言1.Docker部署Dify2.本地访问Dify3.Ubuntu安装Cpolar4.配置公网地址5.远程访问6.固定Cpolar公网地址7.固定地址访问前言本文主要介绍如何在LinuxUbuntu系统使用Docker快速部署大语言模型应用开发平台Dify,并结合cpolar内网穿透工具实现公网环境远程访问本地Dify服务！Dify是一款开源的大语言模型(LLM)应用开发平台。它融合了后
基于Live555实现简单RTSP服务器 Zsy_05131068 服务器 c++qt
编译Live555本人使用Qt5.14.2编译Live555pro文件添加子模块include(UsageEnvironment/UsageEnvironment.pri)include(groupsock/groupsock.pri)include(BasicUsageEnvironment/BasicUsageEnvironment.pri)include(liveMedia/liveMedi
代码整洁之道：在 Vue 项目中使用 ESLint 的最佳实践乐闻x Vue 进阶笔记手册前端知识图谱 vue.js 前端 javascript
系列文章ESLint使用教程（一）：从零配置ESLintESLint使用教程（二）：一步步教你编写Eslint自定义规则ESLint使用教程（三）：12个ESLint配置项功能与使用方式详解ESLint使用教程（四）：ESLint有哪些执行时机？ESLint使用教程（五）：ESLint和Prettier的结合使用与冲突解决ESLint使用教程（六）：从输入eslint命令到最终代码被处理，ESLi
C练题笔记之：Leetcode-393. UTF-8 编码验证月团子 c语言 leetcode 算法
题目：给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。这是UTF-8编码的工
leetcode 393. UTF-8 编码验证
题目描述：给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码。这是UTF-8编码
【Java源码阅读系列44】深度解读Java NIO ByteBuffer 源码 ·云扬· 源码阅读系列之Java java nio 开发语言
JavaNIO（NewInput/Output）中的ByteBuffer是Buffer抽象类的具体子类，专门用于处理字节数据的高效读写。作为NIO的核心组件，ByteBuffer支持堆内存（Heap）和直接内存（Direct）两种存储方式，广泛应用于网络通信、文件IO等场景。本文将结合源码，深入解析ByteBuffer的核心机制、关键方法及设计模式的应用。一、ByteBuffer的核心特性与存储方
前端自动化测试最佳实践：Jest与Cypress详解
目录前言自动化测试概述Jest详解Jest基础配置单元测试实践组件测试Mock与Stub快照测试Cypress详解Cypress环境搭建端到端测试实践页面交互测试API模拟测试策略与最佳实践测试金字塔测试覆盖率持续集成常见问题与解决方案总结前言随着前端应用的复杂度不断提高，确保代码质量和稳定性变得越来越重要。自动化测试作为保障代码质量的重要手段，已成为现代前端开发流程中不可或缺的一环。本文将详细介
[特殊字符] AlphaGo：“神之一手”背后的智能革命与人机博弈新纪元大千AI助手人工智能 Python #OTHER 人工智能算法数据挖掘机器学习 alphago google 围棋
从围棋棋盘到科学前沿的通用人工智能范式突破本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心定义与历史意义AlphaGo是由谷歌DeepMind团队开发的围棋人工智能程序，其里程碑意义在于：首破人类围棋壁垒：2016年以4:1击败世界冠军李世石九段，成为首个在完整对局中战胜人类顶尖棋手的AI。
隐马尔可夫模型（HMM）：观测背后的状态解码艺术大千AI助手人工智能 Python #OTHER 数据挖掘人工智能机器学习算法 HMM 马尔科夫概率论
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、核心概念：双重随机过程隐马尔可夫模型（HiddenMarkovModel,HMM）是一种通过可观测序列推断隐含状态序列的概率图模型，包含两个核心随机过程：隐含状态链：不可观测的马尔可夫过程${q_t}$P(qt∣qt−1,qt−2,…,q1)=P(
PageRank：互联网的马尔可夫链平衡态大千AI助手人工智能 Python #OTHER 人工智能机器学习条件概率贝叶斯 PageRank 马尔科夫链 MC
本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！PageRank算法本质上是一个在网页图上定义的离散时间马尔可夫链（DTMC），其核心思想是将网页间的链接关系转化为状态转移概率。以下是详细分析：一、马尔可夫链的核心要素在PageRank中的体现马尔可夫链要素PageRank对应数学描述状态空间网页集
MCMC：高维概率采样的“随机游走”艺术大千AI助手人工智能 Python #OTHER 人工智能数据挖掘机器学习算法 MCMC 马尔科夫概率论
MCMC（马尔可夫链蒙特卡洛）是一种从复杂概率分布中高效采样的核心算法，它解决了传统采样方法在高维空间中的“维度灾难”问题。以下是其技术本质、关键算法及实践的深度解析：本文由「大千AI助手」原创发布，专注用真话讲AI，回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我，一起撕掉过度包装，学习真实的AI技术！一、MCMC要解决的核心问题目标：从目标分布(π(x)\pi(\mathbf{x})
【LeetCode】393. UTF-8 编码验证 pass night leetcode 算法职场和发展
题目393.UTF-8编码验证给定一个表示数据的整数数组data，返回它是否为有效的UTF-8编码。UTF-8中的一个字符可能的长度为1到4字节，遵循以下的规则：对于1字节的字符，字节的第一位设为0，后面7位为这个符号的unicode码。对于n字节的字符(n>1)，第一个字节的前n位都设为1，第n+1位设为0，后面字节的前两位一律设为10。剩下的没有提及的二进制位，全部为这个符号的unicode码
LeetCode 393. UTF-8 编码验证 Sasakihaise_ LeetCode leetcode 模拟
题目链接：力扣https://leetcode-cn.com/problems/utf-8-validation/【模拟】先转为二进制，直接用Integer.toString(int,2)即可，然后不足八位的前面补0；接下来遍历，如果以‘0’开头直接不用管，如果以‘1’开头，则遍历这个字符串记录1的个数，如果是1或者>4则直接false，否则将t--（除去自身），然后继续遍历剩下的字符串，每当出现
【目标检测】Yolov7 的 ELAN 和 E-ELAN 模块演进（涉及到分组卷积，cardinality，梯度路径） Jiangnan_Cai 深度学习目标检测 YOLO 人工智能
感觉从YOLOv6开始，YOLOv6系列感觉优化点都着重于推理速度上面，YOLOv6的RepBlock重参数化，给我的感觉就是算子融合进行加速。而YOLOv7，为了在各种架构的边缘设备上获得极致的推理速度。YOLOv7的工作：新的bagoffreebies（有效的训练技巧，不会增加推理的计算量）有规划的重参数化模型（不同边缘设备架构，不同的重参数化方法）新的动态标签分配方法为了更好的理解YOLOv
vue中如何关闭eslint
方案一:vue脚手架创建工程的时候，不要选择Linter/Formatter选项，（那如何选择启用，请参照方案二）方案二：如果已经选择了eslint，我们可以通过删包的方法来使他失效。在packge.json中，将devDependencies下的关于eslint的依赖包给删除掉。然后退出服务为，重新npmi，在重启服务即可。再次基础上，如果又想使用eslint了。就需要在重新将这几个包手动安装。
Android开发中的函数式编程应用：什么是函数式编程
我们进行了多年的Android开发，但是面对越来越复杂的业务逻辑和越来越庞大的代码，传统命令式的编程方式已经渐渐无法解决我们的问题了。今天开始我们将探索一种非常强大的编程范式：函数式编程。1.传统编程范式的挑战1.1过程式编程的难题大家日常开发中一定遇到过这些问题：1.1.1返回值不确定//全局计数器变量varcounter=0//返回值依赖于外部状态，每次调用结果不同fungetNextId()
Android开发中的函数式编程应用：流与响应式编程
流与响应式编程1.函数式副作用的处理之前有说过函数式编程中尽量要编写纯函数，但是实际的程序中不可能如此理想的都是纯函数，异常、用户交互、时间、变量等等这些所谓的“副作用”是一定会也一定需要存在的，那程序应该如何编写？首先我们需要回到“纯函数”的定义上：对于相同的输入，总是产生相同的输出，可以用返回值替换函数执行。比如：varcount=0funincrease(a:Int):Int{returnc
vivo Pulsar 万亿级消息处理实践（3）-KoP指标异常修复
作者：vivo互联网大数据团队-ChenJianbo本文是《vivoPulsar万亿级消息处理实践》系列文章第3篇。Pulsar是Apache基金会的开源分布式流处理平台和消息中间件，它实现了Kafka的协议，可以让使用KafkaAPI的应用直接迁移至Pulsar，这使得Pulsar在Kafka生态系统中更加容易被接受和使用。KoP提供了从Kafka到Pulsar的无缝转换，用户可以使用Kafka
DIDCTF-22蓝帽杯初赛小丑001. DIDCTF 网络安全
手机取证_1题目描述现对一个苹果手机进行取证，请您对以下问题进行分析解答。627604C2-C586-48C1-AA16-FF33C3022159.PNG图片的分辨率是？（答案参考格式：1920×1080）注意：中间为乘号×，不是字母xflag：360×360手机取证_2题目描述姜总的快递单号是多少？（答案参考格式：abcABC123）flag：SF1142358694796网站取证_1题目描述据
threejs的transformControls拖拽结束的异常
transformControls拖拽结束以后会以结束点的射线拾取重新选中新的模型，这里发现是监听事件的问题//创建TransformControlsconsttransformControls=newTransformControls(camera,renderer.domElement);consttransformControlsHelper=transformControls.getHel
HttpClient 4.3与4.3版本以下版本比较 spjich java httpclient
网上利用java发送http请求的代码很多，一搜一大把，有的利用的是java.net.*下的HttpURLConnection，有的用httpclient，而且发送的代码也分门别类。今天我们主要来说的是利用httpclient发送请求。 httpclient又可分为 httpclient3.x httpclient4.x到httpclient4.3以下 httpclient4.3
Essential Studio Enterprise Edition 2015 v1新功能体验 Axiba .net
概述：Essential Studio已全线升级至2015 v1版本了！新版本为JavaScript和ASP.NET MVC添加了新的文件资源管理器控件，还有其他一些控件功能升级，精彩不容错过，让我们一起来看看吧！ syncfusion公司是世界领先的Windows开发组件提供商，该公司正式对外发布Essential Studio Enterprise Edition 2015 v1版本。新版本
[宇宙与天文]微波背景辐射值与地球温度 comsci 背景
宇宙这个庞大,无边无际的空间是否存在某种确定的,变化的温度呢? 如果宇宙微波背景辐射值是表示宇宙空间温度的参数之一,那么测量这些数值,并观测周围的恒星能量输出值,我们是否获得地球的长期气候变化的情况呢? &nbs
lvs-server 男人50 server
#!/bin/bash # # LVS script for VS/DR # #./etc/rc.d/init.d/functions # VIP=10.10.6.252 RIP1=10.10.6.101 RIP2=10.10.6.13 PORT=80 case $1 in start) /sbin/ifconfig eth2:0 $VIP broadca
java的WebCollector爬虫框架 oloz 爬虫
WebCollector主页： https://github.com/CrawlScript/WebCollector 下载：webcollector-版本号-bin.zip将解压后文件夹中的所有jar包添加到工程既可。接下来看demo package org.spider.myspider; import cn.edu.hfut.dmic.webcollector.cra
jQuery append 与 after 的区别小猪猪08
1、after函数定义和用法： after() 方法在被选元素后插入指定的内容。语法： $(selector).after(content) 实例： <html> <head> <script type="text/javascript" src="/jquery/jquery.js"></scr
mysql知识充电香水浓 mysql
索引索引是在存储引擎中实现的，因此每种存储引擎的索引都不一定完全相同，并且每种存储引擎也不一定支持所有索引类型。根据存储引擎定义每个表的最大索引数和最大索引长度。所有存储引擎支持每个表至少16个索引，总索引长度至少为256字节。大多数存储引擎有更高的限制。MYSQL中索引的存储类型有两种：BTREE和HASH，具体和表的存储引擎相关； MYISAM和InnoDB存储引擎
我的架构经验系列文章索引 agevs 架构
下面是一些个人架构上的总结，本来想只在公司内部进行共享的，因此内容写的口语化一点，也没什么图示，所有内容没有查任何资料是脑子里面的东西吐出来的因此可能会不准确不全，希望抛砖引玉，大家互相讨论。要注意，我这些文章是一个总体的架构经验不针对具体的语言和平台，因此也不一定是适用所有的语言和平台的。（内容是前几天写的，现附上索引）前端架构 http://www.
Android so lib库远程http下载和动态注册 aijuans andorid
一、背景在开发Android应用程序的实现，有时候需要引入第三方so lib库，但第三方so库比较大，例如开源第三方播放组件ffmpeg库, 如果直接打包的apk包里面, 整个应用程序会大很多.经过查阅资料和实验，发现通过远程下载so文件，然后再动态注册so文件时可行的。主要需要解决下载so文件存放位置以及文件读写权限问题。二、主要
linux中svn配置出错 conf/svnserve.conf:12: Option expected 解决方法 baalwolf option
在客户端访问subversion版本库时出现这个错误： svnserve.conf:12: Option expected 为什么会出现这个错误呢，就是因为subversion读取配置文件svnserve.conf时，无法识别有前置空格的配置文件，如### This file controls the configuration of the svnserve daemon, if you##
MongoDB的连接池和连接管理 BigCat2013 mongodb
在关系型数据库中，我们总是需要关闭使用的数据库连接，不然大量的创建连接会导致资源的浪费甚至于数据库宕机。这篇文章主要想解释一下mongoDB的连接池以及连接管理机制，如果正对此有疑惑的朋友可以看一下。通常我们习惯于new 一个connection并且通常在finally语句中调用connection的close()方法将其关闭。正巧，mongoDB中当我们new一个Mongo的时候，会发现它也
AngularJS使用Socket.IO bijian1013 JavaScript AngularJS Socket.IO
目前，web应用普遍被要求是实时web应用，即服务端的数据更新之后，应用能立即更新。以前使用的技术（例如polling）存在一些局限性，而且有时我们需要在客户端打开一个socket，然后进行通信。 Socket.IO(http://socket.io/)是一个非常优秀的库，它可以帮你实
[Maven学习笔记四]Maven依赖特性 bit1129 maven
三个模块为了说明问题，以用户登陆小web应用为例。通常一个web应用分为三个模块，模型和数据持久化层user-core, 业务逻辑层user-service以及web展现层user-web， user-service依赖于user-core user-web依赖于user-core和user-service 依赖作用范围 Maven的dependency定义
【Akka一】Akka入门 bit1129 akka
什么是Akka Message-Driven Runtime is the Foundation to Reactive Applications In Akka, your business logic is driven through message-based communication patterns that are independent of physical locatio
zabbix_api之perl语言写法 ronin47 zabbix_api之perl
zabbix_api网上比较多的写法是python或curl。上次我用java－－http://bossr.iteye.com/blog/2195679，这次用perl。for example: #!/usr/bin/perl use 5.010 ; use strict ; use warnings ; use JSON :: RPC :: Client ; use
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ brotherlamp linux运维工程师 linux运维工程师教程 linux运维工程师视频 linux运维工程师资料 linux运维工程师自学
比优衣库跟牛掰的视频流出了，兄弟连Linux运维工程师课堂实录，更加刺激，更加实在！ ----------------------------------------------------- 兄弟连Linux运维工程师课堂实录-计算机基础-1-课程体系介绍1 链接：http://pan.baidu.com/s/1i3GQtGL 密码：bl65 兄弟连Lin
bitmap求哈密顿距离-给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y( bylijinnan java
import java.util.Random; /** * 题目： * 给定N（1<=N<=100000）个五维的点A(x1,x2,x3,x4,x5)，求两个点X(x1,x2,x3,x4,x5)和Y(y1,y2,y3,y4,y5)， * 使得他们的哈密顿距离（d=|x1-y1| + |x2-y2| + |x3-y3| + |x4-y4| + |x5-y5|）最大
map的三种遍历方法 chicony map
package com.test; import java.util.Collection; import java.util.HashMap; import java.util.Iterator; import java.util.Map; import java.util.Set; public class TestMap { public static v
Linux安装mysql的一些坑 chenchao051 linux
1、mysql不建议在root用户下运行 2、出现服务启动不了，111错误，注意要用chown来赋予权限，我在root用户下装的mysql，我就把usr/share/mysql/mysql.server复制到/etc/init.d/mysqld, (同时把my-huge.cnf复制/etc/my.cnf) chown -R cc /etc/init.d/mysql
Sublime Text 3 配置 daizj 配置 Sublime Text
Sublime Text 3 配置解释(默认){// 设置主题文件“color_scheme”: “Packages/Color Scheme – Default/Monokai.tmTheme”,// 设置字体和大小“font_face”: “Consolas”,“font_size”: 12,// 字体选项：no_bold不显示粗体字，no_italic不显示斜体字，no_antialias和
MySQL server has gone away 问题的解决方法 dcj3sjt126com SQL Server
MySQL server has gone away 问题解决方法，需要的朋友可以参考下。应用程序（比如PHP）长时间的执行批量的MYSQL语句。执行一个SQL，但SQL语句过大或者语句中含有BLOB或者longblob字段。比如，图片数据的处理。都容易引起MySQL server has gone away。今天遇到类似的情景，MySQL只是冷冷的说：MySQL server h
javascript/dom:固定居中效果 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&
使用 Spring 2.5 注释驱动的 IoC 功能 e200702084 spring bean 配置管理 IOC Office
使用 Spring 2.5 注释驱动的 IoC 功能 developerWorks 文档选项将打印机的版面设置成横向打印模式打印本页将此页作为电子邮件发送将此页作为电子邮件发送级别：初级陈雄华 ([email protected]), 技术总监, 宝宝淘网络科技有限公司 2008 年 2 月 28 日 &nb
MongoDB常用操作命令 geeksun mongodb
1. 基本操作 db.AddUser(username,password) 添加用户 db.auth(usrename,password) 设置数据库连接验证 db.cloneDataBase(fromhost)
php写守护进程（Daemon） hongtoushizi PHP
转载自： http://blog.csdn.net/tengzhaorong/article/details/9764655 守护进程（Daemon）是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。php也可以实现守护进程的功能。 1、基本概念 &nbs
spring整合mybatis,关于注入Dao对象出错问题 jonsvien DAO spring bean mybatis prototype
今天在公司测试功能时发现一问题：先进行代码说明： 1，controller配置了Scope="prototype"（表明每一次请求都是原子型） @resource/@autowired service对象都可以（两种注解都可以）。 2，service 配置了Scope="prototype"（表明每一次请求都是原子型）
对象关系行为模式之标识映射 home198979 PHP 架构企业应用对象关系标识映射
HELLO!架构一、概念 identity Map:通过在映射中保存每个已经加载的对象，确保每个对象只加载一次，当要访问对象的时候，通过映射来查找它们。其实在数据源架构模式之数据映射器代码中有提及到标识映射，Mapper类的getFromMap方法就是实现标识映射的实现。二、为什么要使用标识映射？在数据源架构模式之数据映射器中 //c
Linux下hosts文件详解 pda158 linux
　1、主机名：　　无论在局域网还是INTERNET上，每台主机都有一个IP地址，是为了区分此台主机和彼台主机，也就是说IP地址就是主机的门牌号。　　公网：IP地址不方便记忆，所以又有了域名。域名只是在公网（INtERNET)中存在，每个域名都对应一个IP地址，但一个IP地址可有对应多个域名。　　局域网：每台机器都有一个主机名，用于主机与主机之间的便于区分，就可以为每台机器设置主机
nginx配置文件粗解 spjich java nginx
#运行用户#user nobody;#启动进程,通常设置成和cpu的数量相等worker_processes 2;#全局错误日志及PID文件#error_log logs/error.log;#error_log logs/error.log notice;#error_log logs/error.log inf
数学函数 w54653520 java
public class S { // 传入两个整数，进行比较，返回两个数中的最大值的方法。 public int get( int num1, int nu

【参考】给大数据量的磁盘文件排序