wangeclipse

程序员编程艺术第二十六章：基于给定的文档生成倒排索引（含源码下载）

文章转载：http://blog.csdn.net/v_july_v/article/details/7109500

第二十六章：基于给定的文档生成倒排索引的编码与实践

作者：July、yansha。
出处：结构之法算法之道

引言

本周实现倒排索引。实现过程中，寻找资料，结果发现找份资料诸多不易：1、网上搜倒排索引实现，结果千篇一律，例子都是那几个同样的单词；2、到谷歌学术上想找点稍微有价值水平的资料，结果下篇论文还收费或者要求注册之类；3、大部分技术书籍只有理论，没有实践。于是，朋友戏言：网上一般有价值的东西不多。希望，本blog的出现能改变此现状。

在第二十四章、倒排索引关键词不重复Hash编码中，我们针对一个给定的倒排索引文件，提取出其中的关键词，然后针对这些关键词进行Hash不重复编码。本章，咱们再倒退一步，即给定一个正排文档（暂略过文本解析，分词等步骤，日后会慢慢考虑这些且一并予以实现），要求生成对应的倒排索引文件。同时，本章还是基于Hash索引之上（运用暴雪的Hash函数可以比较完美的解决大数据量下的冲突问题），日后自会实现B+树索引。

与此同时，本编程艺术系列逐步从为面试服务而转到实战性的编程当中了，教初学者如何编程，如何运用高效的算法解决实际应用中的编程问题，将逐步成为本编程艺术系列的主旨之一。

OK，接下来，咱们针对给定的正排文档一步一步来生成倒排索引文件，有任何问题，欢迎随时不吝赐教或批评指正。谢谢。

第一节、索引的构建方法

根据信息检索导论（Christtopher D.Manning等著，王斌译）一书给的提示，我们可以选择两种构建索引的算法：BSBI算法，与SPIMI算法。

BSBI算法，基于磁盘的外部排序算法，此算法首先将词项映射成其ID的数据结构，如Hash映射。而后将文档解析成词项ID-文档ID对，并在内存中一直处理，直到累积至放满一个固定大小的块空间为止，我们选择合适的块大小，使之能方便加载到内存中并允许在内存中快速排序，快速排序后的块转换成倒排索引格式后写入磁盘。

建立倒排索引的步骤如下：

将文档分割成几个大小相等的部分；
对词项ID-文档ID进行排序；
将具有同一词项ID的所有文档ID放到倒排记录表中，其中每条倒排记录仅仅是一个文档ID；
将基于块的倒排索引写到磁盘上。

此算法假如说最后可能会产生10个块。其伪码如下：

 
   BSBI NDEXConSTRUCTION()  
 n <- 0  
 while(all documents have not been processed)  
     do n<-n+1  
         block <- PARSENEXTBLOCK()    //文档分析  
         BSBI-INVERT(block)  
         WRITEBLOCKTODISK(block,fn)  
         MERGEBLOCKS(f1,...,fn;fmerged)  
 
 

（基于块的排序索引算法，该算法将每个块的倒排索引文件存入文件f1,...,fn中，最后合并成fmerged
如果该算法应用最后一步产生了10个块，那么接下来便会将10个块索引同时合并成一个索引文件。）

合并时，同时打开所有块对应的文件，内存中维护了为10个块准备的读缓冲区和一个为最终合并索引准备的写缓冲区。每次迭代中，利用优先级队列（如堆结构或类似的数据结构）选择最小的未处理的词项ID进行处理。如下图所示（图片引自深入搜索引擎--海里信息的压缩、索引和查询，梁斌译），分块索引，分块排序，最终全部合并（说实话，跟MapReduce还是有些类似的）：

读入该词项的倒排记录表并合并，合并结果写回磁盘中。需要时，再次从文件中读入数据到每个读缓冲区（基于磁盘的外部排序算法的更多可以参考：程序员编程艺术第十章、如何给10^7个数据量的磁盘文件排序）。

BSBI算法主要的时间消耗在排序上，选择什么排序方法呢，简单的快速排序足矣，其时间复杂度为O（N*logN），其中N是所需要排序的项（词项ID-文档ID对）的数目的上界。

SPIMI算法，内存式单遍扫描索引算法
与上述BSBI算法不同的是：SPIMI使用词项而不是其ID，它将每个块的词典写入磁盘，对于写一块则重新采用新的词典，只要硬盘空间足够大，它能索引任何大小的文档集。
倒排索引 = 词典（关键词或词项+词项频率）+倒排记录表。建倒排索引的步骤如下：

从头开始扫描每一个词项-文档ID（信息）对，遇一词，构建索引；
继续扫描，若遇一新词，则再建一新索引块（加入词典，通过Hash表实现，同时，建一新的倒排记录表）；若遇一旧词，则找到其倒排记录表的位置，添加其后
在内存内基于分块完成排序，后合并分块；
写入磁盘。

其伪码如下：

 
   SPIMI-Invert(Token_stream)  
 output.file=NEWFILE()  
 dictionary = NEWHASH()  
 while (free memory available)  
     do token <-next(token_stream)    //逐一处理每个词项-文档ID对  
         if term(token) !(- dictionary  
             then postings_list = AddToDictionary(dictionary,term(token))    //如果词项是第一次出现，那么加入hash词典，同时，建立一个新的倒排索引表  
         else postings_list = GetPostingList(dictionary,term(token))         //如果不是第一次出现，那么直接返回其倒排记录表，在下面添加其后  
     if full(postings_list)  
         then postings_list =DoublePostingList(dictionary,term(token))  
     AddToPosTingsList (postings_list,docID(token))          //SPIMI与BSBI的区别就在于此，前者直接在倒排记录表中增加此项新纪录  
 sorted_terms <- SortTerms(dictionary)  
 WriteBlockToDisk(sorted_terms,dictionary,output_file)  
 return output_file  
 
 

SPIMI与BSBI的主要区别：
SPIMI当发现关键词是第一次出现时，会直接在倒排记录表中增加一项（与BSBI算法不同）。同时，与BSBI算法一开始就整理出所有的词项ID-文档ID，并对它们进行排序的做法不同（而这恰恰是BSBI的做法），这里的每个倒排记录表都是动态增长的（也就是说，倒排记录表的大小会不断调整），同时，扫描一遍就可以实现全体倒排记录表的收集。
SPIMI这样做有两点好处:

由于不需要排序操作，因此处理的速度更快，
由于保留了倒排记录表对词项的归属关系，因此能节省内存，词项的ID也不需要保存。这样，每次单独的SPIMI-Invert调用能够处理的块大小可以非常大，整个倒排索引的构建过程也可以非常高效。

但不得不提的是，由于事先并不知道每个词项的倒排记录表大小，算法一开始只能分配一个较小的倒排记录表空间，每次当该空间放满的时候，就会申请加倍的空间，
与此同时，自然而然便会浪费一部分空间（当然，此前因为不保存词项ID，倒也省下一点空间，总体而言，算作是抵销了）。
不过，至少SPIMI所用的空间会比BSBI所用空间少。当内存耗尽后，包括词典和倒排记录表的块索引将被写到磁盘上，但在此之前，为使倒排记录表按照词典顺序来加快最后的合并操作，所以要对词项进行排序操作。

小数据量与大数据量的区别

在小数据量时，有足够的内存保证该创建过程可以一次完成；
数据规模增大后，可以采用分组索引，然后再归并索引的策略。该策略是，

建立索引的模块根据当时运行系统所在的计算机的内存大小，将索引分为 k 组，使得每组运算所需内存都小于系统能够提供的最大使用内存的大小。
按照倒排索引的生成算法，生成 k 组倒排索引。
然后将这 k 组索引归并，即将相同索引词对应的数据合并到一起，就得到了以索引词为主键的最终的倒排文件索引，即反向索引。

为了测试的方便，本文针对小数据量进行从正排文档到倒排索引文件的实现。而且针对大数量的K路归并算法或基于磁盘的外部排序算法本编程艺术系列第十章中已有详细阐述。

第二节、Hash表的构建与实现

如下，给定如下图所示的正排文档，每一行的信息分别为（中间用##########隔开）：文档ID、订阅源（子频道）、频道分类、网站类ID（大频道）、时间、 md5、文档权值、关键词、作者等等。

要求基于给定的上述正排文档。生成如第二十四章所示的倒排索引文件（注，关键词所在的文章如果是同一个日期的话，是挨在同一行的，用“#”符号隔开）：

我们知道：为网页建立全文索引是网页预处理的核心部分，包括分析网页和建立倒排文件。二者是顺序进行，先分析网页，后建立倒排文件（也称为反向索引），如图所示：

正如上图粗略所示，我们知道倒排索引创建的过程如下：

写爬虫抓取相关的网页，而后提取相关网页或文章中所有的关键词；
分词，找出所有单词；
过滤不相干的信息（如广告等信息）；
构建倒排索引，关键词=>（文章ID 出现次数出现的位置）
生成词典文件频率文件位置文件
压缩。

因为已经给定了正排文档，接下来，咱们跳过一系列文本解析，分词等中间步骤，直接根据正排文档生成倒排索引文档（幸亏有yansha相助，不然，寸步难行，其微博地址为： http://weibo.com/yanshazi，欢迎关注他）。
OK，闲不多说，咱们来一步一步实现吧。

建相关的数据结构

根据给定的正排文档，我们可以建立如下的两个结构体表示这些信息：文档ID、订阅源（子频道）、频道分类、网站类ID（大频道）、时间、 md5、文档权值、关键词、作者等等。如下所示：

 
   typedef struct key_node   
 {  
     char *pkey;     // 关键词实体  
     int count;      // 关键词出现次数  
     int pos;        // 关键词在hash表中位置  
     struct doc_node *next;  // 指向文档结点  
 }KEYNODE, *key_list;  
   
 key_list key_array[TABLE_SIZE];  
   
 typedef struct doc_node   
 {  
     char id[WORD_MAX_LEN];  //文档ID  
     int classOne;           //订阅源（子频道）  
     char classTwo[WORD_MAX_LEN];    //频道分类  
     int classThree;                 //网站类ID（大频道）  
     char time[WORD_MAX_LEN];        //时间  
     char md5[WORD_MAX_LEN];         //md5  
     int weight;                     //文档权值  
     struct doc_node *next;  
 }DOCNODE, *doc_list;  
 
 

我们知道，通过第二十四章的暴雪的Hash表算法，可以比较好的避免相关冲突的问题。下面，我们再次引用其代码：

基于暴雪的Hash之上的改造算法

 
   //函数prepareCryptTable以下的函数生成一个长度为0x100的cryptTable[0x100]   
 void PrepareCryptTable()  
 {  
     unsigned long seed = 0x00100001, index1 = 0, index2 = 0, i;  
   
     for( index1 = 0; index1 <0x100; index1++ )  
     {  
         for( index2 = index1, i = 0; i < 5; i++, index2 += 0x100)  
         {  
             unsigned long temp1, temp2;  
             seed = (seed * 125 + 3) % 0x2AAAAB;  
             temp1 = (seed & 0xFFFF)<<0x10;  
             seed = (seed * 125 + 3) % 0x2AAAAB;  
             temp2 = (seed & 0xFFFF);  
             cryptTable[index2] = ( temp1 | temp2 );  
         }  
     }  
 }  
   
 //函数HashString以下函数计算lpszFileName 字符串的hash值，其中dwHashType 为hash的类型，  
 unsigned long HashString(const char *lpszkeyName, unsigned long dwHashType )  
 {  
     unsigned char *key  = (unsigned char *)lpszkeyName;  
     unsigned long seed1 = 0x7FED7FED;  
     unsigned long seed2 = 0xEEEEEEEE;  
     int ch;  
   
     while( *key != 0 )  
     {  
         ch = *key++;  
         seed1 = cryptTable[(dwHashType<<8) + ch] ^ (seed1 + seed2);  
         seed2 = ch + seed1 + seed2 + (seed2<<5) + 3;  
     }  
     return seed1;  
 }  
   
 //按关键字查询，如果成功返回hash表中索引位置  
 key_list SearchByString(const char *string_in)  
 {  
     const int HASH_OFFSET = 0, HASH_C = 1, HASH_D = 2;  
     unsigned int nHash = HashString(string_in, HASH_OFFSET);  
     unsigned int nHashC = HashString(string_in, HASH_C);  
     unsigned int nHashD = HashString(string_in, HASH_D);  
     unsigned int nHashStart = nHash % TABLE_SIZE;  
     unsigned int nHashPos = nHashStart;  
   
     while (HashTable[nHashPos].bExists)   
     {  
         if (HashATable[nHashPos] == (int) nHashC && HashBTable[nHashPos] == (int) nHashD)   
         {  
             break;  
             //查询与插入不同，此处不需修改  
         }   
         else   
         {  
             nHashPos = (nHashPos + 1) % TABLE_SIZE;  
         }  
   
         if (nHashPos == nHashStart)   
         {  
             break;  
         }  
     }  
   
     if( key_array[nHashPos] && strlen(key_array[nHashPos]->pkey))   
     {  
         return key_array[nHashPos];  
     }   
   
     return NULL;  
 }  
   
 //按索引查询，如果成功返回关键字（此函数在本章中没有被用到，可以忽略）  
 key_list SearchByIndex(unsigned int nIndex)  
 {  
     unsigned int nHashPos = nIndex;  
     if (nIndex < TABLE_SIZE)  
     {         
         if(key_array[nHashPos] && strlen(key_array[nHashPos]->pkey))   
         {  
             return key_array[nHashPos];  
         }  
     }  
   
     return NULL;  
 }  
   
 //插入关键字，如果成功返回hash值  
 int InsertString(const char *str)  
 {  
     const int HASH_OFFSET = 0, HASH_A = 1, HASH_B = 2;  
     unsigned int nHash = HashString(str, HASH_OFFSET);  
     unsigned int nHashA = HashString(str, HASH_A);  
     unsigned int nHashB = HashString(str, HASH_B);  
     unsigned int nHashStart = nHash % TABLE_SIZE;  
     unsigned int nHashPos = nHashStart;  
     int len;  
   
     while (HashTable[nHashPos].bExists)  
     {  
         nHashPos = (nHashPos + 1) % TABLE_SIZE;  
   
         if (nHashPos == nHashStart)  
             break;  
     }  
   
     len = strlen(str);  
     if (!HashTable[nHashPos].bExists && (len < WORD_MAX_LEN))  
     {   
         HashATable[nHashPos] = nHashA;  
         HashBTable[nHashPos] = nHashB;  
   
         key_array[nHashPos] = (KEYNODE *) malloc (sizeof(KEYNODE) * 1);  
         if(key_array[nHashPos] == NULL)  
         {  
             printf("10000 EMS ERROR !!!!\n");  
             return 0;  
         }  
   
         key_array[nHashPos]->pkey = (char *)malloc(len+1);  
         if(key_array[nHashPos]->pkey == NULL)  
         {  
             printf("10000 EMS ERROR !!!!\n");  
             return 0;  
         }  
   
         memset(key_array[nHashPos]->pkey, 0, len+1);  
         strncpy(key_array[nHashPos]->pkey, str, len);  
         *((key_array[nHashPos]->pkey)+len) = 0;  
         key_array[nHashPos]->pos = nHashPos;  
         key_array[nHashPos]->count = 1;  
         key_array[nHashPos]->next = NULL;  
         HashTable[nHashPos].bExists = 1;  
         return nHashPos;  
     }  
   
     if(HashTable[nHashPos].bExists)  
         printf("30000 in the hash table %s !!!\n", str);  
     else  
         printf("90000 strkey error !!!\n");  
     return -1;  
 }  
 
 

有了这个Hash表，接下来，我们就可以把词插入Hash表进行存储了。

第三节、倒排索引文件的生成与实现

Hash表实现了（存于HashSearch.h中），还得编写一系列的函数，如下所示（所有代码还只是初步实现了功能，稍后在第四部分中将予以改进与优化）：

 
   //处理空白字符和空白行  
 int GetRealString(char *pbuf)  
 {  
     int len = strlen(pbuf) - 1;  
     while (len > 0 && (pbuf[len] == (char)0x0d || pbuf[len] == (char)0x0a || pbuf[len] == ' ' || pbuf[len] == '\t'))   
     {  
         len--;  
     }  
   
     if (len < 0)   
     {  
         *pbuf = '\0';  
         return len;  
     }  
     pbuf[len+1] = '\0';  
     return len + 1;  
 }  
   
 //重新strcoll字符串比较函数  
 int strcoll(const void *s1, const void *s2)   
 {  
     char *c_s1 = (char *)s1;  
     char *c_s2 = (char *)s2;  
     while (*c_s1 == *c_s2++)  
     {  
         if (*c_s1++ == '\0')   
         {  
             return 0;  
         }  
     }  
   
     return *c_s1 - *--c_s2;  
 }  
   
 //从行缓冲中得到各项信息，将其写入items数组  
 void GetItems(char *&move, int &count, int &wordnum)   
 {  
     char *front = move;  
     bool flag = false;  
     int len;  
     move = strstr(move, "#####");  
     if (*(move + 5) == '#')   
     {  
         flag = true;  
     }  
   
     if (move)   
     {  
         len = move - front;  
         strncpy(items[count], front, len);  
     }  
     items[count][len] = '\0';  
     count++;  
   
     if (flag)   
     {  
         move = move + 10;  
     } else   
     {  
         move = move + 5;  
     }  
 }  
   
 //保存关键字相应的文档内容  
 doc_list SaveItems()   
 {  
     doc_list infolist = (doc_list) malloc(sizeof(DOCNODE));  
     strcpy_s(infolist->id, items[0]);  
     infolist->classOne = atoi(items[1]);  
     strcpy_s(infolist->classTwo, items[2]);  
     infolist->classThree = atoi(items[3]);  
     strcpy_s(infolist->time, items[4]);  
     strcpy_s(infolist->md5, items[5]);     
     infolist->weight = atoi(items[6]);  
     return infolist;  
 }  
   
 //得到目录下所有文件名  
 int GetFileName(char filename[][FILENAME_MAX_LEN])  
 {  
     _finddata_t file;  
     long handle;  
     int filenum = 0;  
     //C:\Users\zhangxu\Desktop\CreateInvertedIndex\data  
     if ((handle = _findfirst("C:\\Users\\zhangxu\\Desktop\\CreateInvertedIndex\\data\\*.txt", &file)) == -1)   
     {  
         printf("Not Found\n");  
     }   
     else   
     {  
         do   
         {  
             strcpy_s(filename[filenum++], file.name);  
         } while (!_findnext(handle, &file));  
     }     
     _findclose(handle);  
     return filenum;  
 }  
   
 //以读方式打开文件，如果成功返回文件指针  
 FILE* OpenReadFile(int index, char filename[][FILENAME_MAX_LEN])   
 {  
     char *abspath;  
     char dirpath[] = {"data\\"};  
     abspath = (char *)malloc(ABSPATH_MAX_LEN);  
     strcpy_s(abspath, ABSPATH_MAX_LEN, dirpath);  
     strcat_s(abspath, FILENAME_MAX_LEN, filename[index]);  
   
     FILE *fp = fopen (abspath, "r");  
     if (fp == NULL)   
     {  
         printf("open read file error!\n");  
         return NULL;  
     }   
     else   
     {  
         return fp;  
     }  
 }  
   
 //以写方式打开文件，如果成功返回文件指针  
 FILE* OpenWriteFile(const char *in_file_path)   
 {  
     if (in_file_path == NULL)   
     {  
         printf("output file path error!\n");  
         return NULL;  
     }  
   
     FILE *fp = fopen(in_file_path, "w+");  
     if (fp == NULL)   
     {  
         printf("open write file error!\n");  
     }  
     return fp;  
 }  
 
 

最后，主函数编写如下：

 
   int main()  
 {    
     key_list keylist;    
     char *pbuf, *move;    
     int filenum = GetFileName(filename);    
     FILE *fr;    
     pbuf = (char *)malloc(BUF_MAX_LEN);    
     memset(pbuf, 0, BUF_MAX_LEN);    
   
     FILE *fw = OpenWriteFile("index.txt");    
     if (fw == NULL)     
     {    
         return 0;    
     }    
   
     PrepareCryptTable();    //初始化Hash表    
   
     int wordnum = 0;    
     for (int i = 0; i < filenum; i++)    
     {    
         fr = OpenReadFile(i, filename);    
         if (fr == NULL)     
         {    
             break;    
         }    
   
         // 每次读取一行处理    
         while (fgets(pbuf, BUF_MAX_LEN, fr))    
         {    
             int count = 0;    
             move = pbuf;    
             if (GetRealString(pbuf) <= 1)    
                 continue;    
   
             while (move != NULL)    
             {    
                 // 找到第一个非'#'的字符    
                 while (*move == '#')    
                     move++;    
   
                 if (!strcmp(move, ""))    
                     break;    
   
                 GetItems(move, count, wordnum);    
             }    
   
             for (int i = 7; i < count; i++)     
             {    
                 // 将关键字对应的文档内容加入文档结点链表中   
                 if (keylist = SearchByString(items[i]))     //到hash表内查询    
                 {    
                     doc_list infolist = SaveItems();    
                     infolist->next = keylist->next;    
                     keylist->count++;    
                     keylist->next = infolist;    
                 }     
                 else    
                 {    
                     // 如果关键字第一次出现，则将其加入hash表    
                     int pos = InsertString(items[i]);       //插入hash表    
                     keylist = key_array[pos];    
                     doc_list infolist = SaveItems();    
                     infolist->next = NULL;    
                     keylist->next = infolist;    
                     if (pos != -1)     
                     {    
                         strcpy_s(words[wordnum++], items[i]);    
                     }    
                 }    
             }    
         }    
     }    
   
     // 通过快排对关键字进行排序    
     qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);    
   
     // 遍历关键字数组，将关键字及其对应的文档内容写入文件中    
     for (int i = 0; i < WORD_MAX_NUM; i++)     
     {    
         keylist = SearchByString(words[i]);    
         if (keylist != NULL)     
         {    
             fprintf(fw, "%s %d\n", words[i], keylist->count);    
             doc_list infolist = keylist->next;    
             for (int j = 0; j < keylist->count; j++)    
             {    
                 //文档ID，订阅源（子频道） 频道分类 网站类ID（大频道） 时间  md5，文档权值    
                 fprintf(fw, "%s %d %s %d %s %s %d\n", infolist->id, infolist->classOne,     
                     infolist->classTwo, infolist->classThree, infolist->time, infolist->md5, infolist->weight);    
                 infolist = infolist->next;    
             }    
         }    
     }    
   
     free(pbuf);    
     fclose(fr);    
     fclose(fw);    
     system("pause");    
     return 0;    
 }   
 
 

程序编译运行后，生成的倒排索引文件为index.txt，其与原来给定的正排文档对照如下：

有没有发现关键词奥恰洛夫出现在的三篇文章是同一个日期1210的，貌似与本文开头指定的倒排索引格式要求不符？因为第二部分开头中，已明确说明：“注，关键词所在的文章如果是同一个日期的话，是挨在同一行的，用“#”符号隔开”。OK，有疑问是好事，代表你思考了，请直接转至下文第4部分。

第四节、程序需求功能的改进

4.1、对相同日期与不同日期的处理

细心的读者可能还是会注意到：在第二部分开头中，要求基于给定的上述正排文档。生成如第二十四章所示的倒排索引文件是下面这样子的，即是：

也就是说，上面建索引的过程本该是如下的：

与第一部分所述的SMIPI算法有什么区别？对的，就在于对在同一个日期的出现的关键词的处理。如果是遇一旧词，则找到其倒排记录表的位置：相同日期，添加到之前同一日期的记录之后（第一个记录的后面记下同一日期的记录数目）；不同日期，另起一行新增记录。

相同（单个）日期，根据文档权值排序
不同日期，根据时间排序

代码主要修改如下：

 
   //function: 对链表进行冒泡排序  
 void ListSort(key_list keylist)   
 {  
     doc_list p = keylist->next;  
     doc_list final = NULL;  
     while (true)  
     {  
         bool isfinish = true;  
         while (p->next != final) {  
             if (strcmp(p->time, p->next->time) < 0)  
             {  
                 SwapDocNode(p);  
                 isfinish = false;  
             }  
             p = p->next;  
         }  
         final = p;  
         p = keylist->next;  
         if (isfinish || p->next == final) {  
             break;  
         }  
     }  
 }  
   
 int main()   
 {  
     key_list keylist;  
     char *pbuf, *move;  
     int filenum = GetFileName(filename);  
     FILE *frp;  
     pbuf = (char *)malloc(BUF_MAX_LEN);  
     memset(pbuf, 0, BUF_MAX_LEN);  
   
     FILE *fwp = OpenWriteFile("index.txt");  
     if (fwp == NULL) {  
         return 0;  
     }  
   
     PrepareCryptTable();  
   
     int wordnum = 0;  
     for (int i = 0; i < filenum; i++)  
     {  
         frp = OpenReadFile(i, filename);  
         if (frp == NULL) {  
             break;  
         }  
   
         // 每次读取一行处理  
         while (fgets(pbuf, BUF_MAX_LEN, frp))  
         {  
             int count = 0;  
             move = pbuf;  
             if (GetRealString(pbuf) <= 1)  
                 continue;  
   
             while (move != NULL)  
             {  
                 // 找到第一个非'#'的字符  
                 while (*move == '#')  
                     move++;  
   
                 if (!strcmp(move, ""))  
                     break;  
   
                 GetItems(move, count, wordnum);  
             }  
   
             for (int i = 7; i < count; i++) {  
                 // 将关键字对应的文档内容加入文档结点链表中  
                 // 如果关键字第一次出现，则将其加入hash表  
                 if (keylist = SearchByString(items[i])) {  
                     doc_list infolist = SaveItems();  
                     infolist->next = keylist->next;  
                     keylist->count++;  
                     keylist->next = infolist;  
                 } else {  
                     int pos = InsertString(items[i]);  
                     keylist = key_array[pos];  
                     doc_list infolist = SaveItems();  
                     infolist->next = NULL;  
                     keylist->next = infolist;  
                     if (pos != -1) {  
                         strcpy_s(words[wordnum++], items[i]);  
                     }  
                 }  
             }  
         }  
     }  
   
     // 通过快排对关键字进行排序  
     qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);  
   
     // 遍历关键字数组，将关键字及其对应的文档内容写入文件中  
     int rownum = 1;  
     for (int i = 0; i < WORD_MAX_NUM; i++) {  
         keylist = SearchByString(words[i]);  
         if (keylist != NULL) {  
             doc_list infolist = keylist->next;  
   
             char date[9];  
   
             // 截取年月日  
             for (int j = 0; j < keylist->count; j++)  
             {  
                 strncpy_s(date, infolist->time, 8);  
                 date[8] = '\0';  
                 strncpy_s(infolist->time, date, 9);  
                 infolist = infolist->next;  
             }  
   
             // 对链表根据时间进行排序  
             ListSort(keylist);  
   
             infolist = keylist->next;  
             int *count = new int[WORD_MAX_NUM];  
             memset(count, 0, WORD_MAX_NUM);  
             strcpy_s(date, infolist->time);  
             int num = 0;  
             // 得到单个日期的文档数目  
             for (int j = 0; j < keylist->count; j++)  
             {  
                 if (strcmp(date, infolist->time) == 0) {  
                     count[num]++;  
                 } else {  
                     count[++num]++;  
                 }  
                 strcpy_s(date, infolist->time);  
                 infolist = infolist->next;  
             }  
             fprintf(fwp, "%s %d %d\n", words[i], num + 1, rownum);  
             WriteFile(keylist, num, fwp, count);  
             rownum++;  
         }  
     }  
   
     free(pbuf);  
 //  fclose(frp);  
     fclose(fwp);  
     system("pause");  
     return 0;  
 }  
 
 

修改后编译运行，生成的index.txt文件如下：

4.2、为关键词添上编码

如上图所示，已经满足需求了。但可以再在每个关键词的背后添加一个计数表示索引到了第多少个关键词：

第五节、算法的二次改进

5.1、省去二次Hash

针对本文评论下读者的留言，做了下思考，自觉可以省去二次hash：

 
           for (int i = 7; i < count; i++)       
         {      
             // 将关键字对应的文档内容加入文档结点链表中     
             //也就是说当查询到hash表中没有某个关键词之,后便会插入    
             //而查询的时候，search会调用hashstring，得到了nHashC ，nHashD    
             //插入的时候又调用了一次hashstring，得到了nHashA，nHashB    
             //而如果查询的时候，是针对同一个关键词查询的，所以也就是说nHashC&nHashD，与nHashA&nHashB是相同的，无需二次hash    
             //所以，若要改进，改的也就是下面这个if~else语句里头。July，2011.12.30。    
             if (keylist = SearchByString(items[i]))     //到hash表内查询      
             {      
                 doc_list infolist = SaveItems();      
                 infolist->next = keylist->next;      
                 keylist->count++;      
                 keylist->next = infolist;      
             }       
             else      
             {      
                 // 如果关键字第一次出现，则将其加入hash表      
                 int pos = InsertString(items[i]);       //插入hash表      
                 keylist = key_array[pos];      
                 doc_list infolist = SaveItems();      
                 infolist->next = NULL;      
                 keylist->next = infolist;      
                 if (pos != -1)       
                 {      
                     strcpy_s(words[wordnum++], items[i]);      
                 }      
             }      
         }      
     }      
 }      
   
 // 通过快排对关键字进行排序      
 qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);    
 
 

5.2、除去排序，针对不同日期的记录直接插入

 
   //对链表进行冒泡排序。这里可以改成快速排序：等到统计完所有有关这个关键词的文章之后，才能对他集体快排。  
 //但其实完全可以用插入排序，不同日期的，根据时间的先后找到插入位置进行插入：  
 //假如说已有三条不同日期的记录 A B C  
 //来了D后，发现D在C之前，B之后，那么就必须为它找到B C之间的插入位置，  
 //A B D C。July、2011.12.31。  
 void ListSort(key_list keylist)   
 {  
     doc_list p = keylist->next;  
     doc_list final = NULL;  
     while (true)  
     {  
         bool isfinish = true;  
         while (p->next != final) {  
             if (strcmp(p->time, p->next->time) < 0) //不同日期的按最早到最晚排序  
             {  
                 SwapDocNode(p);  
                 isfinish = false;  
             }  
             p = p->next;  
         }  
         final = p;  
         p = keylist->next;  
         if (isfinish || p->next == final) {  
             break;  
         }  
     }  
 }  
 
 

综上5.1、5.2两节免去冒泡排序和，省去二次hash和免去冒泡排序，修改后如下：

 
           for (int i = 7; i < count; i++) {    
             // 将关键字对应的文档内容加入文档结点链表中    
             // 如果关键字第一次出现，则将其加入hash表    
             InitHashValue(items[i], hashvalue);    
             if (keynode = SearchByString(items[i], hashvalue)) {    
                 doc_list infonode = SaveItems();    
                 doc_list p = keynode->next;    
                 // 根据时间由早到晚排序    
                 if (strcmp(infonode->time, p->time) < 0) {    
                     //考虑infonode插入keynode后的情况    
                     infonode->next = p;    
                     keynode->next = infonode;    
                 } else {    
                     //考虑其他情况    
                     doc_list pre = p;    
                     p = p->next;    
                     while (p)    
                     {    
                         if (strcmp(infonode->time, p->time) > 0) {    
                             p = p->next;    
                             pre = pre->next;    
                         } else {    
                             break;    
                         }       
                     }    
                     infonode->next = p;    
                     pre->next = infonode;    
                 }    
                 keynode->count++;    
             } else {    
                 int pos = InsertString(items[i], hashvalue);    
                 keynode = key_array[pos];    
                 doc_list infolist = SaveItems();    
                 infolist->next = NULL;    
                 keynode->next = infolist;    
                 if (pos != -1) {    
                     strcpy_s(words[wordnum++], items[i]);    
                 }    
             }    
         }    
     }    
 }    
   
 // 通过快排对关键字进行排序    
 qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);    
 
 

修改后编译运行的效果图如下（用了另外一份更大的数据文件进行测试）：

本章全部源码请到以下两处任一一处下载（欢迎读者朋友们继续优化，若能反馈于我，则幸甚不过了）：

http://download.csdn.net/detail/v_july_v/4012605（csdn下载处）
https://github.com/fuxiang90/CreateInvertedIndex.（github下载处）

后记

本文代码还有很多的地方可以改进和优化，请待后续更新。当然，代码看起来也很青嫩，亟待提高阿。

近几日后，准备编程艺术室内38位兄弟的靓照和blog或空间地址公布在博客内，给读者一个联系他们的方式，顺便还能替他们征征友招招婚之类的。ys，土豆，水哥，老梦，3，飞羽，风清扬，well，weedge，xiaolin，555等等三十八位兄弟皆都对编程艺术系列贡献卓著。

最后说一句，读者朋友们中如果是初学编程的话切勿跟风学算法，夯实编程基础才是最重要的。预祝各位元旦快乐。谢谢，本章完。

你可能感兴趣的:(程序员编程艺术第二十六章：基于给定的文档生成倒排索引（含源码下载）)

Python实现MySQL数据库对象的血缘分析 weixin_30777913 数据库 python mysql 开发语言
Python控制台的程序，实现遍历MySQL中所有的SQL对象（表、视图、用户定义函数、存储过程和触发器等），并取得它们之间之前的依赖性关系，并列出三张表，第一张表的第一列是所有的SQL对象名称，第二列是它的数据的生成路径，路径中的相邻SQL对象之间用“->”隔开，如果有多条路径，就存储多条记录，第二张表是根据依赖性生成所有表的列表，依懒性从上到下依次递增，第三张表是根据依赖性生成所有第二张表中表
C++编程学习笔记：函数相关特性、引用与编译流程共享家9527 C++c++
目录一、函数的缺省参数（一）全缺省参数（二）半缺省参数二、函数重载（一）参数类型不同（二）参数个数不同（三）参数类型顺序不同三、引用相关问题（一）引用的基本概念与初始化（二）引用在函数中的应用-以Swap函数为例1.普通变量交换（值传递方式存在问题）2.使用指针引用实现交换3.使用普通引用实现交换（更简洁常用）四、C++编译流程（一）预处理（二）编译（三）汇编（四）链接在深入学习C++编程的过程中
[推荐了解]各类游戏引擎入门选择说明 CodeCaptain Cocos Creator 经验分享游戏
开发一款属于自己的游戏其实是很多人的梦想，但市面上如此多的引擎如何选择却是很多人入门前的难题。因此，简单做了关于Godot、CocosCreator、Unity以及其他几类游戏引擎的学习曲线、未来发展趋势等信息的总结，以供参考。1.Godot•学习曲线：•初学者友好：Godot的学习曲线较为平缓，适合初学者和中级开发者。它使用GDScript作为主要的脚本语言，与Python语法相似，易于上手。•
《ZooKeeper Zab协议深度剖析：构建高可用分布式系统的基石》猿享天开人工智能数学基础专讲 java 开发语言
《ZooKeeperZab协议深度剖析：构建高可用分布式系统的基石》一、分布式协调的挑战与ZooKeeper的解决方案1.1分布式系统一致性难题
【SpringBoot苍穹外卖】debugDay03.5 m0_72696598 spring boot 后端 java
1、AOP面向切面编程1.@Target(ElementType.METHOD)作用：指定自定义注解可以应用的目标范围。参数：ElementType是一个枚举类，定义了注解可以应用的目标类型。ElementType.METHOD表示该注解只能用于方法上。其他常见的ElementType值：TYPE：类、接口、枚举等。FIELD：字段（包括枚举常量）。PARAMETER：方法参数。CONSTRUCT
Android笔记【17】返回数据的两种方法 m0_72696598 Android开发 android 笔记
目录一、问题二、具体分析1、代码2、区别1.目的和使用场景resultLauncherstartActivity2.数据传递方式3.返回结果的管理4.代码示例对比使用resultLauncher启动活动并处理返回结果：使用startActivity启动活动（不处理返回）：总结3、使用startActivity启动活动，也可以返回信息。因为有putExtra区别总结示例对比1.使用startActi
Match-Case，Python中if-elif-else的最大竞争对手橙色小博 python的学习之旅 python 数据库开发语言
目录1.前言2.if-elif-else？switch-case？match-case！3.MatchCase基础语法4.MatchCase模式匹配的高级特性4.1字面量模式：精确匹配特定值4.2变量模式：捕获值并赋值给变量4.3序列模式：匹配序列中的元素4.4映射模式：匹配字典中的键值对4.5类模式：匹配对象的属性5.MatchCase的实际应用5.1简化命令（两个例子）1）处理用户输入2）处理
【lesson10】高并发内存池细节优化 (unstoppable) 项目高并发内存池高并发内存池 C++多线程细节优化
文章目录大于256KB的大块内存申请问题大于256KB的大块释放申请问题使用定长内存池脱离使用new释放对象时优化为不传对象大小完整版代码Common.hObjectPool.hThreadCache.hThreadCache.cppConcurrentAlloc.hCentralCache.hCentralCache.cppPageCache.hPageCache.cpp大于256KB的大块内存
从零开始学AI——2 人工智能
前言比我想得要难得多……主要是数理统计基本都忘光了……写的也比较乱，希望大家能斧正我的问题。第二章当我们训练出一个模型之后，我们自然希望它能够在新的数据上也有良好的表现，这个能力被称为泛化，我们把模型在新数据上的误差称为泛化误差。泛化误差小的模型自然是我们更喜欢的模型，他也说明了模型的泛化能力强，本章主要介绍了用什么标准来评估模型的泛化误差如何可靠的计算评估能力值并进行比较2.1评估标准：性能度量
突破数据迁移瓶颈！AWS Snowball如何让PB级数据“瞬间”上云？ AWS官方合作商 aws 云计算
“一次100TB数据迁移耗时30天，网络成本超预算5倍…”这是某生物基因公司的真实困境。当企业数字化转型进入深水区，海量数据迁移成为上云的第一道拦路虎。AWSSnowball以「物理设备」重新定义数据传输，如何用“反直觉”方案破解行业难题？本文将深度解析其技术逻辑与落地场景。一、为什么传统方案无法破解海量数据困局？1.1算一笔数据经济账公式：传输时间（天）=数据量（TB）/（带宽（Mbps）×0.
Linux压缩指令在地球表面艰难爬行 linux 服务器
Linux系统提供了多种压缩指令，用于将文件和目录打包成压缩文件，以节省存储空间和方便传输。以下是一些常用的Linux压缩指令及其详细介绍：1.gzipgzip是最常用的压缩工具之一，它通常用于压缩单个文件。压缩后的文件名会以.gz结尾。基本用法:gzipfilename这将压缩filename并生成filename.gz，原文件被删除。解压缩:gunzipfilename.gz这将解压缩file
开发环境详解：那么多教搭建环境的文章视频，你有没有想过编程为什么要搭建环境？搭建环境一套操作下来究竟干了什么？北子ALF Python pytorch tensorflow python c语言 c++青少年编程开发语言
1.初识"环境"概念1.狭义理解：一个环境就是一个解释器或编译器搭建环境这件事，可能大部分人开始学python时才会注意到，而之前学C或C++的时候不太理会这回事，这是由于python语言的新颖性和特殊性，使得“环境”似乎更被强调了，具体我们后面细说。大部分学校计算机专业会从C开始，为的就是能对编程概念如编译、解释、调试、IDE这些基本概念以及程序从人写代码到机器执行的过程有个大体的认识，便于后面
如何学习并使用C++ 北子ALF C/C++学习
首先可以给出一个论断：C++的语法和各种组件的原理及使用可以说是所有编程语言里面比较难的那么如何掌握所有东西，比如网络编程，文件读写，STL。不要对语法记各种笔记，比如vector容器有什么什么方法什么什么属性，如果你看了某篇博客或者看了某本书然后就把上面的所有东西自己劈里啪啦达到笔记里，这是没有任何用的，因为你打完仍然啥都不会。所以allyouneedisC/C++参考文档.chm,去网上找这个
大模型Agent发展的五重境界、Agent四要素大模型面试人工智能自然语言处理 agi 大模型 ai Agent
一、Agent发展的五重境界第一阶段：工具型agent框架(Tool-basedAgentFrameworks)工具型agent框架是在ChatGPT横空出世后同时期出现的，当时LLM刚刚展现出强大的文本生成能力，但其应用仍局限于纯文本环境，promptengineering初步发展。为了实现语言模型与外部工具的基础连接机制，开发者们采用了预定义工具集、简单决策树、基本记忆管理实现了有限的自主性，
大模型 | 三大智能体平台Dify、Coze、FastGPT对比分析大模型面试人工智能 AI大模型语言模型 LLM ai Dify Agent
AI智能体技术发展太快，各种搭建和使用智能体的平台也是层出不穷。有很多平台都配备了一大堆实用的工具和框架，让每个人都可以轻轻松松地打造出厉害的智能体。今天给大家介绍3个最主流的智能体平台：一、DifyDify是一个开源的大语言模型应用开发平台，支持GPT、Mistral、Llama3等数百种模型。平台提供声明式开发环境（通过YAML定义应用）、模块化设计、LLMOps功能（监控和优化应用性能）以及
AWS EC2 容量块使用指南：预留高性能GPU实例的完整攻略 ivwdcwso 运维与云原生 aws 云计算 ec2 GPU
AWSEC2容量块（CapacityBlocks）是一项专为需要临时访问大规模GPU计算资源的客户设计的服务。它允许用户预先预留特定数量的高性能GPU实例，确保在需要时能够获得所需的计算能力。本文将详细介绍EC2容量块的使用方法、最佳实践和注意事项。什么是EC2容量块？EC2容量块是AWS提供的一种预留特定类型GPU实例的机制，允许用户在未来1天到182天的时间范围内预留计算资源。这项服务特别适合
编译原理课设工作日志北子ALF 编译原理笔记
在过去的四天里，我弄清楚了flex和bison的用法，知道了他们如何协作并联合编译，做到了不关注c代码只看.l和.y就能知道生成程序做了什么同时掌握了makefile的编写和使用现在是2025/3/29Sat12:19我们需要搞定目标代码生成32位MIPS汇编固定长度指令：每条指令都用固定的32位长度，每条指令都是四个字节，所以内存数据的访问必须以32位严格对齐寻址方式支持基址寻址、立即数寻址、寄
Token是做什么用的？海姐软件测试软件测试面试通关秘籍 http 网络协议 https 网络测试工具
Token的核心用途解析Token（令牌）是网络通信中用于身份验证和授权的凭证，其核心目的是在客户端与服务端之间安全传递用户身份信息，确保请求的合法性。以下是Token的核心功能及典型应用场景：1.身份验证（Authentication）作用：验证用户是谁。流程：用户登录成功后，服务端生成Token（如JWT）并返回给客户端。客户端后续请求携带Token（通常放在HTTPHeader的Author
Vue 3 自定义指令：实现自动滚动效果朝阳581 vue.js 前端 javascript
Vue3自定义指令：实现自动滚动效果的深度解析在前端开发中，尤其是在使用Vue3框架构建用户界面时，自定义指令为我们提供了一种强大且灵活的方式来扩展HTML元素的行为。今天，我们将深入探讨一个实用的Vue3自定义指令——v-auto-scroll，它能够实现文本内容在固定宽度容器中的自动滚动效果，特别适用于展示较长的文本内容而空间有限的场景。指令功能概述v-auto-scroll指令的主要功能是监
利用 @eslint/eslintrc 实现 ESLint9的适配朝阳581 vue.js javascript 前端
深度解析：利用@eslint/eslintrc实现ESLint的高效配置管理在前端开发领域，代码质量和一致性是至关重要的。ESLint作为一款流行的代码检查工具，帮助开发者发现代码中的潜在问题并保持代码风格的一致性。而随着项目的复杂度增加和团队规模的扩大，如何高效地管理和定制ESLint配置成为了一个关键问题。今天，我们将深入探讨如何利用@eslint/eslintrc插件结合实际的ESLint配
Tauri 2.0.0-rc 安装全局快捷方式插件朝阳581 rust javascript
Tauri2.0.0-rc安装全局快捷方式插件Tauri2.0.0-rc引入了全局快捷方式插件允许你在你的应用中注册全局快捷方式，并在用户按下这些快捷方式时触发JavaScript回调。首先，你需要在你的Rust项目中安装全局快捷方式插件。在Cargo.toml文件中添加依赖。tauri-plugin-global-shortcut={git="https://github.com/tauri-a
更新PowerShell后无法使用conda：usage: conda-script.py [-h] [-v] [--no-plugins] [-V] COMMAND ... weixin_53136387 conda
我更新后遇到的问题如图。附解决方法：1、首先确定环境变量与powershell都配置完毕2、编辑powershell的配置文件：notepad$PROFILE3、将下列代码放到上述文件结尾，注意将conda.exe的文件路径换为自己的安装路径Write-Host"Running4th:CurrentUserCurrentHost"-ForegroundColorMagentaWrite-Host"
beats耳机红白交替闪烁三次_beats耳机红白灯交替闪如何解决龐先生 beats耳机红白交替闪烁三次
大家好，我是时间财富网智能客服时间君，上述问题将由我为大家进行解答。以BeatsStudio3Wireless为例，其beats耳机红白灯交替闪的解决方法是：1、首先要确认是否用的原机充电线，或者手机充电线也是可以的，但一定要是原装的。其次不能用移动电源充电，因为耳机伏数太小，移动电源不会放电出来的。2、如果用的是原装充电线，又是用的电脑或者手机的充电插头还是充不进去电，那代表有短路现象，如果在质
beats耳机红白交替闪烁三次_beats耳机红白灯交替闪怎么解决凶猪下山 beats耳机红白交替闪烁三次
大家好，我是时间财富网智能客服时间君，上述问题将由我为大家进行解答。beats耳机红白灯交替闪的解决方法是：1、首先要确认是否用的原机充电线，或者手机充电线也是可以的，但一定要是原装的。其次不能用移动电源充电，因为耳机伏数太小，移动电源不会放电出来的。2、如果用的是原装充电线，又是用的电脑或者手机的充电插头还是充不进去电，那代表有短路现象，如果在质保期内，建议找商家维修或调换。beats耳机是Be
QML输入控件：Dial联动、音频均衡器的实现 (3) Quz Qt6 QML 开发进阶之旅 qt
目录示例1：带数显的Dial代码说明适用场景运行效果示例2：多组Dial控件联动代码说明运行效果示例3：音频均衡器界面代码说明运行效果完整工程下载在上篇中介绍了Dial控件与鼠标事件的应用，本文主要介绍Dial与其它控件的联动，以及音频均衡器界面的实现。相关阅读：QML输入控件:Dial基本用法与样式定制（1）-CSDN博客QML输入控件:Dial与事件(2)-CSDN博客最终展示效果:示例1：带
Redmi Buds 5 pro连接Win11卡顿问题解决办法 qq_45836941 笔记本电脑
这耳机连手机没问题，有时候连电脑声音总是断断续续的，重连也没用。在站内看到这位高手发的方法确实有效，@原讠京我扌丁字忄曼我把详细方法发出来方便和我一样的小白看到这个方法，解决问题1.右键开始菜单找到设备管理器2.找到蓝牙3.右击RedmiBuds5pro点击禁用设备，这样就好了
ESLint报错：Could not find config file. kart jim eslint vscode
如果你的ESLint的版本大于8，同时使用.eslinrc.js和.eslintignore作为配置文件，且目前用的是VSCODE，就有可能遇到报错：Couldnotfindconfigfile.这个是因为VSCode中ESLint插件的配置eslint.useFlatConfig的问题，其默认值是空值导致ESLint默认使用flat的配置方式，在VSCode的配置文件里加上：{"eslint.u
移动WiFi设备品牌推荐与选购指南 MingDong523 服务器运维
在2025年，移动WiFi设备的选择需根据使用场景、网络需求及预算综合考量。以下是结合市场热度和用户口碑的推荐品牌及具体型号：一、主流品牌推荐华为（HUAWEI）优势：技术成熟、稳定性强，支持多设备连接，覆盖4G/5G全网通，适合差旅、家庭备用等场景。热门型号：华为移动路由Pro：支持4G全网通和双频WiFi，插卡即用，适合旅行或临时网络需求，价格约439元12。随行WiFi3：便携设计，4G网络
VS Code中如何扩大控制台输出行？ MingDong523 vscode
在VSCode中扩大控制台（终端或输出面板）的显示区域，可以通过以下几种方式实现：手动调整控制台高度（最直接）操作步骤：将鼠标移动到控制台（终端或输出面板）与代码编辑器的分界线上。当光标变成↕上下箭头时，按住左键向上拖动即可扩大控制台区域。向下拖动则缩小控制台区域。VSCode控制台拖拽示意图快捷键快速切换（推荐）展开/隐藏控制台：Windows/Linux：Ctrl+``（反引号键）macOS：
AirPods 4(主动降噪版本) 和老版的AirPods Pro2对比 MingDong523 ios
一、核心功能对比特性新款AirPods（主动降噪版）AirPodsPro2主动降噪(ANC)基础降噪（环境声抑制约20dB）自适应降噪（环境声抑制达35dB+）通透模式支持（基础版）支持（自适应通透，可动态调节）音质表现改进低音，空间音频支持定制驱动单元+个性化空间音频佩戴设计半入耳式（无耳塞）入耳式（附带硅胶耳塞）续航时间6小时（降噪开启）6小时（降噪开启）芯片H2芯片（推测）H2芯片（支持动态
关于旗正规则引擎规则中的上传和下载问题何必如此文件下载压缩 jsp 文件上传
文件的上传下载都是数据流的输入输出，大致流程都是一样的。一、文件打包下载 1.文件写入压缩包 string mainPath="D:\upload\"; 下载路径 string tmpfileName=jar.zip; &n
【Spark九十九】Spark Streaming的batch interval时间内的数据流转源码分析 bit1129 Stream
以如下代码为例（SocketInputDStream）： Spark Streaming从Socket读取数据的代码是在SocketReceiver的receive方法中，撇开异常情况不谈(Receiver有重连机制，restart方法，默认情况下在Receiver挂了之后，间隔两秒钟重新建立Socket连接)，读取到的数据通过调用store(textRead)方法进行存储。数据
spark master web ui 端口8080被占用解决方法 daizj 8080 端口占用 spark master web ui
spark master web ui 默认端口为8080，当系统有其它程序也在使用该接口时，启动master时也不会报错，spark自己会改用其它端口，自动端口号加1，但为了可以控制到指定的端口，我们可以自行设置，修改方法： 1、cd SPARK_HOME/sbin 2、vi start-master.sh 3、定位到下面部分
oracle_执行计划_谓词信息和数据获取周凡杨 oracle 执行计划
oracle_执行计划_谓词信息和数据获取(上) 一：简要说明在查看执行计划的信息中，经常会看到两个谓词filter和access，它们的区别是什么，理解了这两个词对我们解读Oracle的执行计划信息会有所帮助。简单说，执行计划如果显示是access，就表示这个谓词条件的值将会影响数据的访问路径（表还是索引），而filter表示谓词条件的值并不会影响数据访问路径，只起到
spring中datasource配置 g21121 dataSource
datasource配置有很多种，我介绍的一种是采用c3p0的，它的百科地址是： http://baike.baidu.com/view/920062.htm  <bean name="propertiesConfig" class="org.springframework.b
web报表工具FineReport使用中遇到的常见报错及解决办法（三）老A不折腾 finereport FAQ 报表软件
这里写点抛砖引玉，希望大家能把自己整理的问题及解决方法晾出来，Mark一下，利人利己。出现问题先搜一下文档上有没有，再看看度娘有没有，再看看论坛有没有。有报错要看日志。下面简单罗列下常见的问题，大多文档上都有提到的。 1、repeated column width is largerthan paper width：这个看这段话应该是很好理解的。比如做的模板页面宽度只能放
mysql 用户管理墙头上一根草 linux mysql user
1.新建用户 //登录MYSQL@>mysql -u root -p@>密码//创建用户mysql> insert into mysql.user(Host,User,Password) values(‘localhost’,'jeecn’,password(‘jeecn’));//刷新系统权限表mysql>flush privileges;这样就创建了一个名为：
关于使用Spring导致c3p0数据库死锁问题 aijuans spring Spring 入门 Spring 实例 Spring3 Spring 教程
这个问题我实在是为整个 springsource 的员工蒙羞如果大家使用 spring 控制事务，使用 Open Session In View 模式， com.mchange.v2.resourcepool.TimeoutException: A client timed out while waiting to acquire a resource from com.mchange.
百度词库联想 annan211 百度
<!DOCTYPE html> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> <title>RunJS</title&g
int数据与byte之间的相互转换实现代码百合不是茶位移 int转byte byte转int 基本数据类型的实现
在BMP文件和文件压缩时需要用到的int与byte转换,现将理解的贴出来; 主要是要理解;位移等概念 http://baihe747.iteye.com/blog/2078029 int转byte; byte转int; /** * 字节转成int,int转成字节 * @author Administrator *
简单模拟实现数据库连接池 bijian1013 java thread java多线程简单模拟实现数据库连接池
简单模拟实现数据库连接池实例1： package com.bijian.thread; public class DB { //private static final int MAX_COUNT = 10; private static final DB instance = new DB(); private int count = 0; private i
一种基于Weblogic容器的鉴权设计 bijian1013 java weblogic
服务器对请求的鉴权可以在请求头中加Authorization之类的key，将用户名、密码保存到此key对应的value中，当然对于用户名、密码这种高机密的信息，应该对其进行加砂加密等，最简单的方法如下： String vuser_id = "weblogic"; String vuse
【RPC框架Hessian二】Hessian 对象序列化和反序列化 bit1129 hessian
任何一个对象从一个JVM传输到另一个JVM，都要经过序列化为二进制数据(或者字符串等其他格式，比如JSON)，然后在反序列化为Java对象，这最后都是通过二进制的数据在不同的JVM之间传输(一般是通过Socket和二进制的数据传输)，本文定义一个比较符合工作中。 1. 定义三个POJO Person类 package com.tom.hes
【Hadoop十四】Hadoop提供的脚本的功能 bit1129 hadoop
1. hadoop-daemon.sh 1.1 启动HDFS ./hadoop-daemon.sh start namenode ./hadoop-daemon.sh start datanode 通过这种逐步启动的方式，比start-all.sh方式少了一个SecondaryNameNode进程，这不影响Hadoop的使用，其实在 Hadoop2.0中，SecondaryNa
中国互联网走在“灰度”上 ronin47 管理灰度
中国互联网走在“灰度”上（转）文/孕峰第一次听说灰度这个词，是任正非说新型管理者所需要的素质。第二次听说是来自马化腾。似乎其他人包括马云也用不同的语言说过类似的意思。灰度这个词所包含的意义和视野是广远的。要理解这个词，可能同样要用“灰度”的心态。灰度的反面，是规规矩矩，清清楚楚，泾渭分明，严谨条理，是决不妥协，不转弯，认死理。黑白分明不是灰度，像彩虹那样
java-51-输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。 bylijinnan java
public class PrintMatrixClockwisely { /** * Q51.输入一个矩阵，按照从外向里以顺时针的顺序依次打印出每一个数字。例如：如果输入如下矩阵： 1 2 3 4 5 6 7 8 9
mongoDB 用户管理开窍的石头 mongoDB用户管理
1:添加用户第一次设置用户需要进入admin数据库下设置超级用户（use admin） db.addUsr({user:'useName',pwd:'111111',roles:[readWrite,dbAdmin]}); 第一个参数用户的名字第二个参数
[游戏与生活]玩暗黑破坏神3的一些问题 comsci 生活
暗黑破坏神3是有史以来最让人激动的游戏。。。。但是有几个问题需要我们注意玩这个游戏的时间，每天不要超过一个小时，且每次玩游戏最好在白天结束游戏之后，最好在太阳下面来晒一下身上的暗黑气息，让自己恢复人的生气 &nb
java 二维数组如何存入数据库 cuiyadll java
using System; using System.Linq; using System.Text; using System.Windows.Forms; using System.Xml; using System.Xml.Serialization; using System.IO; namespace WindowsFormsApplication1 {
本地事务和全局事务Local Transaction and Global Transaction(JTA) darrenzhu java spring local global transaction
Configuring Spring and JTA without full Java EE http://spring.io/blog/2011/08/15/configuring-spring-and-jta-without-full-java-ee/ Spring doc -Transaction Management http://docs.spring.io/spri
Linux命令之alias - 设置命令的别名，让 Linux 命令更简练 dcj3sjt126com linux alias
用途说明设置命令的别名。在linux系统中如果命令太长又不符合用户的习惯，那么我们可以为它指定一个别名。虽然可以为命令建立“链接”解决长文件名的问题，但对于带命令行参数的命令，链接就无能为力了。而指定别名则可以解决此类所有问题【1】。常用别名来简化ssh登录【见示例三】，使长命令变短，使常用的长命令行变短，强制执行命令时询问等。常用参数格式：alias 格式：ali
yii2 restful web服务[格式响应] dcj3sjt126com PHP yii2
响应格式当处理一个 RESTful API 请求时，一个应用程序通常需要如下步骤来处理响应格式：确定可能影响响应格式的各种因素，例如媒介类型，语言，版本，等等。这个过程也被称为 content negotiation。资源对象转换为数组，如在 Resources 部分中所描述的。通过 [[yii\rest\Serializer]]
MongoDB索引调优（2）——[十] eksliang mongodb MongoDB索引优化
转载请出自出处：http://eksliang.iteye.com/blog/2178555 一、概述上一篇文档中也说明了，MongoDB的索引几乎与关系型数据库的索引一模一样，优化关系型数据库的技巧通用适合MongoDB，所有这里只讲MongoDB需要注意的地方二、索引内嵌文档可以在嵌套文档的键上建立索引，方式与正常
当滑动到顶部和底部时，实现Item的分离效果的ListView gundumw100 android
拉动ListView，Item之间的间距会变大，释放后恢复原样； package cn.tangdada.tangbang.widget; import android.annotation.TargetApi; import android.content.Context; import android.content.res.TypedArray; import andr
程序员用HTML5制作的爱心树表白动画 ini JavaScript jquery Web html5 css
体验效果：http://keleyi.com/keleyi/phtml/html5/31.htmHTML代码如下： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"><head><meta charset="UTF-8" > <ti
预装windows 8 系统GPT模式的ThinkPad T440改装64位 windows 7旗舰版 kakajw ThinkPad 预装改装 windows 7 windows 8
该教程具有普遍参考性，特别适用于联想的机器，其他品牌机器的处理过程也大同小异。该教程是个人多次尝试和总结的结果，实用性强，推荐给需要的人！缘由小弟最近入手笔记本ThinkPad T440，但是特别不能习惯笔记本出厂预装的Windows 8系统，而且厂商自作聪明地预装了一堆没用的应用软件，消耗不少的系统资源（本本的内存为4G，系统启动完成时，物理内存占用比
Nginx学习笔记 mcj8089 nginx
一、安装nginx 1、在nginx官方网站下载一个包，下载地址是： http://nginx.org/download/nginx-1.4.2.tar.gz 2、WinSCP(ftp上传工
mongodb 聚合查询每天论坛链接点击次数 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 18 */ { "_id" : ObjectId("5596414cbe4d73a327e50274"), "msgType" : "text", "sendTime" : ISODate("2015-07-03T08:01:16.000Z"
java术语（PO/POJO/VO/BO/DAO/DTO） Luob. DAO POJO DTO po VO BO
PO(persistant object) 持久对象在o/r 映射的时候出现的概念,如果没有o/r映射,就没有这个概念存在了.通常对应数据模型(数据库),本身还有部分业务逻辑的处理.可以看成是与数据库中的表相映射的java对象.最简单的PO就是对应数据库中某个表中的一条记录,多个记录可以用PO的集合.PO中应该不包含任何对数据库的操作. VO(value object) 值对象通
算法复杂度 Wuaner Algorithm
Time Complexity & Big-O： http://stackoverflow.com/questions/487258/plain-english-explanation-of-big-o http://bigocheatsheet.com/ http://www.sitepoint.com/time-complexity-algorithms/