程序员编程艺术第二十六章：基于给定的文档生成倒排索引（含源码下载）

作者：July、yansha。
出处：结构之法算法之道

引言

本周实现倒排索引。实现过程中，寻找资料，结果发现找份资料诸多不易：1、网上搜倒排索引实现，结果千篇一律，例子都是那几个同样的单词；2、到谷歌学术上想找点稍微有价值水平的资料，结果下篇论文还收费或者要求注册之类；3、大部分技术书籍只有理论，没有实践。于是，朋友戏言：网上一般有价值的东西不多。希望，本blog的出现能改变此现状。

在第二十四章、倒排索引关键词不重复Hash编码中，我们针对一个给定的倒排索引文件，提取出其中的关键词，然后针对这些关键词进行Hash不重复编码。本章，咱们再倒退一步，即给定一个正排文档（暂略过文本解析，分词等步骤，日后会慢慢考虑这些且一并予以实现），要求生成对应的倒排索引文件。同时，本章还是基于Hash索引之上（运用暴雪的Hash函数可以比较完美的解决大数据量下的冲突问题），日后自会实现B+树索引。

与此同时，本编程艺术系列逐步从为面试服务而转到实战性的编程当中了，教初学者如何编程，如何运用高效的算法解决实际应用中的编程问题，将逐步成为本编程艺术系列的主旨之一。

OK，接下来，咱们针对给定的正排文档一步一步来生成倒排索引文件，有任何问题，欢迎随时不吝赐教或批评指正。谢谢。

第一节、索引的构建方法

根据信息检索导论（Christtopher D.Manning等著，王斌译）一书给的提示，我们可以选择两种构建索引的算法：BSBI算法，与SPIMI算法。

BSBI算法，基于磁盘的外部排序算法，此算法首先将词项映射成其ID的数据结构，如Hash映射。而后将文档解析成词项ID-文档ID对，并在内存中一直处理，直到累积至放满一个固定大小的块空间为止，我们选择合适的块大小，使之能方便加载到内存中并允许在内存中快速排序，快速排序后的块转换成倒排索引格式后写入磁盘。

建立倒排索引的步骤如下：

将文档分割成几个大小相等的部分；
对词项ID-文档ID进行排序；
将具有同一词项ID的所有文档ID放到倒排记录表中，其中每条倒排记录仅仅是一个文档ID；
将基于块的倒排索引写到磁盘上。

此算法假如说最后可能会产生10个块。其伪码如下：

BSBI NDEXConSTRUCTION()
n <- 0
while(all documents have not been processed)
do n<-n+1
block <- PARSENEXTBLOCK() //文档分析
BSBI-INVERT(block)
WRITEBLOCKTODISK(block,fn)
MERGEBLOCKS(f1,...,fn;fmerged)

（基于块的排序索引算法，该算法将每个块的倒排索引文件存入文件f1,...,fn中，最后合并成fmerged
如果该算法应用最后一步产生了10个块，那么接下来便会将10个块索引同时合并成一个索引文件。）

合并时，同时打开所有块对应的文件，内存中维护了为10个块准备的读缓冲区和一个为最终合并索引准备的写缓冲区。每次迭代中，利用优先级队列（如堆结构或类似的数据结构）选择最小的未处理的词项ID进行处理。如下图所示（图片引自深入搜索引擎--海里信息的压缩、索引和查询，梁斌译），分块索引，分块排序，最终全部合并（说实话，跟MapReduce还是有些类似的）：

读入该词项的倒排记录表并合并，合并结果写回磁盘中。需要时，再次从文件中读入数据到每个读缓冲区（基于磁盘的外部排序算法的更多可以参考：程序员编程艺术第十章、如何给10^7个数据量的磁盘文件排序）。

BSBI算法主要的时间消耗在排序上，选择什么排序方法呢，简单的快速排序足矣，其时间复杂度为O（N*logN），其中N是所需要排序的项（词项ID-文档ID对）的数目的上界。

SPIMI算法，内存式单遍扫描索引算法
与上述BSBI算法不同的是：SPIMI使用词项而不是其ID，它将每个块的词典写入磁盘，对于写一块则重新采用新的词典，只要硬盘空间足够大，它能索引任何大小的文档集。
倒排索引 = 词典（关键词或词项+词项频率）+倒排记录表。建倒排索引的步骤如下：

从头开始扫描每一个词项-文档ID（信息）对，遇一词，构建索引；
继续扫描，若遇一新词，则再建一新索引块（加入词典，通过Hash表实现，同时，建一新的倒排记录表）；若遇一旧词，则找到其倒排记录表的位置，添加其后
在内存内基于分块完成排序，后合并分块；
写入磁盘。

其伪码如下：

SPIMI-Invert(Token_stream)
output.file=NEWFILE()
dictionary = NEWHASH()
while (free memory available)
do token <-next(token_stream) //逐一处理每个词项-文档ID对
if term(token) !(- dictionary
then postings_list = AddToDictionary(dictionary,term(token)) //如果词项是第一次出现，那么加入hash词典，同时，建立一个新的倒排索引表
else postings_list = GetPostingList(dictionary,term(token)) //如果不是第一次出现，那么直接返回其倒排记录表，在下面添加其后
if full(postings_list)
then postings_list =DoublePostingList(dictionary,term(token))
AddToPosTingsList (postings_list,docID(token)) //SPIMI与BSBI的区别就在于此，前者直接在倒排记录表中增加此项新纪录
sorted_terms <- SortTerms(dictionary)
WriteBlockToDisk(sorted_terms,dictionary,output_file)
return output_file

SPIMI与BSBI的主要区别：
SPIMI当发现关键词是第一次出现时，会直接在倒排记录表中增加一项（与BSBI算法不同）。同时，与BSBI算法一开始就整理出所有的词项ID-文档ID，并对它们进行排序的做法不同（而这恰恰是BSBI的做法），这里的每个倒排记录表都是动态增长的（也就是说，倒排记录表的大小会不断调整），同时，扫描一遍就可以实现全体倒排记录表的收集。
SPIMI这样做有两点好处:

由于不需要排序操作，因此处理的速度更快，
由于保留了倒排记录表对词项的归属关系，因此能节省内存，词项的ID也不需要保存。这样，每次单独的SPIMI-Invert调用能够处理的块大小可以非常大，整个倒排索引的构建过程也可以非常高效。

但不得不提的是，由于事先并不知道每个词项的倒排记录表大小，算法一开始只能分配一个较小的倒排记录表空间，每次当该空间放满的时候，就会申请加倍的空间，
与此同时，自然而然便会浪费一部分空间（当然，此前因为不保存词项ID，倒也省下一点空间，总体而言，算作是抵销了）。
不过，至少SPIMI所用的空间会比BSBI所用空间少。当内存耗尽后，包括词典和倒排记录表的块索引将被写到磁盘上，但在此之前，为使倒排记录表按照词典顺序来加快最后的合并操作，所以要对词项进行排序操作。

小数据量与大数据量的区别

在小数据量时，有足够的内存保证该创建过程可以一次完成；
数据规模增大后，可以采用分组索引，然后再归并索引的策略。该策略是，

建立索引的模块根据当时运行系统所在的计算机的内存大小，将索引分为 k 组，使得每组运算所需内存都小于系统能够提供的最大使用内存的大小。
按照倒排索引的生成算法，生成 k 组倒排索引。
然后将这 k 组索引归并，即将相同索引词对应的数据合并到一起，就得到了以索引词为主键的最终的倒排文件索引，即反向索引。

为了测试的方便，本文针对小数据量进行从正排文档到倒排索引文件的实现。而且针对大数量的K路归并算法或基于磁盘的外部排序算法本编程艺术系列第十章中已有详细阐述。

第二节、Hash表的构建与实现

如下，给定如下图所示的正排文档，每一行的信息分别为（中间用##########隔开）：文档ID、订阅源（子频道）、频道分类、网站类ID（大频道）、时间、 md5、文档权值、关键词、作者等等。

要求基于给定的上述正排文档。生成如第二十四章所示的倒排索引文件（注，关键词所在的文章如果是同一个日期的话，是挨在同一行的，用“#”符号隔开）：

我们知道：为网页建立全文索引是网页预处理的核心部分，包括分析网页和建立倒排文件。二者是顺序进行，先分析网页，后建立倒排文件（也称为反向索引），如图所示：

正如上图粗略所示，我们知道倒排索引创建的过程如下：

写爬虫抓取相关的网页，而后提取相关网页或文章中所有的关键词；
分词，找出所有单词；
过滤不相干的信息（如广告等信息）；
构建倒排索引，关键词=>（文章ID 出现次数出现的位置）
生成词典文件频率文件位置文件
压缩。

因为已经给定了正排文档，接下来，咱们跳过一系列文本解析，分词等中间步骤，直接根据正排文档生成倒排索引文档（幸亏有yansha相助，不然，寸步难行，其微博地址为： http://weibo.com/yanshazi，欢迎关注他）。
OK，闲不多说，咱们来一步一步实现吧。

建相关的数据结构

根据给定的正排文档，我们可以建立如下的两个结构体表示这些信息：文档ID、订阅源（子频道）、频道分类、网站类ID（大频道）、时间、 md5、文档权值、关键词、作者等等。如下所示：

typedef struct key_node
{
char *pkey; // 关键词实体
int count; // 关键词出现次数
int pos; // 关键词在hash表中位置
struct doc_node *next; // 指向文档结点
}KEYNODE, *key_list;
key_list key_array[TABLE_SIZE];
typedef struct doc_node
{
char id[WORD_MAX_LEN]; //文档ID
int classOne; //订阅源（子频道）
char classTwo[WORD_MAX_LEN]; //频道分类
int classThree; //网站类ID（大频道）
char time[WORD_MAX_LEN]; //时间
char md5[WORD_MAX_LEN]; //md5
int weight; //文档权值
struct doc_node *next;
}DOCNODE, *doc_list;

我们知道，通过第二十四章的暴雪的Hash表算法，可以比较好的避免相关冲突的问题。下面，我们再次引用其代码：

基于暴雪的Hash之上的改造算法

//函数prepareCryptTable以下的函数生成一个长度为0x100的cryptTable[0x100]
void PrepareCryptTable()
{
unsigned long seed = 0x00100001, index1 = 0, index2 = 0, i;
for( index1 = 0; index1 <0x100; index1++ )
{
for( index2 = index1, i = 0; i < 5; i++, index2 += 0x100)
{
unsigned long temp1, temp2;
seed = (seed * 125 + 3) % 0x2AAAAB;
temp1 = (seed & 0xFFFF)<<0x10;
seed = (seed * 125 + 3) % 0x2AAAAB;
temp2 = (seed & 0xFFFF);
cryptTable[index2] = ( temp1 | temp2 );
}
}
}
//函数HashString以下函数计算lpszFileName 字符串的hash值，其中dwHashType 为hash的类型，
unsigned long HashString(const char *lpszkeyName, unsigned long dwHashType )
{
unsigned char *key = (unsigned char *)lpszkeyName;
unsigned long seed1 = 0x7FED7FED;
unsigned long seed2 = 0xEEEEEEEE;
int ch;
while( *key != 0 )
{
ch = *key++;
seed1 = cryptTable[(dwHashType<<8) + ch] ^ (seed1 + seed2);
seed2 = ch + seed1 + seed2 + (seed2<<5) + 3;
}
return seed1;
}
//按关键字查询，如果成功返回hash表中索引位置
key_list SearchByString(const char *string_in)
{
const int HASH_OFFSET = 0, HASH_C = 1, HASH_D = 2;
unsigned int nHash = HashString(string_in, HASH_OFFSET);
unsigned int nHashC = HashString(string_in, HASH_C);
unsigned int nHashD = HashString(string_in, HASH_D);
unsigned int nHashStart = nHash % TABLE_SIZE;
unsigned int nHashPos = nHashStart;
while (HashTable[nHashPos].bExists)
{
if (HashATable[nHashPos] == (int) nHashC && HashBTable[nHashPos] == (int) nHashD)
{
break;
//查询与插入不同，此处不需修改
}
else
{
nHashPos = (nHashPos + 1) % TABLE_SIZE;
}
if (nHashPos == nHashStart)
{
break;
}
}
if( key_array[nHashPos] && strlen(key_array[nHashPos]->pkey))
{
return key_array[nHashPos];
}
return NULL;
}
//按索引查询，如果成功返回关键字（此函数在本章中没有被用到，可以忽略）
key_list SearchByIndex(unsigned int nIndex)
{
unsigned int nHashPos = nIndex;
if (nIndex < TABLE_SIZE)
{
if(key_array[nHashPos] && strlen(key_array[nHashPos]->pkey))
{
return key_array[nHashPos];
}
}
return NULL;
}
//插入关键字，如果成功返回hash值
int InsertString(const char *str)
{
const int HASH_OFFSET = 0, HASH_A = 1, HASH_B = 2;
unsigned int nHash = HashString(str, HASH_OFFSET);
unsigned int nHashA = HashString(str, HASH_A);
unsigned int nHashB = HashString(str, HASH_B);
unsigned int nHashStart = nHash % TABLE_SIZE;
unsigned int nHashPos = nHashStart;
int len;
while (HashTable[nHashPos].bExists)
{
nHashPos = (nHashPos + 1) % TABLE_SIZE;
if (nHashPos == nHashStart)
break;
}
len = strlen(str);
if (!HashTable[nHashPos].bExists && (len < WORD_MAX_LEN))
{
HashATable[nHashPos] = nHashA;
HashBTable[nHashPos] = nHashB;
key_array[nHashPos] = (KEYNODE *) malloc (sizeof(KEYNODE) * 1);
if(key_array[nHashPos] == NULL)
{
printf("10000 EMS ERROR !!!!\n");
return 0;
}
key_array[nHashPos]->pkey = (char *)malloc(len+1);
if(key_array[nHashPos]->pkey == NULL)
{
printf("10000 EMS ERROR !!!!\n");
return 0;
}
memset(key_array[nHashPos]->pkey, 0, len+1);
strncpy(key_array[nHashPos]->pkey, str, len);
*((key_array[nHashPos]->pkey)+len) = 0;
key_array[nHashPos]->pos = nHashPos;
key_array[nHashPos]->count = 1;
key_array[nHashPos]->next = NULL;
HashTable[nHashPos].bExists = 1;
return nHashPos;
}
if(HashTable[nHashPos].bExists)
printf("30000 in the hash table %s !!!\n", str);
else
printf("90000 strkey error !!!\n");
return -1;
}

有了这个Hash表，接下来，我们就可以把词插入Hash表进行存储了。

第三节、倒排索引文件的生成与实现

Hash表实现了（存于HashSearch.h中），还得编写一系列的函数，如下所示（所有代码还只是初步实现了功能，稍后在第四部分中将予以改进与优化）：

//处理空白字符和空白行
int GetRealString(char *pbuf)
{
int len = strlen(pbuf) - 1;
while (len > 0 && (pbuf[len] == (char)0x0d || pbuf[len] == (char)0x0a || pbuf[len] == ' ' || pbuf[len] == '\t'))
{
len--;
}
if (len < 0)
{
*pbuf = '\0';
return len;
}
pbuf[len+1] = '\0';
return len + 1;
}
//重新strcoll字符串比较函数
int strcoll(const void *s1, const void *s2)
{
char *c_s1 = (char *)s1;
char *c_s2 = (char *)s2;
while (*c_s1 == *c_s2++)
{
if (*c_s1++ == '\0')
{
return 0;
}
}
return *c_s1 - *--c_s2;
}
//从行缓冲中得到各项信息，将其写入items数组
void GetItems(char *&move, int &count, int &wordnum)
{
char *front = move;
bool flag = false;
int len;
move = strstr(move, "#####");
if (*(move + 5) == '#')
{
flag = true;
}
if (move)
{
len = move - front;
strncpy(items[count], front, len);
}
items[count][len] = '\0';
count++;
if (flag)
{
move = move + 10;
} else
{
move = move + 5;
}
}
//保存关键字相应的文档内容
doc_list SaveItems()
{
doc_list infolist = (doc_list) malloc(sizeof(DOCNODE));
strcpy_s(infolist->id, items[0]);
infolist->classOne = atoi(items[1]);
strcpy_s(infolist->classTwo, items[2]);
infolist->classThree = atoi(items[3]);
strcpy_s(infolist->time, items[4]);
strcpy_s(infolist->md5, items[5]);
infolist->weight = atoi(items[6]);
return infolist;
}
//得到目录下所有文件名
int GetFileName(char filename[][FILENAME_MAX_LEN])
{
_finddata_t file;
long handle;
int filenum = 0;
//C:\Users\zhangxu\Desktop\CreateInvertedIndex\data
if ((handle = _findfirst("C:\\Users\\zhangxu\\Desktop\\CreateInvertedIndex\\data\\*.txt", &file)) == -1)
{
printf("Not Found\n");
}
else
{
do
{
strcpy_s(filename[filenum++], file.name);
} while (!_findnext(handle, &file));
}
_findclose(handle);
return filenum;
}
//以读方式打开文件，如果成功返回文件指针
FILE* OpenReadFile(int index, char filename[][FILENAME_MAX_LEN])
{
char *abspath;
char dirpath[] = {"data\\"};
abspath = (char *)malloc(ABSPATH_MAX_LEN);
strcpy_s(abspath, ABSPATH_MAX_LEN, dirpath);
strcat_s(abspath, FILENAME_MAX_LEN, filename[index]);
FILE *fp = fopen (abspath, "r");
if (fp == NULL)
{
printf("open read file error!\n");
return NULL;
}
else
{
return fp;
}
}
//以写方式打开文件，如果成功返回文件指针
FILE* OpenWriteFile(const char *in_file_path)
{
if (in_file_path == NULL)
{
printf("output file path error!\n");
return NULL;
}
FILE *fp = fopen(in_file_path, "w+");
if (fp == NULL)
{
printf("open write file error!\n");
}
return fp;
}

最后，主函数编写如下：

int main()
{
key_list keylist;
char *pbuf, *move;
int filenum = GetFileName(filename);
FILE *fr;
pbuf = (char *)malloc(BUF_MAX_LEN);
memset(pbuf, 0, BUF_MAX_LEN);
FILE *fw = OpenWriteFile("index.txt");
if (fw == NULL)
{
return 0;
}
PrepareCryptTable(); //初始化Hash表
int wordnum = 0;
for (int i = 0; i < filenum; i++)
{
fr = OpenReadFile(i, filename);
if (fr == NULL)
{
break;
}
// 每次读取一行处理
while (fgets(pbuf, BUF_MAX_LEN, fr))
{
int count = 0;
move = pbuf;
if (GetRealString(pbuf) <= 1)
continue;
while (move != NULL)
{
// 找到第一个非'#'的字符
while (*move == '#')
move++;
if (!strcmp(move, ""))
break;
GetItems(move, count, wordnum);
}
for (int i = 7; i < count; i++)
{
// 将关键字对应的文档内容加入文档结点链表中
if (keylist = SearchByString(items[i])) //到hash表内查询
{
doc_list infolist = SaveItems();
infolist->next = keylist->next;
keylist->count++;
keylist->next = infolist;
}
else
{
// 如果关键字第一次出现，则将其加入hash表
int pos = InsertString(items[i]); //插入hash表
keylist = key_array[pos];
doc_list infolist = SaveItems();
infolist->next = NULL;
keylist->next = infolist;
if (pos != -1)
{
strcpy_s(words[wordnum++], items[i]);
}
}
}
}
}
// 通过快排对关键字进行排序
qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);
// 遍历关键字数组，将关键字及其对应的文档内容写入文件中
for (int i = 0; i < WORD_MAX_NUM; i++)
{
keylist = SearchByString(words[i]);
if (keylist != NULL)
{
fprintf(fw, "%s %d\n", words[i], keylist->count);
doc_list infolist = keylist->next;
for (int j = 0; j < keylist->count; j++)
{
//文档ID，订阅源（子频道）频道分类网站类ID（大频道）时间 md5，文档权值
fprintf(fw, "%s %d %s %d %s %s %d\n", infolist->id, infolist->classOne,
infolist->classTwo, infolist->classThree, infolist->time, infolist->md5, infolist->weight);
infolist = infolist->next;
}
}
}
free(pbuf);
fclose(fr);
fclose(fw);
system("pause");
return 0;
}

程序编译运行后，生成的倒排索引文件为index.txt，其与原来给定的正排文档对照如下：

有没有发现关键词奥恰洛夫出现在的三篇文章是同一个日期1210的，貌似与本文开头指定的倒排索引格式要求不符？因为第二部分开头中，已明确说明：“注，关键词所在的文章如果是同一个日期的话，是挨在同一行的，用“#”符号隔开”。OK，有疑问是好事，代表你思考了，请直接转至下文第4部分。

第四节、程序需求功能的改进

4.1、对相同日期与不同日期的处理

细心的读者可能还是会注意到：在第二部分开头中，要求基于给定的上述正排文档。生成如第二十四章所示的倒排索引文件是下面这样子的，即是：

也就是说，上面建索引的过程本该是如下的：

与第一部分所述的SMIPI算法有什么区别？对的，就在于对在同一个日期的出现的关键词的处理。如果是遇一旧词，则找到其倒排记录表的位置：相同日期，添加到之前同一日期的记录之后（第一个记录的后面记下同一日期的记录数目）；不同日期，另起一行新增记录。

相同（单个）日期，根据文档权值排序
不同日期，根据时间排序

代码主要修改如下：

//function: 对链表进行冒泡排序
void ListSort(key_list keylist)
{
doc_list p = keylist->next;
doc_list final = NULL;
while (true)
{
bool isfinish = true;
while (p->next != final) {
if (strcmp(p->time, p->next->time) < 0)
{
SwapDocNode(p);
isfinish = false;
}
p = p->next;
}
final = p;
p = keylist->next;
if (isfinish || p->next == final) {
break;
}
}
}
int main()
{
key_list keylist;
char *pbuf, *move;
int filenum = GetFileName(filename);
FILE *frp;
pbuf = (char *)malloc(BUF_MAX_LEN);
memset(pbuf, 0, BUF_MAX_LEN);
FILE *fwp = OpenWriteFile("index.txt");
if (fwp == NULL) {
return 0;
}
PrepareCryptTable();
int wordnum = 0;
for (int i = 0; i < filenum; i++)
{
frp = OpenReadFile(i, filename);
if (frp == NULL) {
break;
}
// 每次读取一行处理
while (fgets(pbuf, BUF_MAX_LEN, frp))
{
int count = 0;
move = pbuf;
if (GetRealString(pbuf) <= 1)
continue;
while (move != NULL)
{
// 找到第一个非'#'的字符
while (*move == '#')
move++;
if (!strcmp(move, ""))
break;
GetItems(move, count, wordnum);
}
for (int i = 7; i < count; i++) {
// 将关键字对应的文档内容加入文档结点链表中
// 如果关键字第一次出现，则将其加入hash表
if (keylist = SearchByString(items[i])) {
doc_list infolist = SaveItems();
infolist->next = keylist->next;
keylist->count++;
keylist->next = infolist;
} else {
int pos = InsertString(items[i]);
keylist = key_array[pos];
doc_list infolist = SaveItems();
infolist->next = NULL;
keylist->next = infolist;
if (pos != -1) {
strcpy_s(words[wordnum++], items[i]);
}
}
}
}
}
// 通过快排对关键字进行排序
qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);
// 遍历关键字数组，将关键字及其对应的文档内容写入文件中
int rownum = 1;
for (int i = 0; i < WORD_MAX_NUM; i++) {
keylist = SearchByString(words[i]);
if (keylist != NULL) {
doc_list infolist = keylist->next;
char date[9];
// 截取年月日
for (int j = 0; j < keylist->count; j++)
{
strncpy_s(date, infolist->time, 8);
date[8] = '\0';
strncpy_s(infolist->time, date, 9);
infolist = infolist->next;
}
// 对链表根据时间进行排序
ListSort(keylist);
infolist = keylist->next;
int *count = new int[WORD_MAX_NUM];
memset(count, 0, WORD_MAX_NUM);
strcpy_s(date, infolist->time);
int num = 0;
// 得到单个日期的文档数目
for (int j = 0; j < keylist->count; j++)
{
if (strcmp(date, infolist->time) == 0) {
count[num]++;
} else {
count[++num]++;
}
strcpy_s(date, infolist->time);
infolist = infolist->next;
}
fprintf(fwp, "%s %d %d\n", words[i], num + 1, rownum);
WriteFile(keylist, num, fwp, count);
rownum++;
}
}
free(pbuf);
// fclose(frp);
fclose(fwp);
system("pause");
return 0;
}

修改后编译运行，生成的index.txt文件如下：

4.2、为关键词添上编码

如上图所示，已经满足需求了。但可以再在每个关键词的背后添加一个计数表示索引到了第多少个关键词：

第五节、算法的二次改进

5.1、省去二次Hash

针对本文评论下读者的留言，做了下思考，自觉可以省去二次hash：

for (int i = 7; i < count; i++)
{
// 将关键字对应的文档内容加入文档结点链表中
//也就是说当查询到hash表中没有某个关键词之,后便会插入
//而查询的时候，search会调用hashstring，得到了nHashC ，nHashD
//插入的时候又调用了一次hashstring，得到了nHashA，nHashB
//而如果查询的时候，是针对同一个关键词查询的，所以也就是说nHashC&nHashD，与nHashA&nHashB是相同的，无需二次hash
//所以，若要改进，改的也就是下面这个if~else语句里头。July，2011.12.30。
if (keylist = SearchByString(items[i])) //到hash表内查询
{
doc_list infolist = SaveItems();
infolist->next = keylist->next;
keylist->count++;
keylist->next = infolist;
}
else
{
// 如果关键字第一次出现，则将其加入hash表
int pos = InsertString(items[i]); //插入hash表
keylist = key_array[pos];
doc_list infolist = SaveItems();
infolist->next = NULL;
keylist->next = infolist;
if (pos != -1)
{
strcpy_s(words[wordnum++], items[i]);
}
}
}
}
}
// 通过快排对关键字进行排序
qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);

5.2、除去排序，针对不同日期的记录直接插入

//对链表进行冒泡排序。这里可以改成快速排序：等到统计完所有有关这个关键词的文章之后，才能对他集体快排。
//但其实完全可以用插入排序，不同日期的，根据时间的先后找到插入位置进行插入：
//假如说已有三条不同日期的记录 A B C
//来了D后，发现D在C之前，B之后，那么就必须为它找到B C之间的插入位置，
//A B D C。July、2011.12.31。
void ListSort(key_list keylist)
{
doc_list p = keylist->next;
doc_list final = NULL;
while (true)
{
bool isfinish = true;
while (p->next != final) {
if (strcmp(p->time, p->next->time) < 0) //不同日期的按最早到最晚排序
{
SwapDocNode(p);
isfinish = false;
}
p = p->next;
}
final = p;
p = keylist->next;
if (isfinish || p->next == final) {
break;
}
}
}

综上5.1、5.2两节免去冒泡排序和，省去二次hash和免去冒泡排序，修改后如下：

for (int i = 7; i < count; i++) {
// 将关键字对应的文档内容加入文档结点链表中
// 如果关键字第一次出现，则将其加入hash表
InitHashValue(items[i], hashvalue);
if (keynode = SearchByString(items[i], hashvalue)) {
doc_list infonode = SaveItems();
doc_list p = keynode->next;
// 根据时间由早到晚排序
if (strcmp(infonode->time, p->time) < 0) {
//考虑infonode插入keynode后的情况
infonode->next = p;
keynode->next = infonode;
} else {
//考虑其他情况
doc_list pre = p;
p = p->next;
while (p)
{
if (strcmp(infonode->time, p->time) > 0) {
p = p->next;
pre = pre->next;
} else {
break;
}
}
infonode->next = p;
pre->next = infonode;
}
keynode->count++;
} else {
int pos = InsertString(items[i], hashvalue);
keynode = key_array[pos];
doc_list infolist = SaveItems();
infolist->next = NULL;
keynode->next = infolist;
if (pos != -1) {
strcpy_s(words[wordnum++], items[i]);
}
}
}
}
}
// 通过快排对关键字进行排序
qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);

修改后编译运行的效果图如下（用了另外一份更大的数据文件进行测试）：

本章全部源码请到以下两处任一一处下载（欢迎读者朋友们继续优化，若能反馈于我，则幸甚不过了）：

http://download.csdn.net/detail/v_july_v/4012605（csdn下载处）
https://github.com/fuxiang90/CreateInvertedIndex.（github下载处）

后记

本文代码还有很多的地方可以改进和优化，请待后续更新。当然，代码看起来也很青嫩，亟待提高阿。

近几日后，准备编程艺术室内38位兄弟的靓照和blog或空间地址公布在博客内，给读者一个联系他们的方式，顺便还能替他们征征友招招婚之类的。ys，土豆，水哥，老梦，3，飞羽，风清扬，well，weedge，xiaolin，555等等三十八位兄弟皆都对编程艺术系列贡献卓著。

最后说一句，读者朋友们中如果是初学编程的话切勿跟风学算法，夯实编程基础才是最重要的。预祝各位元旦快乐。谢谢，本章完。

你可能感兴趣的:(倒排索引)

5.安装IK分词器卷土重来… ElasticSearch 开发语言 elasticsearch
es创建倒排索引的时候，需要对文档进行分词。搜索时，需要对用户输入的内容分词。但是默认的分词规则对中文处理并不友好。英语分词器，一个汉子分成一个词，对于java英文单词会分成一个词。POST/_analyze{"text":"我住在北京这个大城市学习java","analyzer":"english"}中文分词器也是一样，一个汉子分成一个词POST/_analyze{"text":"我住在北京这个
JB3-6-ElasticSearch（一）周航宇92 Java第三阶段-SSM elasticsearch java es 搜索引擎 kibana 倒排索引 REST
Java道经第3卷-第6阶-ElasticSearch（一）传送门：JB3-6-ElasticSearch（一）传送门：JB3-6-ElasticSearch（二）文章目录S01.ElasticSearchE01.基础概念入门1.ES搜索引擎组件2.ES倒排索引原理3.ES单机容器搭建4.ES集群容器搭建S02.KibanaE01.基础概念入门1.Kibana单机容器搭建2.安装IK分词器E02.
山东大学2020-2021春季web数据管理期末考试 Joheey 山东大学 web数据管理
一、填空题（30空，只记得这些了）DFS比BFS好处在于爬虫礼貌性BM25三个参数词项处理——文档解析、词条化、词项归一化、次干还原、词型归并三种分词算法统计语言模型的定义LBP定义tamura的特征颜色矩二、简答题1、RE2、web数据抽取3、TF/IDF4、倒排索引的定义5、忘记了三、论述题1、网站和爬虫的博弈2、基于HMM的分词算法3、网页排序算法PageRank、HITS、HillTop4
Elastic字段映射（_source,doc_value,fileddata,index,store）赵成默 elasticSearch elasticsearch
Elastic字段映射（_source,doc_value,filed_data,index,store）_source：source字段用于存储post到ES的原始json文档。为什么要存储原始文档呢？因为ES采用倒排索引对文本进行搜索，而倒排索引无法存储原始输入文本。一段文本交给ES后，首先会被分析器(analyzer)打散成单词，为了保证搜索的准确性，在打散的过程中，会去除文本中的标点符号，
es 的字段类型（text和keyword）赵成默 elasticsearch es
Text当一个字段是要被全文检索时，比如Email内容、产品描述，这些字段应该使用text类型。设置text类型以后，字段内容会被分析，在生成倒排索引之前，字符串会被分析器分词。text类型的字段不用于排序，很少用于聚合。注意事项:适用于全文检索：如match查询。文本字段会被分词。默认情况下，会创建倒排索引。自动映射器会为Text类型创建Keyword字段。KeywordKeyword类型适用于
【Elasticsearch】为什么文档知识库落地中离不开ES？杰哥哥不是个好叔叔大数据搜索引擎
【Elasticsearch】为什么文档知识库落地中离不开ES？一·背景概述二·ES概览三·ES核心特性倒排索引和正排索引倒排索引是什么？倒排索引的创建和检索流程了解么？倒排索引检索流程：倒排索引由什么组成？正排索引呢？倒排索引和正排索引的区别是什么？Elasticsearch可以针对某些地段不做索引吗？分词器(Analyzer)分词器有什么用？常用分词器有哪些?分词器由什么组成？四·ES显著优势
PDF多表格结构识别与跨表语义对齐：基于对抗迁移的健壮性相似度度量模型最难不过坚持丶 pdf
文章目录前言倒排索引、前缀树、FST、向量与编辑距离的技术原理及应用差异探讨一.项目结构二.流程分析2.1批处理器核心代码解析三.跨页表格相似度匹配原理3.1表头内容相似度-特征向量归一化3.2表头内容相似度-余弦相似度3.3定时缓存清理前言ocr扫描有其局限性。对于pdf文本类型这种pdfbox，aspose-pdf，spire直接提取文本的精准性更高。经过综合对比我们觉得aspose和spir
Elasticsearch 与 Python 整合：使用 Elasticsearch-py 进行开发数据库管理艺术 elasticsearch python jenkins ai
Elasticsearch与Python整合：基于Elasticsearch-py的全栈开发指南关键词Elasticsearch-py、分布式搜索、Python客户端、DSL查询、批量操作、索引优化、集群交互摘要本指南系统解析Elasticsearch与Python的整合开发，覆盖从基础概念到高级实践的全生命周期。通过理论框架（分布式系统原理、倒排索引数学模型）、架构设计（客户端-集群交互模型）、
Elasticsearch助力搜索领域的高效实现 AI天才研究院计算 AI大模型应用入门实战与进阶 AI Agent 应用开发 elasticsearch 大数据搜索引擎 ai
Elasticsearch助力搜索领域的高效实现关键词：Elasticsearch、搜索引擎、分布式搜索、倒排索引、分片机制、相关性算法、全文检索摘要：本文深入解析Elasticsearch在搜索领域的核心技术与高效实现原理，从分布式架构设计、倒排索引机制、相关性算法优化等底层技术出发，结合具体代码案例和数学模型，系统阐述其在大规模数据场景下的应用实践。通过实战项目演示集群搭建、分词器配置、复杂查
Elasticsearch倒排索引原理与优化策略详解 HoRain 云小助手 elasticsearch 大数据搜索引擎
HoRain云小助手：个人主页⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。目录⛳️推荐一、倒排索引的核心原理二、Elasticsearch中的倒排索引实现三、优化策略与实践四、高级优化技巧五、案例分析：电商平台搜索优化六、总结一、倒排索引的核心原理基本概念：正排索引：通过文档ID快速获取文档内容，
[Redis Vector Database入门与Langchain集成指南，让你的AI应用更智能！] sjufgwgfhoia 数据库 redis langchain python
引言Redis，在开发者群体中广为人知，因其作为缓存、消息代理和数据库的高效而备受青睐。如今，Redis不仅限于传统的使用场景，它也作为一种高效的向量数据库而崭露头角。这篇文章将带你了解如何将Redis用作向量数据库，并与Langchain集成，以提升你的AI应用的性能。主要内容Redis作为向量数据库Redis通过使用压缩的倒排索引来实现快速索引，且内存占用低。它支持多字段索引、向量相似度搜索、
Python爬虫与数据挖掘：搜索引擎背后的技术搜索引擎技术 python 爬虫数据挖掘 ai
Python爬虫与数据挖掘：搜索引擎背后的技术关键词：Python爬虫、数据挖掘、搜索引擎、网络爬虫、信息检索、自然语言处理、机器学习摘要：本文深入解析搜索引擎核心技术架构，结合Python爬虫与数据挖掘技术，系统阐述从网页抓取、数据清洗到索引构建、检索排序的完整流程。通过数学模型推导、代码实现和实战案例，揭示搜索引擎背后的技术原理，包括网络爬虫的抓取策略、倒排索引构建算法、TF-IDF与Page
Elasticsearch 分析器介绍芥子沫运维 elasticsearch
在Elasticsearch的世界里，构建高效搜索引擎的关键一环，便是透彻理解分析器（Analyzer）的工作机制。一个优秀的搜索引擎，能够精准地返回与用户查询紧密相关的文档，而这背后，正是分析器在默默发挥着核心作用。它不仅负责处理待索引的文档，还在用户发起查询时，智能评估哪些文档与查询关键词的匹配度更高。一、倒排索引：分析器的基石在深入探讨分析器之前，有必要先了解与之紧密关联的倒排索引。倒排索引
ElasticSearch 面试题及答案整理，最新面试题孙恒阳 elasticsearch jenkins 大数据
Elasticsearch中的倒排索引是什么？它如何工作？倒排索引是Elasticsearch中用于快速全文搜索的关键数据结构。它的工作原理包括：1、索引创建：对文档中的每个唯一单词创建一个索引条目。2、文档列表：每个索引条目都指向包含该单词的文档列表。3、快速查找：在搜索时，快速定位包含搜索词的所有文档。Elasticsearch集群中的主节点和数据节点的角色。在Elasticsearch集群中
如何高效的处理海量数据？ Jesslili 面试场景题海量数据
什么是海量数据？何谓海量，就是数据量太大，要么是无法在较短时间内迅速解决，要么是数据太大，导致无法一次性装入内存。针对时间，我们可以采用巧妙的算法搭配合适的数据结构，如Bloomfilter/Hash/bit-map/堆/数据库或倒排索引/trie树针对空间，无非就一个办法：大而化小，分而治之，你不是说规模太大嘛，那简单啊，就把规模大化为规模小的，各个击破。常用方法分而治之/hash映射+hash
基于Elasticsearch的搜索引擎简介 weixin_47233946 编程搜索引擎 elasticsearch 大数据
##一、Elasticsearch简介Elasticsearch（简称ES）是一个开源的、分布式、RESTful风格的搜索和数据分析引擎，基于ApacheLucene开发。它能够实现对海量结构化和非结构化数据的实时存储、搜索和分析，广泛应用于全文检索、日志分析、数据可视化等场景。##二、核心原理Elasticsearch以文档为核心，每条数据都以JSON格式存储。其底层采用倒排索引（Inverte
ElasticSearch 白说 elasticsearch 搜索引擎
前提了解ElasticSearch之前先来了解一下什么事正向索引和倒排索引正向索引倒排索引总结：正向索引：根据id找到文档反向索引：根据文档找到词Elasticsearch与MySQL概念对比Elasticsearch与MySQL之间关系（相辅相成）复杂查询用Elasticsearch，简单查询和增删改用MySQL，当然，增删改MySQL数据也需要同步到Elasticsearch中。安装ESDoc
搜索领域索引构建的索引文本挖掘技术搜索引擎技术 ai
搜索领域索引构建的索引文本挖掘技术关键词：倒排索引、文本预处理、TF-IDF、BM25、分布式索引、查询扩展、语义索引摘要：本文深入探讨搜索引擎核心组件索引构建中的文本挖掘技术。从基础倒排索引原理到现代语义索引技术，通过算法解析、数学建模和代码实现，系统讲解索引构建中的关键环节。重点分析TF-IDF、BM25等经典算法，探讨分布式索引架构设计，并展示基于深度学习的语义索引前沿进展。1.背景介绍1.
在文件检索方面doris和elasticsearch的区别 jiedaodezhuti elasticsearch doris elasticsearch 大数据搜索引擎
apacheDoris与Elasticsearch在文件检索领域的差异源于技术架构与定位目标的本质区别，以下从核心维度对比分析二者的技术特性：一、‌架构设计与定位差异‌‌维度‌‌ApacheDoris‌‌Elasticsearch‌‌核心架构‌分布式MPP列式分析引擎，面向OLAP优化分布式倒排索引检索引擎，面向全文搜索优化‌数据模型‌结构化/半结构化数据为主，支持动态Schema非结构化文本为主
Elasticsearch 最全调优，最佳实践（二）蒋厚施 elasticsearch 大数据搜索引擎
接着上一篇Elasticsearch最全调优，最佳实践（一）15、在Elasticsearch中，是怎么根据一个词找到对应的倒排索引的？Lucene的索引过程，就是按照全文检索的基本过程，将倒排表写成此文件格式的过程。Lucene的搜索过程，就是按照此文件格式将索引进去的信息读出来，然后计算每篇文档打分(score)的过程。16、Elasticsearch在部署时，对Linux的设置有哪些优化方法
搜索领域新宠儿：全文检索深度剖析搜索引擎技术全文检索 django python ai
搜索领域新宠儿：全文检索深度剖析关键词：全文检索、倒排索引、分词算法、查询处理、相关性排序、搜索引擎、信息检索摘要：本文深入探讨全文检索技术的核心原理和实现细节。从基础的倒排索引结构出发，详细分析分词算法、查询处理流程和相关性排序机制。通过Python代码示例展示核心算法实现，并结合数学模型解释相关性评分公式。文章还涵盖实际应用场景、工具推荐以及未来发展趋势，为开发者提供全面的全文检索技术指南。1
Elasticsearch相关面试题真实的菜 es elasticsearch
概念理解类1.请简要阐述Elasticsearch为何被定义为基于Lucene的Restful分布式实时全文搜索引擎？1.基于Lucene底层引擎：ES的核心搜索能力依赖于ApacheLucene库。Lucene是一个高性能、功能强大的全文检索工具包，提供了倒排索引、分词、评分机制等核心搜索功能。扩展封装：ES在Lucene基础上进行了分布式和高可用性封装，简化了Lucene的复杂API，使其更易
搜索领域索引构建的技术发展趋势搜索引擎技术 wpf ai
搜索领域索引构建的技术发展趋势关键词：搜索引擎、倒排索引、分布式索引、实时索引、向量索引、索引压缩、索引优化摘要：本文深入探讨了搜索领域索引构建技术的发展趋势。从传统的倒排索引到现代的分布式实时索引，再到新兴的向量索引技术，我们将全面分析各种索引技术的原理、实现和应用场景。文章将详细介绍索引构建的核心算法、数学模型，并通过实际代码示例展示如何实现高效的索引系统。最后，我们将展望搜索索引技术的未来发
Elasticsearch倒排索引意倾城 elasticSearch elasticsearch 搜索引擎
目录一、传统数据库的正排索引（以MySQL为例）1.正排索引的本质2.MySQL的B+树索引实现3.正排索引的查询流程（以name查询为例）4.正排索引的局限性二、Elasticsearch的倒排索引革命1.倒排索引的核心思想2.倒排索引的构建过程（以文章标题为例）3.倒排索引的查询流程三、核心差异对比四、Elasticsearch倒排索引的进阶设计1.分片与分布式存储2.动态更新机制3.相关性评
milvus 支持向量化索引的方法 MonkeyKing.sun milvus python 算法
Milvus是一个高性能的向量数据库，支持多种向量索引方法，以优化不同的查询需求。Milvus支持以下几种常见的向量化索引方法：IVF(InvertedFile)：IVF_FLAT：基于倒排索引和线性扫描的简单方法，适用于小型数据集或低查询频率的场景。它将数据分成多个簇并按簇进行搜索，适用于需要精准查询的场景。IVF_PQ：结合倒排索引和产品量化（ProductQuantization）技术，通过
基于Boost库实现的站内搜索引擎敲着代码想睡觉 C++c++搜索引擎后端学习 c语言 vscode
基于Boost库实现的搜索引擎项目实现相关背景搜索引擎相关宏观原理正排索引和倒排索引正排索引倒排索引模拟一次查找大概流程项目技术栈和开发环境配置项目所使用到的技术栈开发环境的配置VSCode和插件Remote-SSH的安装Boost库的安装Jsoncpp库的安装cpp-httplib库的下载cppjieba库的下载cppjieba库的补充cppjieba库的使用（使用软连接）项目实际开发编写日志模
【吃透 Elasticsearch 的核心原理】学习步骤不学会Ⅳ elasticsearch 学习大数据
要真正，需深入以下关键机制（结合最新技术演进）：一、倒排索引机制核心三要素TermIndex：FST结构加速前缀匹配（如ap*查询）TermDictionary：存储所有token及统计信息（如词频）PostingList：采用RoaringBitmaps压缩存储文档ID列表（参考）动态合并策略Segment合并时的TieredMergePolicy算法倒排链的跳跃表（SkipList）优化范围查
boost搜索引擎皮皮蜥 C++Linux 项目实战搜索引擎
文章目录boost搜索引擎的意义技术栈与项目环境搜索引擎的原理暂停词正排索引（ForwardIndex）倒排索引（InvertedIndex）数据去标签化去标签常用工具类添加日志索引的建立正排索引的建立倒排索引的建立搜索引擎的构成**初始化****查询处理****简介生成**前端网页查询输入搜索以及结果展示分页控制CSS样式HTTP服务工作流程概述部署服务器项目展示启动页面搜索结果页面boost搜
Golang｜分布式索引架构 ErizJ Golang 分布式搜索引擎 golang 分布式架构开发语言后端
当文档数量巨大时，如一亿个文档，倒排索引难以全部放入单机内存。正排索引将热数据和冷数据分别存储在内存和磁盘中。分布式搜索引擎将数据分布在不同服务器上以应对大量数据。倒排索引的水平切分水平切分按关键词划分数据，如JAVA和算法在A服务器，专家和北京在B服务器。水平切分的优点是搜索关键词快速，缺点是多关键词搜索需要从多台服务器获取数据并归并。水平切分存在正排索引冗余存储的问题，浪费存储空间，比如上面文
Elasticsearch：强大且灵活的搜索和分析引擎程灵犀 elasticsearch 大数据搜索引擎全文检索
Elasticsearch是一种开源的、分布式的、实时的搜索和分析引擎。它提供了一个高度可扩展和可靠的平台，用于搜索、分析和处理大规模的实时数据。相比传统的搜索引擎，Elasticsearch具有许多优势。首先，它具有出色的性能。Elasticsearch使用了一种名为“倒排索引”的数据结构，可以快速地检索和过滤数据。其次，Elasticsearch具有高度的可扩展性。它可以在多个节点上分布和处理
深入浅出Java Annotation(元注解和自定义注解） Josh_Persistence Java Annotation 元注解自定义注解
一、基本概述　　 Annontation是Java5开始引入的新特征。中文名称一般叫注解。它提供了一种安全的类似注释的机制，用来将任何的信息或元数据（metadata）与程序元素（类、方法、成员变量等）进行关联。　　更通俗的意思是为程序的元素（类、方法、成员变量）加上更直观更明了的说明，这些说明信息是与程序的业务逻辑无关，并且是供指定的工具或
mysql优化特定类型的查询 annan211 java 工作 mysql
本节所介绍的查询优化的技巧都是和特定版本相关的，所以对于未来mysql的版本未必适用。 1 优化count查询对于count这个函数的网上的大部分资料都是错误的或者是理解的都是一知半解的。在做优化之前我们先来看看真正的count()函数的作用到底是什么。 count()是一个特殊的函数，有两种非常不同的作用，他可以统计某个列值的数量，也可以统计行数。在统
MAC下安装多版本JDK和切换几种方式棋子chessman jdk
环境： MAC AIR,OS X 10.10,64位历史：过去 Mac 上的 Java 都是由 Apple 自己提供，只支持到 Java 6，并且OS X 10.7 开始系统并不自带（而是可选安装）（原自带的是1.6）。后来 Apple 加入 OpenJDK 继续支持 Java 6，而 Java 7 将由 Oracle 负责提供。在终端中输入jav
javaScript （1） Array_06 JavaScript java 浏览器
JavaScript 1、运算符　　运算符就是完成操作的一系列符号，它有七类：　　赋值运算符（=,+=,-=,*=,/=,%=,<<=,>>=,|=,&=）、算术运算符(+,-,*,/,++,--,%)、比较运算符(>,<,<=,>=,==,===,!=,!==)、逻辑运算符(||,&&,!)、条件运算(?:)、位
国内顶级代码分享网站袁潇含 java jdk oracle .net PHP
现在国内很多开源网站感觉都是为了利益而做的当然利益是肯定的,否则谁也不会免费的去做网站 &
Elasticsearch、MongoDB和Hadoop比较随意而生 mongodb hadoop 搜索引擎
IT界在过去几年中出现了一个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老一点的技术也会将大数据添进自己的特性，避免落大部队太远，我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎，它们存储着JSON文档，MongoDB存着JSON文档，或者一堆JSON文档存放在一个Hadoop集群的HDFS中。你可以使用这三种配
mac os 系统科研软件总结张亚雄 mac os
1.1 Microsoft Office for Mac 2011 大客户版，自行搜索。 1.2 Latex （MacTex）: 系统环境：https://tug.org/mactex/ &nb
Maven实战（四）生命周期 AdyZhang maven
1. 三套生命周期 Maven拥有三套相互独立的生命周期，它们分别为clean，default和site。每个生命周期包含一些阶段，这些阶段是有顺序的，并且后面的阶段依赖于前面的阶段，用户和Maven最直接的交互方式就是调用这些生命周期阶段。以clean生命周期为例，它包含的阶段有pre-clean, clean 和 post
Linux下Jenkins迁移 aijuans Jenkins
1. 将Jenkins程序目录copy过去源程序在/export/data/tomcatRoot/ofctest-jenkins.jd.com下面 tar -cvzf jenkins.tar.gz ofctest-jenkins.jd.com &
request.getInputStream()只能获取一次的问题 ayaoxinchao request Inputstream
问题：在使用HTTP协议实现应用间接口通信时，服务端读取客户端请求过来的数据，会用到request.getInputStream()，第一次读取的时候可以读取到数据，但是接下来的读取操作都读取不到数据原因： 1. 一个InputStream对象在被读取完成后，将无法被再次读取，始终返回-1； 2. InputStream并没有实现reset方法（可以重
数据库SQL优化大总结之百万级数据库优化方案 BigBird2012 SQL优化
网上关于SQL优化的教程很多，但是比较杂乱。近日有空整理了一下，写出来跟大家分享一下，其中有错误和不足的地方，还请大家纠正补充。这篇文章我花费了大量的时间查找资料、修改、排版，希望大家阅读之后，感觉好的话推荐给更多的人，让更多的人看到、纠正以及补充。 1.对查询进行优化，要尽量避免全表扫描，首先应考虑在 where 及 order by 涉及的列上建立索引。 2.应尽量避免在 where
jsonObject的使用 bijian1013 java json
在项目中难免会用java处理json格式的数据，因此封装了一个JSONUtil工具类。 JSONUtil.java package com.bijian.json.study; import java.util.ArrayList; import java.util.Date; import java.util.HashMap;
[Zookeeper学习笔记之六]Zookeeper源代码分析之Zookeeper.WatchRegistration bit1129 zookeeper
Zookeeper类是Zookeeper提供给用户访问Zookeeper service的主要API，它包含了如下几个内部类首先分析它的内部类，从WatchRegistration开始，为指定的znode path注册一个Watcher， /** * Register a watcher for a particular p
【Scala十三】Scala核心七：部分应用函数 bit1129 scala
何为部分应用函数？ Partially applied function: A function that’s used in an expression and that misses some of its arguments.For instance, if function f has type Int => Int => Int, then f and f(1) are p
Tomcat Error listenerStart 终极大法 ronin47 tomcat
Tomcat报的错太含糊了，什么错都没报出来，只提示了Error listenerStart。为了调试，我们要获得更详细的日志。可以在WEB-INF/classes目录下新建一个文件叫logging.properties，内容如下 Java代码 handlers = org.apache.juli.FileHandler, java.util.logging.ConsoleHa
不用加减符号实现加减法 BrokenDreams 实现
今天有群友发了一个问题，要求不用加减符号(包括负号)来实现加减法。分析一下，先看最简单的情况，假设1+1，按二进制算的话结果是10，可以看到从右往左的第一位变为0，第二位由于进位变为1。
读《研磨设计模式》-代码笔记-状态模式-State bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /* 当一个对象的内在状态改变时允许改变其行为，这个对象看起来像是改变了其类状态模式主要解决的是当控制一个对象状态的条件表达式过于复杂时的情况把状态的判断逻辑转移到表示不同状态的一系列类中，可以把复杂的判断逻辑简化如果在
CUDA程序block和thread超出硬件允许值时的异常 cherishLC CUDA
调用CUDA的核函数时指定block 和 thread大小，该大小可以是dim3类型的（三维数组），只用一维时可以是usigned int型的。以下程序验证了当block或thread大小超出硬件允许值时会产生异常！！！GPU根本不会执行运算！！！所以验证结果的正确性很重要！！！在VS中创建CUDA项目会有一个模板，里面有更详细的状态验证。以下程序在K5000GPU上跑的。
诡异的超长时间GC问题定位 chenchao051 jvm cms GC hbase swap
HBase的GC策略采用PawNew+CMS, 这是大众化的配置，ParNew经常会出现停顿时间特别长的情况，有时候甚至长到令人发指的地步，例如请看如下日志： 2012-10-17T05:54:54.293+0800: 739594.224: [GC 739606.508: [ParNew: 996800K->110720K(996800K), 178.8826900 secs] 3700
maven环境快速搭建 daizj 安装 mavne 环境配置
一下载maven 安装maven之前，要先安装jdk及配置JAVA_HOME环境变量。这个安装和配置java环境不用多说。 maven下载地址：http://maven.apache.org/download.html，目前最新的是这个apache-maven-3.2.5-bin.zip，然后解压在任意位置，最好地址中不要带中文字符，这个做java 的都知道，地址中出现中文会出现很多
PHP网站安全，避免PHP网站受到攻击的方法 dcj3sjt126com PHP
对于PHP网站安全主要存在这样几种攻击方式:1、命令注入(Command Injection)2、eval注入(Eval Injection)3、客户端脚本攻击(Script Insertion)4、跨网站脚本攻击(Cross Site Scripting, XSS)5、SQL注入攻击(SQL injection)6、跨网站请求伪造攻击(Cross Site Request Forgerie
yii中给CGridView设置默认的排序根据时间倒序的方法 dcj3sjt126com GridView
public function searchWithRelated() { $criteria = new CDbCriteria; $criteria->together = true; //without th
Java集合对象和数组对象的转换 dyy_gusi java集合
在开发中，我们经常需要将集合对象（List，Set）转换为数组对象，或者将数组对象转换为集合对象。Java提供了相互转换的工具，但是我们使用的时候需要注意，不能乱用滥用。 1、数组对象转换为集合对象最暴力的方式是new一个集合对象，然后遍历数组，依次将数组中的元素放入到新的集合中，但是这样做显然过
nginx同一主机部署多个应用 geeksun nginx
近日有一需求，需要在一台主机上用nginx部署2个php应用，分别是wordpress和wiki，探索了半天，终于部署好了，下面把过程记录下来。 1. 在nginx下创建vhosts目录，用以放置vhost文件。 mkdir vhosts 2. 修改nginx.conf的配置，在http节点增加下面内容设置，用来包含vhosts里的配置文件 #
ubuntu添加admin权限的用户账号 hongtoushizi ubuntu useradd
ubuntu创建账号的方式通常用到两种：useradd 和adduser . 本人尝试了useradd方法，步骤如下： 1:useradd 使用useradd时，如果后面不加任何参数的话，如：sudo useradd sysadm 创建出来的用户将是默认的三无用户：无home directory ,无密码,无系统shell。顾应该如下操作：
第五章常用Lua开发库2-JSON库、编码转换、字符串处理 jinnianshilongnian nginx lua
JSON库在进行数据传输时JSON格式目前应用广泛，因此从Lua对象与JSON字符串之间相互转换是一个非常常见的功能；目前Lua也有几个JSON库，本人用过cjson、dkjson。其中cjson的语法严格（比如unicode \u0020\u7eaf），要求符合规范否则会解析失败（如\u002），而dkjson相对宽松，当然也可以通过修改cjson的源码来完成
Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解 yaerfeng1989 timer quartz 定时器
原创整理不易，转载请注明出处：Spring定时器配置的两种实现方式OpenSymphony Quartz和java Timer详解代码下载地址：http://www.zuidaima.com/share/1772648445103104.htm 有两种流行Spring定时器配置：Java的Timer类和OpenSymphony的Quartz。 1.Java Timer定时首先继承jav
Linux下df与du两个命令的差别？ pda158 linux
　一、df显示文件系统的使用情况，与du比較，就是更全盘化。　　最经常使用的就是 df -T，显示文件系统的使用情况并显示文件系统的类型。　　举比例如以下：　　[root@localhost ~]# df -T 　　Filesystem Type &n
[转]SQLite的工具类 ---- 通过反射把Cursor封装到VO对象 ctfzh VO android sqlite 反射 Cursor
在写DAO层时，觉得从Cursor里一个一个的取出字段值再装到VO(值对象)里太麻烦了，就写了一个工具类，用到了反射，可以把查询记录的值装到对应的VO里，也可以生成该VO的List。使用时需要注意：考虑到Android的性能问题，VO没有使用Setter和Getter，而是直接用public的属性。表中的字段名需要和VO的属性名一样，要是不一样就得在查询的SQL中
该学习笔记用到的Employee表 vipbooks oracle sql 工作
这是我在学习Oracle是用到的Employee表，在该笔记中用到的就是这张表，大家可以用它来学习和练习。 drop table Employee; -- 员工信息表 create table Employee( -- 员工编号 EmpNo number(3) primary key, -- 姓