izuoyan

程序员编程艺术第二十六章：基于给定的文档生成倒排索引（含源码下载）

第二十六章：基于给定的文档生成倒排索引的编码与实践

作者：July、yansha。
出处：结构之法算法之道

引言

本周实现倒排索引。实现过程中，寻找资料，结果发现找份资料诸多不易：1、网上搜倒排索引实现，结果千篇一律，例子都是那几个同样的单词；2、到谷歌学术上想找点稍微有价值水平的资料，结果下篇论文还收费或者要求注册之类；3、大部分技术书籍只有理论，没有实践。于是，朋友戏言：网上一般有价值的东西不多。希望，本blog的出现能稍稍改变此现状。

在第二十四章、倒排索引关键词不重复Hash编码中，我们针对一个给定的倒排索引文件，提取出其中的关键词，然后针对这些关键词进行Hash不重复编码。本章，咱们再倒退一步，即给定一个正排文档（暂略过文本解析，分词等步骤，日后会慢慢考虑这些且一并予以实现），要求生成对应的倒排索引文件。同时，本章还是基于Hash索引之上（运用暴雪的Hash函数可以比较完美的解决大数据量下的冲突问题），日后自会实现B+树索引。

与此同时，本编程艺术系列逐步从为面试服务而转到实战性的编程当中了，教初学者如何编程，如何运用高效的算法解决实际应用中的编程问题，将逐步成为本编程艺术系列的主旨之一。

OK，接下来，咱们针对给定的正排文档一步一步来生成倒排索引文件，有任何问题，欢迎随时不吝赐教或批评指正。谢谢。

第一节、索引的构建方法

根据信息检索导论（Christtopher D.Manning等著，王斌译）一书给的提示，我们可以选择两种构建索引的算法：BSBI算法，与SPIMI算法。

BSBI算法，基于磁盘的外部排序算法，此算法首先将词项映射成其ID的数据结构，如Hash映射。而后将文档解析成词项ID-文档ID对，并在内存中一直处理，直到累积至放满一个固定大小的块空间为止，我们选择合适的块大小，使之能方便加载到内存中并允许在内存中快速排序，快速排序后的块转换成倒排索引格式后写入磁盘。

建立倒排索引的步骤如下：

将文档分割成几个大小相等的部分；
对词项ID-文档ID进行排序；
将具有同一词项ID的所有文档ID放到倒排记录表中，其中每条倒排记录仅仅是一个文档ID；
将基于块的倒排索引写到磁盘上。

此算法假如说最后可能会产生10个块。其伪码如下：
（基于块的排序索引算法，该算法将每个块的倒排索引文件存入文件f1,...,fn中，最后合并成fmerged
如果该算法应用最后一步产生了10个块，那么接下来便会将10个块索引同时合并成一个索引文件。）

合并时，同时打开所有块对应的文件，内存中维护了为10个块准备的读缓冲区和一个为最终合并索引准备的写缓冲区。每次迭代中，利用优先级队列（如堆结构或类似的数据结构）选择最小的未处理的词项ID进行处理。如下图所示（图片引自深入搜索引擎--海里信息的压缩、索引和查询，梁斌译），分块索引，分块排序，最终全部合并（说实话，跟MapReduce还是有些类似的）：

读入该词项的倒排记录表并合并，合并结果写回磁盘中。需要时，再次从文件中读入数据到每个读缓冲区（基于磁盘的外部排序算法的更多可以参考：程序员编程艺术第十章、如何给10^7个数据量的磁盘文件排序）。

BSBI算法主要的时间消耗在排序上，选择什么排序方法呢，简单的快速排序足矣，其时间复杂度为O（N*logN），其中N是所需要排序的项（词项ID-文档ID对）的数目的上界。

SPIMI算法，内存式单遍扫描索引算法
与上述BSBI算法不同的是：SPIMI使用词项而不是其ID，它将每个块的词典写入磁盘，对于写一块则重新采用新的词典，只要硬盘空间足够大，它能索引任何大小的文档集。
倒排索引 = 词典（关键词或词项+词项频率）+倒排记录表。建倒排索引的步骤如下：

从头开始扫描每一个词项-文档ID（信息）对，遇一词，构建索引；
继续扫描，若遇一新词，则再建一新索引块（加入词典，通过Hash表实现，同时，建一新的倒排记录表）；若遇一旧词，则找到其倒排记录表的位置，添加其后
在内存内基于分块完成排序，后合并分块；
写入磁盘。

其伪码如下：
SPIMI与BSBI的主要区别：
SPIMI当发现关键词是第一次出现时，会直接在倒排记录表中增加一项（与BSBI算法不同）。同时，与BSBI算法一开始就整理出所有的词项ID-文档ID，并对它们进行排序的做法不同（而这恰恰是BSBI的做法），这里的每个倒排记录表都是动态增长的（也就是说，倒排记录表的大小会不断调整），同时，扫描一遍就可以实现全体倒排记录表的收集。
SPIMI这样做有两点好处:

由于不需要排序操作，因此处理的速度更快，
由于保留了倒排记录表对词项的归属关系，因此能节省内存，词项的ID也不需要保存。这样，每次单独的SPIMI-Invert调用能够处理的块大小可以非常大，整个倒排索引的构建过程也可以非常高效。

但不得不提的是，由于事先并不知道每个词项的倒排记录表大小，算法一开始只能分配一个较小的倒排记录表空间，每次当该空间放满的时候，就会申请加倍的空间，
与此同时，自然而然便会浪费一部分空间（当然，此前因为不保存词项ID，倒也省下一点空间，总体而言，算作是抵销了）。
不过，至少SPIMI所用的空间会比BSBI所用空间少。当内存耗尽后，包括词典和倒排记录表的块索引将被写到磁盘上，但在此之前，为使倒排记录表按照词典顺序来加快最后的合并操作，所以要对词项进行排序操作。

小数据量与大数据量的区别

在小数据量时，有足够的内存保证该创建过程可以一次完成；
数据规模增大后，可以采用分组索引，然后再归并索引的策略。该策略是，

建立索引的模块根据当时运行系统所在的计算机的内存大小，将索引分为 k 组，使得每组运算所需内存都小于系统能够提供的最大使用内存的大小。
按照倒排索引的生成算法，生成 k 组倒排索引。
然后将这 k 组索引归并，即将相同索引词对应的数据合并到一起，就得到了以索引词为主键的最终的倒排文件索引，即反向索引。

为了测试的方便，本文针对小数据量进行从正排文档到倒排索引文件的实现。而且针对大数量的K路归并算法或基于磁盘的外部排序算法本编程艺术系列第十章中已有详细阐述。

第二节、Hash表的构建与实现

如下，给定如下图所示的正排文档，每一行的信息分别为（中间用##########隔开）：文档ID、订阅源（子频道）、频道分类、网站类ID（大频道）、时间、 md5、文档权值、关键词、作者等等。

要求基于给定的上述正排文档。生成如第二十四章所示的倒排索引文件（注，关键词所在的文章如果是同一个日期的话，是挨在同一行的，用“#”符号隔开）：

我们知道：为网页建立全文索引是网页预处理的核心部分，包括分析网页和建立倒排文件。二者是顺序进行，先分析网页，后建立倒排文件（也称为反向索引），如图所示：

正如上图粗略所示，我们知道倒排索引创建的过程如下：

写爬虫抓取相关的网页，而后提取相关网页或文章中所有的关键词；
分词，找出所有单词；
过滤不相干的信息（如广告等信息）；
构建倒排索引，关键词=>（文章ID 出现次数出现的位置）
生成词典文件频率文件位置文件
压缩。

因为已经给定了正排文档，接下来，咱们跳过一系列文本解析，分词等中间步骤，直接根据正排文档生成倒排索引文档（幸亏有yansha相助，不然，寸步难行，其微博地址为： http://weibo.com/yanshazi，欢迎关注他）。
OK，闲不多说，咱们来一步一步实现吧。

建相关的数据结构

根据给定的正排文档，我们可以建立如下的两个结构体表示这些信息：文档ID、订阅源（子频道）、频道分类、网站类ID（大频道）、时间、 md5、文档权值、关键词、作者等等。如下所示：

我们知道，通过第二十四章的暴雪的Hash表算法，可以比较好的避免相关冲突的问题。下面，我们再次引用其代码：

基于暴雪的Hash之上的改造算法

//函数prepareCryptTable以下的函数生成一个长度为0x100的cryptTable[0x100] 
void PrepareCryptTable()
{
	unsigned long seed = 0x00100001, index1 = 0, index2 = 0, i;

for( index1 = 0; index1 <0x100; index1++ )
	{
		for( index2 = index1, i = 0; i < 5; i++, index2 += 0x100)
		{
			unsigned long temp1, temp2;
			seed = (seed * 125 + 3) % 0x2AAAAB;
			temp1 = (seed & 0xFFFF)<<0x10;
			seed = (seed * 125 + 3) % 0x2AAAAB;
			temp2 = (seed & 0xFFFF);
			cryptTable[index2] = ( temp1 | temp2 );
		}
	}
}

//函数HashString以下函数计算lpszFileName 字符串的hash值，其中dwHashType 为hash的类型，
unsigned long HashString(const char *lpszkeyName, unsigned long dwHashType )
{
	unsigned char *key  = (unsigned char *)lpszkeyName;
	unsigned long seed1 = 0x7FED7FED;
	unsigned long seed2 = 0xEEEEEEEE;
	int ch;

while( *key != 0 )
	{
		ch = *key++;
		seed1 = cryptTable[(dwHashType<<8) + ch] ^ (seed1 + seed2);
		seed2 = ch + seed1 + seed2 + (seed2<<5) + 3;
	}
	return seed1;
}

//按关键字查询，如果成功返回hash表中索引位置
key_list SearchByString(const char *string_in)
{
	const int HASH_OFFSET = 0, HASH_C = 1, HASH_D = 2;
	unsigned int nHash = HashString(string_in, HASH_OFFSET);
	unsigned int nHashC = HashString(string_in, HASH_C);
	unsigned int nHashD = HashString(string_in, HASH_D);
	unsigned int nHashStart = nHash % TABLE_SIZE;
	unsigned int nHashPos = nHashStart;

while (HashTable[nHashPos].bExists) 
	{
		if (HashATable[nHashPos] == (int) nHashC && HashBTable[nHashPos] == (int) nHashD) 
		{
			break;
			//查询与插入不同，此处不需修改
		} 
		else 
		{
			nHashPos = (nHashPos + 1) % TABLE_SIZE;
		}

if (nHashPos == nHashStart) 
		{
			break;
		}
	}

if( key_array[nHashPos] && strlen(key_array[nHashPos]->pkey)) 
	{
		return key_array[nHashPos];
	}

return NULL;
}

//按索引查询，如果成功返回关键字（此函数在本章中没有被用到，可以忽略）
key_list SearchByIndex(unsigned int nIndex)
{
	unsigned int nHashPos = nIndex;
	if (nIndex < TABLE_SIZE)
	{		
		if(key_array[nHashPos] && strlen(key_array[nHashPos]->pkey)) 
		{
			return key_array[nHashPos];
		}
	}

return NULL;
}

//插入关键字，如果成功返回hash值
int InsertString(const char *str)
{
	const int HASH_OFFSET = 0, HASH_A = 1, HASH_B = 2;
	unsigned int nHash = HashString(str, HASH_OFFSET);
	unsigned int nHashA = HashString(str, HASH_A);
	unsigned int nHashB = HashString(str, HASH_B);
	unsigned int nHashStart = nHash % TABLE_SIZE;
	unsigned int nHashPos = nHashStart;
	int len;

while (HashTable[nHashPos].bExists)
	{
		nHashPos = (nHashPos + 1) % TABLE_SIZE;

if (nHashPos == nHashStart)
			break;
	}

len = strlen(str);
	if (!HashTable[nHashPos].bExists && (len < WORD_MAX_LEN))
	{ 
		HashATable[nHashPos] = nHashA;
		HashBTable[nHashPos] = nHashB;

key_array[nHashPos] = (KEYNODE *) malloc (sizeof(KEYNODE) * 1);
		if(key_array[nHashPos] == NULL)
		{
			printf("10000 EMS ERROR !!!!\n");
			return 0;
		}

key_array[nHashPos]->pkey = (char *)malloc(len+1);
		if(key_array[nHashPos]->pkey == NULL)
		{
			printf("10000 EMS ERROR !!!!\n");
			return 0;
		}

memset(key_array[nHashPos]->pkey, 0, len+1);
		strncpy(key_array[nHashPos]->pkey, str, len);
		*((key_array[nHashPos]->pkey)+len) = 0;
		key_array[nHashPos]->pos = nHashPos;
		key_array[nHashPos]->count = 1;
		key_array[nHashPos]->next = NULL;
		HashTable[nHashPos].bExists = 1;
		return nHashPos;
	}

if(HashTable[nHashPos].bExists)
		printf("30000 in the hash table %s !!!\n", str);
	else
		printf("90000 strkey error !!!\n");
	return -1;
}

有了这个Hash表，接下来，我们就可以把词插入Hash表进行存储了。

第三节、倒排索引文件的生成与实现

Hash表实现了（存于HashSearch.h中），还得编写一系列的函数，如下所示（所有代码还只是初步实现了功能，稍后在第四部分中将予以改进与优化）：

//处理空白字符和空白行
int GetRealString(char *pbuf)
{
	int len = strlen(pbuf) - 1;
	while (len > 0 && (pbuf[len] == (char)0x0d || pbuf[len] == (char)0x0a || pbuf[len] == ' ' || pbuf[len] == '\t')) 
	{
		len--;
	}

if (len < 0) 
	{
		*pbuf = '\0';
		return len;
	}
	pbuf[len+1] = '\0';
	return len + 1;
}

//重新strcoll字符串比较函数
int strcoll(const void *s1, const void *s2) 
{
	char *c_s1 = (char *)s1;
	char *c_s2 = (char *)s2;
	while (*c_s1 == *c_s2++)
	{
		if (*c_s1++ == '\0') 
		{
			return 0;
		}
	}

return *c_s1 - *--c_s2;
}

//从行缓冲中得到各项信息，将其写入items数组
void GetItems(char *&move, int &count, int &wordnum) 
{
	char *front = move;
	bool flag = false;
	int len;
	move = strstr(move, "#####");
	if (*(move + 5) == '#') 
	{
		flag = true;
	}

if (move) 
	{
		len = move - front;
		strncpy(items[count], front, len);
	}
	items[count][len] = '\0';
	count++;

if (flag) 
	{
		move = move + 10;
	} else 
	{
		move = move + 5;
	}
}

//保存关键字相应的文档内容
doc_list SaveItems() 
{
	doc_list infolist = (doc_list) malloc(sizeof(DOCNODE));
	strcpy_s(infolist->id, items[0]);
	infolist->classOne = atoi(items[1]);
	strcpy_s(infolist->classTwo, items[2]);
	infolist->classThree = atoi(items[3]);
	strcpy_s(infolist->time, items[4]);
	strcpy_s(infolist->md5, items[5]);   
	infolist->weight = atoi(items[6]);
	return infolist;
}

//得到目录下所有文件名
int GetFileName(char filename[][FILENAME_MAX_LEN])
{
	_finddata_t file;
	long handle;
	int filenum = 0;
	//C:\Users\zhangxu\Desktop\CreateInvertedIndex\data
	if ((handle = _findfirst("C:\\Users\\zhangxu\\Desktop\\CreateInvertedIndex\\data\\*.txt", &file)) == -1) 
	{
		printf("Not Found\n");
	} 
	else 
	{
		do 
		{
			strcpy_s(filename[filenum++], file.name);
		} while (!_findnext(handle, &file));
	}	
	_findclose(handle);
	return filenum;
}

//以读方式打开文件，如果成功返回文件指针
FILE* OpenReadFile(int index, char filename[][FILENAME_MAX_LEN]) 
{
	char *abspath;
	char dirpath[] = {"data\\"};
	abspath = (char *)malloc(ABSPATH_MAX_LEN);
	strcpy_s(abspath, ABSPATH_MAX_LEN, dirpath);
	strcat_s(abspath, FILENAME_MAX_LEN, filename[index]);

FILE *fp = fopen (abspath, "r");
	if (fp == NULL) 
	{
		printf("open read file error!\n");
		return NULL;
	} 
	else 
	{
		return fp;
	}
}

//以写方式打开文件，如果成功返回文件指针
FILE* OpenWriteFile(const char *in_file_path) 
{
	if (in_file_path == NULL) 
	{
		printf("output file path error!\n");
		return NULL;
	}

FILE *fp = fopen(in_file_path, "w+");
	if (fp == NULL) 
	{
		printf("open write file error!\n");
	}
	return fp;
}

最后，主函数编写如下：

int main()
{  
	key_list keylist;  
	char *pbuf, *move;  
	int filenum = GetFileName(filename);  
	FILE *fr;  
	pbuf = (char *)malloc(BUF_MAX_LEN);  
	memset(pbuf, 0, BUF_MAX_LEN);

FILE *fw = OpenWriteFile("index.txt");  
	if (fw == NULL)   
	{  
		return 0;  
	}

PrepareCryptTable();    //初始化Hash表

int wordnum = 0;  
	for (int i = 0; i < filenum; i++)  
	{  
		fr = OpenReadFile(i, filename);  
		if (fr == NULL)   
		{  
			break;  
		}

// 每次读取一行处理  
		while (fgets(pbuf, BUF_MAX_LEN, fr))  
		{  
			int count = 0;  
			move = pbuf;  
			if (GetRealString(pbuf) <= 1)  
				continue;

while (move != NULL)  
			{  
				// 找到第一个非'#'的字符  
				while (*move == '#')  
					move++;

if (!strcmp(move, ""))  
					break;

GetItems(move, count, wordnum);  
			}

for (int i = 7; i < count; i++)   
			{  
				// 将关键字对应的文档内容加入文档结点链表中 
				if (keylist = SearchByString(items[i]))     //到hash表内查询  
				{  
					doc_list infolist = SaveItems();  
					infolist->next = keylist->next;  
					keylist->count++;  
					keylist->next = infolist;  
				}   
				else  
				{  
					// 如果关键字第一次出现，则将其加入hash表  
					int pos = InsertString(items[i]);       //插入hash表  
					keylist = key_array[pos];  
					doc_list infolist = SaveItems();  
					infolist->next = NULL;  
					keylist->next = infolist;  
					if (pos != -1)   
					{  
						strcpy_s(words[wordnum++], items[i]);  
					}  
				}  
			}  
		}  
	}

// 通过快排对关键字进行排序  
	qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);

// 遍历关键字数组，将关键字及其对应的文档内容写入文件中  
	for (int i = 0; i < WORD_MAX_NUM; i++)   
	{  
		keylist = SearchByString(words[i]);  
		if (keylist != NULL)   
		{  
			fprintf(fw, "%s %d\n", words[i], keylist->count);  
			doc_list infolist = keylist->next;  
			for (int j = 0; j < keylist->count; j++)  
			{  
				//文档ID，订阅源（子频道） 频道分类 网站类ID（大频道） 时间  md5，文档权值  
				fprintf(fw, "%s %d %s %d %s %s %d\n", infolist->id, infolist->classOne,   
					infolist->classTwo, infolist->classThree, infolist->time, infolist->md5, infolist->weight);  
				infolist = infolist->next;  
			}  
		}  
	}

free(pbuf);  
	fclose(fr);  
	fclose(fw);  
	system("pause");  
	return 0;  
}

程序编译运行后，生成的倒排索引文件为index.txt，其与原来给定的正排文档对照如下：

有没有发现关键词奥恰洛夫出现在的三篇文章是同一个日期1210的，貌似与本文开头指定的倒排索引格式要求不符？因为第二部分开头中，已明确说明：“注，关键词所在的文章如果是同一个日期的话，是挨在同一行的，用“#”符号隔开”。OK，有疑问是好事，代表你思考了，请直接转至下文第4部分。

第四节、程序需求功能的改进

4.1、对相同日期与不同日期的处理

细心的读者可能还是会注意到：在第二部分开头中，要求基于给定的上述正排文档。生成如第二十四章所示的倒排索引文件是下面这样子的，即是：

也就是说，上面建索引的过程本该是如下的：

与第一部分所述的SMIPI算法有什么区别？对的，就在于对在同一个日期的出现的关键词的处理。如果是遇一旧词，则找到其倒排记录表的位置：相同日期，添加到之前同一日期的记录之后（第一个记录的后面记下同一日期的记录数目）；不同日期，另起一行新增记录。

相同（单个）日期，根据文档权值排序
不同日期，根据时间排序

代码主要修改如下：

//function: 对链表进行冒泡排序
void ListSort(key_list keylist) 
{
	doc_list p = keylist->next;
	doc_list final = NULL;
	while (true)
	{
		bool isfinish = true;
		while (p->next != final) {
			if (strcmp(p->time, p->next->time) < 0)
			{
				SwapDocNode(p);
				isfinish = false;
			}
			p = p->next;
		}
		final = p;
		p = keylist->next;
		if (isfinish || p->next == final) {
			break;
		}
	}
}

int main() 
{
	key_list keylist;
	char *pbuf, *move;
	int filenum = GetFileName(filename);
	FILE *frp;
	pbuf = (char *)malloc(BUF_MAX_LEN);
	memset(pbuf, 0, BUF_MAX_LEN);

FILE *fwp = OpenWriteFile("index.txt");
	if (fwp == NULL) {
		return 0;
	}

PrepareCryptTable();

int wordnum = 0;
	for (int i = 0; i < filenum; i++)
	{
		frp = OpenReadFile(i, filename);
		if (frp == NULL) {
			break;
		}

// 每次读取一行处理
		while (fgets(pbuf, BUF_MAX_LEN, frp))
		{
			int count = 0;
			move = pbuf;
			if (GetRealString(pbuf) <= 1)
				continue;

while (move != NULL)
			{
				// 找到第一个非'#'的字符
				while (*move == '#')
					move++;

if (!strcmp(move, ""))
					break;

GetItems(move, count, wordnum);
			}

for (int i = 7; i < count; i++) {
				// 将关键字对应的文档内容加入文档结点链表中
				// 如果关键字第一次出现，则将其加入hash表
				if (keylist = SearchByString(items[i])) {
					doc_list infolist = SaveItems();
					infolist->next = keylist->next;
					keylist->count++;
					keylist->next = infolist;
				} else {
					int pos = InsertString(items[i]);
					keylist = key_array[pos];
					doc_list infolist = SaveItems();
					infolist->next = NULL;
					keylist->next = infolist;
					if (pos != -1) {
						strcpy_s(words[wordnum++], items[i]);
					}
				}
			}
		}
	}

// 通过快排对关键字进行排序
	qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);

// 遍历关键字数组，将关键字及其对应的文档内容写入文件中
	int rownum = 1;
	for (int i = 0; i < WORD_MAX_NUM; i++) {
		keylist = SearchByString(words[i]);
		if (keylist != NULL) {
			doc_list infolist = keylist->next;

char date[9];

// 截取年月日
			for (int j = 0; j < keylist->count; j++)
			{
				strncpy_s(date, infolist->time, 8);
				date[8] = '\0';
				strncpy_s(infolist->time, date, 9);
				infolist = infolist->next;
			}

// 对链表根据时间进行排序
			ListSort(keylist);

infolist = keylist->next;
			int *count = new int[WORD_MAX_NUM];
			memset(count, 0, WORD_MAX_NUM);
			strcpy_s(date, infolist->time);
			int num = 0;
			// 得到单个日期的文档数目
			for (int j = 0; j < keylist->count; j++)
			{
				if (strcmp(date, infolist->time) == 0) {
					count[num]++;
				} else {
					count[++num]++;
				}
				strcpy_s(date, infolist->time);
				infolist = infolist->next;
			}
			fprintf(fwp, "%s %d %d\n", words[i], num + 1, rownum);
			WriteFile(keylist, num, fwp, count);
			rownum++;
		}
	}

free(pbuf);
//	fclose(frp);
	fclose(fwp);
	system("pause");
	return 0;
}

修改后编译运行，生成的index.txt文件如下：

4.2、为关键词添上编码

如上图所示，已经满足需求了。但可以再在每个关键词的背后添加一个计数表示索引到了第多少个关键词：

第五节、算法的二次改进

5.1、省去二次Hash

针对本文评论下读者的留言，做了下思考，自觉可以省去二次hash：

for (int i = 7; i < count; i++)     
            {    
                // 将关键字对应的文档内容加入文档结点链表中   
                //也就是说当查询到hash表中没有某个关键词之,后便会插入  
                //而查询的时候，search会调用hashstring，得到了nHashC ，nHashD  
                //插入的时候又调用了一次hashstring，得到了nHashA，nHashB  
                //而如果查询的时候，是针对同一个关键词查询的，所以也就是说nHashC&nHashD，与nHashA&nHashB是相同的，无需二次hash  
                //所以，若要改进，改的也就是下面这个if~else语句里头。July，2011.12.30。  
                if (keylist = SearchByString(items[i]))     //到hash表内查询    
                {    
                    doc_list infolist = SaveItems();    
                    infolist->next = keylist->next;    
                    keylist->count++;    
                    keylist->next = infolist;    
                }     
                else    
                {    
                    // 如果关键字第一次出现，则将其加入hash表    
                    int pos = InsertString(items[i]);       //插入hash表    
                    keylist = key_array[pos];    
                    doc_list infolist = SaveItems();    
                    infolist->next = NULL;    
                    keylist->next = infolist;    
                    if (pos != -1)     
                    {    
                        strcpy_s(words[wordnum++], items[i]);    
                    }    
                }    
            }    
        }    
    }    
  
    // 通过快排对关键字进行排序    
    qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);

5.2、除去排序，针对不同日期的记录直接插入

综上5.1、5.2两节免去冒泡排序和，省去二次hash和免去冒泡排序，修改后如下：

for (int i = 7; i < count; i++) {  
                // 将关键字对应的文档内容加入文档结点链表中  
                // 如果关键字第一次出现，则将其加入hash表  
                InitHashValue(items[i], hashvalue);  
                if (keynode = SearchByString(items[i], hashvalue)) {  
                    doc_list infonode = SaveItems();  
                    doc_list p = keynode->next;  
                    // 根据时间由早到晚排序  
                    if (strcmp(infonode->time, p->time) < 0) {  
                        //考虑infonode插入keynode后的情况  
                        infonode->next = p;  
                        keynode->next = infonode;  
                    } else {  
                        //考虑其他情况  
                        doc_list pre = p;  
                        p = p->next;  
                        while (p)  
                        {  
                            if (strcmp(infonode->time, p->time) > 0) {  
                                p = p->next;  
                                pre = pre->next;  
                            } else {  
                                break;  
                            }     
                        }  
                        infonode->next = p;  
                        pre->next = infonode;  
                    }  
                    keynode->count++;  
                } else {  
                    int pos = InsertString(items[i], hashvalue);  
                    keynode = key_array[pos];  
                    doc_list infolist = SaveItems();  
                    infolist->next = NULL;  
                    keynode->next = infolist;  
                    if (pos != -1) {  
                        strcpy_s(words[wordnum++], items[i]);  
                    }  
                }  
            }  
        }  
    }  
  
    // 通过快排对关键字进行排序  
    qsort(words, WORD_MAX_NUM, WORD_MAX_LEN, strcoll);

修改后编译运行的效果图如下（用了另外一份更大的数据文件进行测试）：

本章全部源码请到以下两处任一一处下载（欢迎读者朋友们继续优化，若能反馈于我，则幸甚不过了）：

http://download.csdn.net/detail/v_july_v/4012605（csdn下载处）
https://github.com/fuxiang90/CreateInvertedIndex.（github下载处）

后记

本文代码还有很多的地方可以改进和优化，请待后续更新。当然，代码看起来也很青嫩，亟待提高阿。

近几日后，准备编程艺术室内38位兄弟的靓照和blog或空间地址公布在博客内，给读者一个联系他们的方式，顺便还能替他们征征友招招婚之类的。ys，土豆，水哥，老梦，3，飞羽，风清扬，well，weedge，xiaolin，555等等三十八位兄弟皆都对编程艺术系列贡献卓著。

最后说一句，读者朋友们中如果是初学编程的话切勿跟风学算法，夯实编程基础才是最重要的。预祝各位元旦快乐。谢谢，本章完。

你可能感兴趣的:(倒排索引)

go向量数据库 leijmdas golang
在Go语言中，有几个开源的向量数据库项目可供选择。以下是一些受欢迎的选项：1.Milvus：Milvus是一个开源的向量数据库，专为AI应用设计，支持大规模的向量相似性搜索。Milvus2.0版本采用云原生架构，具有存储和计算分离的特点，支持水平扩展以处理数十亿的向量数据。Milvus提供了Go语言的SDK，可以轻松集成到Go应用程序中。Milvus支持多种索引类型，如倒排索引、HNSW、IVF等
搜索引擎设计：如何避免大海捞针般的信息搜索 CopyLower 架构 Java 学习搜索引擎
搜索引擎设计：如何避免大海捞针般的信息搜索随着互联网的发展，信息的数量呈爆炸式增长。如何在海量信息中快速、准确地找到所需信息，成为了搜索引擎设计中的核心问题。本文将详细探讨搜索引擎的设计原理和技术，从信息获取、索引建立、查询处理、结果排序到性能优化，全面解析如何避免大海捞针般的信息搜索。目录引言信息获取网页抓取数据清洗索引建立倒排索引正排索引查询处理查询解析词法分析与分词查询扩展结果排序相关性评分
Elasticsearch检索原理知知之之 Elasticsearch elasticsearch 大数据搜索引擎
Elasticsearch的检索原理主要基于其内部使用的倒排索引结构，以及诸如BM25等相关性评分算法。查询解析当用户提交查询时，Elasticsearch接收和解析该请求，包括确定查询类型（如Match、Bool、Term等）和相关字段。解析过程涉及以下步骤：查询解析：Elasticsearch会对查询进行语法和语义分析。分词处理：对查询中的文本进行分词处理，将其转换为词项，以便于与倒排索引对应
分布式搜索引擎Elasticsearch——基础敲代码的旺财架构进阶 elasticsearch java 搜索引擎 ES-head
文章目录一、Lucene与Solr与Elasticsearch二、ES核心术语三、ES核心概念四、倒排索引五、ES的安装（centos7）1、下载地址（这里安装linux版本）2、解压压缩包3、修改配置文件(1)修改核心配置文件(2)修改JVM配置文件4、启动ES(1)添加系统用户并授权(2)ES启动(3)修改配置文件(4)再次启动ES六、安装ES-head插件（可视化管理插件）1、使用谷歌市场安
以飞花令为例讲透Elasticsearch原理！ Java高级架构师之路
小史是一个非科班的程序员，虽然学的是电子专业，但是通过自己的努力成功通过了面试，现在要开始迎接新生活了。随着央视诗词大会的热播，小史开始对诗词感兴趣，最喜欢的就是飞花令的环节。但是由于小史很久没有背过诗词了，飞一个字很难说出一句，很多之前很熟悉的诗句也想不起来。倒排索引吕老师：但是我让你说出带“前”字的诗句，由于没有索引，你只能遍历脑海中所有诗词，当你的脑海中诗词量大的时候，就很难在短时间内得到结
数据库面试题-ElasticSearch @Corgi Java面试题数据库 elasticsearch 大数据 java 面试题
数据库面试题-ElasticSearch1、ElasticSearch是什么？2、谈谈ElasticSearch分词与倒排索引的原理？3、说说ElasticSearch分段存储的思想？4、说说你对ElasticSearch段合并的策略思想的认识？5、知道什么是文本相似度TF-IDF吗？6、说说ElasticSearch写索引的逻辑？7、说说ElasticSearch集群中搜索数据的过程？8、说说E
Java ElasticSearch面试题旺仔爱Java JAVA面试题 java elasticsearch 开发语言面试 ES
JavaES-ElasticSearch面试题前言1、ElasticSearch是什么？2.说说你们公司ES的集群架构，索引数据大小，分片有多少？3.ES的倒排索引是什么？4.ES是如何实现master选举的?5.描述一下ES索引文档的过程：6、文档从接收到写入磁盘过程：7、ES在部署时，有哪些优化方法？8、ES中的节点（比如共20个），其中的10个选了一个master，另外10个选了另一个mas
Elasticsearch详解es 思静语 elasticsearch elasticsearch 大数据搜索引擎
文章目录概述es架构为什么要使用ElasticSearchElasticSearch的优势使用场景es为什么这么快倒排索引如何保证ES和数据库的数据一致性监听binlog同步双写elasticsearch是如何实现master选举的Elasticsearch与Solr的区别概述ES全称是ElasticSearch，它是一个建立在全文搜索引擎库Lucene基础上的开源搜索和分析引擎。ES它本身具有分
探秘Elasticsearch：高性能搜索引擎的原理与应用场景（一）凛鼕将至搜索引擎 elasticsearch 大数据
本系列文章简介：本系列文章将探秘Elasticsearch的原理与应用场景，从基本原理到具体应用，带领读者全面了解这一强大的搜索引擎。首先我们将介绍Elasticsearch的基本原理，包括分布式架构、倒排索引和分片等核心概念。然后我们将深入探讨Elasticsearch的搜索原理，包括查询解析、相似度计算和布尔搜索等关键技术。接着我们将讨论Elasticsearch的索引和映射，了解如何对文档进
《倒排索引》刚满十八工地搬砖数据结构
1、了解倒排索引的基本概念1.1、倒排索引是什么倒排索引是一种用于全文搜索的数据结构，它将文档中的每个单词映射到包含该单词的所有文档的列表中，然后用该列表替换单词。因此，倒排索引在文本搜索和信息检索中广泛应用，如搜索引擎、网站搜索、文本分类等场景中。具体来说，一个倒排索引包含一个词语词典和每个词语对应的倒排列表。倒排列表中记录了包含该词语的所有文档的编号、词频等信息。这让我们能够在O(1)的时间内
ElasticSearch 模糊查询嘟嘟嘟嘟嘟嘟222 ElasticSearch elasticsearch
前缀搜索#前缀搜索注意：前缀搜索匹配的是trem,而不是filed，倒排索引的分词性能比较差，没有缓存搜索时尽量把前缀词设置长一点GET/product/_search{"query":{"prefix":{"name":{"value":"小米"}}}}通配符通配搜索匹配的是tremGET/product/_search{"query":{"wildcard":{"name":{"value":
ElasticSearch | Completion Suggester | Context Suggester 乌鲁木齐001号程序员
TheCompletionSuggesterCompletionSuggester提供了“自动完成（AutoCompletion）”的功能，用户每输入一个字符，就需要即时发送一个查询请求到后端查找匹配项；这种功能对性能的要求比较苛刻，ElasticSearch采用了不同的数据结构，而不是使用了倒排索引来实现；通过将Analyze的数据编码成FST和索引一起存放；FST会被ES整个加载进内存，从而达
【Elasticsearch专栏 02】深入探索：Elasticsearch为什么使用倒排索引而不是正排索引浅夏的猫 Elasticsearch专栏 elasticsearch 大数据 java 开源软件搜索引擎
文章目录为什么使用倒排索引而不是正排索引？1.正排索引（ForwardIndex）2.倒排索引（InvertedIndex）3.小结为什么使用倒排索引而不是正排索引？Elasticsearch选择使用倒排索引而不是正排索引，主要是基于倒排索引在处理全文搜索和大规模数据集时的优势。下面将详细解释为什么Elasticsearch更倾向于使用倒排索引，并提供一些简化的代码片段来说明这两种索引结构的基本差
数据检索：倒排索引加速、top-k和k最邻近 SakamataZ 搜索广告推荐
之前在https://www.yuque.com/treblez/qksu6c/wbaggl2t24wxwqb8?singleDoc#《Elasticsearch:非结构化的数据搜索》我们看了ES的设计，主要侧重于它分布式的设计以及LSM-Tree，今天我们来关注算法部分：如何进行检索算法的设计以及如何加速倒排索引。然后看看topk的面试热门题如何解决。状态检索：bitmap的哈希函数公式bitm
ElscticSearch基础操作车马去闲闲丶 elasticsearch
Es数据格式和Mysql对比ElasticSearchindex(索引)Type(类型)Documents(文档)Fields(字段)MySQLDatabases(数据库)Table(表)Row(行)Column(列)倒排索引正向索引,在Mysql中使用的索引就是正排索引,索引对应的就是直接的数据例子:idcontent1mynameiszhangsan2mynameislisi倒排索引,是关键字
ES入门知识点总结帅气的梧桐述 Elasticsearch elasticsearch es 倒排索引搜索引擎
目录倒排索引倒排索引Elasticsearch的倒排索引是一种数据结构，用于加快基于文本的搜索操作。它的主要优势在于能够快速找到包含特定单词的文档。倒排索引的构建过程如下：文档分词：将文档内容分割成单独的词（或者更小的词元，如果是中文的话是分词）。创建词典：创建一个包含所有不重复词的列表，也称为词典。创建排序列表：对于词典中的每个词，创建一个排序列表，列出所有包含该词的文档ID。倒排索引的理解可以
（三十七）大数据实战——Solr服务的部署安装厉害哥哥吖大数据大数据 solr
前言Solr是一个基于ApacheLucene的开源搜索平台，它提供了强大的全文搜索、分布式搜索和数据分析功能。Solr可以用于构建高性能的搜索应用程序，支持从海量数据中快速检索和分析信息。Solr使用倒排索引和先进的搜索算法，可实现快速而准确的全文搜索。Solr可以在多个服务器上进行水平扩展，实现分布式搜索和负载均衡。Solr支持复杂的过滤、排序和范围查询，使您可以根据各种条件对搜索结果进行精确
Elasticsearch 数据类型系列大口吃饭大口吐
核心数据类型字符串类型string(被取代了)：这是一个已经过期的字符串类型。在es5之前，用这个来描述字符串，现在的话，它已经被text和keyword替代了text：如果一个字段是要被全文检索的，比如说博客内容、产品描述，那么可以使用text。用了text之后，字段内容会被分析，在生成倒排索引之前，字符串会被分词器分成一个个词项。text类型的字段不用于排序，很少用于聚合，这种字符串也被称为a
03-03 elasticsearch nan得糊涂
入门篇使用场景海量存储：支持分布式存储实时搜索：lucene倒排索引，海量数据下近乎实时搜索a.日志分析，es+logstash+kibanab.Github代码数据分析：支持数据分析及处理基本功能分布式的搜索引擎和数据分析引擎全文检索，结构化检索，数据分析海量数据实时处理根据这些功能，可以实现的使用场景某张表有海量数据，需要实时快速查询数据分析带来的问题ES用在海量数据实时查询，基本的数据分析等
ES实战-分析数据1 wzerofeng elasticsearch postman 大数据
分析是文档被发送并加入倒排索引之前,es在其主体上进行的操作,具体如下1.字符过滤-使用字符过滤器转变字符2.文本切分为分词-将文本切分为单个或多个分词3,分词过滤-使用分词过滤器转变每个分词4.分词索引-将这些分词存储到索引中为文档使用分析器1.当创建索引的时候,为特定的索引进行设置-直接生效2.在es配置文件中,设置全局分析器-需重启生效在映射中指定某个字段的分析器#为description字
ElasticSearch快速开始山鸟与鱼！分布式中间件 elasticsearch 大数据搜索引擎全文检索后端
目录全文检索全文检索的原理什么是倒排索引ElasticSearch介绍ElasticSearch应用场景ElasticSearch下载安装（windows）客户端Kibana安装Elasticsearch安装分词插件ElasticSearch快速开始ElasticSearch索引操作创建索引查询索引删除索引设置Settings设置文档映射Mapping动态映射静态映射使用ReIndex重建索引El
3.10-DynamicMapping和常见字段类型落日彼岸
什么是MappingMapping类似数据库中的schema的定义,作用如下定义索引中的字段的名称定义字段的数据类型,例如字符串,数字,布尔...字段,倒排索引的相关配置(AnalyzedorNotAnalyzed,Analyzer)Mapping会把JSON文档映射成Lucene所需要的扁平格式一个Mapping属于一个索引的Type每个文档都属于一个Type一个Type有一个Mapping定义
深入理解ES的倒排索引林犀居士 elasticsearch 大数据 elasticsearch 大数据搜索引擎倒排索引 FOR压缩算法 RBM压缩算法
目录数据写入过程词项字典termdictionary倒排表postinglistFOR算法RBM算法ArrayContainerBitMapContainer词项索引termindex在Elasticsearch中，倒排索引的设计无疑是惊为天人的，下面看下倒排索引的结构。倒排索引分为词项索引【termindex】、词项字典【termdictionary】、倒排表【postinglist】数据写入过
Elasticsearch（四）蒋一清搜索引擎 elasticsearch 搜索引擎 java
是这样的前面的几篇笔记，感觉对我没有形成知识体系，感觉乱糟糟的，只是大概的了解了一些基础知识，仅此而已，而且对于这技术栈的学习也是为了在后面的java开发使用，但是这里的API学的感觉有点乱！然后在准备二刷！1、倒排索引倒排索引中有两个非常重要的概念：文档（Document）：用来搜索的数据，其中的每一条数据就是一个文档。例如一个网页、一个商品信息词条（Term）：对文档数据或用户搜索数据，利用某
2021最新版 ElasticSearch 7.6.1 教程详解爬虫jsoup+es模拟京东搜索（狂神说） Super_Song_ 中间件 elasticsearch 搜索引擎 java nosql
文章目录一、ElasticSearch简介1.了解创始人DougCutting2.Lucene简介3.ElasticSearch简介4.ElasticSearch和Solr的区别5.了解ELK二、软件安装1.ElasticSearch2.ElasticSearchHead3.Kibana三、ElasticSearch使用详解1.ES核心概念文档索引倒排索引ik分词器2.命令模式的使用Rest风格说
Elasticsearch（三）蒋一清搜索引擎 elasticsearch 搜索引擎 java
1、文档分析将一块文本分成适合于倒排索引的独立的词条将这些词条统一化为标准格式以提高它们的“可搜索性”，或者recall分析器执行上面的工作。分析器实际上是将三个功能封装到了一个包里：字符过滤器：首先，字符串按顺序通过每个字符过滤器。他们的任务是在分词前整理字符串。一个字符过滤器可以用来去掉HTML，或者将&转化成and。分词器：其次，字符串被分词器分为单个的词条。一个简单的分词器遇到空格和标点的
深入解析Elasticsearch的内部数据结构和机制：行存储、列存储与倒排索引之倒排索引（三）地瓜伯伯工具 elasticsearch java
当我们谈论Elasticsearch（简称ES）时，我们经常会提到它的高效搜索能力。而这背后的核心技术之一就是倒排索引。那么，什么是倒排索引，以及它是如何在Elasticsearch中工作的呢？深入解析Elasticsearch的内部数据结构和机制：行存储、列存储与倒排索引之行存（一）深入解析Elasticsearch的内部数据结构和机制：行存储、列存储与倒排索引之列存（二）一、什么是倒排索引？首
elk之倒排索引一户董 elk elk jenkins 倒排索引 term index term dictionary
写在前面本文看下es的倒排索引相关内容。1：正排索引和倒排索引正排索引就是通过文档id找文档内容，而倒排索引就是通过文档内容找文档id，如下图：2：倒排索引原理假定我们有如下的数据：为了建立倒排索引，我们需要先对文档进行分词，如下：分词后每一个词有一个专门的名词来表示，叫做Term，term就是我们要搜索的目标，但是找到了term并不能找到文档，为了找到文档，每一个term对应一个[]的数组，这个
【Elasticsearch学习笔记-基础篇2】Elasticsearch倒排索引、分析及打分 amber_0515 Web2 things 搜索引擎
前言【Elasticsearch学习笔记-基础篇1】Elasticsearch介绍及设计概念在之前的一篇文章中，简单介绍了es的设计和相关概念，这一篇来介绍一下es中实操方面相关概念的引申——在索引和搜索文档的时候，es是怎么做的。倒排索引概念介绍倒排索引是es能快速搜索的原因之一。但是在了解倒排索引之前，我们需要先了解什么是正排索引。正排索引，是指文档ID为key，表中记录每个关键词出现的次数，
ElasticSearch中的数据结构 m0_67401228 java elasticsearch 数据结构全文检索 linux 后端
本文总结了ElasticSearch中用于性能优化所用到的几种数据结构，如用于压缩倒排索引内存存储空间的FST，用于查询条件合并的SkipList以及用于提高范围查找效率的BKDTree，对这几种数据结构在Lucene中的使用进行了详细分析。倒排索引（InvertedIndex）存储很多数据结构均能完成字典功能，总结如下。数据结构优缺点排序列表Array/List使用二分法查找，不平衡HashMa
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag