Linzhongyilisha

杨氏矩阵查找，倒排索引关键词Hash不重复编码实践(转自July)

第二十三、四章：杨氏矩阵查找，倒排索引关键词Hash不重复编码实践

作者：July、yansha。编程艺术室出品。
出处：结构之法算法之道。

前言

本文阐述两个问题，第二十三章是杨氏矩阵查找问题，第二十四章是有关倒排索引中关键词Hash编码的问题，主要要解决不重复以及追加的功能，同时也是经典算法研究系列十一、从头到尾彻底解析Hash表算法之续。

OK，有任何问题，也欢迎随时交流或批评指正。谢谢。

第二十三章、杨氏矩阵查找

杨氏矩阵查找

先看一个来自算法导论习题里6-3与剑指offer的一道编程题（也被经常用作面试题，本人此前去搜狗二面时便遇到了）：

在一个m行n列二维数组中，每一行都按照从左到右递增的顺序排序，每一列都按照从上到下递增的顺序排序。请完成一个函数，输入这样的一个二维数组和一个整数，判断数组中是否含有该整数。
例如下面的二维数组就是每行、每列都递增排序。如果在这个数组中查找数字6，则返回true；如果查找数字5，由于数组不含有该数字，则返回false。

本Young问题解法有二（如查找数字6）：

1、分治法，分为四个矩形，配以二分查找，如果要找的数是6介于对角线上相邻的两个数4、10，可以排除掉左上和右下的两个矩形，而递归在左下和右上的两个矩形继续找，如下图所示：

2、定位法，时间复杂度O（m+n）。首先直接定位到最右上角的元素，再配以二分查找，比要找的数（6）大就往左走，比要找数（6）的小就往下走，直到找到要找的数字（6）为止，如下图所示：

上述方法二的关键代码+程序运行如下图所示：

试问，上述算法复杂么？不复杂，只要稍微动点脑筋便能想到，还可以参看友人老梦的文章，Young氏矩阵：http://blog.csdn.net/zhanglei8893/article/details/6234564，以及IT练兵场的：http://www.jobcoding.com/array/matrix/young-tableau-problem/，除此之外，何海涛先生一书剑指offer中也收集了此题，感兴趣的朋友也可以去看看。

第二十四章、经典算法十一Hash表算法（续）、倒排索引关键词不重复Hash编码

本章要介绍这样一个问题，对倒排索引中的关键词进行编码。那么，这个问题将分为两个个步骤：

首先，要提取倒排索引内词典文件中的关键词；
对提取出来的关键词进行编码。本章采取hash编码的方式。既然要用hash编码，那么最重要的就是要解决hash冲突的问题，下文会详细介绍。

有一点必须提醒读者的是，倒排索引包含词典和倒排记录表两个部分，词典一般有词项（或称为关键词）和词项频率（即这个词项或关键词出现的次数），倒排记录表则记录着上述词项（或关键词）所出现的位置，或出现的文档及网页ID等相关信息。

24.1、正排索引与倒排索引

咱们先来看什么是倒排索引，以及倒排索引与正排索引之间的区别：

我们知道，搜索引擎的关键步骤就是建立倒排索引，所谓倒排索引一般表示为一个关键词，然后是它的频度（出现的次数），位置（出现在哪一篇文章或网页中，及有关的日期，作者等信息），它相当于为互联网上几千亿页网页做了一个索引，好比一本书的目录、标签一般。读者想看哪一个主题相关的章节，直接根据目录即可找到相关的页面。不必再从书的第一页到最后一页，一页一页的查找。

接下来，阐述下正排索引与倒排索引的区别：

一般索引（正排索引）

正排表是以文档的ID为关键字，表中记录文档中每个字的位置信息，查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。正排表结构如图1所示，这种组织方法在建立索引的时候结构比较简单，建立比较方便且易于维护;因为索引是基于文档建立的，若是有新的文档假如，直接为该文档建立一个新的索引块，挂接在原来索引文件的后面。若是有文档删除，则直接找到该文档号文档对因的索引信息，将其直接删除。但是在查询的时候需对所有的文档进行扫描以确保没有遗漏，这样就使得检索时间大大延长，检索效率低下。

尽管正排表的工作原理非常的简单，但是由于其检索效率太低，除非在特定情况下，否则实用性价值不大。

倒排索引

倒排表以字或词为关键字进行索引，表中关键字所对应的记录表项记录了出现这个字或词的所有文档，一个表项就是一个字表段，它记录该文档的ID和字符在该文档中出现的位置情况。由于每个字或词对应的文档数量在动态变化，所以倒排表的建立和维护都较为复杂，但是在查询的时候由于可以一次得到查询关键字所对应的所有文档，所以效率高于正排表。在全文检索中，检索的快速响应是一个最为关键的性能，而索引建立由于在后台进行，尽管效率相对低一些，但不会影响整个搜索引擎的效率。

倒排表的结构图如图2：

倒排表的索引信息保存的是字或词后继数组模型、互关联后继数组模型条在文档内的位置，在同一篇文档内相邻的字或词条的前后关系没有被保存到索引文件内。

24.2、倒排索引中提取关键词

倒排索引是搜索引擎之基石。建成了倒排索引后，用户要查找某个query，如在搜索框输入某个关键词：“结构之法”后，搜索引擎不会再次使用爬虫又一个一个去抓取每一个网页，从上到下扫描网页，看这个网页有没有出现这个关键词，而是会在它预先生成的倒排索引文件中查找和匹配包含这个关键词“结构之法”的所有网页。找到了之后，再按相关性度排序，最终把排序后的结果显示给用户。

如下，即是一个倒排索引文件（不全），我们把它取名为big_index，文件中每一较短的，不包含有“#####”符号的便是某个关键词，及这个关键词的出现次数。现在要从这个大索引文件中提取出这些关键词，--Firelf--，-11，-Winter-，.，007，007：天降杀机，02Chan..如何做到呢？一行一行的扫描整个索引文件么？

何意？之前已经说过：倒排索引包含词典和倒排记录表两个部分，词典一般有词项（或称为关键词）和词项频率（即这个词项或关键词出现的次数），倒排记录表则记录着上述词项（或关键词）所出现的位置，或出现的文档及网页ID等相关信息。

最简单的讲，就是要提取词典中的词项（关键词）：--Firelf--，-11，-Winter-，.，007，007：天降杀机，02Chan...。

--Firelf--（关键词） 8（出现次数）

我们可以试着这么解决：通过查找#####便可判断某一行出现的词是不是关键词，但如果这样做的话，便要扫描整个索引文件的每一行，代价实在巨大。如何提高速度呢？对了，关键词后面的那个出现次数为我们问题的解决起到了很好的作用，如下注释所示：

// 本身没有##### 的行判定为关键词行，后跟这个关键词的行数N（即词项频率）
// 接下来，截取关键词--Firelf--，然后读取后面关键词的行数N
// 再跳过N行（滤过和避免扫描中间的倒排记录表信息）
// 读取下一个关键词..

有朋友指出，上述方法虽然减少了扫描的行数，但并没有减少I0开销。读者是否有更好地办法？欢迎随时交流。

24.2、为提取出来的关键词编码

爱思考的朋友可能会问，上述从倒排索引文件中提取出那些关键词（词项）的操作是为了什么呢？其实如我个人微博上12月12日所述的Hash词典编码：

词典文件的编码：1、词典怎么生成（存储和构造词典）；2、如何运用hash对输入的汉字进行编码；3、如何更好的解决冲突，即不重复以及追加功能。具体例子为：事先构造好词典文件后，输入一个词，要求找到这个词的编码，然后将其编码输出。且要有不断能添加词的功能，不得重复。
步骤应该是如下：1、读索引文件；2、提取索引中的词出来；3、词典怎么生成，存储和构造词典；4、词典文件的编码：不重复与追加功能。编码比如，输入中国，他的编码可以为10001，然后输入银行，他的编码可以为10002。只要实现不断添加词功能，以及不重复即可，词典类的大文件，hash最重要的是怎样避免冲突。

也就是说，现在我要对上述提取出来后的关键词进行编码，采取何种方式编码呢？暂时用hash函数编码。编码之后的效果将是每一个关键词都有一个特定的编码，如下图所示（与上文big_index文件比较一下便知）：

--Firelf-- 对应编码为：135942

-11 对应编码为：106101

....

但细心的朋友一看上图便知，其中第34~39行显示，有重复的编码，那么如何解决这个不重复编码的问题呢？

用hash表编码？但其极易产生冲突碰撞，为什么？请看：

哈希表是一种查找效率极高的数据结构，很多语言都在内部实现了哈希表。PHP中的哈希表是一种极为重要的数据结构，不但用于表示Array数据类型，还在Zend虚拟机内部用于存储上下文环境信息（执行上下文的变量及函数均使用哈希表结构存储）。

理想情况下哈希表插入和查找操作的时间复杂度均为O(1)，任何一个数据项可以在一个与哈希表长度无关的时间内计算出一个哈希值（key），然后在常量时间内定位到一个桶（术语bucket，表示哈希表中的一个位置）。当然这是理想情况下，因为任何哈希表的长度都是有限的，所以一定存在不同的数据项具有相同哈希值的情况，此时不同数据项被定为到同一个桶，称为碰撞（collision）。

哈希表的实现需要解决碰撞问题，碰撞解决大体有两种思路，

第一种是根据某种原则将被碰撞数据定为到其它桶，例如线性探测——如果数据在插入时发生了碰撞，则顺序查找这个桶后面的桶，将其放入第一个没有被使用的桶；
第二种策略是每个桶不是一个只能容纳单个数据项的位置，而是一个可容纳多个数据的数据结构（例如链表或红黑树），所有碰撞的数据以某种数据结构的形式组织起来。

不论使用了哪种碰撞解决策略，都导致插入和查找操作的时间复杂度不再是O(1)。以查找为例，不能通过key定位到桶就结束，必须还要比较原始key（即未做哈希之前的key）是否相等，如果不相等，则要使用与插入相同的算法继续查找，直到找到匹配的值或确认数据不在哈希表中。

PHP是使用单链表存储碰撞的数据，因此实际上PHP哈希表的平均查找复杂度为O(L)，其中L为桶链表的平均长度；而最坏复杂度为O(N)，此时所有数据全部碰撞，哈希表退化成单链表。下图PHP中正常哈希表和退化哈希表的示意图。

哈希表碰撞攻击就是通过精心构造数据，使得所有数据全部碰撞，人为将哈希表变成一个退化的单链表，此时哈希表各种操作的时间均提升了一个数量级，因此会消耗大量CPU资源，导致系统无法快速响应请求，从而达到拒绝服务攻击（DoS）的目的。

可以看到，进行哈希碰撞攻击的前提是哈希算法特别容易找出碰撞，如果是MD5或者SHA1那基本就没戏了，幸运的是（也可以说不幸的是）大多数编程语言使用的哈希算法都十分简单（这是为了效率考虑），因此可以不费吹灰之力之力构造出攻击数据.（上述五段文字引自：http://www.codinglabs.org/html/hash-collisions-attack-on-php.html）。

24.4、暴雪的Hash算法

值得一提的是，在解决Hash冲突的时候，搞的焦头烂额，结果今天上午在自己的博客内的一篇文章（十一、从头到尾彻底解析Hash表算法）内找到了解决办法：网上流传甚广的暴雪的Hash算法。 OK，接下来，咱们回顾下暴雪的hash表算法：

“接下来，咱们来具体分析一下一个最快的Hash表算法。
我们由一个简单的问题逐步入手：有一个庞大的字符串数组，然后给你一个单独的字符串，让你从这个数组中查找是否有这个字符串并找到它，你会怎么做？
有一个方法最简单，老老实实从头查到尾，一个一个比较，直到找到为止，我想只要学过程序设计的人都能把这样一个程序作出来，但要是有程序员把这样的程序交给用户，我只能用无语来评价，或许它真的能工作，但...也只能如此了。
最合适的算法自然是使用HashTable（哈希表），先介绍介绍其中的基本知识，所谓Hash，一般是一个整数，通过某种算法，可以把一个字符串"压缩" 成一个整数。当然，无论如何，一个32位整数是无法对应回一个字符串的，但在程序中，两个字符串计算出的Hash值相等的可能非常小，下面看看在MPQ中的Hash算法：
函数prepareCryptTable以下的函数生成一个长度为0x500（合10进制数：1280）的cryptTable[0x500]

 
   //函数prepareCryptTable以下的函数生成一个长度为0x500（合10进制数：1280）的cryptTable[0x500]  
 void prepareCryptTable()  
 {   
     unsigned long seed = 0x00100001, index1 = 0, index2 = 0, i;  
   
     for( index1 = 0; index1 < 0x100; index1++ )  
     {   
         for( index2 = index1, i = 0; i < 5; i++, index2 += 0x100 )  
         {   
             unsigned long temp1, temp2;  
   
             seed = (seed * 125 + 3) % 0x2AAAAB;  
             temp1 = (seed & 0xFFFF) << 0x10;  
   
             seed = (seed * 125 + 3) % 0x2AAAAB;  
             temp2 = (seed & 0xFFFF);  
   
             cryptTable[index2] = ( temp1 | temp2 );   
         }   
     }   
 }   
 
 

函数HashString以下函数计算lpszFileName 字符串的hash值，其中dwHashType 为hash的类型，

 
   //函数HashString以下函数计算lpszFileName 字符串的hash值，其中dwHashType 为hash的类型，  
 unsigned long HashString(const char *lpszkeyName, unsigned long dwHashType )  
 {  
     unsigned char *key  = (unsigned char *)lpszkeyName;  
     unsigned long seed1 = 0x7FED7FED;  
     unsigned long seed2 = 0xEEEEEEEE;  
     int ch;  
   
     while( *key != 0 )  
     {  
         ch = *key++;  
         seed1 = cryptTable[(dwHashType<<8) + ch] ^ (seed1 + seed2);  
         seed2 = ch + seed1 + seed2 + (seed2<<5) + 3;  
     }  
     return seed1;  
 }  
 
 

Blizzard的这个算法是非常高效的，被称为"One-Way Hash"( A one-way hash is a an algorithm that is constructed in such a way that deriving the original string (set of strings, actually) is virtually impossible)。举个例子，字符串"unitneutralacritter.grp"通过这个算法得到的结果是0xA26067F3。
　是不是把第一个算法改进一下，改成逐个比较字符串的Hash值就可以了呢，答案是，远远不够，要想得到最快的算法，就不能进行逐个的比较，通常是构造一个哈希表(Hash Table)来解决问题，哈希表是一个大数组，这个数组的容量根据程序的要求来定义，
例如1024，每一个Hash值通过取模运算 (mod) 对应到数组中的一个位置，这样，只要比较这个字符串的哈希值对应的位置有没有被占用，就可以得到最后的结果了，想想这是什么速度？是的，是最快的O(1)，现在仔细看看这个算法吧：

 
   typedef struct  
 {  
     int nHashA;  
     int nHashB;  
     char bExists;  
    ......  
 } SOMESTRUCTRUE;  
 //一种可能的结构体定义？  
 
 

函数GetHashTablePos下述函数为在Hash表中查找是否存在目标字符串，有则返回要查找字符串的Hash值，无则，return -1.

 
   //函数GetHashTablePos下述函数为在Hash表中查找是否存在目标字符串，有则返回要查找字符串的Hash值，无则，return -1.  
 int GetHashTablePos( har *lpszString, SOMESTRUCTURE *lpTable )   
 //lpszString要在Hash表中查找的字符串，lpTable为存储字符串Hash值的Hash表。  
 {   
     int nHash = HashString(lpszString);  //调用上述函数HashString，返回要查找字符串lpszString的Hash值。  
     int nHashPos = nHash % nTableSize;  
    
     if ( lpTable[nHashPos].bExists  &&  !strcmp( lpTable[nHashPos].pString, lpszString ) )   
     {  //如果找到的Hash值在表中存在，且要查找的字符串与表中对应位置的字符串相同，  
         return nHashPos;    //返回找到的Hash值  
     }   
     else  
     {  
         return -1;    
     }   
 }  
 
 

看到此，我想大家都在想一个很严重的问题：“如果两个字符串在哈希表中对应的位置相同怎么办？”,毕竟一个数组容量是有限的，这种可能性很大。解决该问题的方法很多，我首先想到的就是用“链表”,感谢大学里学的数据结构教会了这个百试百灵的法宝，我遇到的很多算法都可以转化成链表来解决，只要在哈希表的每个入口挂一个链表，保存所有对应的字符串就OK了。事情到此似乎有了完美的结局，如果是把问题独自交给我解决，此时我可能就要开始定义数据结构然后写代码了。
然而Blizzard的程序员使用的方法则是更精妙的方法。基本原理就是：他们在哈希表中不是用一个哈希值而是用三个哈希值来校验字符串。 ”

“ MPQ使用文件名哈希表来跟踪内部的所有文件。但是这个表的格式与正常的哈希表有一些不同。首先，它没有使用哈希作为下标，把实际的文件名存储在表中用于验证，实际上它根本就没有存储文件名。而是使用了3种不同的哈希：一个用于哈希表的下标，两个用于验证。这两个验证哈希替代了实际文件名。
当然了，这样仍然会出现2个不同的文件名哈希到3个同样的哈希。但是这种情况发生的概率平均是：1:18889465931478580854784，这个概率对于任何人来说应该都是足够小的。现在再回到数据结构上，Blizzard使用的哈希表没有使用链表，而采用"顺延"的方式来解决问题。 ” 下面，咱们来看看这个网上流传甚广的暴雪hash算法：
函数GetHashTablePos中，lpszString 为要在hash表中查找的字符串；lpTable 为存储字符串hash值的hash表；nTableSize 为hash表的长度：

 
   //函数GetHashTablePos中，lpszString 为要在hash表中查找的字符串；lpTable 为存储字符串hash值的hash表；nTableSize 为hash表的长度：   
 int GetHashTablePos( char *lpszString, MPQHASHTABLE *lpTable, int nTableSize )  
 {  
     const int  HASH_OFFSET = 0, HASH_A = 1, HASH_B = 2;  
    
     int  nHash = HashString( lpszString, HASH_OFFSET );  
     int  nHashA = HashString( lpszString, HASH_A );  
     int  nHashB = HashString( lpszString, HASH_B );  
     int  nHashStart = nHash % nTableSize;  
     int  nHashPos = nHashStart;  
    
     while ( lpTable[nHashPos].bExists )  
    {  
 //     如果仅仅是判断在该表中时候存在这个字符串，就比较这两个hash值就可以了，不用对结构体中的字符串进行比较。  
 //         这样会加快运行的速度？减少hash表占用的空间？这种方法一般应用在什么场合？  
         if ( 　 lpTable[nHashPos].nHashA == nHashA  
         &&  lpTable[nHashPos].nHashB == nHashB )  
        {  
             return nHashPos;  
        }  
        else  
        {  
             nHashPos = (nHashPos + 1) % nTableSize;  
        }  
    
         if (nHashPos == nHashStart)  
               break;  
     }  
      return -1;  
 }  
 
 

上述程序解释：

计算出字符串的三个哈希值（一个用来确定位置，另外两个用来校验)

察看哈希表中的这个位置

哈希表中这个位置为空吗？如果为空，则肯定该字符串不存在，返回-1。

如果存在，则检查其他两个哈希值是否也匹配，如果匹配，则表示找到了该字符串，返回其Hash值。

移到下一个位置，如果已经移到了表的末尾，则反绕到表的开始位置起继续查询　

看看是不是又回到了原来的位置，如果是，则返回没找到

回到3。

24.4、不重复Hash编码

有了上面的暴雪Hash算法。咱们的问题便可解决了。不过，有两点必须先提醒读者：1、Hash表起初要初始化；2、暴雪的Hash算法对于查询那样处理可以，但对插入就不能那么解决。

关键主体代码如下：

 
   //函数prepareCryptTable以下的函数生成一个长度为0x500（合10进制数：1280）的cryptTable[0x500]  
 void prepareCryptTable()  
 {  
     unsigned long seed = 0x00100001, index1 = 0, index2 = 0, i;  
   
     for( index1 = 0; index1 <0x100; index1++ )  
     {  
         for( index2 = index1, i = 0; i < 5; i++, index2 += 0x100)  
         {  
             unsigned long temp1, temp2;  
             seed = (seed * 125 + 3) % 0x2AAAAB;  
             temp1 = (seed & 0xFFFF)<<0x10;  
             seed = (seed * 125 + 3) % 0x2AAAAB;  
             temp2 = (seed & 0xFFFF);  
             cryptTable[index2] = ( temp1 | temp2 );  
         }  
     }  
 }  
   
 //函数HashString以下函数计算lpszFileName 字符串的hash值，其中dwHashType 为hash的类型，  
 unsigned long HashString(const char *lpszkeyName, unsigned long dwHashType )  
 {  
     unsigned char *key  = (unsigned char *)lpszkeyName;  
     unsigned long seed1 = 0x7FED7FED;  
     unsigned long seed2 = 0xEEEEEEEE;  
     int ch;  
   
     while( *key != 0 )  
     {  
         ch = *key++;  
         seed1 = cryptTable[(dwHashType<<8) + ch] ^ (seed1 + seed2);  
         seed2 = ch + seed1 + seed2 + (seed2<<5) + 3;  
     }  
     return seed1;  
 }  
   
 /////////////////////////////////////////////////////////////////////  
 //function: 哈希词典 编码  
 //parameter:  
 //author: lei.zhou  
 //time: 2011-12-14  
 /////////////////////////////////////////////////////////////////////  
 MPQHASHTABLE TestHashTable[nTableSize];  
 int TestHashCTable[nTableSize];  
 int TestHashDTable[nTableSize];  
 key_list test_data[nTableSize];  
   
 //直接调用上面的hashstring，nHashPos就是对应的HASH值。  
 int insert_string(const char *string_in)  
 {  
     const int HASH_OFFSET = 0, HASH_C = 1, HASH_D = 2;  
     unsigned int nHash = HashString(string_in, HASH_OFFSET);  
     unsigned int nHashC = HashString(string_in, HASH_C);  
     unsigned int nHashD = HashString(string_in, HASH_D);  
     unsigned int nHashStart = nHash % nTableSize;  
     unsigned int nHashPos = nHashStart;  
     int ln, ires = 0;  
   
     while (TestHashTable[nHashPos].bExists)  
     {  
 //      if (TestHashCTable[nHashPos]  == (int) nHashC && TestHashDTable[nHashPos] == (int) nHashD)  
 //          break;  
 //      //...  
 //      else  
         //如之前所提示读者的那般，暴雪的Hash算法对于查询那样处理可以，但对插入就不能那么解决  
             nHashPos = (nHashPos + 1) % nTableSize;  
   
         if (nHashPos == nHashStart)  
             break;  
     }  
   
     ln = strlen(string_in);  
     if (!TestHashTable[nHashPos].bExists && (ln < nMaxStrLen))  
     {   
         TestHashCTable[nHashPos] = nHashC;  
         TestHashDTable[nHashPos] = nHashD;  
   
         test_data[nHashPos] = (KEYNODE *) malloc (sizeof(KEYNODE) * 1);  
         if(test_data[nHashPos] == NULL)  
         {  
             printf("10000 EMS ERROR !!!!\n");  
             return 0;  
         }  
   
         test_data[nHashPos]->pkey = (char *)malloc(ln+1);  
         if(test_data[nHashPos]->pkey == NULL)  
         {  
             printf("10000 EMS ERROR !!!!\n");  
             return 0;  
         }  
   
         memset(test_data[nHashPos]->pkey, 0, ln+1);  
         strncpy(test_data[nHashPos]->pkey, string_in, ln);  
         *((test_data[nHashPos]->pkey)+ln) = 0;  
         test_data[nHashPos]->weight = nHashPos;  
   
         TestHashTable[nHashPos].bExists = 1;  
     }  
     else  
     {  
         if(TestHashTable[nHashPos].bExists)  
             printf("30000 in the hash table %s !!!\n", string_in);  
         else  
             printf("90000 strkey error !!!\n");  
     }  
     return nHashPos;  
 }  
 
 

接下来要读取索引文件big_index对其中的关键词进行编码（为了简单起见，直接一行一行扫描读写，没有跳过行数了）：

 
   void bigIndex_hash(const char *docpath, const char *hashpath)  
 {  
     FILE *fr, *fw;  
     int len;  
     char *pbuf, *p;  
     char dockey[TERM_MAX_LENG];  
   
     if(docpath == NULL || *docpath == '\0')  
         return;  
   
     if(hashpath == NULL || *hashpath == '\0')  
         return;  
   
     fr = fopen(docpath, "rb");  //读取文件docpath  
     fw = fopen(hashpath, "wb");  
     if(fr == NULL || fw == NULL)  
     {  
         printf("open read or write file error!\n");  
         return;  
     }  
   
     pbuf = (char*)malloc(BUFF_MAX_LENG);  
     if(pbuf == NULL)  
     {  
         fclose(fr);  
         return ;  
     }  
   
     memset(pbuf, 0, BUFF_MAX_LENG);  
   
     while(fgets(pbuf, BUFF_MAX_LENG, fr))  
     {  
         len = GetRealString(pbuf);  
         if(len <= 1)  
             continue;  
         p = strstr(pbuf, "#####");    
         if(p != NULL)  
             continue;  
   
         p = strstr(pbuf, "  ");  
         if (p == NULL)  
         {  
             printf("file contents error!");  
         }  
   
         len = p - pbuf;  
         dockey[0] = 0;  
         strncpy(dockey, pbuf, len);  
   
         dockey[len] = 0;        
   
         int num = insert_string(dockey);   
   
         dockey[len] = ' ';  
         dockey[len+1] = '\0';  
         char str[20];  
         itoa(num, str, 10);  
   
         strcat(dockey, str);  
         dockey[len+strlen(str)+1] = '\0';  
         fprintf (fw, "%s\n", dockey);  
   
     }  
     free(pbuf);  
     fclose(fr);  
     fclose(fw);  
 }  
 
 

主函数已经很简单了，如下：

 
   int main()  
 {  
     prepareCryptTable();  //Hash表起初要初始化  
   
     //现在要把整个big_index文件插入hash表，以取得编码结果  
     bigIndex_hash("big_index.txt", "hashpath.txt");  
     system("pause");  
   
     return 0;  
 }  
 
 

程序运行后生成的hashpath.txt文件如下：

如上所示，采取暴雪的Hash算法并在插入的时候做适当处理，当再次对上文中的索引文件big_index进行Hash编码后，冲突问题已经得到初步解决。当然，还有待更进一步更深入的测试。

后续添上数目索引1~10000...

后来又为上述文件中的关键词编了码一个计数的内码，不过，奇怪的是，同样的代码，在Dev C++ 与VS2010上运行结果却不同（左边dev上计数从"1"开始，VS上计数从“1994014002”开始），如下图所示：

在上面的bigIndex_hashcode函数的基础上，修改如下，即可得到上面的效果：

 
   void bigIndex_hashcode(const char *in_file_path, const char *out_file_path)  
 {  
     FILE *fr, *fw;  
     int len, value;  
     char *pbuf, *pleft, *p;  
     char keyvalue[TERM_MAX_LENG], str[WORD_MAX_LENG];  
   
     if(in_file_path == NULL || *in_file_path == '\0') {  
         printf("input file path error!\n");  
         return;  
     }  
   
     if(out_file_path == NULL || *out_file_path == '\0') {  
         printf("output file path error!\n");  
         return;  
     }  
   
     fr = fopen(in_file_path, "r");  //读取in_file_path路径文件  
     fw = fopen(out_file_path, "w");  
   
     if(fr == NULL || fw == NULL)  
     {  
         printf("open read or write file error!\n");  
         return;  
     }  
   
     pbuf = (char*)malloc(BUFF_MAX_LENG);  
     pleft = (char*)malloc(BUFF_MAX_LENG);  
     if(pbuf == NULL || pleft == NULL)  
     {  
         printf("allocate memory error!");  
         fclose(fr);  
         return ;  
     }  
   
     memset(pbuf, 0, BUFF_MAX_LENG);  
   
     int offset = 1;  
     while(fgets(pbuf, BUFF_MAX_LENG, fr))  
     {  
         if (--offset > 0)  
             continue;  
   
         if(GetRealString(pbuf) <= 1)  
             continue;  
   
         p = strstr(pbuf, "#####");    
         if(p != NULL)  
             continue;  
   
         p = strstr(pbuf, "  ");  
         if (p == NULL)  
         {  
             printf("file contents error!");  
         }  
   
         len = p - pbuf;  
   
         // 确定跳过行数  
         strcpy(pleft, p+1);   
         offset = atoi(pleft) + 1;  
   
         strncpy(keyvalue, pbuf, len);    
         keyvalue[len] = '\0';  
         value = insert_string(keyvalue);  
   
         if (value != -1) {  
   
             // key value中插入空格  
             keyvalue[len] = ' ';  
             keyvalue[len+1] = '\0';  
   
             itoa(value, str, 10);  
             strcat(keyvalue, str);  
   
             keyvalue[len+strlen(str)+1] = ' ';  
             keyvalue[len+strlen(str)+2] = '\0';  
   
             keysize++;  
             itoa(keysize, str, 10);  
             strcat(keyvalue, str);  
   
             // 将key value写入文件  
             fprintf (fw, "%s\n", keyvalue);  
   
         }  
     }  
     free(pbuf);  
     fclose(fr);  
     fclose(fw);  
 }  
 
 

小结

本文有一点值得一提的是，在此前的这篇文章（十一、从头到尾彻底解析Hash表算法）之中，只是对Hash表及暴雪的Hash算法有过学习和了解，但尚未真正运用过它，而今在本章中体现，证明还是之前写的文章，及之前对Hash表等算法的学习还是有一定作用的。同时，也顺便对暴雪的Hash函数算是做了个测试，其的确能解决一般的冲突性问题，创造这个算法的人不简单呐。

后记

再次感谢老大xiaoqi，以及艺术室内朋友xiaolin，555，yansha的指导。没有他们的帮助，我将寸步难行。日后，自己博客内的文章要经常回顾，好好体会。同时，写作本文时，刚接触倒排索引等相关问题不久，若有任何问题，欢迎随时交流或批评指正。谢谢。完。

你可能感兴趣的:(hash)

数组去重好奇的猫猫猫
整理自js中基础数据结构数组去重问题思考？如何去除数组中重复的项例如数组：[1,3,4,3,5]我们在做去重的时候，一开始想到的肯定是，逐个比较，外面一层循环，内层后一个与前一个一比较，如果是久不将当前这一项放进新的数组，挨个比较完之后返回一个新的去过重复的数组不好的实践方式上述方法效率极低，代码量还多，思考？有没有更好的方法这时候不禁一想当然有了！！！hashtable啊，通过对象的hash办法
✔2848. 与车相交的点程序员小小聪力扣 leetcode
代码实现：方法一：哈希表#definefmax(a,b)((a)>(b)?(a):(b))intnumberOfPoints(int**nums,intnumsSize,int*numsColSize){inthash[101]={0};intmax=0;for(inti=0;i=x){j--;}if(i=nums[i][0]){r=r>nums[i][1]?r:nums[i][1];}else{
Lombok：Java开发者的代码简化神器【后端 17】终末圆 Java后端 java 开发语言 mysql 数据库后端 spring boot python
Lombok：Java开发者的代码简化神器在Java开发中，我们经常需要编写大量的样板代码，如getter、setter、equals、hashCode、toString等方法。这些代码虽然基础且必要，但往往占据了大量开发时间，且容易在属性变更时引发错误。幸运的是，Lombok这个Java库通过注解的方式，为我们提供了一种高效的解决方案。本文将详细介绍Lombok的使用及其优势。什么是Lombok
python使用MD5 18.程序员哈希算法算法
一、要使用Python进行MD5加密，可以使用Python标准库中的hashlib模块。二、案例importhashlibstring="Hello,World!"#要进行加密的字符串hash_object=hashlib.md5(string.encode())#将字符串编码并进行MD5加密hash_hex=hash_object.hexdigest()#获取加密后的十六进制字符串print(h
2019-05-29 vue-router的两种模式的区别 Kason晨
1、大家都知道vue是一种单页应用,单页应用就是仅在页面初始化的时候加载相应的html/css/js一单页面加载完成,不会因为用户的操作而进行页面的重新加载或者跳转,用javascript动态的变化html的内容优点:良好的交互体验,用户不需要刷新页面,页面显示流畅,良好的前后端工作分离模式,减轻服务器压力,缺点:不利于SEO,初次加载耗时比较多2、hash模式vue-router默认的是hash
synchronized锁升级过程 liang8999 java jvm 开发语言
一、synchronized锁加到什么地方synchronized上锁，其实锁信息是加在对象头中的markdown，对象中的前四个字节表示markdown；markdown还记录了对象的gc、hashcode信息注意：markdown结构与jvm虚拟机的实现有关，I）32位Hotspot虚拟机markdown结构如下：II）64位Hotspot虚拟机的markdown结构如下：二、synchron
【编程底层原理】HashMap Hashtable ConcurrentHashMap Dylanioucn 开发语言后端 java
在Java的不同版本中，集合的实现原理有所变化，尤其是在HashMap、Hashtable和ConcurrentHashMap这三种实现中。以下是它们的一些关键区别和实现原理：一、HashMapJDK1.7：HashMap使用数组和链表的组合来解决冲突。当一个桶（数组的每个位置）中的元素超过一定数量时，会使用链表来存储这些元素。HashMap在JDK1.7中不是线程安全的。JDK1.8：进行了优化
关于Redis集群同步/持久化/淘汰机制的详解尾巴尖上的阳光大数据 redis 数据库
Redis是非常常用的KV数据库,使用内存以及HashMap进行存储的特点带来了高效的查询.本文将围绕Redis的常见开发使用场景,阐述在Redis集群中各个节点是如何进行数据同步,每个节点如何进行持久化以及在长期使用中如何对数据进行更新和淘汰.如果对Redis有更多的兴趣,可以查看我的技术博客:https://dingyuqi.com下面是Redis在开发过程中常用的几种使用场景.集群Redis
互联网 Java 工程师面试题（Java 面试题四）苹果酱0567 面试题汇总与解析 java 中间件开发语言 spring boot 后端
下面列出这份Java面试问题列表包含的主题多线程，并发及线程基础数据类型转换的基本原则垃圾回收（GC）Java集合框架数组字符串GOF设计模式SOLID抽象类与接口Java基础，如equals和hashcode泛型与枚举JavaIO与NIO常用网络协议Java中的数据结构和算法正则表达式JVM底层Java最佳实JDBCDate,Time与CalendarJava处理XMLJUnit编程现在是时候给
区块链私有链new qis_qis 区块链区块链以太坊数字货币
{“config”:{“chainld”:666,“homesteadBlock”:0,“eip150Block”:0,“eip150Hash”:“0x0000000000000000000000000000000000000000000000000000000000000000”,“eip155Block”:0,“eip158Block”:0,“byzantiumBlock”:0,“consta
区块链私有链 qis_qis 区块链区块链以太坊数字货币
{"config":{"chainld":666,"homesteadBlock":0,"eip150Block":0,"eip150Hash":"0x0000000000000000000000000000000000000000000000000000000000000000","eip155Block":0,"eip158Block":0,"byzantiumBlock":0,"consta
注册中心 Nacos 异常实例需要30s才能剔除 Nacos心跳时间设置（踩坑） 2401_84046645 程序员 java 开发语言
instance.setPort(9999);Mapmetadata=newHashMap();//设置心跳的周期，单位为秒，这里将心跳间隔设置为3秒：metadata.put(PreservedMetadataKeys.HEART_BEAT_INTERVAL,“3000”);//设置心跳超时时间，单位为秒，这里将心跳超时时间设为6秒，//即服务端6秒收不到客户端心跳，会将该客户端注册的实例设为不
微服务治理：Nacos, Zookeeper, consul, etcd, Eureka等 5 个常用微服务注册工具对比 surfirst 架构微服务 zookeeper consul
当然！下面是Nacos、Zookeeper、Consul、etcd和Eureka这五个常用的注册中心的详细对比：Nacos：Nacos是由HashiCorp开发的高度可扩展和可靠的服务发现、配置管理和服务网格解决方案。它的架构基于一组服务器代理形成的共识组和与服务器交互的许多客户端代理。主要特点包括：服务发现：服务在Nacos中注册，客户端可以通过DNS或HTTPAPI发现服务及其位置。健康检查：
AtCoder Beginner Contest 363 菜比乌斯反演 AtCoder 算法 c++开发语言
A-PilingUp题意不同的分数段有不同的^数量，Takahashi想要使得他的^数量增加，问他所需要的最少分数增幅。思路我们只需要找到下一阶段的下限。a/100是本阶段+1变成下一阶段，再*100变成下限，再与原来的相减即可。代码inlinevoidsolve(){inta;cin>>a;cout>n>>t>>p;vectora(n+1);for(inti=1;i>a[i];nth_eleme
Redis的持久化和高可用性小辛学西嘎嘎 redis 数据库缓存
目录一、淘汰策略1、背景2、淘汰策略二、持久化1、背景2、fork进程写时复制机制3、Redis持久化方式1、aof2、rdb三、高可用1、主从复制2、Redis哨兵模式3、Rediscluster集群一、淘汰策略1、背景首先Redis是一个内存数据库，将所有数据存放在内存中，通过对K值进行hash后存储在散列表中。有一个小问题Redis数据库占96G，但为什么最终占满只有48G呢。因为中间有个过
哈希表 and 算法 (笑)z 算法散列表哈希算法
哈希表：哈希表（Hashtable），也被称为散列表，是一种根据关键码值（Keyvalue）而直接进行访问的数据结构。它通过把关键码值映射到表中一个位置来访问记录，以加快查找的速度。这个映射函数被称为散列函数或哈希函数，而存放记录的数组则被称为散列表或哈希表。哈希表的优点查找速度快：哈希表通过哈希函数直接定位到数组中的位置，因此查找速度非常快，时间复杂度接近O(1)。插入和删除操作方便：由于哈希表
Java面试必问之Hashmap底层实现原理(JDK1.7) 当我遇上你csy Java基础 java hashmap 面试源码
1.前言Hashmap可以说是Java面试必问的，一般的面试题会问:Hashmap有哪些特性？Hashmap底层实现原理(get\put\resize)Hashmap怎么解决hash冲突？Hashmap是线程安全的吗？…今天就从源码角度一探究竟。笔者的源码是OpenJDK1.72.构造方法首先看构造方法的源码//默认初始容量staticfinalintDEFAULT_INITIAL_CAPACIT
HashMap 原理解释及其常见面试题 Justdoforever java
HashMap原理解释及其常见面试题在多线程下在javaHashMap的1948或2239行都会出现死循环情况，1948行treeify函数中将链表转为树的时候，2239在balanceInsertion函数中，让树变为平衡时，总之多线程下HashMap在链表转树或涉及树的操作时会出现死循环。测试代码：importjava.util.*;publicclassMainTest{Mapmap=new
Java后端面试高频问题：HashMap的底层原理 2401_84408267 程序员 java 面试开发语言
④如果该位置不为null,则判断key是否一样(hashCode和equals)，如果一样则直接覆盖value⑤如果key不一样，则判断该元素是否为红黑树的节点，如果是，则直接在红黑树中插入键值对⑥如果不是红黑树的节点，则就是链表，遍历这个链表执行插入操作，如果遍历过程中若发现key已存在，直接覆盖value即可。如果链表的长度大于等于8且数组中元素数量大于等于阈值64，则将链表转化为红黑树，（先
你必须掌握的 21 个 Java 核心技术！ 2401_83916204 程序员 java 开发语言
Object类型：equals，hashcodeString类型的特点4.对象和实例，对象的创建在这方面，开发者需要了解class和instance的概念以及之间的差别，这是java面向对象特性的一个基础。主要知识点有：Class和Instance的概念Instance创建的过程：1、无继承：分配内存空间，初始化变量，调用构造函数2、有继承：处理静态动作，分配内存空间，变量定义为初始值，从基类->
SingleFlight模式你这个代码我看不懂 Spring python 开发语言
SingleFlight在Java中实现SingleFlight模式，可以通过使用ConcurrentHashMap和CompletableFuture来管理并发请求。以下是一个示例代码，展示了如何在Java中实现SingleFlight模式：示例代码importjava.util.concurrent.CompletableFuture;importjava.util.concurrent.Co
喜大普奔：HashiCorp Vagrant 2.2.0发布！ HashiCorpChina
OCT172018BRIANCAINWearepleasedtoannouncethereleaseofVagrant2.2.0.Vagrantisatoolforbuildinganddistributingdevelopmentenvironments.ThehighlightofthisreleaseistheintroductionofVagrantCloudcommandlinetool
Python 对文件的加密和解密 Jinx Boy python 哈希算法开发语言
cryptography库中的Fernet模块提供了一种简单的方法来加密和解密数据。它使用对称加密算法，其中相同的密钥用于加密和解密数据。以下是用Fernet模块对文件进行的加密和解密。加密：importhashlibimportbase64fromcryptography.fernetimportFernetimportosdefstring_to_fernet_key(input_string
flask-sqlalchemy的模型类两个表，既有一对一又有一对多的情况时，解决方法 skyTree,, Flask python
这种情况时，直接进行数据迁移会回报错，因为一个表需要依赖另一个表，所以可以将两个表的基本字段先迁移好，然后再新增外键字段进行迁移，就不会报错了fromdatetimeimportdatetimefromapi.models.baseimportBaseModelfromapiimportdbfromwerkzeug.securityimportcheck_password_hash,generat
Redis基础知识学习笔记(三) 晚睡早起₍˄·͈༝·͈˄*₎◞ ̑̑ redis redis 学习笔记
文章目录Redis命令一.Redis命令1.启动redis服务器2.本地启动redis客户端3.远程启动redis客户端4.测试是否建立连接二.Redis键(key)RedisKey相关命令三.Redis字符串(String)Redis字符串命令四.Redis哈希(Hash)Redis字符串命令五.Redis列表(List)Redis列表命令六.Redis集合(Set)Redis集合基本命令七.R
高阶数据结构之哈希表基础讲解与模拟实现渡我白衣 c++知识点数据结构 c++
程序猿的读书历程：x语言入门—>x语言应用实践—>x语言高阶编程—>x语言的科学与艺术—>编程之美—>编程之道—>编程之禅—>颈椎病康复指南。前言：哈希表（HashTable）是一种高效的键值对存储数据结构，广泛应用于各种需要快速查找的场景，如数据库索引、缓存系统、集合等。它的基本思想是通过哈希函数将键映射到哈希表中的一个位置，从而实现快速的数据插入、删除和查找操作。下面我们将详细介绍哈希表的工作
使用爬虫写一个简易的翻译器+图像界面+python w²大大 python学习 python tkinter json
翻译器+图像界面+python1.效果图如下：2.代码实现1.效果图如下：2.代码实现importtkinterimportrandomimportrequestsimportrequestimporturllibfromurllibimportrequest,parseimporttime,json,random,hashlibwin=tkinter.Tk()defpachong():try:u
Springboot2 thymeleaf 静态资源加版本号控制缓存更新 VIAE
最近写了一个前后端不分离的项目了，用的Springboot2thymeleaf用的js原生，没有用到webpack，所以不能在每次js变更以后打包自动给静态文件加上hash后缀关于静态资源缓存不更新的问题，用了以下几种解决方案方法一在静态资源引用的时候加上版本号，最开始我就是这么做的，因为当时确实没几个文件index.htmlbug:文件多了以后，这种方法就不太适合了方法二动态添加静态资源，加时间
本地内存和分布式缓存（面试） rylzdz 缓存 redis
本地缓存和分布式缓存本地缓存：缓存组件和应用在同一进程中。但各应用都需要维护单独的缓存，无法共享缓存。分布式缓存：缓存组件和应用分离，不在同一进程，多个应用可直接共享缓存。本地缓存的实现缓存一般是一种key-value的键值对数据结构与此同时，本地缓存由于需要被并发读写，需要保证线程安全。由于HashMap不是线程安全的，而ConcurrentHashMap是线程安全的，一般使用Concurren
【Hot100】LeetCode—763. 划分字母区间山脚ice #Hot100 leetcode 哈希算法
目录1-思路哈希表+双指针2-实现⭐763.划分字母区间——题解思路3-ACM实现原题链接：763.划分字母区间1-思路哈希表+双指针①找到元素最远的出现位置：哈希表②根据最远出现位置，判断区间的分界线：双指针实现1-定义一个哈希数组，判断最远出现的位置：int[]hash=newint[27]遍历字符串，记录最远出现位置2-分割点利用数组，收集结果intleft=0;intright=0;记录左
java封装继承多态等麦田的设计者 java eclipse jvm c encapsulatopn
最近一段时间看了很多的视频却忘记总结了，现在只能想到什么写什么了，希望能起到一个回忆巩固的作用。 1、final关键字译为：最终的 &
F5与集群的区别 bijian1013 weblogic 集群 F5
http请求配置不是通过集群，而是F5；集群是weblogic容器的，如果是ejb接口是通过集群。 F5同集群的差别，主要还是会话复制的问题，F5一把是分发http请求用的，因为http都是无状态的服务，无需关注会话问题，类似
LeetCode[Math] - #7 Reverse Integer Cwind java 题解 Math LeetCode Algorithm
原题链接：#7 Reverse Integer 要求：按位反转输入的数字例1：输入 x = 123, 返回 321 例2：输入 x = -123, 返回 -321 难度：简单分析：对于一般情况，首先保存输入数字的符号，然后每次取输入的末位（x%10）作为输出的高位（result = result*10 + x%10）即可。但
BufferedOutputStream 周凡杨
首先说一下这个大批量，是指有上千万的数据量。例子：有一张短信历史表，其数据有上千万条数据，要进行数据备份到文本文件，就是执行如下SQL然后将结果集写入到文件中！ select t.msisd
linux下模拟按键输入和鼠标被触发 linux
查看/dev/input/eventX是什么类型的事件， cat /proc/bus/input/devices 设备有着自己特殊的按键键码，我需要将一些标准的按键，比如0－9，X－Z等模拟成标准按键，比如KEY_0,KEY-Z等，所以需要用到按键模拟，具体方法就是操作/dev/input/event1文件，向它写入个input_event结构体就可以模拟按键的输入了。 linux/in
ContentProvider初体验肆无忌惮_ ContentProvider
ContentProvider在安卓开发中非常重要。与Activity，Service，BroadcastReceiver并称安卓组件四大天王。在android中的作用是用来对外共享数据。因为安卓程序的数据库文件存放在data/data/packagename里面，这里面的文件默认都是私有的，别的程序无法访问。如果QQ游戏想访问手机QQ的帐号信息一键登录，那么就需要使用内容提供者COnte
关于Spring MVC项目（maven）中通过fileupload上传文件 843977358 mybatis spring mvc 修改头像上传文件 upload
Spring MVC 中通过fileupload上传文件，其中项目使用maven管理。 1.上传文件首先需要的是导入相关支持jar包：commons-fileupload.jar,commons-io.jar 因为我是用的maven管理项目，所以要在pom文件中配置（每个人的jar包位置根据实际情况定） <!-- 文件上传 start by zhangyd-c --&g
使用svnkit api，纯java操作svn，实现svn提交，更新等操作 aigo svnkit
原文：http://blog.csdn.net/hardwin/article/details/7963318 import java.io.File; import org.apache.log4j.Logger; import org.tmatesoft.svn.core.SVNCommitInfo; import org.tmateso
对比浏览器，casperjs，httpclient的Header信息 alleni123 爬虫 crawler header
@Override protected void doGet(HttpServletRequest req, HttpServletResponse res) throws ServletException, IOException { String type=req.getParameter("type"); Enumeration es=re
java.io操作 DataInputStream和DataOutputStream基本数据流百合不是茶 java 流
1，java中如果不保存整个对象，只保存类中的属性，那么我们可以使用本篇文章中的方法，如果要保存整个对象先将类实例化后面的文章将详细写到 2，DataInputStream 是java.io包中一个数据输入流允许应用程序以与机器无关方式从底层输入流中读取基本 Java 数据类型。应用程序可以使用数据输出流写入稍后由数据输入流读取的数据。
车辆保险理赔案例 bijian1013 车险
理赔案例：一货运车，运输公司为车辆购买了机动车商业险和交强险，也买了安全生产责任险，运输一车烟花爆竹，在行驶途中发生爆炸，出现车毁、货损、司机亡、炸死一路人、炸毁一间民宅等惨剧，针对这几种情况，该如何赔付。赔付建议和方案：客户所买交强险在这里不起作用，因为交强险的赔付前提是：“机动车发生道路交通意外事故”；如果是交通意外事故引发的爆炸，则优先适用交强险条款进行赔付，不足的部分由商业
学习Spring必学的Java基础知识(5)—注解 bijian1013 java spring
文章来源：http://www.iteye.com/topic/1123823，整理在我的博客有两个目的：一个是原文确实很不错，通俗易懂，督促自已将博主的这一系列关于Spring文章都学完；另一个原因是为免原文被博主删除，在此记录，方便以后查找阅读。有必要对
【Struts2一】Struts2 Hello World bit1129 Hello world
Struts2 Hello World应用的基本步骤创建Struts2的Hello World应用，包括如下几步： 1.配置web.xml 2.创建Action 3.创建struts.xml，配置Action 4.启动web server，通过浏览器访问配置web.xml <?xml version="1.0" encoding="
【Avro二】Avro RPC框架 bit1129 rpc
1. Avro RPC简介 1.1. RPC RPC逻辑上分为二层，一是传输层，负责网络通信；二是协议层，将数据按照一定协议格式打包和解包从序列化方式来看，Apache Thrift 和Google的Protocol Buffers和Avro应该是属于同一个级别的框架，都能跨语言，性能优秀，数据精简，但是Avro的动态模式（不用生成代码，而且性能很好）这个特点让人非常喜欢，比较适合R
lua　set get cookie ronin47 lua cookie
lua: local access_token = ngx.var.cookie_SGAccessToken if access_token then ngx.header["Set-Cookie"] = "SGAccessToken="..access_token.."; path=/;Max-Age=3000" end
java-打印不大于N的质数 bylijinnan java
public class PrimeNumber { /** * 寻找不大于N的质数 */ public static void main(String[] args) { int n=100; PrimeNumber pn=new PrimeNumber(); pn.printPrimeNumber(n); System.out.print
Spring源码学习-PropertyPlaceholderHelper bylijinnan java spring
今天在看Spring 3.0.0.RELEASE的源码，发现PropertyPlaceholderHelper的一个bug 当时觉得奇怪，上网一搜，果然是个bug，不过早就有人发现了，且已经修复：详见： http://forum.spring.io/forum/spring-projects/container/88107-propertyplaceholderhelper-bug
[逻辑与拓扑]布尔逻辑与拓扑结构的结合会产生什么? comsci 拓扑
如果我们已经在一个工作流的节点中嵌入了可以进行逻辑推理的代码,那么成百上千个这样的节点如果组成一个拓扑网络,而这个网络是可以自动遍历的,非线性的拓扑计算模型和节点内部的布尔逻辑处理的结合,会产生什么样的结果呢? 是否可以形成一种新的模糊语言识别和处理模型呢? 大家有兴趣可以试试,用软件搞这些有个好处,就是花钱比较少,就算不成
ITEYE 都换百度推广了 cuisuqiang Google AdSense 百度推广广告外快
以前ITEYE的广告都是谷歌的Google AdSense，现在都换成百度推广了。为什么个人博客设置里面还是Google AdSense呢？都知道Google AdSense不好申请，这在ITEYE上也不是讨论了一两天了，强烈建议ITEYE换掉Google AdSense。至少，用一个好申请的吧。什么时候能从ITEYE上来点外快，哪怕少点
新浪微博技术架构分析 dalan_123 新浪微博架构
新浪微博在短短一年时间内从零发展到五千万用户，我们的基层架构也发展了几个版本。第一版就是是非常快的，我们可以非常快的实现我们的模块。我们看一下技术特点，微博这个产品从架构上来分析，它需要解决的是发表和订阅的问题。我们第一版采用的是推的消息模式，假如说我们一个明星用户他有10万个粉丝，那就是说用户发表一条微博的时候，我们把这个微博消息攒成10万份，这样就是很简单了，第一版的架构实际上就是这两行字。第
玩转ARP攻击 dcj3sjt126com r
我写这片文章只是想让你明白深刻理解某一协议的好处。高手免看。如果有人利用这片文章所做的一切事情，盖不负责。网上关于ARP的资料已经很多了，就不用我都说了。用某一位高手的话来说，“我们能做的事情很多，唯一受限制的是我们的创造力和想象力”。 ARP也是如此。以下讨论的机子有一个要攻击的机子：10.5.4.178 硬件地址：52:54:4C:98
PHP编码规范 dcj3sjt126com 编码规范
一、文件格式 1. 对于只含有 php 代码的文件，我们将在文件结尾处忽略掉 "?>" 。这是为了防止多余的空格或者其它字符影响到代码。例如：<?php$foo = 'foo';2. 缩进应该能够反映出代码的逻辑结果，尽量使用四个空格，禁止使用制表符TAB，因为这样能够保证有跨客户端编程器软件的灵活性。例
linux 脱机管理（nohup） eksliang linux nohup nohup
脱机管理 nohup 转载请出自出处：http://eksliang.iteye.com/blog/2166699 nohup可以让你在脱机或者注销系统后，还能够让工作继续进行。他的语法如下 nohup [命令与参数] --在终端机前台工作 nohup [命令与参数] & --在终端机后台工作但是这个命令需要注意的是，nohup并不支持bash的内置命令，所
BusinessObjects Enterprise Java SDK greemranqq java BO SAP Crystal Reports
最近项目用到oracle_ADF 从SAP/BO 上调用水晶报表，资料比较少，我做一个简单的分享，给和我一样的新手提供更多的便利。首先，我是尝试用JAVA JSP 去访问的。官方API：http://devlibrary.businessobjects.com/BusinessObjectsxi/en/en/BOE_SDK/boesdk_ja
系统负载剧变下的管控策略 iamzhongyong 高并发
假如目前的系统有100台机器，能够支撑每天1亿的点击量（这个就简单比喻一下），然后系统流量剧变了要，我如何应对，系统有那些策略可以处理，这里总结了一下之前的一些做法。 1、水平扩展这个最容易理解，加机器，这样的话对于系统刚刚开始的伸缩性设计要求比较高，能够非常灵活的添加机器，来应对流量的变化。 2、系统分组假如系统服务的业务不同，有优先级高的，有优先级低的，那就让不同的业务调用提前分组
BitTorrent DHT 协议中文翻译 justjavac bit
前言做了一个磁力链接和BT种子的搜索引擎 {Magnet & Torrent}，因此把 DHT 协议重新看了一遍。 BEP: 5Title: DHT ProtocolVersion: 3dec52cb3ae103ce22358e3894b31cad47a6f22bLast-Modified: Tue Apr 2 16:51:45 2013 -070
Ubuntu下Java环境的搭建 macroli java 工作 ubuntu
配置命令：　　$sudo apt-get install ubuntu-restricted-extras 　　再运行如下命令：　　$sudo apt-get install sun-java6-jdk 　　待安装完毕后选择默认Java. 　　$sudo update- alternatives --config java 　　安装过程提示选择，输入“2”即可，然后按回车键确定。
js字符串转日期（兼容IE所有版本） qiaolevip TO Date String IE
/** * 字符串转时间（yyyy-MM-dd HH:mm:ss） * result （分钟） */ stringToDate : function(fDate){ var fullDate = fDate.split(" ")[0].split("-"); var fullTime = fDate.split("
【数据挖掘学习】关联规则算法Apriori的学习与SQL简单实现购物篮分析 superlxw1234 sql 数据挖掘关联规则
关联规则挖掘用于寻找给定数据集中项之间的有趣的关联或相关关系。关联规则揭示了数据项间的未知的依赖关系，根据所挖掘的关联关系，可以从一个数据对象的信息来推断另一个数据对象的信息。例如购物篮分析。牛奶 ⇒ 面包 [支持度：3%，置信度：40%] 支持度3%：意味3%顾客同时购买牛奶和面包。置信度40%：意味购买牛奶的顾客40%也购买面包。规则的支持度和置信度是两个规则兴
Spring 5.0 的系统需求，期待你的反馈 wiselyman spring
Spring 5.0将在2016年发布。Spring5.0将支持JDK 9。 Spring 5.0的特性计划还在工作中，请保持关注，所以作者希望从使用者得到关于Spring 5.0系统需求方面的反馈。