原文:http://www.kafka0102.com/2010/07/238.html (这是个牛人)
还是说下DocIDMapperImpl的作用吧。在zoie中,uid和lucene的docid有一一对应关系。从docid到uid的映射很 简单,就是分配个maxdoc大小的数组,索引位置是docid,值是uid。这样做也是因为docid是从小到大自增的,大小总有限。但uid是 long型的,使用数组反映射是不行了,一个直接的选择是使用hashmap。不过zoie为了节约空间,使用了更有效的算法,也就是下面的类,这个算法 有些像是bloom filter算法的变种应用。
package proj.zoie.api.impl; import java.util.Arrays; import java.util.HashMap; import proj.zoie.api.DocIDMapper; import proj.zoie.api.ZoieIndexReader; /** * @author ymatsuda * */ public class DocIDMapperImpl implements DocIDMapper { private final int[] _docArray; private final long[] _uidArray; private final int[] _start; private final long[] _filter; private final int _mask; private final int MIXER = 2147482951; // a prime number /** * * @param uidArray uidArray的大小是索引的maxdoc,所以数组的每个索引位置 * 表示docid,值表示uid,如果docid被删除, * 其索引位置的值为ZoieIndexReader.DELETED_UID */ public DocIDMapperImpl(long[] uidArray) { int len = uidArray.length; int mask = len / 4; mask |= (mask >> 1); mask |= (mask >> 2); mask |= (mask >> 4); mask |= (mask >> 8); mask |= (mask >> 16); _mask = mask; //上面的操作,首先是取mask为len的1/4,之后做了联合的右移及或操作, //使得mask最高有效位右边的位值都变为1,也就是说,假如mask开始等于0x10110000, //操作后变成0x11111111,这才能mask可以和下面的h做与操作定位到_filter数组中 //的某个索引位置。也可以看到,mask的大小介于len的1/4到1/2。 _filter = new long[mask + 1]; for (long uid : uidArray) { if (uid != ZoieIndexReader.DELETED_UID) { int h = (int) ((uid >>> 32) ^ uid) * MIXER; //这个hash值算法目的是将uid能散到int的整个数值范围内,并降低h之间的冲突, //所以计算后得到的h会比较大。 long bits = _filter[h & _mask]; bits |= ((1L << (h >>> 26))); bits |= ((1L << ((h >> 20) & 0x3F))); _filter[h & _mask] = bits; //(h >>> 26)得到的是h高位的前5位,再经过1L << 后,其取值范围就是0-31; //(1L << ((h >> 20) & 0x3F))取值范围是0-63。 //这两个或操作正好取了bits的位数范围中的两位。 //bits的两个或操作,相当于bloom filter中两次hash取位。 //对于bloom filter算法,判定key是否存在是有误判的可能性,这里也不意外。 //因为bits有64位,而每个uid取两位,mask最坏是len的1/2,在hash散均的情况下, //这个_filter每个桶(索引位置)冲突率不会很大。 } } _start = new int[_mask + 1 + 1]; len = 0; for (long uid : uidArray) { if (uid != ZoieIndexReader.DELETED_UID) { _start[((int) ((uid >>> 32) ^ uid) * MIXER) & _mask]++; len++; } } int val = 0; for (int i = 0; i < _start.length; i++) { val += _start[i]; _start[i] = val; } _start[_mask] = len; //_start经过了两个循环处理,第一个循环计算出_start每个桶中保存了多少个uid, //并计算出有效的uid个数len。第二个循环是为下面的操作做准备,它使得_start中每个桶 //保存的是从第0个桶到当前桶有多少有效的uid。 long[] partitionedUidArray = new long[len]; int[] docArray = new int[len]; for (long uid : uidArray) { if (uid != ZoieIndexReader.DELETED_UID) { int i = --(_start[((int) ((uid >>> 32) ^ uid) * MIXER) & _mask]); partitionedUidArray[i] = uid; } } int s = _start[0]; for (int i = 1; i < _start.length; i++) { int e = _start[i]; if (s < e) { Arrays.sort(partitionedUidArray, s, e); } s = e; } //这两个循环来填充partitionedUidArray数组,并调整_start保存的计数, //这个计数就是partitionedUidArray数组的索引位置的偏小临近值。 //注意对_start的--操作和s < e的判断,这是处理一个桶里存在多个uid的情况, //以保证partitionedUidArray中uid的顺序,也使得_start相邻两个桶的计数会有差值。 //所以当可以利用二分查找来搜索_uidArray和_docArray。 for (int docid = 0; docid < uidArray.length; docid++) { long uid = uidArray[docid]; if (uid != ZoieIndexReader.DELETED_UID) { final int p = ((int) ((uid >>> 32) ^ uid) * MIXER) & _mask; int idx = findIndex(partitionedUidArray, uid, _start[p], _start[p + 1]); if (idx >= 0) { docArray[idx] = docid; } } } //填充docArray _uidArray = partitionedUidArray; _docArray = docArray; } /** * @see 分析出构造函数后,这个函数就比较好理解了。这里就不细说了。 */ public int getDocID(final long uid) { final int h = (int) ((uid >>> 32) ^ uid) * MIXER; final int p = h & _mask; // check the filter final long bits = _filter[p]; if ((bits & (1L << (h >>> 26))) == 0 || (bits & (1L << ((h >> 20) & 0x3F))) == 0) return -1; // do binary search in the partition int begin = _start[p]; int end = _start[p + 1] - 1; // we have some uids in this partition, so we assume (begin <= end) while (true) { int mid = (begin + end) >>> 1; long midval = _uidArray[mid]; if (midval == uid) return _docArray[mid]; if (mid == end) return -1; if (midval < uid) begin = mid + 1; else end = mid; } } /** * @see 在arr的一个区间内二分查找uid所在的索引位置。 * @param arr * @param uid * @param begin * @param end * @return */ private static final int findIndex(final long[] arr, final long uid, int begin, int end) { if (begin >= end) return -1; end--; while (true) { int mid = (begin + end) >>> 1; long midval = arr[mid]; if (midval == uid) return mid; if (mid == end) return -1; if (midval < uid) begin = mid + 1; else end = mid; } } }
就时间复杂度来说,DocIDMapperImpl和hashmap相当(在hash均匀情况下,那个二分查找次数通常不会很多)。就空间复杂度来 说,DocIDMapperImpl中的_uidArray和_docArray相当于hashmap中项的kye和value集合。 DocIDMapperImpl中还有的是_start和_filter,而hashmap中每个项还有hash值和项冲突时的next引用以及需要大于 负载因子的额外空间。在mask等于1/2 len的最坏情况下,DocIDMapperImpl也是要优于hashmap的。