zoie中DocIDMapperImpl类的分析

原文:http://www.kafka0102.com/2010/07/238.html (这是个牛人)

 

还是说下DocIDMapperImpl的作用吧。在zoie中,uid和lucene的docid有一一对应关系。从docid到uid的映射很 简单,就是分配个maxdoc大小的数组,索引位置是docid,值是uid。这样做也是因为docid是从小到大自增的,大小总有限。但uid是 long型的,使用数组反映射是不行了,一个直接的选择是使用hashmap。不过zoie为了节约空间,使用了更有效的算法,也就是下面的类,这个算法 有些像是bloom filter算法的变种应用。

package proj.zoie.api.impl;
 
import java.util.Arrays;
import java.util.HashMap;
 
import proj.zoie.api.DocIDMapper;
import proj.zoie.api.ZoieIndexReader;
 
/**
 * @author ymatsuda
 * 
 */
 
public class DocIDMapperImpl implements DocIDMapper {
 
	private final int[] _docArray;
	private final long[] _uidArray;
	private final int[] _start;
	private final long[] _filter;
	private final int _mask;
	private final int MIXER = 2147482951; // a prime number
 
	/**
	 * 
	 * @param uidArray uidArray的大小是索引的maxdoc,所以数组的每个索引位置
	 * 表示docid,值表示uid,如果docid被删除,
	 * 其索引位置的值为ZoieIndexReader.DELETED_UID
	 */
	public DocIDMapperImpl(long[] uidArray) {
		int len = uidArray.length;
		int mask = len / 4;
		mask |= (mask >> 1);
		mask |= (mask >> 2);
		mask |= (mask >> 4);
		mask |= (mask >> 8);
		mask |= (mask >> 16);
		_mask = mask;
	//上面的操作,首先是取mask为len的1/4,之后做了联合的右移及或操作,
	//使得mask最高有效位右边的位值都变为1,也就是说,假如mask开始等于0x10110000,
	//操作后变成0x11111111,这才能mask可以和下面的h做与操作定位到_filter数组中
	//的某个索引位置。也可以看到,mask的大小介于len的1/4到1/2。
		_filter = new long[mask + 1];
 
		for (long uid : uidArray) {
			if (uid != ZoieIndexReader.DELETED_UID) {
				int h = (int) ((uid >>> 32) ^ uid) * MIXER;
	//这个hash值算法目的是将uid能散到int的整个数值范围内,并降低h之间的冲突,
	//所以计算后得到的h会比较大。
				long bits = _filter[h & _mask];
				bits |= ((1L << (h >>> 26)));
				bits |= ((1L << ((h >> 20) & 0x3F)));
				_filter[h & _mask] = bits;
	//(h >>> 26)得到的是h高位的前5位,再经过1L << 后,其取值范围就是0-31;
	//(1L << ((h >> 20) & 0x3F))取值范围是0-63。
	//这两个或操作正好取了bits的位数范围中的两位。
	//bits的两个或操作,相当于bloom filter中两次hash取位。
	//对于bloom filter算法,判定key是否存在是有误判的可能性,这里也不意外。
	//因为bits有64位,而每个uid取两位,mask最坏是len的1/2,在hash散均的情况下,
	//这个_filter每个桶(索引位置)冲突率不会很大。
			}
		}
 
		_start = new int[_mask + 1 + 1];
		len = 0;
		for (long uid : uidArray) {
			if (uid != ZoieIndexReader.DELETED_UID) {
				_start[((int) ((uid >>> 32) ^ uid) * MIXER) & _mask]++;
				len++;
			}
		}
		int val = 0;
		for (int i = 0; i < _start.length; i++) {
			val += _start[i];
			_start[i] = val;
		}
		_start[_mask] = len;
//_start经过了两个循环处理,第一个循环计算出_start每个桶中保存了多少个uid,
//并计算出有效的uid个数len。第二个循环是为下面的操作做准备,它使得_start中每个桶
//保存的是从第0个桶到当前桶有多少有效的uid。
 
		long[] partitionedUidArray = new long[len];
		int[] docArray = new int[len];
 
		for (long uid : uidArray) {
			if (uid != ZoieIndexReader.DELETED_UID) {
				int i = --(_start[((int) ((uid >>> 32) ^ uid) * MIXER) & _mask]);
				partitionedUidArray[i] = uid;
			}
		}
		int s = _start[0];
		for (int i = 1; i < _start.length; i++) {
			int e = _start[i];
			if (s < e) {
				Arrays.sort(partitionedUidArray, s, e);
			}
			s = e;
		}
	//这两个循环来填充partitionedUidArray数组,并调整_start保存的计数,
	//这个计数就是partitionedUidArray数组的索引位置的偏小临近值。
	//注意对_start的--操作和s < e的判断,这是处理一个桶里存在多个uid的情况,
	//以保证partitionedUidArray中uid的顺序,也使得_start相邻两个桶的计数会有差值。
	//所以当可以利用二分查找来搜索_uidArray和_docArray。
		for (int docid = 0; docid < uidArray.length; docid++) {
			long uid = uidArray[docid];
			if (uid != ZoieIndexReader.DELETED_UID) {
				final int p = ((int) ((uid >>> 32) ^ uid) * MIXER) & _mask;
				int idx = findIndex(partitionedUidArray, uid, _start[p],
						_start[p + 1]);
				if (idx >= 0) {
					docArray[idx] = docid;
				}
			}
		}
		//填充docArray
		_uidArray = partitionedUidArray;
		_docArray = docArray;
	}
 
	/**
	 * @see 分析出构造函数后,这个函数就比较好理解了。这里就不细说了。
	 */
	public int getDocID(final long uid) {
		final int h = (int) ((uid >>> 32) ^ uid) * MIXER;
		final int p = h & _mask;
 
		// check the filter
		final long bits = _filter[p];
		if ((bits & (1L << (h >>> 26))) == 0
				|| (bits & (1L << ((h >> 20) & 0x3F))) == 0)
			return -1;
 
		// do binary search in the partition
		int begin = _start[p];
		int end = _start[p + 1] - 1;
		// we have some uids in this partition, so we assume (begin <= end)
		while (true) {
			int mid = (begin + end) >>> 1;
			long midval = _uidArray[mid];
 
			if (midval == uid)
				return _docArray[mid];
			if (mid == end)
				return -1;
 
			if (midval < uid)
				begin = mid + 1;
			else
				end = mid;
		}
	}
 
	/**
	 * @see 在arr的一个区间内二分查找uid所在的索引位置。
	 * @param arr
	 * @param uid
	 * @param begin
	 * @param end
	 * @return
	 */
	private static final int findIndex(final long[] arr, final long uid,
			int begin, int end) {
		if (begin >= end)
			return -1;
		end--;
 
		while (true) {
			int mid = (begin + end) >>> 1;
			long midval = arr[mid];
			if (midval == uid)
				return mid;
			if (mid == end)
				return -1;
 
			if (midval < uid)
				begin = mid + 1;
			else
				end = mid;
		}
	}
}
 

 

就时间复杂度来说,DocIDMapperImpl和hashmap相当(在hash均匀情况下,那个二分查找次数通常不会很多)。就空间复杂度来 说,DocIDMapperImpl中的_uidArray和_docArray相当于hashmap中项的kye和value集合。 DocIDMapperImpl中还有的是_start和_filter,而hashmap中每个项还有hash值和项冲突时的next引用以及需要大于 负载因子的额外空间。在mask等于1/2 len的最坏情况下,DocIDMapperImpl也是要优于hashmap的。

你可能感兴趣的:(mapper)