ELF hash算法 java版

在Heritrix的 Queue-assignment-policy的设置中。
当我们设置了在特定的域名下爬行的时候,经常会碰到永远只有一个线程在运行的情况,导致爬行十分缓慢。这是因为Heritrix默认使用HostnameQueueAssignmentPolicy来产生key值,从这个策略的名字,我们也可以很容易的看出,key跟hostname是有关系的。而事实上,这个策略正是用hostname作为key值的。因此一个域名下的所有链接都会放到同一个线程中去。
在开发自己的搜索引起的书中提到ELF hash算法,但没有实现的例子,在网上找了下,贴代码,备份以后用
import java.util.logging.Logger;

import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.framework.CrawlController;
import org.archive.crawler.frontier.QueueAssignmentPolicy;

public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy {

	private static Logger logger = Logger.getLogger(ELFHashQueueAssignmentPolicy.class.getName());
	@Override
	public String getClassKey(CrawlController controller, CandidateURI cauri) {

		String uri = cauri.getUURI().toString();	
		long hash = ELFHash(uri);
		String a=Long.toString(hash%100);
		return a;
	}
	public long ELFHash(String strUri) {
		long hash = 0;
		long x=0;
		for(int i=0;i<strUri.length();i++)
		{
			hash = (hash<<4)+strUri.charAt(i);
			if((x=hash & 0xF0000000L) != 0)
			{
				hash^=(x>>24);
				hash &=~x;
			}
		}
		return (hash & 0x7FFFFFFF);
	}

}




不断左移位与当前字符相加,当移到高4位有值时循环回来,把高8位异或到低8位上。

你可能感兴趣的:(java,算法)