Heritrix源码之 处理链

heritrix源码真不是一般的复杂,但是一点一点解析的话还是能看懂的
处理链是heritrix里面最重要的地方之一,对页面的操作都通过处理链完成,其配置的灵活程度和通用性十分强大。别的程序也可以借鉴哦~~~

ProcessorChainList
处理器链集合,包含多个处理器链,每个URL都会有这样一个处理器集合,使得先从该集合中获取处理器链,然后再从处理器链中获取每个处理器,最后让每个处理器都做他们的处理,完成整个抓取。处理器链集里面的处理链是用户配置的,也就是说这个处理器链集里面填充的都是在UI里面配置的项。

在初始化的时候读取所有的配置项调用
	public void addProcessorMap(String name, List processorMap) {
		ProcessorChain processorChain = new ProcessorChain(processorMap);
		ProcessorChain previousChain = getLastChain();
		if (previousChain != null) {
			previousChain.setNextChain(processorChain);
		}
		chainList.add(processorChain);
		chainMap.put(name, processorChain);
	}


你可能感兴趣的:(UI)