1.2中提到可以通过修改Heritrix代码得到网页间的链接关系,这里说下如何进行修改。既然要修改Heritrix的代码,首先要对Heritrix的代码进行配置。
一、Hertrix代码配置
以下为Heritrix代码配置方法,部分内容转自http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/?S_TACT=105AGX52&S_CMP=reg-ccid
首先在 Eclipse 中新建 Java 工程 MyHeritrix。然后利用下载的源代码包根据以下步骤来配置这个工程。
Heritrix 所用到的工具类库都在 heritrix-1.14.4-src\lib 目录下,需要将其导入 MyHeritrix 工程。
1)将 heritrix-1.14.4-src 下的 lib 文件夹拷贝到 MyHeritrix 项目根目录;
2)在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”,然后选择 Library 选项卡,单击“Add JARs …”,如图 1 所示。
3)在弹出的“JAR Selection”对话框中选择 MyHeritrix 工程 lib 文件夹下所有的 jar 文件,然后点击 OK 按钮。如图 2 所示。
设置完成后如图 3 所示:
1)将 heritrix-1.14.4-src\src\java 下的 com、org 和 st 三个文件夹拷贝进 MyHeritrix 工程的 src 下。这三个文件夹包含了运行 Heritrix 所必须的核心源代码;
2)将 heritrix-1.14.4-src\src\resources\org\archive\util 下的文件 tlds-alpha-by-domain.txt 拷贝到 MyHeritrix\src\org\archive\util 中。该文件是一个顶级域名列表,在 Heritrix 启动时会被读取;
3)将 heritrix-1.14.4-src\src 下 conf 文件夹拷贝至 Heritrix 工程根目录。它包含了 Heritrix 运行所需的配置文件;
4)将 heritrix-1.14.4-src\src 中的 webapps 文件夹拷贝至 Heritrix 工程根目录。该文件夹是用来提供 servlet 引擎的,包含了 Heritrix 的 web UI 文件。需要注意的是它不包含帮助文档,如果想使用帮助,可以将 heritrix-1.14.4.zip\docs 中的 articles 文件夹拷贝到 MyHeritrix\webapps\admin\docs(需新建 docs 文件夹)下。或直接用 heritrix-1.14.4.zip 的 webapps 文件夹替换 heritrix-1.14.4-src\src 中的 webapps 文件夹,缺点是这个是打包好的 .war 文件,无法修改源代码。
拷贝完毕后的 MyHeritrix 工程目录层次如图 4 所示。这里运行 Heritrix 所需的源代码等已经准备完备,下面需要修改配置文件并添加运行参数。
conf 文件夹是用来提供配置文件的,里面包含了一个很重要的文件:heritrix.properties。heritrix.properties 中配置了大量与 Heritrix 运行息息相关的参数,这些参数的配置决定了 Heritrix 运行时的一些默认工具类、Web UI 的启动参数,以及 Heritrix 的日志格式等。当第一次运行 Heritrix 时,只需要修改该文件,为其加入 Web UI 的用户名和密码。如图 5 所示,设置 heritrix.cmdline.admin = admin:admin,“admin:admin”分别为用户名和密码。然后设置版本参数为 1.14.4。
在 MyHeritrix 工程上右键单击选择“Run AsRun Configurations”,确保 Main 选项卡中的 Project 和 Main class 选项内容正确,如图 6 所示。其中的 Name 参数可以设置为任何方便识别的名字。
然后在 Classpath 页选择 UserEntries 选项,此时右边的 Advanced 按钮处于激活状态,点击它,在弹出的对话框中选择“Add Folders”,然后选择 MyHeritrix 工程下的 conf 文件夹。如图 7 所示。
至此我们的 MyHeritrix 工程已经可以运行起来了。下面我们来看看如何启动 Heritrix 并设置一个具体的抓取任务。
找到 org.archive.crawler 包中的 Heritrix.java 文件,它是 Heritrix 爬虫启动的入口,右键单击选择“Run AsJava Application”,如果配置正确,会在控制台输出如图 8 所示的启动信息。
在浏览器中输入 http://localhost.sixxs.org:8080,即可打开如图 9 所示的 Web UI 登录界面。
二、配置过程中可能遇到的问题
以下部分内容转自
http://hi.baidu.com/liuqiyuan/blog/item/d0dd42a74005b384d0435825.html
错误1:Access restriction: The type FileURLConnection is not accessible due to restriction on required library C:\Program Files\Java\jdk1.6.0_20\jre\lib\rt.jar,如图 1 所示。
解决方案:这是 JRE 的访问限制导致报错,在 MyHeritrix 工程上右键单击选择“Build PathConfigure Build Path …”,然后选择 Library 选项卡,将“JRE System Library”删除然后重新导入一下即可修复。或者选择“Windows/Preferences/Java/Compiler/Errors/Warnings”找到“Deprecated and restricted API”下的“Forbidden reference (access rules)”,将默认设置“Error”改为“Warning”或“Ignore”。
图 1. Access restriction 错误
错误2:这个时候会报错NullPointerException 的错误:这个错误的原因是缺少了“tlds-alpha-by-domain.txt”文件,在 heritrix-1.14.4-src\src\resources\org\archive\util 下可以找到该文件,将其拷贝到org.archive.util包(MyHeritrix\src\org\archive\util) 中即可。
图2. NullPointerException 错误
还有就是在配置过后,可能好多选项找不到了,比如encoding选项,这是隐藏了部分Expert设置,点击setting顶端的show expert setting,就可以显示这些选项。
三、修改Heritrix代码,记录链接关系
为了记录完整的链接关系,我们需要在url进行判重之前记录下要遍历的页面,从而记录下链接关系。需要我们找到Heritrix的判重模块,并修改代码,将要判断的页面和当前页面的url输出到一个文件中,从而得到一条边关系。
Heritirx判重模块有多种实现。对应的类有:BdbUriUniqFilter、FPUriUniqFilter、BloomUriUniqFilter等。其中Bdb是利用的Berkeley Db记录Uri,然后通过查询数据库进行判重;FP是指fingerprints 判重,将每一个uri哈希到64位的散列表中,在这个类中提供了MD5和SHA1两种散列算法。BloomUriUniqFilter是用BloomFilter机制进行过滤。关于BloomFilter机制,可以参见http://blog.csdn.net/jiaomeng/article/details/1495500。
Heritrix这些判重的类,都派生自一个名为SetBasedUriUniqFilter的类。我们需要修改SetBasedUriUniqFilter类从而实现在判重前纪录下链接关系。这个类所在的文件名称即为SetBasedUriUniqFilter.java中。首先在类的构造函数中新建一个用来记录url间的链接关系的文件。代码如下:
public SetBasedUriUniqFilter() { super(); String profileLogFile = System.getProperty(SetBasedUriUniqFilter.class.getName() + ".profileLogFile"); if (profileLogFile != null) { setProfileLog(new File(profileLogFile)); } if(linkMap!=null) return; try { linkMap = new FileWriter("linkMap.txt"); } catch (IOException e) { throw new RuntimeException(e); } }
很明显的可以看到,add函数为写入log的函数,并进行了判重处理。我们可以在判重之前记录下链接关系。由于考虑到Heritrix为多线程抓取,为了防止多线程同时写入文件导致文件写乱,用synchronized进行了简单的互斥处理,代码如下:
public void add(String key, CandidateURI value) { synchronized(mutex) { if(linkMap != null) { String link = new String(value.flattenVia()+"\t"+value.toString()+"\n"); try { linkMap.write(link,0,link.length()); linkMap.flush(); } catch (IOException e) { throw new RuntimeException(e); } } } profileLog(key); if (setAdd(key)) { this.receiver.receive(value); if (setCount() % 50000 == 0) { LOGGER.log(Level.FINE, "count: " + setCount() + " totalDups: " + duplicateCount + " recentDups: " + (duplicateCount - duplicatesAtLastSample)); duplicatesAtLastSample = duplicateCount; } } else { duplicateCount++; } }
进行如此修改后按照之前的说法运行程序,开始重新抓取。在抓取的过程中,可在Heritrix根目录下发现一个名为linkMap.txt的文件,此次抓取持续了一天一夜,到终止的时候Heritrix显示抓取了90%左右的页面。linkMap.txt中记录的url间的链接关系形如:
http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/statics/css/reset.css http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/statics/css/2011.css http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/statics/js/jquery.min.js http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/statics/js/jquery.sgallery.js http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/statics/js/search_common.js http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/statics/js/png.js http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/statics/js/2011/banner.js http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/ http://english.pkusz.edu.cn/ http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/index.php http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/special/vote http://www.pkusz.edu.cn/ http://news.pkusz.edu.cn/index.php?m=content&c=index&a=show&catid=143&id=1133 http://www.pkusz.edu.cn/ http://news.pkusz.edu.cn/index.php?m=content&c=index&a=show&catid=143&id=1277 http://www.pkusz.edu.cn/ http://news.pkusz.edu.cn/index.php?m=content&c=index&a=show&catid=143&id=1134 http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/index.php?m=special&c=index&specialid=1&pc_hash=lbCmic http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/ http://www.pkusz.edu.cn/
发现如此记录的路径有很多css和js,另外,有很多重复的边,所以需要在计算Pagerank或其他计算之前去掉css和js,并去掉重复的边。至此,我们得到了一个网页Url的集合和一个网页间链接的集合。去掉css和js,url和链接去重后,我们得到161153个Url以及4264030条边。得到了Url的链接,我们可以根据这个文件以及其他人的抓取结果计算下抓取的覆盖率,在下篇将讲到。