ubuntu 下nutch 网站抓取配置关键

1,配置环境变量,JDK,除了JAVA环境变量外,在添加一个环境变量

export NUTCH_JAVA_HOME=$JAVA_HOME

2,解压nutch包,找到解压目录下conf文件夹里的crawl-urlfilter.txt文件,

在行号为40的位置上

# accept hosts in MY.DOMAIN.NAME
+^网站的检查规则,指定网站,或者所有

3, <!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } -->

进入Nutch 配置文件目录,修改nutch-site.xml 文件。添加属性名称为http.agent.name ,值为 localweb.com 的属性项,即把本次被抓取网站的名称设置为 localweb.com 。该属性值在抓取网页的时候,会携带于 HTTP 请求的协议里,用来表明网络蜘蛛身份。

<configuration>

<property>

<name>http.agent.name</name>

<value>localweb.com</value>

</property>

</configuration>

4, <!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } -->执行命令 ”bin/nutch crawl url.txt –dir localweb –depth 3 –topN 100 –threads 1” ,命令中的参数指明了抓取行为,具体含义为:

urls.txt :该文件存放需要抓取的url 列表,注意,这个名字需要和你的文件夹目录相同 -dir :指定存放抓取到的网页的目录,本次抓取结果数据存放到localweb 目录下

-depth :指定要抓取的页面深度,本次为3

-topN :指定只抓取每一层的前Nurl ,本次抓取为每一层的前100 个页面

        -threads :指定Crawl 启动下载线程的个数,本次抓取只启动一个线程进行下载网页

爬行完后会在Nutch 根目录下创建localweb 目录,爬行过程得抓取到的页面都存放在这个目录中

<!-- @page { margin: 2cm } P { margin-bottom: 0.21cm } -->

你可能感兴趣的:(java,jdk,网络,ubuntu,url)