nutch1.9--windows下nutch基本操作

1.Cygwin下基本操作:
cd /cygdrive/e/nutch1.9 进入nutch文件夹

./bin/crawl ./urls/seed.txt ./TestCrawl 5 启动抓取

bin/nutch readseg -dump Testnew/segments/20150821193529 segdb 导出抓取的文件

bin/nutch readseg -list -dir TestCrawl/segments/ 数据统计

$ bin/nutch readdb TestCrawl3/crawldb/ -dump crawldb3 查看抓取的url

2.常见nutch-site.xml配置:
nutch-site.xml中的节点会覆盖nutch-default.xml中的节点

fetcher.maxNum.threads 配置最大线程数

fetcher.queue.depth.multiplier 深度乘数 队列的深度是线程的数目乘以该参数的值

http.proxy.host 配置代理服务器 host port username password

parser.skip.truncated 配置是否分段返回

db.max.outlinks.per.page 该参数表示单个页面最多支持多少个外连的连接

可以在nutch-site.xml中配置抓取间隔的时间,以防止被反爬程序封锁。 所有配置信息都可以在nutch-default.xml中查找到

你可能感兴趣的:(nutch)