Heritrix源码分析(二) 配置文件order.xml介绍

阅读更多

     本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/613412

     欢迎加入Heritrix群(QQ):109148319

 

 

      order.xml是整个Heritrix的核心,里面的每个一个配置都关系到Heritrix的运行情况,没读源码之前我只能从有限的渠道去获知这些配置的运用.读完之后才知道Heritrix竟然有如此灵活的运用,如可以控制抓取速度,可以优化电脑性能,可以在某一次的抓取上继续抓取.当然整个order.xml里我也没有全部掌握,只知道大部分配置的作用,希望大家指点改正以及补充,谢谢!

 

  1.       代表着该抓取JOB的元素,相当于Html的meta
 
    myheritrix                    
    my heritrix  
    Admin                 
                   
                              
    20090520051654             
 
  

 

2. 跟抓取有关的所有参数,由于内容较多,并且Heritrix也已将他们分成不同模块,所以这里我也将他们拆分来说明.

 

 

 
    settings 
    
    logs
    checkpoints
    state 
    scratch  
    0   
    0  
    0 
    30  
    4096 
    65536 
    0 
 

 

  

  

 

  

 

 

 

 

 
 
 

3.接下来拆分每个组件的配置文件一一进行说明,最后对Heritrix主要的配置也就是我们可以影响抓取的配置进行说明。

   3.1:抓取范围

  


      false 
      seeds.txt 
      true 
       
        
           
          
          
            ACCEPT 
             
            true 
             
            false
            true
          
          
            20
          
          
            3
            1
          
          
            2
          
          
            20
          
          
          
        
      
    

 

    3.2: HTTP协议

   


      Mozilla/5.0 (compatible; heritrix/1.14.3 +http://127.0.0.1)
      [email protected]
    

 

    3.3:爬虫协议

    


      classic         
      false   
        
       
      
    

 

   3.4:Frontier 调度器

  


      4.0
      20000
      2000
      300
      30
      900
      1
      0
      0
      org.archive.crawler.frontier.HostnameQueueAssignmentPolicy
      
      false
      false
      false
      true
      true
      3000
      100
      -1
      org.archive.crawler.frontier.ZeroCostAssignmentPolicy
      300000
      50
      org.archive.crawler.util.BdbUriUniqFilter
      false
    

 

   3.5:URL规范化规则,主要用来规范化每个URL,用Heritrix默认的就好了,这里不做说明了,其实也是通过各种规则

   3.6:预先处理链组件:

 
      
        true
        
          
          
        
        false
        true
        false
        
        
      
      
        true
        
          
          
        
        86400
        86400
        false
      
    

 

   3.7:获取组件:

   
      
        true
        
          
          
        
        false
        true
        sha1
      
      
        true
        
          
          
        
        
          
          
        
        1200
        20000
        0
        0
        false
        true
        
        
        open
        
        
        
        
        GB2312
        true
        sha1
        true
        true
        true
        true
        false
        
      
    

 

   3.8:抽取组件

  
      
        true
        
          
          
        
      
      
        true
        
          
          
        
        true
        true
        true
        true
        true
        true
      
    

 

   3.9:写组件

 
      
        true
        
          
          
        
		true 
		 
		 
		index.html 
		%2E 
		. 
		 
		true 
		mirror 
		1023 
		255 
		false 
		true 
		LONG 
		 
      
    

 

   3.10:请求链组件里面可以配置自己的调度器

 
      
        true
        
          
          
        
      
      
        true
        
          
          
        
        false
        true
        -1
        
          
          
        
      
      
        true
        
          
          
        
      
    

 

   3.11:统计跟踪链组件

 
      
        20
      
    

  

更多技术文章、感悟、分享、勾搭,请用微信扫描:

Heritrix源码分析(二) 配置文件order.xml介绍_第1张图片

 

  

 

你可能感兴趣的:(XML,配置管理,正则表达式,网络协议,嵌入式)