Heritrix3.0教程(六) 载入种子的四种方式

阅读更多

     本博客属原创文章,转载请注明出处:http://guoyunsky.iteye.com/blog/1744456 

      本人新浪微博:http://weibo.com/guoyunwb

 

       Heritrix3.0新特性一大亮点就是,相比以前版本载入种子更灵活(甚至你可以动态载入种子),同时可以载入N个种子.以前版本载入种子是全部加载到内存,而一旦种子过多,那容易导致内存溢出.而新版本会分批次写入硬盘(通过调度器写入).所以避免了这个问题.下面就说一下Heritrix3.0载入种子的四种方式,分别是:直接载入,通过seeds.txt载入,通过ActionDirectory动态载入(注意是动态,你随时可以载入),自定义载入.

      1. 直接载入:
          直接载入比较方便,只需直接在crawler.beans.cxml中设置就可以,具体设置如下.

view plain copy to clipboard print ?
  1.   
  2.   
  3.   
  4.   
  5.   
  6. # your seeds  
  7.   
  8.   
  9.   
  10.   
  11. -->  
  12.   

你可能感兴趣的:(Heritrix3.0教程(六) 载入种子的四种方式)