ubuntu15.10下nutch2.2.1+mysql搭建爬虫平台

引言

该教程献给那些刚刚知道nutch这个东西,充满好奇心想要尝试却一脸懵逼的小伙伴们。

nutch源码下载

上没有上传的地方,有点淡淡的忧伤,所以我只有借助CSDN了(走过路过不要错过,只要2个C币,业界良心)。

nutch编译前的配置

  • 打开mysql支持
      
      
      
      
      
      <修改
      
      <为
      
      <原因
      
    
  • 配置mysql参数
    //conf/gora.properties
    //注释掉Default SqlStore properties并添加MySQL properties
   //MySQL properties           
  gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver
  gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true
  gora.sqlstore.jdbc.user=root
  gora.sqlstore.jdbc.password=password
  • 修改nutch的参数
   
   
  
       http.agent.name
       LiuXun Nutch Spider
   

   
       http.accept.language
       ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3
       Value of the “Accept-Language” request header field.

       This allows selecting non-English language as default one to retrieve.

       It is a useful setting for search engines build for certain national group.

       
   

   
       parser.character.encoding.default
       utf-8
       The character encoding to fall back to when no other information
       is available
   

   
       storage.data.store.class
       org.apache.gora.sql.store.SqlStore
       The Gora DataStore class for storing and retrieving data.
       Currently the following stores are available: ….
       
   

   
           generate.batch.id
           *
   

nutch编译工具的安装

下载ant并配置path(就这么简单)

nutch的编译

  
 
         
         
         
 
  • ant编译
    在nutch的根目录运行ant runtime命令,然后就是漫长的依赖下载时间。
    真是可怕:
Paste_Image.png

预告

下一篇ubuntu15.10下nutch2.2.1+hbase1.1.1搭建爬虫平台(失败的尝试)

你可能感兴趣的:(ubuntu15.10下nutch2.2.1+mysql搭建爬虫平台)