搭建Hadoop2.6+Hbase0.98.20+Nutch2.3.1+solr6.0.1环境

一、单机环境
        Hadoop2.6.0
        Hbase0.98.20
        Nutch2.3.1
       solr6.0.1
       vm10
      centos6.5
      jdk1.8
     comcat8
   1、hadoop环境   (修改本机hosts 为 zwhz)
         a、解压hadoop-2.6.0.tar.gz
         b、/usr/local/app/hadoop-2.6.0/etc/hadoop
         c、vi core-site.xml
           
           
                fs.default.name
                hdfs://zwhz:9000
           

           
                hadoop.tmp.dir
                /usr/local/app/data/hadoop/tmp
                Abasefor other temporary directories.
           

        

      d、vi hadoop-env.sh
           export JAVA_HOME=/usr/local/app/jdk1.8.0_91
      e、vi hdfs-site.xml
         
               
                     dfs.name.dir
                     /usr/local/app/data/hadoop/dfs/name
               

               
                     dfs.data.dir
                     /usr/local/app/data/hadoop/dfs/data
              

              
                    dfs.replication
                    1
              

        

       f、vi mapred-site.xml
          
            
                 mapred.job.tracker
                 zwhz:9001
                 Host or IP and port of JobTracker.
            

        

           g、vi slave
                 zwhz
  2、nutch环境
          tar zxvf apache-nutch-2.3.1-src.tar.gz
      /usr/local/app/apache-nutch-2.3.1
           a、修改ivy/ivy.xml
           
           
         
         
         
         
         
         
       

       
       
       
                      conf="*->default" />
            
           
           
           
                
         
         
    b、修改ivysetting.xml
    编译时部分jar包可能不能下载,需要修改如下配置:
     
   
    配置环境变量vi  /etc/profile
        JAVA_HOME=/usr/local/app/jdk1.8.0_91
    PATH=$JAVA_HOME/bin:$PATH
    CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
    export JAVA_HOME
    export PATH
    export CLASSPATH
    export ANT_HOME=/usr/local/app/apache-ant-1.9.7
    export PATH=$ANT_HOME/bin:$PATH
    export HADOOP_HOME=/usr/local/app/hadoop-2.6.0
    export PATH=$HADOOP_HOME/bin:$PATH
    export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
    export HADOOP_OPTS=-Djava.library.path=$HADOOP_HOME/lib
c、修改nutch-site.xml
     
            
            storage.data.store.class     
            org.apache.gora.hbase.store.HBaseStore     
            Default class for storing data     
       
     
       
          http.agent.name
          nutch_zwh
    

    
          http.robots.agents
          nutch_zwh,*
    
    
         
                plugin.folders  
                plugins  
           
 
   
 
d、修改gora.properties
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
6、编译
ant runtime
编译通过之后,就可以使用命令逐步抓取:
1、injector job将url注入抓取队列中进行初始化
cd runtime/local
mkdir urls
echo "http://nutch.apache.org/" > urls/seed.txt
bin/nutch inject urls -crawlId test
以上测试都没有问题,在hbase中新建了一个表test_webpage,有相应的数据写入
3、solr环境

 参考   http://blog.csdn.net/happyzwh/article/details/51741204


4、把下面文档加入  /usr/local/app/tomcat8/webapps/solr/solrhome/my_solr/conf/managed-schema  下面

 

       
           
   
 
   
    
    
     
       
          
          
     

   


    
   
   
   
   
   
    
    
   
   
   

    
   
   

    
    
    

5、 bin/crawl /urldir jlc  http://localhost:8080/solr/my_solr 2  运行 一键抓取并索引

问题:

1、avro-1.7.7.jar 代替 /usr/local/app/hadoop-2.6.0/lib下相应包
2、hbase数据库错误 查看 http://blog.csdn.net/happyzwh/article/details/51735785

3、Unable to load native-hadoop library for your platform... using builtin-java classes where applicable    查看  http://blog.csdn.net/happyzwh/article/details/51735753

4、java.lang.ClassNotFoundException: Class org.apache.gora.mapreduce.PersistentSerialization not found  &    WARN serializer.SerializationFactory: Serialization class not found:

    把solr4.7/dist下jar包及solrj-lib下jar包复制到 /usr/local/app/hadoop-2.6.0/share/hadoop/mapreduce下

    把gora-core-0.6.1.jar复制到 /usr/local/app/hadoop-2.6.0/share/hadoop/mapreduce下

    把hadoop*-2.6.0.jar复制到 /usr/local/app/hadoop-2.6.0/share/hadoop/mapreduce下


你可能感兴趣的:(linux,hbase,hadoop)