hadoop,hbase,hive,sqoop等大数据相关安装详细说明

安装包  网上下载
 1. hadoop-2.6.0-cdh5.4.0.tar.gz
 2. scala-2.10.4.tgz
 3. sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
 4. apache-hive-1.2.1-bin.tar.gz
 5. spark-1.4.1-bin-hadoop2.6.tgz
 6. jdk-8u40-ea-bin-b05-linux-x64-10_sep_2014.tar.gz
 
安装系统环境:
 linux


安装步骤:

1.安装JDK (建议JDK7 以上)
 
 步骤一:
  解压安装包,通过命令进入JDK压缩包存放目录,解压JDK压缩包,解压命令:tar -zxvf  jdk-8u40-ea-bin-b05-linux-x64-10_sep_2014.tar.gz
  
 步骤二:
  配置JDK环境变量,在系统目录/etc/profile文件最下添加:
  export JAVA_HOME=/$path/jdk1.8.0_40
  export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
  export PATH=$PATH:$JAVA_HOME/bin
  
 步骤三:
  通过命令 cd /. 回到系统最初目录,执行命令 echo $JAVA_HOME,如显示JDK安装目录,即代表安装成功


2.安装Hadoop 2.6.0(伪分布式,单节点部署)
 
 步骤一:
  解压安装包,通过命令进入Hadoop 2.6.0 存放目录,解压安装包,解压命令: tar -zxvf  hadoop-2.6.0-cdh5.4.0.tar.gz
  
 步骤二:
  1.解压后,找到hadoop安装目录下的hadoop-env.sh文件,绝对地址如下:/$path/hadoop-2.6.0-cdh5.4.0/etc/hadoop/hadoop-env.sh,
  修改 export JAVA_HOME=/$path/jdk1.8.0_40
  
  2.找到hadoop安装目录下的core-site.xml文件,绝对地址如下:/$path/hadoop-2.6.0-cdh5.4.0/etc/hadoop/core-site.xml,添加
  
  
   fs.defaultFS
   hdfs://localhost.localdomain:8020
  

  
  
  
   hadoop.tmp.dir
   /$path/hadoop-2.6.0-cdh5.4.0/data/tmp
  

  
  3.找到hadoop安装目录下的hadoop-env.sh文件,绝对地址如下:/$path/hadoop-2.6.0-cdh5.4.0/etc/hadoop/hdfs-site.xml,
  
  
   dfs.replication
   1
  

  
  4.格式化HDFS系统,生成镜像文件,进入hadoop-2.6.0 目录,执行命令:bin/hdfs namenode -format,完成格式化
  
  5.启动Hadoop namenode、datanode节点,在hadoop-2.6.0目录,
   执行命令:sbin/hadoop-daemon.sh start namenode
   执行命令:sbin/hadoop-daemon.sh start datanode
   检查节点启动情况,执行命令: jps,显示结果包含namenode、datanode标识,表明节点启动成功
   
  6.通过浏览器访问地址:服务器IP:50070,如显示hadoop页面,表明Hadoop伪分布式搭建成功

3.安装Scala-2.10.4

 步骤一:
  解压安装包,通过命令进入Scala-2.10.4 存放目录,解压安装包,解压命令: tar -zxvf  scala-2.10.4.tgz
 
 步骤二: 
  配置JDK环境变量,在系统目录/etc/profile文件最下添加:
  export SCALA_HOME=/$path/scala-2.10.4
  export PATH=$SCALA_HOME/bin:$PATH
  
 步骤三:
  通过命令 cd /. 回到系统最初目录,执行命令 echo $SCALA_HOME,如显示Scala安装目录,即代表安装成功
  
4.安装spark-1.4.1(Standalone集群模式)

 步骤一:
  解压安装包,通过命令进入spark-1.4.1 存放目录,解压安装包,解压命令: tar -zxvf  spark-1.4.1-bin-hadoop2.6.tgz
 
 步骤二:
     spark-env.sh  文件是由spark-env.sh.template 模板复制命名过来的。
  1.找到spark安装目录下的spark-env.sh文件,绝对地址如下:/$path/spark-1.4.1-bin-hadoop2.6/conf/spark-env.sh,添加
  
  #JDK安装目录
  JAVA_HOME=/$path/jdk1.8.0_40
  
  #Scala安装目录
  SCALA_HOME=/$path/scala-2.10.4
  
  #Hadoop HDFS节点中的conf配置文件路径
  export HADOOP_CONF_DIR=/$path/hadoop-2.6.0-cdh5.4.0/etc/hadoop
  
  #spark master IP地址
  SPARK_MASTER_IP=localhost.localdomain
  
  #spark master 端口号(默认: 7077)
  SPARK_MASTER_PORT=7077
  
  #spark master Web端口(默认: 8080)
  SPARK_MASTER_WEBUI_PORT=8080
  
  #Spark worker占用CPU核心数量(默认: 所有可用的)
  SPARK_WORKER_CORES=1
  
  #Spark worker占用内存大小(默认:  所有RAM去掉给操作系统用的1 GB。注意:每个作业自己的内存空间由SPARK_MEM决定。)
  SPARK_WORKER_MEMORY=1000m
  
  #Spark worker端口(默认:随机))
  SPARK_WORKER_PORT=7078
  
  #Spark Web UI端口(默认: 8081)
  SPARK_WORKER_WEBUI_PORT=8081
  
  #Spark worker运行数量(默认: 1,注意:当你有一个非常强大的计算机的时候和需要多个Spark worker进程的时候你可以修改这个默认值大于1 . 如果你设置了这个值。要确保SPARK_WORKER_CORE 明确限制每一个r worker的核心数, 否则每个worker 将尝试使用所有的核心)
  SPARK_WORKER_INSTANCES=1
  
  2.找到spark安装目录下的slaves.template文件,指定worker节点地址,绝对地址如下:/$path/$path/spark-1.4.1-bin-hadoop2.6/conf/slaves.template,
  因当前配置模式为伪分布式,子父节点在同一台机器上,所以将locahost修改为为当前服务器主机名称或者IP地址,修改后,删除文件.template后缀名
  
  3.找到spark安装目录下的spark-defaults.conf.template文件,指定worker节点地址,绝对地址如下:/$path/$path/spark-1.4.1-bin-hadoop2.6/conf/spark-defaults.conf.template,
  添加    spark.master                     spark://localhost.localdomain:7077     (注意这里需要写 ip 地址)
  添加后删除文件.template后缀名
 
 步骤三:
  启动Spark,进入Spark安装目录,
  执行命令:sbin/start-master.sh
  执行命令:sbin/start-slaves.sh
  执行完毕后,执行:jsp命令,检查进程,如有Master、Worker进行,则代表启动成功
 
 步骤三:
  通过浏览器访问地址:服务器IP:8080,如显示Spark页面,表明Spark Standalone集群模式搭建成功
  
6.安装Hive(集成Mysql作为元数据库,数据库编码集必须为lantan1)
 
 步骤一:
  解压安装包,通过命令进入Hive 存放目录,解压安装包,解压命令: tar -zxvf  apache-hive-1.2.1-bin.tar.gz
 
 步骤二:
  1.找到Hive安装目录下的hive-env.sh.template文件,绝对地址如下:/$path/apache-hive-1.2.1-bin/conf/hive-env.sh.template,添加
  
  #好像是数据检索大小(默认-Xmx4096m )
  export HADOOP_HEAPSIZE=1024
  
  #Hadoop安装目录
  HADOOP_HOME=/$path/hadoop-2.6.0-cdh5.4.0
  
  #Hive配置文件目录
  export HIVE_CONF_DIR=/$path/apache-hive-1.2.1-bin/conf
  
  #Hive Jar支持目录
  export HIVE_AUX_JARS_PATH=/$path/apache-hive-1.2.1-bin/lib
  
  添加完毕后,删除文件.template后缀名
  
  2.找到Hive安装目录下的hive-default.xml.template文件,绝对地址如下:/$path/apache-hive-1.2.1-bin/conf/hive-default.xml.template,修改
   
     
    javax.jdo.option.ConnectionURL
    jdbc:mysql://IP:PORT/DataBase?createDatabaseIfNotExist=true
   

   
   
   
    javax.jdo.option.ConnectionDriverName
    com.mysql.jdbc.Driver
   

   
   
   
    javax.jdo.option.ConnectionUserName
    hive
   

   
   
   
    javax.jdo.option.ConnectionPassword
    mysql
   

   
   
     
                hive.server2.logging.operation.log.location
                /opt/apache-hive-1.2.1-bin/iotmp/operation_logs
                Top level directory where operation logs are stored if logging functionality is enabled
           

   
   

你可能感兴趣的:(大数据)