Hadoop+hive安装

以下IP为1.1.1.1请替换为自己机器的ip。所有ip的配置尽量使用域名。
配置/etc/hosts来使用。

下载hadoop安装包,解压缩
进入conf目录:
修改conf/core-site.xml
   
        hadoop.tmp.dir     
        /home/songwei/hadoop/tmp
   

   
        fs.default.name
        hdfs://1.1.1.1:9000
   

这个主要是配置我们的文件系统。其中,fs.default.name的value,不可以写IP地址,要写域名。
域名的查询,具体命令如下:
cd /etc
vi hosts
 在hosts文件中,找到自己IP对应的域名。

    
修改conf/hadoop_env.sh
export JAVA_HOME=/usr/lib/jvm/java-6-sun


修改conf/hdfs-site.xml

    dfs.name.dir
    /home/hadoop/name


    dfs.data.dir
    /home/hadoop/data


    dfs.replication
    3


修改mapred-site.xml
   
        mapred.job.tracker
        1.1.1.1:9001
   

   
        mapred.tasktracker.map.tasks.maximum
        6
   

   
        mapred.tasktracker.reduce.tasks.maximum
        6
   

    
修改master,slave为本地ip地址
1.1.1.1

bin/hadoop namenode -format 格式化name节点
bin/start-all.sh 启动hadoop
使用jps命令,查看hadoop启动情况
26824 DataNode
27141 TaskTracker
26712 NameNode
27027 JobTracker
26936 SecondaryNameNode

dfs -put /home/hadoop/logfile/a.txt input
成功

下载hive安装包
修改hive中的bin/hive-config.sh
export HADOOP_HOME=/home/hadoop/hadoop/hadoop-0.20.203.0 这个是hadoop的地址
export HIVE_HOME =/home/hadoop/hadoop/hive-0.7.0-bin     这个是hive的地址
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.22        这个是jdk的地址

hadoop文件上传后,如果出现各个数据节点数据占用百分比相差过大,影响分布式计算能力
则可通过如下命令进行;在新增节点以后,也可通过此命令平衡数据。
bin/start-balancer.sh -threshold 3
3为3%

启动数据节点:
bin/hadoop-daemon.sh start datanode
bin/hadoop-daemon.sh start tasktracker
hive启动:
HIVE_PORT=10030 bin/hive --service hiveserver
查询当前执行的所有任务
Hadoop job -list
杀掉任务
Hadoop job -kill jobid


你可能感兴趣的:(Hadoop)