Windows下搭建本地hadoop环境

一、安装JDK

下载地址:

http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
我的电脑是64位win10,下载了jdk-8u45-windows-x64.exe

安装

双击安装,安装到目录:D:\soft\JDK1.8

配置

环境变量配置:
在环境变量添加系统变量:JAVA_HOME:D:\soft\JDK1.8
在path中添加:
%JAVA_HOME%\bin
%JAVA_HOME%\jre\bin

验证

在cmd终端执行命令:java
如果没有报错,且打印出相关信息,说明安装成功。

二、安装Hadoop

2.1 下载Hadoop

下载地址:http://hadoop.apache.org/releases.html
http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.7.6/hadoop-2.7.6.tar.gz
选择适当的稳定版本2.7.6,点击“binary” 即可开始下载。
Hadoop的Linux版本和Windows版本共用:hadoop-2.7.6.tar.gz

2.2 安装Hadoop

将Hadoop安装文件解压到指定目录:D:\develop\hadoop-2.7.6

2.3 配置Hadoop的环境变量

在path中添加: D:\develop\hadoop-2.7.6\bin

2.4 配置Hadoop文件

1.编辑“D:\develop\hadoop-2.7.6\etc\hadoop”下的core-site.xml文件,将下列文本粘贴进去,并保存。


    
        hadoop.tmp.dir
        /D:/develop/hadoop/workplace/tmp
    
    
        dfs.name.dir
        /D:/develop/hadoop/workplace/name
    
    
        fs.default.name
        hdfs://localhost:9000
    
 

2.编辑“D:\develop\hadoop-2.7.6\etc\hadoop”目录下的hdfs-site.xml,粘贴以下内容并保存。



    
    
        dfs.replication
        1
    
    
        dfs.data.dir
        /D:/develop/hadoop/workplace/data
    

 

3.编辑“D:\develop\hadoop-2.7.6\etc\hadoop”目录下的mapred-site.xml(如果不存在将mapred-site.xml.template重命名为mapred-site.xml)文件,粘贴一下内容并保存。



       mapreduce.framework.name
       yarn
    
    
       mapred.job.tracker
       hdfs://localhost:9001
    

 

4.编辑“D:\develop\hadoop-2.7.6\etc\hadoop”目录下的yarn-site.xml文件,粘贴以下内容并保存。





    
       yarn.nodemanager.aux-services
       mapreduce_shuffle
    
    
       yarn.nodemanager.aux-services.mapreduce.shuffle.class
       org.apache.hadoop.mapred.ShuffleHandler
    

 

5.编辑“D:\develop\hadoop-2.7.6\etc\hadoop”目录下的hadoop-env.cmd文件,加入JAVA_HOME的路径,然后保存。

export JAVA_HOME=${JAVA_HOME} 

2.5 替换文件

下载地址:
https://download.csdn.net/download/goodmentc/10528799
解压,将全部bin目录文件替换hadoop目录下的bin目录。

2.6 运行hadoop

  • 1.运行cmd窗口,执行:hdfs namenode -format。
  • 2.运行cmd窗口,切换到hadoop的sbin目录,执行start-all.cmd,它将会启动以下4个进程窗口。

2.7 验证

  • Resourcemanager GUI 地址 – http://localhost:8088
  • Namenode GUI 地址 – http://localhost:50070
    如果这两个地址都能够打开,说明运行成功。

    第一次运行成功,第二次运行http://localhost:50070 报错:

    bindexception address already in use:0.0.0.0:50070 

    查看端口50070: netstat -ano|findstr 50070
    发现端口并没有被占用。
    按照网上的方法:

    • 暂停所有Hadoop进程;
    • 清除core-site.xml、hdfs-site.xml文件中配置的所有目录文件
    • 重新hdfs namenode -format
      重新运行D:\develop\hadoop-2.7.6\sbin/start-all.cmd,结果还是报错。
      怀疑是其他软件影响导致,于是,关闭了360卫士和360杀毒等软件,保留了谷歌浏览器。 重复上述方法,OK啦!

2.8 上传文件测试

2.8.1 创建输入目录

hadoop fs -mkdir hdfs://localhost:9000/user/

上传数据到目录

hadoop fs -put D:\test\README.txt hdfs://localhost:9000/user/wcinput

查看文件

终端执行命令hadoop fs -ls hdfs://localhost:9000/user/wcinput
D:\develop\hadoop-2.7.6>hadoop fs -ls hdfs://localhost:9000/user/wcinput
Found 1 items
-rw-r–r– 1 tancan supergroup 1366 2018-07-06 22:19 hdfs://localhost:9000/user/wcinput/README.txt

–发现文件已经存在。

你可能感兴趣的:(大数据/云计算)