windows hadoop 开发测试版快速搭建

1、hadoop 包下载

  • 清华大学开源软件镜像站下载(速度较快,但版本不全)
  • 官方各个版本

下载后解压。
添加环境变量 HADOOP_HOME。并将 %HADOOP_HOME%/bin、%HADOOP_HOME%/sbin 添加到 path 中。

ps:本文使用的是 hadoop-3.3.2

2、windows 环境准备

windows 所需文件:winutils.exehadoop.dll
可从 GitHub 下载(不全)。

  • winutils.exe 放到 %HADOOP_HOME%/bin 下面。
  • hadoop.dll 放到 windows\system32 下面(也可以放到 %HADOOP_HOME%/bin 下面,加到 path 环境变量就行)。

3、配置

(可选)修改 %HADOOP_HOME%/etc/hadoop 下面的脚本 hadoop-env.cmd,修改 JAVA_HOME 为本机jdk安装时配置的目录。

修改 %HADOOP_HOME%/etc/hadoop 下面的配置文件:core-site.xml、 hdfs-site.xml、 mapred-site.xml、 yarn-site.xml

  • core-site.xml


	
		fs.default.name
		hdfs://0.0.0.0:8020
	

    
    
        hadoop.tmp.dir 
        /D:/Programs/hadoop-3.3.2/temp
    

  • hdfs-site.xml

    
    
        dfs.replication
        1
    
    
    
        dfs.namenode.name.dir 
        /D:/Programs/hadoop-3.3.2/data/namenode
    
    
    
        dfs.datanode.data.dir
        /D:/Programs/hadoop-3.3.2/data/datanode
    
		
	
        dfs.http.address
        0.0.0.0:50070
    

  • mapred-site.xml

	
	
		The hostname of the RM.
		mapreduce.framework.name
		yarn
	

  • yarn-site.xml




     
    
        yarn.nodemanager.aux-services
        mapreduce_shuffle
    
         
    
        yarn.resourcemanager.hostname
        0.0.0.0
     
    
    	yarn.nodemanager.aux-services.mapreduce.shuffle.class
    	org.apache.hadoop.mapred.ShuffleHandler
	
        
        
        yarn.log-aggregation-enable 
        true    
    


第一次运行前,需要格式化HDFS:

hadoop namenode -format

运行:start-dfs.cmdstart-yarn.cmd(需要以管理员运行 cmd);(或 start-all.cmd )

然后访问:

  • http://localhost:8088 查看集群状态
  • http://localhost:50070 访问hdfs
  • http://localhost:19888 查看JobHistory(需要先启动jobHistoryserver)

4、一些报错

未指定 hadoop.tmp.dir(core-site.xml) :

2023-07-03 11:05:24,913 INFO localizer.ResourceLocalizationService: usercache path : file:/tmp/hadoop-a/nm-local-dir/usercache_DEL_1688353524257
2023-07-03 11:05:24,945 WARN nativeio.NativeIO: NativeIO.getStat error (3): 系统找不到指定的路径。
 -- file path: tmp/hadoop-a/nm-local-dir/filecache
2023-07-03 11:05:25,013 WARN nativeio.NativeIO: NativeIO.getStat error (3): 系统找不到指定的路径。
 -- file path: tmp/hadoop-a/nm-local-dir/usercache
2023-07-03 11:05:25,072 WARN nativeio.NativeIO: NativeIO.getStat error (3): 系统找不到指定的路径。
 -- file path: tmp/hadoop-a/nm-local-dir/nmPrivate

非管理员运行 start-yarn.cmd :

org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Failed to setup local dir D:/Programs/hadoop-3.3.2/temp/nm-local-dir, which was marked as good.

填指定 ip 时,则 只会监听该 ip。地址填 0.0.0.0 时,能够监听本机其他 ip。

如 yarn-site.xml 中的 yarn.resourcemanager.hostname。填 10.10.3.16 时,只能通过 10.10.3.16:8088 访问resourcemanager的webui,使用 localhost:8088 无法访问。

你可能感兴趣的:(大数据,windows,hadoop,大数据)