hadoop本地化windows部署

文章目录

  • 前言
  • 1. hadoop on windows
    • 1.1 安装jdk
    • 1.2 安装hadoop
      • 1.2.1 解压
      • 1.2.2 备用目录
      • 1.2.3 修改配置
      • 1.2.4 安装winutils-master
      • 1.2.5 格式化namenode
      • 1.2.6 启动hadoop
      • 1.2.7 web-ui登陆hadoop hdfs
  • 2. spark on windows
    • 2.1 安装scala
    • 2.2 安装spark
      • 2.2.1 解压
      • 2.2.2 环境变量
      • 2.2.3 spark配置
    • 2.3 启动spark-shell
    • 2.4 登陆web-ui
  • 3. hive on windows


前言

需求背景是java代码提交服务器测试周期流程太慢,需要一种能直接在windows本地部署的相关组件。分析项目现有大数据技术栈,包括hadoop、hive和spark(sparksql),存储和计算都依赖windows系统。期中hive保存在本地的hadoop上,spark提交在hadoop的yarn上。

· hadoop on windows
· hive on windows
· spark on windows(提交方式是spark on yarn)

注意事项:
在spark官网选择spark版本的时候确定对应支持的hadoop版本,然后选择对应hadoop的winutils-master的版本。
Spark下载路径:https://spark.apache.org/downloads.html
Hadoop下载路径:https://archive.apache.org/dist/hadoop/common/
Scala下载路径:https://www.scala-lang.org/download/all.html
Winutils-master下载路径:https://github.com/cdarlint/winutils


1. hadoop on windows

1.1 安装jdk

jdk安装省略了
Win+R输入cmd,再键入java -version,确认jdk安装是否成功
在这里插入图片描述

1.2 安装hadoop

1.2.1 解压

解压下载的包到一个无中文无空格的路径下

1.2.2 备用目录

新建一个无中文无空格的文件夹,作为hadoop的namenode地址和datanode地址

1.2.3 修改配置

分别修改解压包下~\etc\hadoop的相关配置文件

  • hdfs-site.xml
    hadoop本地化windows部署_第1张图片

  • yan-site.xml
    hadoop本地化windows部署_第2张图片

  • mapred-site.xml
    hadoop本地化windows部署_第3张图片

  • core-site.xml
    hadoop本地化windows部署_第4张图片

  • hadoop-env.cmd
    hadoop本地化windows部署_第5张图片

1.2.4 安装winutils-master

解压winutils-master包,找到对应hadoop依赖版本的并进入bin目录将这个文件夹里面的文件整体复制到hadoop的安装路径~/bin下

1.2.5 格式化namenode

以管理员启动cmd.exe,键入hdfs namenode -formet,再确认Y

1.2.6 启动hadoop

以管理员启动cmd.exe,进入到hadoop加压路径~/sbin,执行start-all,当再弹出四个窗口并无报错的时候即启动成功

  • namenode
    hadoop本地化windows部署_第6张图片

  • datanode
    hadoop本地化windows部署_第7张图片

  • nodemanager
    hadoop本地化windows部署_第8张图片

  • resourcemanager
    hadoop本地化windows部署_第9张图片

1.2.7 web-ui登陆hadoop hdfs

我安装的是3.0版本的hadoop,所以登陆页面是https://localhost:9870,如果是2.0版本的hadoop,登陆页面是https://localhost:50070
hadoop本地化windows部署_第10张图片


2. spark on windows

2.1 安装scala

spark是scala语言开发的,依赖语言环境。类似于安装jdk,Win+R输入cmd,再键入scala -version,确认scala安装是否成功
在这里插入图片描述

2.2 安装spark

2.2.1 解压

解压spark安装包到一个无中文无空格的路径下

2.2.2 环境变量

配置spark环境变量,类似于配置jdk变量。需要配置SPARK_HOME和Path
SPARK_HOME=spark解压安装路径
Path新增一个%SPARK_HOME%\bin

2.2.3 spark配置

修改spark-env.sh添加以下配置,这一步修改的意义是为了让spark的提交走hadoop的yarn
YARN_CONF_DIR=hadoop安装路径/etc/hadoop

2.3 启动spark-shell

执行spark-shell启动
hadoop本地化windows部署_第11张图片

2.4 登陆web-ui

管理页面,https://localhost:4040
hadoop本地化windows部署_第12张图片


3. hive on windows

hive on windows 需要安装本地化mysql 忒麻烦了。但是hive on windows 其实很好实现,这里就偷个懒省略了。

你可能感兴趣的:(大数据,hadoop,windows,大数据)