【大数据平台】从Hadoop到Spark安装配置教程

目录

3.java -jdk的安装

4.Hadoop以及单机配置的安装

5.Hadoop伪分布式的配置

6.Hadoop集群的配置(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)

7.Hbase及其单机模式的安装

HBase单机模式配置

8.Hive的安装

9.Scala的安装

10.sbt的安装

11.Spark的安装


在此篇文章中,将会按以下顺序配置大数据平台的相关工具:

1.VMware
2.Ubuntu
3.Java -jdk
4.Hadoop
5.Hadoop伪分布式
6.Hadoop集群(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)
7.Hbase
8.Hive
9.Scala
10.sbt
11.Spark

你可以选择前往官网下载安装包文件,或在本篇末尾找到为您提供的下载方式。

本篇安装从第3部分开始,如需要VMware和Ubuntu的安装过程请跳转到此篇文章。

3.java -jdk的安装

方法一:

使用下面的命令在当前目录位置下安装jdk:

sudo apt install openjdk-8-jdk
java -version #使用此命令查看java版本,如返回版本信息,则安装成功

方法二:(此版本java与sbt版本冲突)

3-1.进入JDK压缩包所在位置(这里默认放在桌面),打开终端,将其解压缩到/usr/lib/jvm目录下:

cd /usr/lib
sudo mkdir jvm #在/usr/lib目录下新建一个jvm文件夹存放JDK文件

3-2.在桌面打开终端:

sudo tar -zxvf ./jdk-18_linux-x64_bin.tar.gz -C /usr/lib/jvm #把JDK压缩包解压到/usr/lib/jvm目录中

3-3.设置环境变量:

cd ~
vim ~/.bashrc

用vim编辑器打开后,在开头添加如下内容:

export JAVA_HOME=/usr/lib/jvm/jdk-18.0.1.1
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH

 

 

保存.bashrc文件并退出vim编辑器。执行下面的命令让.bashrc文件立即生效:

source ~/.bashrc

 3-4.使用如下命令,查看JAVA版本,如正常显示则安装成功:

java -version

4.Hadoop以及单机配置的安装

4-1.进入Hadoop压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

sudo tar -zxvf ./hadoop-3.3.2.tar.gz -C /usr/local #将压缩包解压到/usr/local/目录中

4-2.进入到/usr/local/目录,将解压后的文件夹更名为hadoop,并修改权限:

cd /usr/local #进入目录
sudo mv ./hadoop-3.3.2 ./hadoop #重命名文件夹
sudo chown -R hadoop ./hadoop #修改文件夹权限

4-3.查看Hadoop是否可用,若可用则会显示Hadoop版本信息:

cd /usr/local/hadoop
./bin/hadoop version

Hadoop默认模式即为单机(非分布式)模式,无需其他配置即可运行。

5.Hadoop伪分布式的配置

5-1.修改core-site.xml配置文件,文件位置(/usr/local/hadoop/etc/hadoop)


  
替换为

    
        hadoop.tmp.dir
        file:/usr/local/hadoop/tmp
        Abase for other temporary directories.
    
    
        fs.defaultFS
        hdfs://localhost:9000
    

5-2.修改hdfs-site.xml配置文件,文件位置(/usr/local/hadoop/etc/hadoop)


  
替换为

    
        hadoop.tmp.dir

    
        dfs.replication
        1
    
    
        dfs.namenode.name.dir
        file:/usr/local/hadoop/tmp/dfs/name
    
    
        dfs.datanode.data.dir
        file:/usr/local/hadoop/tmp/dfs/data
    

 

 

5-3.执行NameNode格式化:

cd /usr/local/hadoop
.bin/hdfs namenode -format

格式化成功则提示“successfully formatted”

5-4.启动NameNode和DataNode守护进程:

cd /usr/local/hadoop
./sbin/start-dfs.sh

5-5.查看是否启动成功:

jps

若启动成功则返回“NameNode”“DataNode”和“SecondaryNameNode”几个进程名字。

启动成功后,可访问Web界面http://localhost:9870查看NameNode和DataNode信息,并可在线查看HDFS中的文件。

5-6.关闭Hadoop的命令:

./sbin/stop-dfs.sh

6.Hadoop集群的配置(这里建议将后面的工具安装完成后,再配置此步骤,否则会非常痛苦)

在配置之前,请提前在两台虚拟机上安装完成JAVA、Hadoop等。
或者也可以选择直接克隆一台出来。

6-1.将虚拟机网络设置为桥接模式:

6-2.手动设置ubuntu的ip地址,并修改ubuntu的主机名hostname:

本次ip设置为10.50.141.10与10.50.141.11,需要注意的是设置的ip要与主机ip在同一子网下。

sudo vim /etc/hostname #修改主机名

6-3.修改/etc/hosts文件,配置主机和ip地址之间的映射关系:

6-4.重启后,互ping,查看是否配置成功:

6-5.SSH无密码登录slave节点:

6-6.配置PATH环境变量:

接下来开始正式配置集群/分布式模式,需要修改“/usr/local/hadoop/etc/hadoop”目录下的配置文件,这里仅设置正常启动所必须的设置项,包括workers 、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共5个文件。

6-7.在/usr/local/hadoop/etc/hadoop目录下,修改workers文件:

6-8.在/usr/local/hadoop/etc/hadoop目录下,修改core-site.xml文件:

6-9.在/usr/local/hadoop/etc/hadoop目录下,修改hdfs-site.xml文件:

6-10.在/usr/local/hadoop/etc/hadoop目录下,修改mapred-site.xml文件:

6-11.在/usr/local/hadoop/etc/hadoop目录下,修改yarn-site.xml文件:

6-12.删除master节点的hadoop日志文件,再将整个hadoop压缩复制,传送到slave节点:

6-13.在slave节点上,将其解压到/usr/local/目录中并修改权限:

6-14.在master节点上,格式化名称节点并启动Hadoop:

6-15.在master节点上,关闭Hadoop:

7.Hbase及其单机模式的安装

7-1.进入Hbase压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

sudo tar -zxvf ./hbase-2.4.12-bin.tar.gz -C /usr/local

7-2.将解压的文件夹重命名为hbase,并赋予权限:

cd /usr/local
sudo mv ./hbase-2.4.12 ./hbase #更改文件夹名字
sudo chown -R hadoop ./hbase #赋予权限

7-3.配置环境变量(vim ~/.bashrc):

在PATH中追加如下内容:

:/usr/local/hbase/bin

使用此命令,使环境变量文件立即生效:

source ~/.bashrc

7-4.查看HBase版本,确定HBase安装是否成功:

/usr/local/hbase/bin/hbase version

HBase单机模式配置

7-5.修改hbase-env.sh配置文件(文件位置/usr/local/hbase/conf/hbase-env.sh)

在文件中添加如下内容,原文件已有此配置,可删除语句前的“#”开启,或直接添加下面的内容
export JAVA_HOME=/usr/lib/jvm/jdk-8-openjdk-amd64
export HBASE_MANAGES_ZK=ture

7-6.修改hbase-site.xml配置文件(文件位置/usr/local/hbase/conf/hbase-env.sh)

在此文件中指定HBase数据的储存位置,在文件中添加如下内容


        
                hbase.rootdir
                file:///usr/local/hbase/hbase-tmp
        

7-7.测试运行HBase

切换至HBase安装目录/usr/local/hbase,并启动HBase:

cd /usr/local/hbase
bin/start-hbase.sh #启动hbase
bin/hbase shell #打开hbase shell
bin/stop-hbase.sh #停止hbase运行

若终端的提示符变为“hbase:001:0>”则为安装成功.

8.Hive的安装

9.Scala的安装

9-1.进入Scala压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

sudo tar -zxvf ./scala3-3.1.2.tar.gz -C /usr/local #将压缩包解压到/usr/local/目录中

9-2.进入到/usr/local/目录,将解压后的文件夹更名为scala,并修改权限:

cd /usr/local #进入目录
sudo mv ./scala3-3.1.2 ./scala #重命名文件夹
sudo chown -R hadoop ./scala #修改文件夹权限

9-3.启动scala交互执行环境:

cd /usr/local/scala
./bin/scala

此时命令提示符显示为“scala>”即为安装成功。

退出scala交互,执行如下命令:

:quit   #注意quit前的“:”

10.sbt的安装

10-1.进入Sbt压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中,并修改权限:

sudo unzip -n sbt-1.6.2.zip -d /usr/local #将压缩包解压到/usr/local/目录中
sudo chown -R hadoop /usr/local/sbt #hadoop为用户名

10-2.将bin目录下的sbt-launch.jar复制到sbt的安装目录下:

cd /usr/local/sbt
cp ./bin/sbt-launch.jar ./

10-3.在安装目录下使用vim命令创建一个Shell脚本文件,用于启动sbt:

vim /usr/local/sbt/sbt

文件内容如下:(-XX:MaxPermSize=256M此选项在JDK 8中已弃用,并由该-XX:MetaspaceSize选项取代。)

#!/bin/bash
SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MetaspaceSize=256M"
java $SBT_OPTS -jar `dirname $0`/sbt-launch.jar "$@"

10-4.为Shell文件增加可执行权限:

chmod u+x /usr/local/sbt/sbt

10-5.执行Shell文件,启动sbt:(这里不使用./sbt sbt-version)

./sbt sbtVersion

11.Spark的安装

11-1.进入Spark压缩包的位置(这里默认在桌面),打开终端,将其解压缩到/usr/local/目录中:

sudo tar -zxvf ./spark-3.2.1-bin-hadoop3.2.tgz -C /usr/local #将压缩包解压到/usr/local/目录中

11-2.进入/usr/local/目录,重命名解压后的文件夹,并修改权限:

cd /usr/local #进入目录
sudo mv ./spark-3.2.1-bin-hadoop3.2 ./spark #重命名文件夹
sudo chown -R hadoop ./spark #修改文件夹权限

11-3.修改Spark配置文件spark-env.sh:

cd /usr/local/spark/conf #进入spark的conf目录,修改配置文件
cp ./spark-env.sh.template ./spark-env.sh #将配置文件spark-env.sh.template复制后并命名为spark-env.sh

编辑spark-env.sh文件(vim ./spark-env.sh),在第一行添加下面内容:

export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/bin/hadoop classpath)

11-4.通过运行自带的实例,检验是否安装成功:

cd /usr/local/spark
bin/run-example SparkPi 2>&1 | grep "Pi is" #运行自带的实例

若返回“Pi”的值,则安装成功。

11-5.启动spark-shell命令:

cd /usr/local/spark
bin/spark-shell

11-6.退出spark-shell命令:

:quit


文件名 下载链接 提取码
jdk-18_linux-x64_bin.tar.gz https://caiyun.139.com/m/i?0Y5CsEx1P0c2E KAfC
hadoop-3.3.2.tar.gz https://caiyun.139.com/m/i?0Y5CffZha2e62 FUYC
hbase-2.4.12-bin.tar.gz https://caiyun.139.com/m/i?0Y5CrH3d5aGwk bwSa
apache-hive-3.1.3-bin.tar.gz https://caiyun.139.com/m/i?0Y5CsYxWpefq9 1EQH
scala3-3.1.2.tar.gz https://caiyun.139.com/m/i?0Y5CffZctNOsQ f7L2
sbt-1.6.2.zip https://caiyun.139.com/m/i?0Y5CsYxS8zQcv ojTc
spark-3.2.1-bin-hadoop3.2.tgz https://caiyun.139.com/m/i?0Y5CrusM7m4SE hBfH

你可能感兴趣的:(大数据,hadoop,spark,分布式,hive)