Hadoop单机版安装(保姆级教学)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档

文章目录

  • 前言
  • 一、安装Linux镜像文件
    • 1.从官网上下载Oracle官网上下载virtual Box ,从Ubuntu官网下载系统。
    • 2.安装Virtual Box和虚拟机系统
      • 2.1 VirtualBox安装启动。
      • 2.2 VirtualBox安装启动后,新建虚拟电脑。
      • 2.3新建虚拟电脑的相关配置。
      • 2.4选择启动盘,虚拟机的镜像文件,(本次为Ubuntu20.04版本)。
      • 2.5耐心等待系统安装。
  • 二、打开命令窗口,创建Hadoop用户
  • 三、更新安排apt和安装Vim编译器
    • 1.更新apt
    • 2.下载vim编译器
  • 四、 安装SSH和配置ssh免密登录
    • 1.下载SSH服务端和客户端
    • 2.登录本机
    • 3.配置无密码登录
    • 4.无密码登录
  • 五、安装JAVA环境(安装jdk)
    • 1.下载jdk1.8
    • 2.打开命令窗口,创建存放jdk文件的目录。
    • 3.解压缩jdk压缩包
    • 4.配置java环境变量
  • 六、安装单机Hadoop
    • 1.从Apach官网上下载Hadoop 2.10.1版本
    • 2.解压安装Hadoop2.10.1
    • 3.配置Hadoop 环境变量
    • 4.查看Hadoop版本信息
  • 七、配置相关文件
    • 1.配置core-site.xml
    • 1.配置hdfs-sitexml
  • 八、运行与测试
  • 总结


前言

Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
1.高可靠性
Hadoop按位存储和处理数据的能力值得人们信赖 [3] 。
2.高扩展性
Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中 。
3.高效性
Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快 。
4.高容错性
Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配 。
5.低成本
与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低 。
Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++ [3] 。

Hadoop大数据处理的意义
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里 。


提示:以下是本篇文章正文内容,下面案例可供参考

一、安装Linux镜像文件

1.从官网上下载Oracle官网上下载virtual Box ,从Ubuntu官网下载系统。

Oracle VirtualBox
https://www.virtualbox.org/wiki/Downloads


Hadoop单机版安装(保姆级教学)_第1张图片

Ubuntu20.04
​​​​​​​​https://ubuntu.com/wsl

Hadoop单机版安装(保姆级教学)_第2张图片

2.安装Virtual Box和虚拟机系统

2.1 VirtualBox安装启动。

Hadoop单机版安装(保姆级教学)_第3张图片

2.2 VirtualBox安装启动后,新建虚拟电脑。

Hadoop单机版安装(保姆级教学)_第4张图片
Hadoop单机版安装(保姆级教学)_第5张图片

2.3新建虚拟电脑的相关配置。

Hadoop单机版安装(保姆级教学)_第6张图片

2.4选择启动盘,虚拟机的镜像文件,(本次为Ubuntu20.04版本)。

Hadoop单机版安装(保姆级教学)_第7张图片

2.5耐心等待系统安装。

Hadoop单机版安装(保姆级教学)_第8张图片

二、打开命令窗口,创建Hadoop用户

 $sudo useradd -m hadoop -s /bin/bash //新增hadoop⽤户
 $sudo passwd hadoop // 为"hadoop"⽤户设置密码;
 $sudo adduser hadoop sudo //为"hadoop"⽤户添加管理员权限;
 注销当前账户,使⽤hadoop账户登录

三、更新安排apt和安装Vim编译器

1.更新apt

$sudo apt-get update //更新客户/服务器系统

2.下载vim编译器

$sudo apt-get install vim  //下载vim编译器,后续会用到

四、 安装SSH和配置ssh免密登录

1.下载SSH服务端和客户端

$sudo apt-get install openssh-server //ssh下载

2.登录本机

$ssh localhost  //输入 'yes',登录本机,每次登录都需密码

3.配置无密码登录

$exit      //退出登录
$cd  ~/.ssh/ //切换到ssh目录
$ssh-keygen -t rsa //生成密钥
$cat ./id_rsa/pub >> ./authorized_keys //将密钥添加到公钥中

4.无密码登录

$ssh localhost  //本次登录无需输入密码

五、安装JAVA环境(安装jdk)

1.下载jdk1.8

https://download.oracle.com/java/18/latest/jdk-18_linux-aarch64_bin.tar.gz
Hadoop单机版安装(保姆级教学)_第9张图片
Hadoop单机版安装(保姆级教学)_第10张图片

2.打开命令窗口,创建存放jdk文件的目录。

$cd /usr/lib
$sudo mkdir jvm //创建jvm目录,存放JDK文件

3.解压缩jdk压缩包

$cd ~/Downloads    //jdk压缩包的位置
$sudo  tar -zxvf  ./jdk-8u152-linux-x64.tar.gz  -C  /usr/lib/jvm  //根据压缩包版本名称解压

4.配置java环境变量

$sudo vim ~/.bashrc

//按键i进入vim插入模式,在开头添加,跟据所下版本写入,本次采用的是jdk1.8.0_152版本
export JAVA_HOME=/usr/lib/jvm/jdk1.8.0_152             
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
export PATH=${JAVA_HOME}/bin:$PATH //将jdk⽬录下可执⾏⽂件加⼊到系统PATH中
//写完成后,键盘依次 Esc :wq 保存并推出  

$source ~/.bashrc    //配置环境变量生效
$java -version      //查看java版本

//若屏幕显示返回如下信息,则说明安装成功。
java version "1.8.0_152"
Java(TM) SE Runtime Environment (build 1.8.0_152-b16)
Java HotSpot(TM) 64-Bit Server VM (build 25.152-b16, mixed mode)

六、安装单机Hadoop

1.从Apach官网上下载Hadoop 2.10.1版本

https://downloads.apache.org/hadoop/common/hadoop-2.10.1/hadoop-2.10.1.tar.gz
Hadoop单机版安装(保姆级教学)_第11张图片
Hadoop单机版安装(保姆级教学)_第12张图片

2.解压安装Hadoop2.10.1

$cd ~/Downloads  //切换到Hadoop安装包的位置
$sudo tar -zxf  ./hadoop-2.10.1.tar.gz -C /usr/local   //将Hadoop解压到/usr/local目录下
$cd /usr/local
$sudo mv ./hadoop-2.10.1/ ./hadoop     //将目录名改为hadoop
$sudo chown -R hadoop ./hadoop         //修改目录权限

3.配置Hadoop 环境变量

$sudo vim ~/.bashrc  //打开环境变量目录写入
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:$PATH

4.查看Hadoop版本信息

$hadoop version   //查看版本信息
/*若屏幕显示返回如下信息,则说明安装成功。
Hadoop 2.10.1
Subversion https://github.com/apache/hadoop -r 1827467c9a56f133025f28557bfc2c562d78e816
Compiled by centos on 2020-09-14T13:17Z
Compiled with protoc 2.5.0
From source with checksum 3114edef868f1f3824e7d0f68be03650
This command was run using /usr/local/hadoop/share/hadoop/common/hadoop-common-2.10.1.jar
*/

七、配置相关文件

1.配置core-site.xml

$cd /usr/local/hadoop/etc/hadoop   //切换到Hadoop目录
$sudo vim core-site.xml   //打开core-site.xml文件
//在区域内添加
<configuration>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://localhost:9000
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>file:/usr/local/hadoop/tmp</value>
                <description>Abasefor other temporary directories.</description>
        </property>
</configuration>

1.配置hdfs-sitexml

$sudo vim hdfs-site.xml   //打开hdfs目录
//在区域内添加
<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/dfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/dfs/data</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>1</value>
        </property>
</configuration>

八、运行与测试

$hdfs namenode -format   //文件系统初始化,后续不用多次初始化
$start-dfs.sh   //启动HDFS

$jps    //查看进程
8885 jps
8072 NameNode
8412 SecondaryNameNode
8223 DataNode             
//得到类似结果

总结

以上就是今天要讲的内容,本文仅仅简单介绍了Hadoop单机版的安装,而Hadoop平台提供了许多的功能供我们快速便捷地分布式处理数据,后续我将会不断更新安装文章,供大家参考。

你可能感兴趣的:(hadoop,mapreduce,big,data,大数据,hdfs)