大数据平台搭建(一) - Ubuntu 18.04中Hadoop组件的版本与安装顺序

简介

目前在学习大数据的基础知识,希望能与机器学习与数据挖掘进行更好的融合。最近花费了一段时间,在自己的虚拟机中安装了Ubuntu 18.04并搭建了Hadoop伪分布式平台。在平台中安装了几个核心的组件。

这篇文章主要记录一下安装的版本与顺序,希望能给也需要安装的人提供一些建议。

后续会陆续将搭建的过程一步步写出来留作知识积累。

 

环境介绍

主机环境:Windows 10

虚拟软件:VMWare 15

虚拟机环境:Ubuntu 18.04

 

安装组件清单

如下表格是我搭建大数据平台的组件。安装的版本以及安装顺序都在表格中提供。

注意:这只是个人的安装顺序以及版本选择,只是告诉大家这种组合亲测可行,不代表是最优的选择。

安装步骤 安装组件 版本
01 Java 8
02 SSH -
03 Hadoop 2.7.7
04 ZooKeeper  3.4.13
05 Hbase 1.4.9
06 MySQL 5.7
07 Hive 2.3.4
08 Sqoop 1.4.7

版本选择

大数据的版本交叠太块,有人说选择老的版本更好一些。但是太老的版本会不支持新的功能。

所以不知道选哪个的时候,建议是尽量选择每个组件的稳定版,即“stable”版本。

由于组件的安装基本都要去官网下载tar.gz的压缩包,因此在找到网址后留意一下带有“stable”的文件夹。

大数据平台搭建(一) - Ubuntu 18.04中Hadoop组件的版本与安装顺序_第1张图片

我选择的组件大多数是截至至2019-03-09日的stable版本。

 

依赖关系

有些依赖关系以及注意点可以借鉴一下:

  • Hadoop 2.7.1+建议选择 Hbase 1.2.X
  • Hive 2.X建议使用Hadoop 2.X.Y,不要用1代的了。
  • Hive2.X与Hbase1.X及比Hbase1.x更高版本兼容

具体的依赖与选择可以去网上找,我看过不少人总结过,这里我只是展示并记录自身可行的一个环境信息。

 

 

 

 

你可能感兴趣的:(大数据)