目录
一、什么是Hadoop框架:
二、Hadoop三大发行版:
1.Apache Hadoop
2.Cloudera Hadoop
3.Hortonworks Hadoop
三、Hadoop的优势:
四、Hadoop组成:
1.HDFS架构概述:
a)NameNode(nn):
b)DataNode(dn):
c)Secondary NameNode(2nn):
2.YARN架构概述:
3.MapReduce框架概述:
五、大数据生态体系:
六、VMware安装:
1.配置IP和主机名称:
修改虚拟机IP:
在虚拟机中修改配置:
在Windows中修该配置:
2.使用远程连接软件访问服务器:
3.配置模板虚拟机:
安装epel-release:
注意:
关闭防火墙,关闭防火墙开机自启:
配置用户权限:
4.创捷文件夹:
5.卸载虚拟机自带的JDK:
6.重启虚拟机:
六、克隆虚拟机:
修改克隆后的虚拟机IP:
七、在Hadoop_02虚拟机上安装JDK:
上传JDK和Hadoop的压缩包到主机:
八、在Hadoop_02虚拟机上安装Hadoop:
Hadoop三大发行版本:Apache、Cloudera、Hortonworks。
Apache版本最原始(最基础)的版本,对于入门学习最好。
Cloudera内部集成了很多大数据框架。对应产品CDH。
Hortonworks文档较好。对应产品HDP。
官网地址:http://hadoop.apache.org/releases.html
下载地址:Index of /dist/hadoop/common
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
(1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。
(2)2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support
(3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。
(4)Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
(1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
(2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。
(3)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
(4)Hortonworks目前已经被Cloudera公司收购。
解释:
Hadoop Distributed File System:Hadoop分布式文件系统
存储文件的元数据,如:文件名、目录结构、文件属性(生成时间、副本数、文件权限)、以及每个文件的块列表和块所在的DataNode等。
在本地文件系统存储文件数据模块,以及块数据的校验和。
每隔一段时间对NameNode元数据备份(注意:他不是nn的热备份,不能替代nn执行相关的功能),协助nn执行功能。
YARN资源调度:cpu、内存等
MapReduce:将计算过程分为两个阶段:Map、Reduce
传送口:安装虚拟机
打开虚拟网络编辑器:
更改配置:
在虚拟机中执行:vim /etc/sysconfig/network-scripts/ifcfg-ens33
:打开Linux中的网络配置文件
TYPE="Ethernet"
PROXY_METHOD="none"
BROWSER_ONLY="no"
BOOTPROTO="static" //修改IP地址为静态地址,dhcp为动态IP地址
DEFROUTE="yes"
IPV4_FAILURE_FATAL="no"
IPV6INIT="yes"
IPV6_AUTOCONF="yes"
IPV6_DEFROUTE="yes"
IPV6_FAILURE_FATAL="no"
IPV6_ADDR_GEN_MODE="stable-privacy"
NAME="ens33"
UUID="19026c39-6efe-4f7c-9122-7a8de708270e"
DEVICE="ens33"
ONBOOT="yes"
IPADDR=192.168.10.100
GATEWAY=192.168.10.2
DNS1=192.168.10.2
vim /etc/hostname
:修改主机名称
vim /etc/hosts
:主机名映射
192.168.10.100 hadoop01
192.168.10.101 hadoop02
192.168.10.102 hadoop03
192.168.10.103 hadoop04
192.168.10.104 hadoop05
192.168.10.105 hadoop06
192.168.10.106 hadoop07
192.168.10.107 hadoop08
192.268.10.108 hadoop09
reboot
:重启Linux
ipconfig
:查看ip地址
ping 外部网站连接
:能ping成功说明网络连接成功
ctl+C
:停止ping操作
打开网络设置,修改适配器选项
右键打开VMware属性,双击internet协议版本4(TCP/IPv4),修改常规
Xshell:远程连接工具
Xftp:远程文件上传工具
yum install -y epel-release
如果安装的是Linux最小系统版本,还需要安装如下工具,如果安装的是Linux的桌面标准版,则不需要执行以下操作:
ifconfig
等命令:yum install -y net-tools
yum install -y vim
systemctl stop firewalld:关闭防火墙
systemctl disable firewalld.service:关闭防火墙开机自启
创建用户,配置用户权限(我这里直接使用root用户)
cd /opt:进入opt目录
sudo mkdir module:创建module文件夹
sudo mkdir software:创建software文件夹
注意:虚拟机是最小安装,可以不执行这一步!
rpm -qa | grep -i java | xargs -n1 rpm -e --nodeps
reboot:重启虚拟机
注意:需要关闭虚拟机!!!(学习时只克隆了三台)
打开Hadoop_02虚拟机:
vim /etc/sysconfig/network-scripts/ifcfg-ens33:修改IP
vim /etc/hostname:修改主机名
注意:按照上述步骤修改每一台虚拟机的配置!!!
使用Xftp上传文件到创建的software目录中:(cd /opt/software
)
tar -zxvf jdk-8u212-linux-x64.tar.gz -C /opt/module/:解压tar压缩包
cd /etc/profile.d:进入目录
sudo vim my_env.sh
:创建一个新的文件,对JAVA_HOME配置:
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
resource /etc/profile
:重新加载配置文件
cd /opt/software
tar -zxvf hadoop-3.1.3.tar.gz -C /opt/module/:解压Hadoop压缩包
配置环境变量:
sudo vim /etc/profile.d/my_env.sh
:编写配置文件
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_212
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-3.1.3
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADDOP_HOME/sbin
source /etc/profile
/opt/module/hadoop-3.1.3
hadoop内容:
bin目录:
etc目录:
sbin目录: