1.手动启动网卡:ifup eth0
2.永久开启网卡
(1)编辑文件:vim /etc/sysconfig/network-scripts/ifcfg-eth0
(2)将ONBOOT的值修改为yes
配置静态IP:输入命令:setup
1.Hadoop是Apache提供的一个开源、可靠的、可扩展的的系统架构,可以利用分布式架构来进行海量数据的存储以及计算
2.需要注意的是Hadoop处理的数据是离线的,即在数据已知以及不要求时效性的场景中使用
3.Hadoop历史版本:
Hadoop1.0 --- 只包含Common、HDFS以及MapReduce两个模块
Hadoop2.0 --- 完全不同于1.0的架构,包含Common、HDFS、MapReduce以及Yarn三个模块(常用)
Hadoop3.0 --- 包含Common、HDFS、MapReduce、Yarn、Ozone、Submarine五个模块
4.模块介绍:
(1)HDFS:Hadoop Distributed File System(Hadoop分布式文件系统),作用:用于分布式场景下数据的存储
(2)MapReduce:分布式计算框架,作用:用于分布式场景下数据的计算
(3)Yarn:Hadoop2.0版本中出现的,用于进行资源管理和任务调度的框架
(4)Ozone:基于HDFS进行对象的存储
5.Hadoop的搭建方式
(1)单机模式:只能提供部分功能.大部分功能无法使用
(2)伪分布式:利用一个节点(服务器)模拟分布式集群环境
(3)完全分布式:利用多个节点来搭建出来的真实环境(实际生产场景中的环境)
1.关闭防火墙:
(1)临时关闭:service iptables stop
(2)永久关闭:chkconfig iptables off
2.配置主机名称:需要注意的是Hadoop的集群主机名称不能有空格或者_,如果存在则会导致Hadoop集群无法找到该节点从而无法启动
(1)编辑network文件:vim /etc/sysconfig/network
(2)将HOSTNAME属性修改为指定的主机名称:HOSTNAME=hadoop01
3.配置hosts文件,将主机名称与ip地址进行映射
(1)编辑network文件:vim /etc/hosts
(2)将主机名称与IP进行映射:192.168.112.131 hadoop01
4.进行SSH免密互通
(1)生成自己的公钥和秘钥,生成的公钥以及秘钥都会存储在/root/.ssh/目录下:ssh-keygen
(2)把生成的公钥注册到远程的机器上:ssh-copy-id [email protected]
5.重启Linux系统用于配置生效:reboot
6.解压Hadoop安装包之后进入Hadoop的etc/hadoop子目录
(1)编辑hadoop-env.sh
①修改JAVA_HOME的路径:export JAVA_HOME=/home/software/jdk1.8/
②设置HADOOP_CONF_DIR的配置文件所处路径:
export HADOOP_CONF_DIR=/home/software/hadoop-2.7.6/etc/hadoop/
添加配置
(3)配置hdfs-site.xml
添加配置:
(4)编辑mapred-site.xml:
①将模板文件复制一份并且重命名:cp mapred-site.xml.template mapred-site.xml
②添加配置:
(5)编辑yarn-site.xml
添加配置:
(6)编辑slaves文件:
①添加从节点信息:hadoop01
7.配置Hadoop的环境变量:
(1)编辑profile文件:
HADOOP_HOME=/home/software/hadoop-2.7.6/
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:
HADOOP_HOME/sbin
8.格式化NameNode:hadoop namenode -format
9.启动Hadoop:start-all.sh
(1)HDFS的全称:Hadoop Distributed File System(Hadoop分布式文件系统)
(2)HDFS是Hadoop提供的一套用于进行分布式存储的文件系统
(3)HDFS为了方便操作仿照Linux系统设计的一套文件系统
(4)HDFS的基本结构是典型的主从结构:NameNode主节点和DataNode从节点