搭建Hadoop环境

  • 安装Linux系统

按步骤安装好虚拟机后,通过ifconfig命令却无法正常获取ip地址,因为CentOS6的特性:网卡默认不开启

1.手动启动网卡:ifup eth0

2.永久开启网卡

(1)编辑文件:vim /etc/sysconfig/network-scripts/ifcfg-eth0

(2)将ONBOOT的值修改为yes

配置静态IP:输入命令:setup

  • Hadoop概述

1.Hadoop是Apache提供的一个开源、可靠的、可扩展的的系统架构,可以利用分布式架构来进行海量数据的存储以及计算

2.需要注意的是Hadoop处理的数据是离线的,即在数据已知以及不要求时效性的场景中使用

3.Hadoop历史版本:

Hadoop1.0 --- 只包含Common、HDFS以及MapReduce两个模块

Hadoop2.0 --- 完全不同于1.0的架构,包含Common、HDFS、MapReduce以及Yarn三个模块(常用)

Hadoop3.0 --- 包含Common、HDFS、MapReduce、Yarn、Ozone、Submarine五个模块

4.模块介绍:

(1)HDFS:Hadoop Distributed File System(Hadoop分布式文件系统),作用:用于分布式场景下数据的存储

(2)MapReduce:分布式计算框架,作用:用于分布式场景下数据的计算

(3)Yarn:Hadoop2.0版本中出现的,用于进行资源管理和任务调度的框架

(4)Ozone:基于HDFS进行对象的存储

5.Hadoop的搭建方式

(1)单机模式:只能提供部分功能.大部分功能无法使用

(2)伪分布式:利用一个节点(服务器)模拟分布式集群环境

(3)完全分布式:利用多个节点来搭建出来的真实环境(实际生产场景中的环境)

  • Hadoop伪分布式

1.关闭防火墙:

(1)临时关闭:service iptables stop

(2)永久关闭:chkconfig iptables off

2.配置主机名称:需要注意的是Hadoop的集群主机名称不能有空格或者_,如果存在则会导致Hadoop集群无法找到该节点从而无法启动

(1)编辑network文件:vim /etc/sysconfig/network

(2)将HOSTNAME属性修改为指定的主机名称:HOSTNAME=hadoop01

3.配置hosts文件,将主机名称与ip地址进行映射

(1)编辑network文件:vim /etc/hosts

(2)将主机名称与IP进行映射:192.168.112.131 hadoop01

4.进行SSH免密互通

(1)生成自己的公钥和秘钥,生成的公钥以及秘钥都会存储在/root/.ssh/目录下:ssh-keygen

(2)把生成的公钥注册到远程的机器上:ssh-copy-id [email protected]

5.重启Linux系统用于配置生效:reboot

6.解压Hadoop安装包之后进入Hadoop的etc/hadoop子目录

(1)编辑hadoop-env.sh

①修改JAVA_HOME的路径:export JAVA_HOME=/home/software/jdk1.8/

②设置HADOOP_CONF_DIR的配置文件所处路径:

export HADOOP_CONF_DIR=/home/software/hadoop-2.7.6/etc/hadoop/

  1. 配置core-site.xml

添加配置

fs.defaultFS

hdfs://hadoop01:9000

hadoop.tmp.dir

/home/software/hadoop-2.7.6/tmp

(3)配置hdfs-site.xml

添加配置:

dfs.replication

1

(4)编辑mapred-site.xml:

①将模板文件复制一份并且重命名:cp mapred-site.xml.template mapred-site.xml

②添加配置:

mapreduce.framework.name

yarn

(5)编辑yarn-site.xml

添加配置:

yarn.resourcemanager.hostname

hadoop01

yarn.nodemanager.aux-services

mapreduce_shuffle

(6)编辑slaves文件:

①添加从节点信息:hadoop01

7.配置Hadoop的环境变量:

(1)编辑profile文件:

HADOOP_HOME=/home/software/hadoop-2.7.6/

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:

HADOOP_HOME/sbin

8.格式化NameNode:hadoop namenode -format

9.启动Hadoop:start-all.sh

  • Hadoop的技术细节
  1. HDFS的技术细节

(1)HDFS的全称:Hadoop Distributed File System(Hadoop分布式文件系统)

(2)HDFS是Hadoop提供的一套用于进行分布式存储的文件系统

(3)HDFS为了方便操作仿照Linux系统设计的一套文件系统

(4)HDFS的基本结构是典型的主从结构:NameNode主节点和DataNode从节点

你可能感兴趣的:(hadoop,mapreduce,大数据)