Hadoop伪分布式环境搭建详细步骤和词频统计

一.Linux系统配置
以下操作是在root用户下进行的

1.配置网络环境
在Linux图形化界面,点击窗口栏的System-Preferences-Network Connections-System eth0-IPv4 Settings
Method的选项默认是DHCP,修改为Manual
点击右侧的Add,Address填写为ip地址,Network填写255.255.255.0,Gateway填写0.0.0.0

2.配置本地映射
在window上,配置hosts文件
打开文件C:\Windows\System32\drivers\etc\hosts
最后一行追加:ip 主机名

192.168.172.101 master

3.关闭防火墙

# service iptables status           //查看防火墙状态
# service iptables stop             //临时关闭防火墙
# chkconfig iptables off            //永久关闭防火墙

若是永久关闭防火墙,重启后才会生效
4.在Linux上配置hosts列表

# vi /etc/hosts

打开文件后,在最后一行追加

192.168.172.144  master

5.创建文件夹,上传安装包

# sudo mkdir -p /opt/software               //用来存放安装包
# sudo mkdir -p /opt/modules                //软件安装在这个文件夹
# sudo mkdir -p /opt/data/tmp               //存放数据
# sudo chown -R hadoop:hadoop *

使用rz工具或者filezilla将安装包上传到/opt/software目录下
我使用的安装包是hadoop-2.5.0.tar.gz 和 jdk-8u151-linux-x64.tar.gz
二.安装配置JDK
这个过程也是步骤特别多,请参考我的博文《Linux系统上安装Java详细步骤》,地址是http://blog.csdn.net/MusicEnchanter/article/details/78751354

三.安装配置Hadoop
1.将hadoop安装包解压到/opt/modules目录下

# tar -zxvf hadoop-2.5.0.tar.gz -C /opt/modules

2.配置环境变量

# vi /etc/profile

在文件最后插入如下语句

# HADOOP_HOME
export HADOOP_HOME=/opt/modules/hadoop-2.5.0
export HADOOP_CONF_FILE=$HADOOP_HOME/etc/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

检查配置结果

# source /etc/profile              //使配置生效
# echo $HADOOP_HOME                //若出现hadoop安装路径,则配置成功

3.配置 hadoop-env.sh,yarn-env.sh,mapred-env.sh三个文件

# echo $JAVA_HOME

返回的是java路径:

/opt/modules/jdk1.8.0_151

使用vi命令分别打开这三个文件,将java路径修改为

export JAVA_HOME=/opt/modules/jdk1.8.0_151
# bin/hadoop         //查看是否生效

4.配置core-site.xml

<configuration>
<property>      
<name>fs.defaultFSname>       
<value>hdfs://192.168.172.147:8020value>
property>
<property>  
<name>hadoop.tmp.dirname> 
<value>/opt/data/tmpvalue>
property>
configuration>

指定namenode所在机器位置及交互端口号,另外也是指定使用的是HDFS文件系统
5.配置hdfs-site.xml

<configuration>
<property>  
<name>dfs.replicationname>    
<value>1value>    
property>
configuration>

指定副本数的个数,默认的是三个
6.配置slaves,将文件内容修改为主机名即可

master

指定从节点位置,包括DataNode和nodemanager
7.格式化namenode

# bin/hdfs namenode format

8.启动

# hadoop-daemon.sh start namenode
# hadoop-daemon.sh start datanode

9.验证,进入hdfs外部管理界面
在浏览器输入

master:50070

10.

# bin/hdfs dfs -mkdir -p temp/conf`            //创建一个文件夹
# bin/hdfs dfs -mkdir -p /t/conf               //创建一个文件夹
# bin/hdfs dfs -put etc/hadoop/hdfs-site.xml
      /user/hadoop/temp/conf`                  //上传文件
# bin/hdfs dfs -ls /user/hadoop/temp/conf      //查看目录下文件
# bin/hdfs dfs -get /user/hadoop/temp/conf/hdfs-site.xml /home/hadoop/get-site.xml                //将文件下载到本地并更名

11.配置mapred-site.xml

<property>  
<name>mapreduce.framework.namename>   
<value>yarnvalue>
property>

12.配置yarn-site.xml

<property>  
<name>yarn.resourcemanager.hostnamename>
<value>此处写ip地址value>
property>

<property>  
<name>yarn.nodemanager.aux-servicesname>      
<value>mapreduce_shufflevalue>
property>

13.启动yarn

#  yarn-daemon.sh start resourcemanager              // 启动resourcemanager

14.进入yarn外部管理界面

在浏览器输入
hadoop1:8088

15.验证配置成功–词频统计

# vi /opt/data/wc.input
# bin/hdfs dfs -mkdir -p /user/hadoop/wordcount/input
# bin/hdfs dfs -put /opt/data/wc.input /user/hadoop/wordcount/input
mapreduce输出路径不能事先创建
# bin/hdfs dfs -mkdir -p /user/hadoop/wordcount/output
# bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.5.0.jar wordcount /user/hadoop/wordcount/input /user/hadoop/wordcount/output
# bin/hdfs dfs -text /user/hadoop/wordcount/output/part*

你可能感兴趣的:(linux,hadoop,Centos)