hadoop-2.8.4集群搭建

hadoop-2.8.4集群搭建

      • 本地模式
          • 配置免密登录
          • scp
          • 配置环境变量
          • 统计test文件的单词个数
      • 伪分布式
          • hadoop配置文件(/hadoop-2.8.4/etc/hadoop)
          • 1. core-site.xml
          • 2. hdfs-site.xml
          • 3. yarn-site.xml
          • 4. mapred-site.xml
          • 启动
      • 集群搭建
          • 1.core-site.xml 【bigdata111】
          • 2. hdfs-site.xml
          • 3. yarn-site.xml
          • 4. mapred-site.xml
          • 5. 启动成功!!!
          • 6.可视化页面
            • 配置hosts
            • url访问

本地模式

配置免密登录
ssh-keygen

将公钥拷贝到要免密登录的目标机器上
ssh-copy-id 主机名1

记录ssh访问过计算机的公钥(public key)
cat /root/.ssh/known_hosts
scp
scp /etc/hosts root@bigdata1112:/etc/
scp test.tar.gz ip:/opt/svn/
配置环境变量
vi /etc/profile

export JAVA_HOME=/opt/mod/jdk1.8.0_144
export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/opt/mod/hadoop-2.8.4
export PATH=$HADOOP_HOME/bin:$PATH:$HADOOP_HOME/sbin

source /etc/profile
统计test文件的单词个数

/opt/soft/hadoop-2.8.4/share/hadoop/mapreduce
hadoop jar hadoop-mapreduce-examples-2.8.4.jar wordcount /opt/soft/test /opt/module/out

[root@baidu-cloud out]# ll
total 4
-rw-r--r-- 1 root root 877 Oct 22 00:05 part-r-00000
-rw-r--r-- 1 root root   0 Oct 22 00:05 _SUCCESS

[root@baidu-cloud out]# cat part-r-00000

伪分布式

hadoop配置文件(/hadoop-2.8.4/etc/hadoop)
1. core-site.xml
<configuration>

<!-- 指定 HDFS 中 NameNode 的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://test111:9000</value>
</property>
<!-- 指定 hadoop 运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/mod/hadoop/hadoop-2.8.4/data/tmp</value>
</property>

</configuration>

2. hdfs-site.xml
<configuration>

<!--数据冗余数-->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

</configuration>

3. yarn-site.xml
<configuration>

<!-- Site specific YARN configuration properties -->

<!-- reducer 获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定 YARN 的 ResourceManager 的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>test111</value>
</property>

<!-- 日志聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<!-- 日志保留时间设置 7 天() -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>

</configuration>

4. mapred-site.xml
mv mapred-site.xml.template mapred-site.xml

<configuration>

<!-- 指定 mr 运行在 yarn 上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!--历史服务器的地址-->
<property>
<name>mapreduce.jobhistory.address</name>
<value>test111:10020</value>
</property>
<!--历史服务器页面的地址-->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>test111:19888</value>
</property>

</configuration>

启动
格式化Namenode
hadoop namenode -format
hdfs namenode -format

启动集群得命令
Namenode的主节点:sbin/start-dfs.sh
Yarn的主节点:sbin/start-yarn.sh

Namenode和ResourceManager在同一台机器启动时:start-all.sh

[root@www hadoop]# jps
 DataNode
 NodeManager
 SecondaryNameNode
 ResourceManager
 NameNode
 
hdfs web页面
http://ip:50070/dfshealth.html#tab-datanode

yarn
http://ip:8088/cluster

集群搭建

1.core-site.xml 【bigdata111】
<configuration>

<!-- 指定HDFS中NameNode的地址 -->
<property>
   <name>fs.defaultFS</name>
   <value>hdfs://bigdata111:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
   <name>hadoop.tmp.dir</name>
   <value>/opt/mod/hadoop-2.8.4/data</value>
</property>

</configuration>

2. hdfs-site.xml
<configuration>

<!--数据冗余数-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>

<!--secondary的地址-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>bigdata111:50090</value>
</property>

<!--关闭权限-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>

</configuration>

3. yarn-site.xml
<configuration>

<!-- Site specific YARN configuration properties -->

<!-- reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata112</value>
</property>

<!-- 日志聚集功能使能 -->
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>

<!-- 日志保留时间设置7天() -->
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>604800</value>
</property>

</configuration>

4. mapred-site.xml
<configuration>

<!-- 指定mr运行在yarn上-->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

<!--历史服务器的地址-->
<property>
<name>mapreduce.jobhistory.address</name>
<value>bigdata112:10020</value>
</property>

<!--历史服务器页面的地址-->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>bigdata112:19888</value>
</property>

</configuration>

5. 启动成功!!!
=========================bigdata111=========================
start-dfs.sh

[root@bigdata111 hadoop]# jps
5456 DataNode
5318 NameNode
5625 SecondaryNameNode
5770 NodeManager


=========================bigdata112=========================
start-yarn.sh

[root@bigdata112 hadoop]# jps
3106 NodeManager
3003 ResourceManager
2879 DataNode

=========================bigdata113=========================
[root@bigdata113 hadoop]# jps
3089 DataNode
3202 NodeManager
6.可视化页面
配置hosts
//C:\Windows\System32\drivers\etc\hosts

192.168.1.111 bigdata111
192.168.1.112 bigdata112
192.168.1.113 bigdata113
url访问
  1. http://bigdata111:50070/dfshealth.html#tab-overview
  2. http://bigdata112:8088/cluster

你可能感兴趣的:(big,data)