使用阿里云服务器搭建Hadoop分布式集群注意事项

小编以前在学习Hadoop时使用了两台阿里云服务器搭建了一个分布式集群,今天就来总结一下在阿里云上搭建集群与普通方式(n台电脑)的区别即注意事项!
1./etc/hostname必须改,master改为master,slave1改为slave1等等。
2./etc/hosts中原来的内容全部删除,然后加入namenode和datanode的IP以及名字;特别注意,master中的hosts中的masterIP必为master本机内网IP,其他slave节点IP为外网IP;相同的,slave中的hosts中的本机IP必为本机内网IP,其他节点为外网IP。
3.因阿里云服务器原只支持22、80和443端口,所以需要到控制台中添加防火墙规则,使其支持9000端口等(可以选择全部TCP+UDP,打开全部端口,但不清楚是否会有被攻击的危险)。
4.多次初始化后可能会出现datanode无法启动的情况,可以尝试将logs文件夹和hdfs文件夹全部内容删除,然后分别重建并初始化;或者打开hdfs/data/current/VERSION修改其中的ID与namenode的一致并重启。
5.进行wordcount任务时可能会出现一直开在running的情况,是因为试图连接0.0.0.0/0.0.0.0:8031失败,可在yarn-site.xml中添加以下配置:

  
    yarn.resourcemanager.address  
    master:8032  
    
    
    yarn.resourcemanager.scheduler.address  
    master:8030  
    
    
    yarn.resourcemanager.resource-tracker.address  
    master:8031  
  

并重启运行。
6.涉及配置文件的问题,hadoop集群中所有节点必须同步设置。
7.使用浏览器打开:master外网IP:50070 可以查看集群情况。
8.阿里云服务器默认防火墙开启,实验前需关闭。

(小编水平有限,欢迎大家指正☺)

你可能感兴趣的:(大数据,大数据,Hadoop,阿里云)