大数据集群搭建和使用之一——系统前期准备

  • 大数据架构总览
  • 需要的安装包地址
  • 系统前期准备
    • 系统选用
    • 修改hostname,添加ip映射
    • ssh免密码登录
    • 检查集群主机的时间是否一致
    • 设置后续要使用的命令的快捷命令(别名)
    • 设置环境变量
    • 配置java

这个系列指南使用真实集群搭建环境,不是伪集群,用了三台腾讯云服务器

或者访问我的个人博客站点,链接

大数据架构总览

需要的安装包地址

  • Hadoop:
    http://www.apache.org/dyn/closer.cgi/hadoop/common
  • JDK:
    http://www.oracle.com/technetwork/java/javase/downloads
  • HBase
    http://mirror.bit.edu.cn/apache/hbase/
  • Zookeeper
    http://mirror.bit.edu.cn/apache/zookeeper/
  • Hive
    http://mirror.bit.edu.cn/apache/hive/
  • Kafka
    http://kafka.apache.org/downloads
  • Storm
    http://storm.apache.org/downloads.html

系统前期准备

系统选用

使用centos7,64位服务器,理论上讲64位的linux发行版都是可以的。

修改hostname,添加ip映射

  • vim /etc/sysconfig/network
NETWORKING=yes
HOSTNAME=master不同的主机不同的名称
  • vim /etc/hostname,要么sudo hostname master,然后重启。
  • vim /etc/cloud/templates/hosts.redhat.tmpl
    例如添加一行:
172.16.xxx.xxx master
172.16.xxx.xxx slave1
172.16.xxx.xxx slave2

修改完记得ping一下
不要在127.0.0.1后面添加master或者slave,否则会出现hadoop集群启动成功但是live node为0的情况。

具体原因为:设置时在127.0.0.1后面添加了hadoop01,这样hadoop在启动的时候,根据配置文件监听的时候监听的是hadoop01的9000端口,而这个hadoop01被解析成了127.0.0.1,这样hadoop01节点就不会监听192.168.116.101的9000端口,来自hadoop02和hadoop03的信息不会被hadoop01节点接收到,也就会出现hadoop02和hadoop03节点日志里面的内容,live node一直为0。
参考链接点这里

ssh免密码登录

在每一台主机上生成ssh密钥

ssh-keygen -t rsa -P ''

生成的密钥在/root/.ssh/id_rsa.pub里,将所有主机上的密钥都放在/root/.ssh/authorized_keys文件里,然后使用scp命令,将文件传输到另一个host上。scp -r /root/.ssh/authorized_keys [email protected]:/root/.ssh
最终/root/.ssh/authorized_keys文件中的内容如下图

传输完成后使用ssh互相连接,以互相建立信任连接
master节点:

ssh slave1
ssh slave2

两个slave同理

检查集群主机的时间是否一致

设置后续要使用的命令的快捷命令(别名)

根据自己的版本信息设置快捷命令
这些内容是根据之后的系列指南逐步添加写成的。

#some more aliases
alias cdhadoop='cd /opt/hadoop/hadoop2.8'
alias cdhbase='cd /opt/hbase/hbase1.2'
alias cdhive='cd /opt/hive/hive1.2'
alias cdzookeeper='cd /opt/zookeeper/zookeeper3.4'

alias hadoopfirststart='/opt/hadoop/hadoop2.8/bin/hdfs namenode -format'
alias starthdfs='/opt/hadoop/hadoop2.8/sbin/start-dfs.sh'
alias startyarn='/opt/hadoop/hadoop2.8/sbin/start-yarn.sh'
alias stophdfs='/opt/hadoop/hadoop2.8/sbin/stop-dfs.sh'
alias stopyarn='/opt/hadoop/hadoop2.8/sbin/stop-yarn.sh'

alias starthbase='/opt/hbase/hbase1.2/bin/start-hbase.sh'
alias stophbase='/opt/hbase/hbase1.2/bin/stop-hbase.sh'

alias startzookeeper='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh start'
alias stopzookeeper='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh stop'
alias statuszookeeper='/opt/zookeeper/zookeeper3.4/bin/zkServer.sh status'

样例:

别忘了source ~/.bashrc

设置环境变量

vim /etc/profile
根据自己的版本来设置,注意:下面并没有给出storm和kafka的信息,因为这两个的版本还没敲定

#Java Config
export JAVA_HOME=/opt/java/jdk1.8
export JRE_HOME=/opt/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
# Zookeeper Config
export ZK_HOME=/opt/zookeeper/zookeeper3.4
# HBase Config
export HBASE_HOME=/opt/hbase/hbase1.2
# Hadoop Config
export HADOOP_HOME=/opt/hadoop/hadoop2.8
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
# Hive Config
export HIVE_HOME=/opt/hive/hive1.2
export HIVE_CONF_DIR=${HIVE_HOME}/conf

export PATH=.:${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${ZK_HOME}/bin:${HBASE_HOME}/bin:${HIVE_HOME}/bin:$PATH

修改完记得source /etc/profile

配置java

按照/etc/profile文件里的目录路径配置java文件,如何安装java自行百度即可。
执行java -version检查java是否成功配置以及版本是否正确。

你可能感兴趣的:(BigData)