spark on yarn集群搭建

Hadoop yarn集群搭建

1. 修改host

主节点:192.168.3.187 L-AP-3-187
从节点:192.168.3.188 L-AP-3-188
从节点:192.168.3.189 L-AP-3-189

2. 配置ssh,master slaves之间无密码传输

master 和slave上ssh-keygen -t rsa生成公钥秘钥,将公钥scp传到master上
在master将slaves的公钥cat>>到authorized_keys
将master上的authorized_keys发到每台机器上,让所有机器之间都能访问

3. 下载jdk,hadoop,spark

tar -xzvf hadoop-2.7.4.tar.gz

常用命令

解压
tar –xvf file.tar //解压 tar包
tar -xzvf file.tar.gz //解压tar.gz
tar -xjvf file.tar.bz2   //解压 tar.bz2
tar –xZvf file.tar.Z   //解压tar.Z
unrar e file.rar //解压rar
unzip file.zip //解压zip
压缩
tar –cvf jpg.tar *.jpg //将目录里所有jpg文件打包成tar.jpg
tar –czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用gzip压缩,生成一个gzip压缩过的包,命名为jpg.tar.gz
tar –cjf jpg.tar.bz2 *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用bzip2压缩,生成一个bzip2压缩过的包,命名为jpg.tar.bz2
tar –cZf jpg.tar.Z *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用compress压缩,生成一个umcompress压缩过的包,命名为jpg.tar.Z
rar a jpg.rar *.jpg //rar格式的压缩,需要先下载rar for linux
zip jpg.zip *.jpg //zip格式的压缩,需要先下载zip for linux

4. 配置环境变量

/etc/profile /spark_env.sh

HADOOP_HOME=/server/soft/hadoop
HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
YARN_HOME=${HADOOP_HOME}
YARN_CONF_DIR=${YARN_HOME}/etc/hadoop
SCALA_HOME=/server/soft/scala
SPARK_HOME=/server/soft/spark
PATH=$PATH:$SCALA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/bin
export HADOOP_HOME HADOOP_CONF_DIR YARN_HOME YARN_CONF_DIR SCALA_HOME SPARK_HOME PATH

用spark-shell试一下

spark on yarn集群搭建_第1张图片
图片.png

5. 配置hadoop文件

vi hadoop-env.sh(仍然需要配置环境变量,不然报错)

    export  JAVA_HOME=/server /soft/jdk8

vi core-site.xml

    
         
            fs.default.name
            hdfs://L-AP-3-187:9000##hdfs对外访问目录
        
        
            hadoop.tmp.dir
            /server/soft/hadoop/tmp ##必须写全名路径
        
    

vi mapred-site.xml


    
            mapreduce.framework.name
            yarn
    

vi yarn-site.xml


        
                yarn.nodemanager.aux-services
                mapreduce_shuffle
        
        
                yarn.resourcemanager.hostname
                L-AP-3-187
        

vi slaves

    L-AP-3-188  
    L-AP-3-189

修改完以后将etc/profile和hadoop spark等,scp -r hadoop L-AP-3-188:$PWD到其他机器上

在每台机器上source /etc/profile,在hadoop home下创建tmp文件夹 mkdir tmp,
建议所有文件在master改好以后统一scp到别的节点

6. 启动hadoop yarn 集群

a> 格式化name node: hdfs namenode -format

b> sbin/start-dfs.sh #启动hdfs >>

界面url : L-AP-3-187:50070
L-AP-3-187(master)


spark on yarn集群搭建_第2张图片
图片.png

L-AP-3-188/L-AP-3-189:

spark on yarn集群搭建_第3张图片
图片.png

c> sbin/start-yarn.sh #启动yarn >>

界面url: L-AP-3-187:8088
L-AP-3-187(master):

spark on yarn集群搭建_第4张图片
图片.png

L-AP-3-188/L-AP-3-189:


图片.png

spark集群搭建(standlone集群模式才需要配置):

在L-AP-3-187:

Spark-env.sh添加环境变量

Slaves添加work节点(同yarn)

L-AP-3-187上执行脚本:./start-all.sh

L-AP-3-187:多了个master的进程


spark on yarn集群搭建_第5张图片
图片.png

L-AP-3-188/L-AP-3-189:多了个work的进程


spark on yarn集群搭建_第6张图片
图片.png

UI:

YARN(application点进去可进入sparkUI)


spark on yarn集群搭建_第7张图片
图片.png

Spark集群:


spark on yarn集群搭建_第8张图片
图片.png

你可能感兴趣的:(spark on yarn集群搭建)