Hadoop + Spark 部署

1. 安装jdk

        普通用户,直接在官网上下载包上传到服务器

        Java Downloads | Oracle

        解压缩:

tar -zxvf hadoop-2.7.3.tar.gz -C /目标路径 

       保证 jdk、hadoop、spark 三个文件夹   在 usr/ 目录下(/home/usr/jdk)

Hadoop + Spark 部署_第1张图片

2. 安装Hadoop

        自己找要安装的hadoop版本,下载 .tar.gz文件,同上,解压缩、改名,放在 usr 目录下

3. 安装Spark

        同上

4. 配置

        不用管网上教程改 ./bashrc 文件

        把 github 上的 setenv.sh 和 submit.sh 放在usr 目录下

        修改文件的配置信息。

        setenv.sh :

#!/bin/bash

export PATH=$"/home/usr/anaconda3/bin":$PATH
export PATH=$"/home/usr/anaconda3/bin/python3":$PATH

# export JAVA_HOME="/home/usr/jdk"
# export PATH=$JAVA_HOME/bin:$PATH


# Spark env will be set 
export SPARK_HOME="/home/usr/spark"
export PATH=$SPARK_HOME/bin:$PATH
export SPARK_CONF_DIR="$SPARK_HOME/conf"

# Set this to location of Hadoop 
export HADOOP_HOME="/home/usr/hadoop"
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HADOOP_HOME/lib
export CLASSPATH=$HADOOP_HOME/lib:$CLASSPATH


# Add the PySpark classes to the PYTHONPATH:
export PYTHONPATH=$SPARK_HOME/python:$PYTHONPATH
export PYTHONPATH=$SPARK_HOME/python/lib/py4j-0.10.9-src.zip:$PYTHONPATH

        submit.sh 提交代码文件到spark

#!/bin/bash
# hostname 
# http://202.117.43.11:8080/
/home/usr/spark/sbin/start-all.sh
#/home/usr/spark/sbin/stop-all.sh
# conda activate pysyft
spark-submit /home/usr/test.py
...

        cuda 配置

在 . bashrc 添加

function _switch_cuda {
   v=$1
   export PATH=$PATH:/usr/local/cuda-$v/bin
   export CUDADIR=/usr/local/cuda-$v
   export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-$v/lib64
   nvcc --version
}

_switch_cuda 10.1

执行 source ~/.bashrc 时出现错误:Command 'nvcc' not found

解决√

spark-shell 报错 command not found

在 . bashrc 添加 

export SPARK_HOME=/home/usr/spark/
export PATH=$SPARK_HOME/bin:$PATH

然后

source ~/.bashrc
spark-shell

Hadoop + Spark 部署_第2张图片

解决√

 

你可能感兴趣的:(java,服务器,数据库)