Spark与Hadoop关联

这种配环境的东西配过一次就忘了,还是记录一下吧。
spark运行需要jdk,scala,hadoop。
Hadoop是从cloudera官网下的cloudera manager虚拟机;
jdk版本为1.8;
scala版本为2.11。

cloudera manager(以下简称CM)官网虚拟机下载页链接:https://www.cloudera.com/downloads/quickstart_vms/5-12.html
spark官网下载页链接:https://spark.apache.org/downloads.html
scala官网下载页链接:http://www.scala-lang.org/download/

  1. 下载与解压
    jdk下载要根据虚拟机是x86 还是x64选择,否则安不上。uname -a 可以查看当前os的版本。
    注意scala是要下载linux系统的版本哦,别在windows中下载传到虚拟机中才发现下错了。。。
    CM的下载也是需要选择虚拟机类型的,有vmware,virtualBox什么的。
    spark下载好之后,tar -zxvf 解压安装,简单不用说。

  2. 修改配置文件
    到spark解压的目录下,有个conf文件夹,里面放置了spark的配置文件。
    先修改这个:spark-env.sh,加入以下变量:
    HADOOP_CONF_DIR=/etc/hadoop/conf #这个是Hadoop的配置文件目录
    SPARK_MASTER_HOST=quickstart.cloudera #spark master的主机名
    SPARK_MASTER_WEBUI_PORT=8080 #查看master任务的web页面端口
    SPARK_MASTER_PORT=7077 #master的通信端口
    SPARK_WORKER_CORES=1 #worker核数
    SPARK_WORKER_MEMORY=2g #worker内存占用
    SPARK_WORKER_PORT=7078 #worker通信端口
    SPARK_WORKER_WEBUI_PORT=8081 #查看worker任务的web页面端口
    SPARK_WORKER_DIR=/home/cloudera/Downloads/temp #临时文件存放目录
    再修改这个:slaves
    这个不用解释了吧,输入worker主机名就好了
    再修改最后一个:spark-defaults.conf
    spark.master spark://quickstart.cloudera:7077 #设置spark任务提交的目标

完成~
在根目录输入bin/spark-shell 查看quickstart.cloudera:8080 ,如果application那一栏有东西就说明成功了。

你可能感兴趣的:(Spark与Hadoop关联)