hadoop和spark配置问题记录

hadoop和spark配置问题记录

Spark的WebUI访问不了

直接启动的start-all.sh是环境变量中配置的hadoop的脚本,不是spark的,因此启动spark的start-all.sh脚本即可。

Spark看不到Worker信息

启动Spark在UI界面上看不到worker节点的信息_潇洒哥WH3的博客-CSDN博客

此问题和下一问题:“Hadoop的Live Nodes显示为0” 是同一问题。

根本原因同“Hadoop的Live Nodes显示为0”,临时解决方法是:修改hadoop的start-env.sh,将其中的MASTER_IP改为MASTER_HOST,并将Master名改为Master的IP。

Hadoop的Live Nodes显示为0

Hadoop集群活跃节点为0解决方案_Ichimaru_Gin_的博客-CSDN博客

原因是/etc/hosts中配置的IP发生了覆盖,只需要去掉127.0.0.1的masterIP就行,同时保留master和slave的真实IP

hadoop和spark配置问题记录_第1张图片

IDEA配置Scala+Maven项目相关

  • 一些配置:使用IntelliJ IDEA开发Spark应用程序_厦大数据库实验室博客 (xmu.edu.cn),其他教程在CSDN的收藏

  • 打包jar:在idea中将java项目中的单个类打包成jar包操作_java_脚本之家 (jb51.net)

配置PySpark环境

spark自带pyspark,不过版本不一定最新,以下采用黑马程序员的做法,在conda虚拟环境中安装。

1、安装conda发行版,这里选择miniconda3

miniconda安装及环境创建(Linux)_linux miniconda_蓬蓬奇的博客-CSDN博客

2、安装python

注意安装的Python版本要和自己的pyspark兼容。我的是spark2.4.4,实测python3.8不兼容,python3.6兼容。

conda install python=3.6

这一步会自动安装pip

3、安装numpy库

pip install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple/

4、配置pyspark环境变量

需要配置3处地方:

首先配置黑马程序员中说的这两处(~/.bashrc和/etc/profile),记得source /etc/profile更新环境变量

export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3

运行spark安装目录bin下的pyspark程序,如果显示的python版本是我们指定的,则无需配置下面的,否则配置:

打开spark安装目录conf下的spark-env.sh,发现存在PYSPARK_PYTHONPYSPARK_DRIVER_PYTHON变量,修改为:

export PYSPARK_DRIVER_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3
export PYSPARK_PYTHON=/home/hadoop/miniconda3/envs/pyspark/bin/python3

你可能感兴趣的:(问题,hadoop,spark,大数据)