pycharm远程连接spark的初始安装以及问题

1.安装软件

1.在本机 Windows 安装 Anaconda。
安装 PyCharm professional。
2.再虚拟机搭建spark

2.配置pycharm

1.新建项目
pycharm远程连接spark的初始安装以及问题_第1张图片
2.开菜单"Tools -> Deployment -> Configuration…”
pycharm远程连接spark的初始安装以及问题_第2张图片
3.新建一个通过 SFTP 把本地文件远程发布到虚拟机的设置。
pycharm远程连接spark的初始安装以及问题_第3张图片
4.输入虚拟机的地址,用户名,密码pycharm远程连接spark的初始安装以及问题_第4张图片
5.测试连接成功后,保存并退出。
pycharm远程连接spark的初始安装以及问题_第5张图片
6.打开菜单"File -> Settings”
pycharm远程连接spark的初始安装以及问题_第6张图片
7.新增一个 Interpreter(Python解析器),这里我们需要设置虚拟机的 Python 解析器相关设定,这样我们通过 SFTP 从本地发送到虚拟机的Python 脚本才能知道使用哪个解析器进行解析运行
pycharm远程连接spark的初始安装以及问题_第7张图片
pycharm远程连接spark的初始安装以及问题_第8张图片
9.选择"ssh-interpreter”,配置虚拟机的地址,用户名和密码。
pycharm远程连接spark的初始安装以及问题_第9张图片
pycharm远程连接spark的初始安装以及问题_第10张图片
10.interpreter 需要选择Python的所在路径,这里设置为/usr/bin/python3。把本地项目路径D:/workspaces/workspace_python/spark-exp映射到虚拟机的路径/home/hadoop/spark-exp,如果虚拟机路径不存在请先创建。完成以后点击"Finish”。
pycharm远程连接spark的初始安装以及问题_第11张图片
11.在 spark-exp 项目下新建一个 wordcount2.py 文件。pycharm远程连接spark的初始安装以及问题_第12张图片
12.wordcount2 输入以下代码

from pyspark import SparkContext
sc = SparkContext("spark://node0:7077", "WordCountApp")
rs = sc.textFile("/home/hadoop/你的学号/wc.txt").flatMap(lambda line: line.split(" ")).map(lambda w: (w, 1)).reduceByKey(lambda x, y: x+y).sortBy(lambda x:x[1], False).collect()
for e in rs:
    print(e)

把wordcount2.py 文件上传到虚拟机
pycharm远程连接spark的初始安装以及问题_第13张图片
14.编辑 python 脚本的运行设置模板。
pycharm远程连接spark的初始安装以及问题_第14张图片
15.新增一个 python 运行设置模板。
pycharm远程连接spark的初始安装以及问题_第15张图片
16.在环境变量中增加以下虚拟机的变量

SPARK_HOME    /opt/spark
PYTHONPATH    /opt/spark/python
JAVA_HOME     /opt/jdk8
HADOOP_HOME   /opt/hadoop
SCALA_HOME    /opt/scala2-12

pycharm远程连接spark的初始安装以及问题_第16张图片
17.
把"Script path"配置设置为本地 wordcount2.py 文件路径。“Python interpreter” 选择刚创建的解析器。
pycharm远程连接spark的初始安装以及问题_第17张图片
18.从模板创建一个运行设置
pycharm远程连接spark的初始安装以及问题_第18张图片
19.启动虚拟机的spark
20.运行 wordcount2 看是否能够得到结果
pycharm远程连接spark的初始安装以及问题_第19张图片

你可能感兴趣的:(问题)