pysaprk的使用

首先你要保证你已经安装成功了python和spark

附连接:

             pyspark的安装与配置

             hadoop的安装

要想使用pyspark 需要先开启hadoop:

start-dfs.sh

接着在命令框输入:

jupyter-notebook  -- ip 192.168.50.88

 Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。在上面可以更方便的进行数据分析.

pysaprk的使用_第1张图片

复制出现的这个网址在 浏览器上打开:

pysaprk的使用_第2张图片

首先创建一个python语言的文件,在框内输入:

import os
import sys
spark_home = os.environ.get('SPARK_HOME',None)
if not spark_home:
    raise ValueError('SPARK环境配置错误')
sys.path.insert(0,os.path.join(spark_home,'python'))
sys.path.insert(0,os.path.join(spark_home,'python/lib/py4j-0.10.4-src.zip')) # py4j 存放在spark/python/lib中,所以这里要写你spark里的py4j
exec(open(os.path.join(spark_home,'python/pyspark/shell.py')).read())

运行程序出现下面的代码,就说明我们的pyspark可以使用了

pysaprk的使用_第3张图片


附链接:

            pyspark文档





你可能感兴趣的:(大数据)