搭建PySpark大数据分析环境

担心自己遗忘,便做此纪录。

普通的数据分析其实仅仅在PyCharm环境即可做相应的分析。但是如果数据较大,还是要在集群环境里跑会快一些,一下又两种方案:

针对数据量不大(不是几十上百个G或者百万条级数据)的情况,为了方便可采用方案一:

下图为需要使用到的文件:

搭建PySpark大数据分析环境_第1张图片

第一步,安装JDK(如果不确定自己的电脑之前是否装过jdk,可以前往设置——应用——应用和功能——搜索java即可查看是否有jdk,后面的查看自己的python也是一样,搜索python即可),再次我安装的是jdk8,当然也可以使用其他版本,但是如果比较佛系想小小偷个懒,那么也可以直接和我的环境的文件版本完全一样即可。双击jdk文件以安装jdk,一直点击下一步即可完成安装。

搭建PySpark大数据分析环境_第2张图片
搭建PySpark大数据分析环境_第3张图片

进入jdk的安装位置可以看到以下文件夹:(也有可能只有上面那一个):

搭建PySpark大数据分析环境_第4张图片

进入jdk 1.8.0_261文件夹,复制路径

搭建PySpark大数据分析环境_第5张图片

进入系统环境变量的设置,新增用户变量,变量名为JAVA_HOME,变量值为刚刚你复制的JDK的文件的路径,点击确定。

搭建PySpark大数据分析环境_第6张图片

然后找到自己的变量名为Path的变量,选中并点击编辑——新建,输入%JAVA_HOME%\bin,确定即可。

搭建PySpark大数据分析环境_第7张图片
搭建PySpark大数据分析环境_第8张图片

打开命令行,输入‘java -version’,回车,如果出现版本号即说明安装成功。

搭建PySpark大数据分析环境_第9张图片

第二步,安装Python,双击python文件以安装,然后如下无脑安装(也可以自定义安装):

搭建PySpark大数据分析环境_第10张图片

根据提示安装完成后进入命令行输入‘python’,如果显示版本号就说明安装成功。

搭建PySpark大数据分析环境_第11张图片

第三步,安装PyCharm.双击Pycharm文件以安装,详情看图,最后一直next即可完成安装()

搭建PySpark大数据分析环境_第12张图片
搭建PySpark大数据分析环境_第13张图片

安装完成后,打开Pycharm,

搭建PySpark大数据分析环境_第14张图片
搭建PySpark大数据分析环境_第15张图片

输入样例观察能否成功运行:

搭建PySpark大数据分析环境_第16张图片

点击File—settings然后到如下位置:

搭建PySpark大数据分析环境_第17张图片

点击加号:

搭建PySpark大数据分析环境_第18张图片

搜索Pyspark,按下图操作:

搭建PySpark大数据分析环境_第19张图片

同理对应讲下图的所有文件下载好(尽量保持和我的版本一致,避免出错自己难以处理):

搭建PySpark大数据分析环境_第20张图片

创建python文件测试:

搭建PySpark大数据分析环境_第21张图片

如果可以正常运行,就完成第一个方法的环境的搭建啦!接下来自己导入数据即可进行分析处理。

方案二:

第一步,安装Virtualbox(国产、开源,关键是免费)

第二步,下载虚拟机镜像:

https://archive.cloudera.com/hwx-sandbox/hdp/hdp-2.6.5/HDP_2.6.5_virtualbox_180626.ova

搭建PySpark大数据分析环境_第22张图片

打开VirtualBox,导入虚拟机镜像:

搭建PySpark大数据分析环境_第23张图片

注意内存大小及导入路径,必须保证磁盘有充足的剩余空间

搭建PySpark大数据分析环境_第24张图片

等待导入完成:

搭建PySpark大数据分析环境_第25张图片

启动虚拟机:

搭建PySpark大数据分析环境_第26张图片

启动完成

搭建PySpark大数据分析环境_第27张图片

打开地址:http://localhost:1080/

搭建PySpark大数据分析环境_第28张图片

安装Xshell和Xftp。

打开Xshell,点击新建:

搭建PySpark大数据分析环境_第29张图片

输入下列参数,准备上传文件:

搭建PySpark大数据分析环境_第30张图片

输入用户名:root

搭建PySpark大数据分析环境_第31张图片
搭建PySpark大数据分析环境_第32张图片

第一次登录需要更改密码,但是需要先输入当前密码,然后输入新密码,确认密码,最后即可使用:

搭建PySpark大数据分析环境_第33张图片

点击图中的Xftp按钮:

搭建PySpark大数据分析环境_第34张图片

打开Xftp后,输入起先新设置的密码,进入到远程Linux服务器:

搭建PySpark大数据分析环境_第35张图片
搭建PySpark大数据分析环境_第36张图片

将文件拖放进去后,就会看到上传进度:

等待上传完成后回到Xshell:

搭建PySpark大数据分析环境_第37张图片

创建文件夹,上传自己的文件到HDFS中:

搭建PySpark大数据分析环境_第38张图片

这样就可以在http://localhost:1080/里面进入并找到HDFS相应的文件夹并查询自己刚刚上传的文件是否成功。

这样,后续就可以开始对数据进行处理了:

搭建PySpark大数据分析环境_第39张图片
搭建PySpark大数据分析环境_第40张图片

至此方案二环境搭建完成。

你可能感兴趣的:(python,hadoop,ambari,大数据,spark)