spark快速大数据分析之学习记录(三)

题外话:这是一个“连载”,主要用于记录并监督我每周的Spark学习进程

一、编写第一个pyspark程序

1.进入spark文件夹,该文件夹下有一个README.md文件,统计该文件的行数,以及输出第一行

2.运行spark

shell命令:

./bin/pyspark #运行spark

运行截图:

spark快速大数据分析之学习记录(三)_第1张图片

3.运行python语句

shell命令:

>>>lines=sc.textFile("README.md")
>>>lines.count()
>>>lines.first()

运行截图:

spark快速大数据分析之学习记录(三)_第2张图片

二、遇到的问题

【问题】lines.count()报错,不支持的类文件 主要版本55

spark快速大数据分析之学习记录(三)_第3张图片

【解决方法】jdk版本不合适,之前为了避免报错,直接采用sudo apt-get default-jdk default-jre来下载jdk,默认下载的jdk为11版的,高版本的java project使用了低版本的jre来运行,因此需将jdk版由原来的11改成8

shell命令:

sudo apt-get install openjdk-8-jdk

运行截图:

spark快速大数据分析之学习记录(三)_第4张图片

选择低版本的jdk

shell命令:

sudo update-alternatives --config java

运行截图:

spark快速大数据分析之学习记录(三)_第5张图片

此时再检查java版本:

shell命令:

java -version

运行截图:

重新配置java环境

shell命令:

sudo vim /etc/profile

按“i”键插入,在文件最后一行输入以下文本:

JAVA_HOME=/usr/lib/java/jvm/java-1.8.0-openjdk-amd64

PATH=$JAVA_HOME/bin:$PATH

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

(JAVA_HOME可参照选择java版本时的路径)

按“esc”键,然后按“:wq”保存提出

使刚配置的文件生效,并检查最近配置的JAVA_HOME路径是否为1.8版本

shell命令:

source /etc/profile
echo $JAVA_HOME

运行截图:

然后运行spark程序,统计行数,便不会报错,如下:

spark快速大数据分析之学习记录(三)_第6张图片

注:这是我遇到问题之后在网上搜索的答案,感谢各位大神的分享

 

 

 

你可能感兴趣的:(Spark)