PySpark做LinearRegression遇到的问题

问题一:Unable to instantiate org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStor

此问题报错的原因有很多,一般会想到Hive安装及环境配置问题,但是我只是要搞PySpark,
仔细看了一下报错提示:“metastore_db cannot be created”

原因很简单,就是spark没有对metastore_db没有访问权限方法,解决方法就很简单了。

sudo chmod 777 /usr/local/spark

问题1.1metastore_db虽然有权限创建了,但是却 Failed to start database ‘metastore_db’ with class loader.org.apache.spark.sql.hive.client.IsolatedClientLoader$$anon$1@3f083ea9, see the next exception for details.

意思就是和derby冲突了,两种数据库在为一个进程服务时相互斗争。。。
解决方法
借鉴别人的方法:删除dbex.lck

问题二:spark中 from pyspark.ml.linalg import Vector,出现ImportError: No module named numpy

原因已经提示,节点没有numpy,因此需要安装,安装前需要下载pip
步骤如下:
1.安装pip

wget https://bootstrap.pypa.io/get-pip.py

2.打开pip文件
python2环境: python get-pip.py
python3环境: python3 get-pip.py
3.下载并安装numpy

python -m pip install numpy

4.重新进入pyspark

问题三:pyspark.sql.utils.AnalysisException: u"cannot resolve ‘features’ given input columns: [feature, var_1, var_3, output, var_4, var_2, var_5];

问题很明显,features不存在,查看一下,是我敲成了feature,所有需要改回成features,这是因为内置变量就是features,不能修改变量名。所以敲代码时一定注意

你可能感兴趣的:(python,spark,大数据)