sparklyr连接spark

1,安装sparklyr

RStudio安装好后,需要安装sparklyr包来连接spark;https://spark.rstudio.com/guides/connections/

安装sparklyr包需要很多依赖包,需要一一安装,需要注意支持的版本。当时没注意版本,折腾了很久。

碰到的问题有

(1) stringi安装不上。最后参考网上安装了string-master解决:

https://cran.r-project.org/web/packages/stringi/INSTALL

(2) xml12 缺少libxml:

https://stackoverflow.com/questions/31797524/r-devtools-fails-as-package-libxml-2-0-was-not-found-in-the-pkg-config-search-p

照着配置

2,连接spark

本地连接:

配置spark_home:

 在*/R/lib64/R/etc/Renviron中 添加 SPARK_HOME="***"

2.1 本地连接:

(1)设置JAVA_HOME(1)设置JAVA_HOME

Sys.setenv(JAVA_HOME=””)

(2)设置SPARK_HOME

spark_home_set(path= “/opt/cloudera/parcels/SPARK2-2.1.0.cloudera1/lib/spark2”)

查看spark版本:spark_version_from_home(Sys.getenv("SPARK_HOME"))

(3)连接 sc <-spark_connect(master = “local”)

2.2 连接yarn

需要指定队列:

Conf <-spark_config()

Conf$`spark.yarn.queue`<- ‘chanct’

Sc <-spark_connect(master = “yarn-client”, config = conf)

最后放上安装包赚点辛苦分。。。:安装包下载







你可能感兴趣的:(hadoop)