Sparklyr

Sparklyr是rstudio 社区维护的一个spark的接口。

文档

Sparklyr 文档：https://spark.rstudio.com

安装

Sparklyr: sparklyr::spark_install(version = "2.3.0", hadoop_version = "2.7")，不依赖于 Spark 版本，spark 2.X 完美兼容 1.X。

Spark 环境配置需要注意的问题：

下载和 Hadoop 对应版本号的发行版，具体可以通过 sparklyr::spark_available_versions() 查询可用的 spark 版本
JAVA_HOME/SPARK_HOME/HADOOP_HOME 是必须要指定的环境变量，建议使用 JDK8/spark2.x/hadoop2.7
yarn-client/yarn-cluster 模式需要设置环境变量 Sys.setenv("HADOOP_CONF_DIR"="/etc/hadoop/conf")
连接 Hive 需要提供 Hive 链接配置, 在 spark-connection 初始化时指定对应 hive-site.xml 文件

初始化

sc <- sparklyr::spark_connect(master = "yarn-client",
                             spark_home = "/data/FinanceR/Spark",
                             version = "2.2.0",
                             config = sparklyr::spark_config())

数据输入输出

以写 Parquet 文件为例, 同理你可以用 SparkR::write.()/sparklyr::spark_write_()等写入其他格式文件到HDFS 上, 比如csv/text。

什么是 Parquet 文件？ Parquet 是一种高性能列式存储文件格式，比 CSV 文件强在内建索引，可以快速查询数据，目前普遍应用在模型训练过程。

df <- sparklyr::copy_to(sc,faithful,"df")

sparklyr::spark_write_parquet(df,path="/user/FinanceR",mode="overwrite",partition_by = "dt")

数据清洗

library(sparklyr)
library(dplyr)

# 在 mutate 中支持 Hive UDF

remote_df = dplyr::tbl(sc,from = "db.financer_tbl") # 定义数据源表 
# 或者 remote_df = dplyr::tbl(sc,from = dplyr::sql("select * from db.financer_tbl limit 10")) #

remote_df %>%
    mutate(a = b+2) %>%   # 在 mutate 中支持 Hive UDF
    filter(a > 2)%>%
    group_by(key)%>%
    summarize(count = n())%>%
    select(cnt = count)%>% 
    order_by(cnt)%>%
    arrange(desc(cnt))%>%
    na.omit() ->
    pipeline

pipeline %>% sdf_persist() # 大数据集 缓存在集群上
pipeline %>% head() %>% collect() # 小数据 加载到本地

SQL

df <- sc %>% 
      dplyr::tbl(dplyr::sql('SELECT * FROM financer_tbl WHERE dt = "20180318"'))

sc %>% DBI::dbGetQuery('SELECT * FROM financer_tbl WHERE dt = "20180318" limit 10') # 直接将数据 collect 到本地, 与操作MySQL完全一样
      
df %>% dbplyr::sql_render() # 将 pipeline 自动翻译为 SQL
# SELECT * FROM financer_tbl WHERE dt = "20180318"

分发 R 代码

分发机制：

系统会将本地依赖文件压缩打包上传到 HDFS 路径上，通过 Spark 动态分发到执行任务的机器上解压缩。执行任务的机器本地独立的线程、内存中执行代码，最后汇总计算结果到主要节点机器上实现 R 代码的分发。

func <- function(x){x + runif(1) } # 原生 R代码

sparklyr::spark_apply(x = df,packages=T,name = c("key","value"),func =func,group = "key")

流式计算

什么是流式计算? 流式计算是介于实时与离线计算之间的一种计算方式，以亚秒级准实时的方式小批量计算数据，广泛应用在互联网广告、推荐等场景。

Sparklyr: 暂时不支持流式计算，功能开发中。

统计之都原文：
https://cosx.org/2018/05/sparkr-vs-sparklyr

学习资源

https://spark.rstudio.com/
https://github.com/rstudio/cheatsheets/raw/master/translations/chinese/sparklyr-cheatsheet_zh_CN.pdf