spark2.4.5计算框架中各模块的常用实例

本项目是使用scala语言给出了spark2.4.5计算框架中各模块的常用实例。

温馨提醒:spark的版本与scala的版本号有严格的对应关系,安装请注意。

spark2.4.5计算框架中各模块的常用实例_第1张图片

Spark Core
  • RDD以及Pair RDD的常用算子

Spark SQL

  • RDD转换为DataFrame
  • DataFrame与MySQL的交互

Spark MLlib

  • 流水线pipeline的基本用法
  • 决策树
  • K均值 K-means
  • 逻辑回归 LogisticRegression
  • 超参优化 网格搜索

Spark Streaming

  • 从本地文件流中数据 ssc.textFileStream
  • 从socket中获取数据 ssc.socketTextStream
  • 从Kafka中获取数据 KafkaUtils.createDirectStream
  • Kafka生产数据

Spark GraphX

  • 顶点与边的创建与操作
  • 顶点重要性度量 PageRank
  • 图的连通分量 connectedComponents
  • 三角结构的数量 triangleCount

所用数据集

代码中用到的数据集都可以在spark安装目录的data子目录中找到,具体为xxx\spark-2.4.5-bin-hadoop2.7\data

更多的用例

完整的用例在spark安装目录的examples子目录中。
具体为:xxx\spark-2.4.5-bin-hadoop2.7\examples\src\main\scala\org\apache\spark\examples

Spark的视频学习资料

推荐林子雨老师的慕课视频,质量高且免费,观看地址请点击这儿
。课程的PPT请点击这儿。

spark书籍(电子版、可直接下载)

  • spark快速大数据分析
  • Spark GraphX 实战:中文;英文

如果你觉得本项目对你有帮助,麻烦在GitHub上star支持一下。有任何问题,请新建issue交流。

你可能感兴趣的:(scala,spark)