Spark好文推荐

Spark好文推荐

综合推荐

大数据梅峰谷-Spark系列文章

0x01 概念

1.1 SparkStreaming

  • Spark Streaming 反压(Back Pressure)机制介绍
  • 一文读懂 Spark 和 Spark Streaming
  • Spark Streaming 2.1.0 Programming Guide 个人理解与翻译

1.2 SparkSql

  • Hive/Hive on Spark/SparkSQL实践
  • Hive on Spark/SparkSQL实践2
  • Hive,Hive on Spark和SparkSQL区别
  • Hive on spark的架构与解析SQL的过程
    以下内容转自Spark on Hive 和 Hive on Spark的区别
  • Spark on Hive
    Hive只作为存储角色,Spark负责sql解析优化,执行。
    这里可以理解为Spark 通过Spark SQL 使用Hive 语句操作Hive表 ,底层运行的还是 Spark RDD。具体步骤:
    1. 通过SparkSQL,加载Hive的配置文件,获取到Hive的元数据信息;
    2. 获取到Hive的元数据信息之后可以拿到Hive表的数据;
    3. 通过SparkSQL来操作Hive表中的数据。
  • Hive on Spark
    Hive既作为存储又负责sql的解析优化,Spark负责执行。
    这里Hive的执行引擎变成了Spark,不再是MR,相较于Spark on Hive,这个实现较为麻烦,必须要重新编译spark并导入相关jar包。目前,大部分使用Spark on Hive。

0x02 特性

  • Spark2.0新特性一览(简短)

  • Spark Release 2.0.0 官方

  • API/StructuredStreaming/用Spark作为编译器

  • Spark2.0几个重要特性概述

  • Spark2.0几个重要特性概述

0x03 手册

  • Spark SQL, DataFrame 和 Dataset 2.2 编程指南
  • Apache Spark 官方文档中文版

0x04 API

4.1 StructuredStreaming

  • Structured Streaming Programming Guide
  • Structured Streaming《入门示例》
  • StructuredStreaming基本介绍
  • StructuredStreaming + Kafka示例
  • Spark 2.0 Structured Streaming 分析
  • Spark Structured Streaming高级特性
  • Spark Structured Streaming入门编程指南

0x05 配置

  • Spark1.6配置
  • Spark配置参数详解 2018年版

0x06 面试

spark比MapReduce快的原因-百度

你可能感兴趣的:(spark)