Spark入门

文章目录

  • 学习链接
  • 简介
    • Apache Spark历史
    • Apache Spark的功能
    • Spark的使用场景

学习链接

从官网http://spark.apache.org/开始学习吧

http://spark.apache.org/docs/latest/sql-ref-syntax-dml-insert-into.html

https://sparkbyexamples.com/spark/explode-spark-array-and-map-dataframe-column/

https://www.yiibai.com/spark/

用 Spark 处理复杂数据类型(Struct、Array、Map、JSON字符串等)https://juejin.cn/post/6844903861325430797#heading-5

简介

在学习Spark之前,需要具备Hadoop的基本知识
Spark是用于大规模数据处理的统一分析引擎,包括用于SQL,流,机器学习和图形处理的内置模块。这个 此Apache Spark教程专为初学者和专业人士设计,并提供了Spark的基本和高级概念。包括Apache Spark与Spark介绍,Spark安装,Spark架构,Spark组件,RDD,Spark实时示例等所有主题。

Apache Spark是一个开源集群计算框架。其主要目的是处理实时生成的数据。
Spark建立在Hadoop MapReduce的顶部。它被优化为在内存中运行,而Hadoop的MapReduce等替代方法将数据写入计算机硬盘驱动器或从计算机硬盘驱动器写入数据。因此,Spark比其他替代方案更快地处理数据。

Apache Spark历史

Spark由Matei Zaharia于2009年在加州大学伯克利分校的AMPLab发起。它于2010年根据BSD许可证开源。
2013年,该项目被Apache Software Foundation收购。2014年,Spark成为顶级Apache项目。

Apache Spark的功能

快速 - 使用最先进的DAG调度程序,查询优化器和物理执行引擎,为批处理和流数据提供高性能。
易于使用 - 它有助于使用Java,Scala,Python,R和SQL编写应用程序。它还提供80多个高级运算符。
通用性 - 它提供了一系列库,包括SQL和DataFrames,用于机器学习的MLlib,GraphX和Spark Streaming。
轻量级 - 它是一种轻型统一分析引擎,用于大规模数据处理。无处不在 - 它可以轻松运行在Hadoop,Apache Mesos,Kubernetes,独立或云端。

Spark的使用场景

  • 数据集成:系统生成的数据不够整合,无法结合进行分析。要从系统中获取一致的数据,可以使用提取,转换和加载(ETL)等过程。Spark用于减少此ETL过程所需的成本和时间。

  • 流处理:处理实时生成的数据(如日志文件)总是很困难。Spark能够运行数据流并拒绝潜在的欺诈性操作。

  • 机器学习:由于数据量的增加,机器学习方法变得更加可行并且越来越准确。由于spark能够将数据存储在内存中并且可以快速运行重复查询,因此可以轻松处理机器学习算法。

  • 交互式分析:Spark能够快速生成响应。因此,可以交互式地处理数据,而不是运行预定义的查询。

原文出自【易百教程】,商业转载请联系作者获得授权,非商业请保留原文链接:https://www.yiibai.com/spark/

你可能感兴趣的:(#,Spark)