spark学习(一)初识

  • 学习使用spark已经一年有余,接下来的时间准备陆续写一些文章,总结spark学习成果。

笔者也读过一些spark书籍,质量参差不齐,多少有些收获吧。在学习spark的伊始,让我们从最权威的官网开始,spark官网

  • spark是啥?

Apache Spark™ is a unified analytics engine for large-scale data processing.
官网的解释:大数据处理的统一分析引擎

  • spark的优势?
    • 速度快;使用DAG(有向无环图)调度,查询优化和物理执行引擎,使得执行速度优于hadoop。
    • 易于上手;可以使用java,scala,python,R语言进行spark程序编写,同时spark提供80余个算子供用户使用。
    • 通用性;spark提供一系列的函数库,包括sparkCore(spark核心库),spark SQL(spark结构化数据模块),spark Streaming(分布式流数据处理模块),MLlib(机器学习库),GraphX(图并行计算库)等。
    • 兼容性;spark可以在多种环境中执行,standalone,EC2,YARN等,并且可以访问多种数据源的数据,HDFS,HBase,Hive等。
  • quick start 快速入门
    • 在学习spark之前,最好对hadoop生态圈有所了解,这样可以快速入门spark。
    • 在spark 2.0之前,主要使用RDD(Resilient Distributed Dataset)进行编程,在2.0版本之后官方推荐使用Dataset数据集来代替RDD。Dataset和RDD一样都是强类型的,并且在RDD的基础上进行了优化,它比RDD的性能更好。
    • 可以通过交互式shell操作spark,仅支持scala和python语言。
    • 可以使用spark API来写一个独立的应用程序,支持(java,python,scala)语言,笔者在工作中多使用java语言,后续主要java程序进行演示。
      1. 写一个简单的spark应用程序,实现统计文本中出现字符'a','b'的行数。
      /* SimpleApp.java */
      import org.apache.spark.sql.SparkSession;
      import org.apache.spark.sql.Dataset;
      
      public class SimpleApp {
        public static void main(String[] args) {
          String logFile = "YOUR_SPARK_HOME/README.md"; // Should be some file on your system
          SparkSession spark = SparkSession.builder().appName("Simple Application").getOrCreate();
          Dataset logData = spark.read().textFile(logFile).cache();
      
          long numAs = logData.filter(s -> s.contains("a")).count();
          long numBs = logData.filter(s -> s.contains("b")).count();
      
          System.out.println("Lines with a: " + numAs + ", lines with b: " + numBs);
      
          spark.stop();
        }
      }
      
      1. 在maven的pom.xml中引入spark依赖。
      
        edu.berkeley
        simple-project
        4.0.0
        Simple Project
        jar
        1.0
        
           
            org.apache.spark
            spark-sql_2.12
            2.4.4
            provided
          
        
      
      
      文件的目录结果如下,
      $ find .
      ./pom.xml
      ./src
      ./src/main
      ./src/main/java
      ./src/main/java/SimpleApp.java
      
      3.打包应用程序,并执行。
      # Package a JAR containing your application
      $ mvn package
      ...
      [INFO] Building jar: {..}/{..}/target/simple-project-1.0.jar
      
      # Use spark-submit to run your application
      $ YOUR_SPARK_HOME/bin/spark-submit \
        --class "SimpleApp" \
        --master local[4] \
        target/simple-project-1.0.jar
      ...
      Lines with a: 46, Lines with b: 23
      
    写在后面
    本文初步介绍了spark,在最后给出了一个spark的例子,在完成例子前需要在电脑上安装spark环境。可以在 spark下载 界面下载需要版本的spark预编译包,解压并设置环境变量。
  • 相关链接
    • spark官网
    • spark文档

你可能感兴趣的:(spark学习(一)初识)