大数据入门之分布式计算框架Spark(3) -- Spark Streaming

1.概述

Spark Streaming将不同的数据源，经过处理之后，结果输出到外部文件系统。

特点：低延时；能从错误中高效地恢复过来；能够运行在成百上千的节点上；能够将批处理、机器学习、图计算等子框架综合使用

工作原理：

粗粒度：Spark Streaming接收到实时数据流，把数据按照指定的时间段切成一片片小的数据块，然后把小的数据块传给Spark Engine处理。

细粒度：Spark应用程序运行在Driver端（Spark Context、Streaming Context），在Driver端会要求在Executor端开启Receiver接收器，当收到输入过来的数据（Input Stream）时，拆分成数据块先存进内存，如果是多副本可以拷贝到其他的Executor中。拷贝完成之后，Receiver会把block信息（在哪些机器上面）发送给Streaming Context；每隔几秒钟（时间周期），就会通知Spark Context开启几个jobs，然后把jobs分发到Executor去执行。

2.核心概念

DStreams：源源不断的数据流【一系列的RDD】，这里面的每个RDD，都是包含这一批次的数据

对DStreams操作算子，比如map/flatmap，其实底层会被翻译成对DStreams中的每个RDD都做相同的操作，因为一个DStreams是由不同批次的RDD构成的。

Input DStreams and Receiver ：每一个Input DStreams（除了文件系统上的数据）都需要关联一个Receiver，Receiver是用来从源头接收数据的，然后把数据存入spark内存中。

Transformations：从Input DStreams过来的数据进行修改（map、flatMap、filter ... ）

Output Operation：把DStreams中的数据写进外部系统（数据库或者文件系统）

3.案例

3.1 Spark Streaming处理socket数据

依赖：

    
        2.11.8
        0.8.2.1
        2.2.0
        2.6.0-cdh5.7.0
        1.2.0-cdh5.7.0
    

    
    
        
            cloudera
            https://repository.cloudera.com/artifactory/cloudera-repos
        
    


    
        
            org.scala-lang
            scala-library
            ${scala.version}
        

        
        
            org.apache.kafka
            kafka_2.11
            ${kafka.version}
        

        
        
            org.apache.hadoop
            hadoop-client
            ${hadoop.version}
        

        
        
            org.apache.hbase
            hbase-client
            ${hbase.version}
        

        
            org.apache.hbase
            hbase-server
            ${hbase.version}
        

        
        
            org.apache.spark
            spark-streaming_2.11
            ${spark.version}
        

        
        
            org.apache.spark
            spark-streaming-flume_2.11
            ${spark.version}
        

        
        
            org.apache.spark
            spark-streaming-flume-sink_2.11
            ${spark.version}
        

        
            org.apache.commons
            commons-lang3
            3.5
        

        
        
            org.apache.spark
            spark-streaming-kafka-0-8_2.11
            ${spark.version}
        

        
        
            org.apache.spark
            spark-sql_2.11
            ${spark.version}
        

        
            com.fasterxml.jackson.module
            jackson-module-scala_2.11
            2.6.5
        

        
            net.jpountz.lz4
            lz4
            1.3.0
        

        
            mysql
            mysql-connector-java
            5.1.37
        

        
        
            org.apache.flume.flume-ng-clients
            flume-ng-log4jappender
            1.6.0

/**
  * Spark Streaming处理Socket数据
  * 测试：nc
  */
object NetworkWordCount {

  def main(args: Array[String]): Unit = {

    //因为主机没有配置hadoop环境，所以需要加上这句话
    System.setProperty("hadoop.home.dir", "E:/winutils/")

    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")

    //创建StreamingContext需要两个参数：SparkConf和batch interval
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val lines = ssc.socketTextStream("localhost", 6789)

    val result = lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

    result.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

用nc -lk 6789命令，输入单词进行测试。

3.2 Spark Streaming处理文件系统的数据

/**
  * 使用Spark Streaming处理文件系统(local/hdfs)数据
  */
object FileWordCount {

  def main(args: Array[String]): Unit = {

    //因为主机没有配置hadoop环境，所以需要加上这句话
    System.setProperty("hadoop.home.dir", "E:/winutils/")

    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("FileWordCount")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    // 文件系统的数据不需要Receiver
    val lines = ssc.textFileStream("file:///D:/BidDataTestFile/ss/")
    val result = lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

    result.print()

    ssc.start()
    ssc.awaitTermination()
  }
}

注意：它只会读取新文件的数据，不会处理已经处理过的文件。

4.Spark Streaming进阶

4.1 统计累积出现单词的次数

/**
  * 使用Spark Streaming 完成已有单词统计
  */
object StatefulWordCount {

  def main(args: Array[String]): Unit = {

    //因为主机没有配置hadoop环境，所以需要加上这句话
    System.setProperty("hadoop.home.dir", "E:/winutils/")

    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("StatefulWordCount")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    //如果使用了stateful的算子，必须要设置checkpoint
    //在生产环境中，建议大家把checkpoint设置到HDFS的某个文件夹中
    //"." 表示把检查文件放在当前目录
    ssc.checkpoint(".")

    val lines = ssc.socketTextStream("localhost", 6789)

    val result = lines.flatMap(_.split(" ")).map((_, 1))
    //调用updateStateByKey算子，统计单词在全局中出现的次数
    val state = result.updateStateByKey[Int](updateFunction _)

    state.print()

    ssc.start()
    ssc.awaitTermination()

  }

  /**
    * 把当前的数据去更新已有的或者是老的数据
    * @param currentValues 当前的数据
    * @param preValues 老的数据
    * @return
    */
  def updateFunction(currentValues: Seq[Int], preValues: Option[Int]): Option[Int] = {

    //相当于遍历currentValues，把当前值相加求和
    val current = currentValues.sum
    val pre = preValues.getOrElse(0)  //如果取不到值的话，就返回0

    Some(current + pre)
  }
}

4.2 统计单词个数写入到MySQL数据库

/**
  * 使用Spark Streaming完成词频统计，并将结果写入到MySQL数据库中
  */
object ForeachRDDApp {

  def main(args: Array[String]): Unit = {

    //因为主机没有配置hadoop环境，所以需要加上这句话
    System.setProperty("hadoop.home.dir", "E:/winutils/")

    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("ForeachRDDApp")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val lines = ssc.socketTextStream("localhost", 6789)
    val result = lines.flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _)

    result.print()

    //将结果写入MySQL数据库
    result.foreachRDD(rdd => {
      rdd.foreachPartition(partitionOfRecords => {
        val connection = createConnection()
        partitionOfRecords.foreach(record => {
          val sql = "insert into wordcount(word, wordcount) values('" + record._1 + "'," + record._2 + ")"
          connection.createStatement().execute(sql)
        })
        connection.close()
      })
    })


    ssc.start()
    ssc.awaitTermination()

  }

  /**
    * 获取MySQL连接
    * @return
    */
  def createConnection() = {
    Class.forName("com.mysql.jdbc.Driver")
    DriverManager.getConnection("jdbc:mysql://localhost:3306/imooc_spark", "root", "MySQLKenan_07")
  }
}

4.3 Window窗体的使用

定时的进行一个时间段内的数据处理

window length：窗口的长度

sliding interval：窗口的间隔

这2个参数和batch size有关系：整数倍

eg.每隔10秒计算前10分钟的wc ==> 窗口间隔10s，窗口长度10min

// 窗口长度，窗口间隔
val windowedWordCounts = pairs.reduceByKeyAndWindow((a:Int, b:Int) => (a+b), Seconds(30), Seconds(10))

4.4 黑名单过滤

访问日志：20180808,zs 20180808,ls 20180808,ww【 ==> (zs:20180808, zs)】

黑名单列表：zs、ls 【 ==> (zs,true)】

left join ==> (zs:[<20180808,zs>,]) (zs:[<20180808,zs>,]) ===> 我们需要的是<20180808,zs>

/**
  * 黑名单过滤
  */
object TransformApp {

  def main(args: Array[String]): Unit = {

    val sparkConf = new SparkConf().setMaster("local[2]").setAppName("TransformApp")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    //构建黑名单
    val blacks = List("zs", "ls")
    val blacksRDD = ssc.sparkContext.parallelize(blacks).map(x => (x, true))

    val lines = ssc.socketTextStream("localhost", 6789)
    //前面是名字后面是完整的信息
    val clickLog = lines.map(x=>(x.split(",")(1), x)).transform(rdd => {
      rdd.leftOuterJoin(blacksRDD)
        .filter(x => x._2._2.getOrElse(false) != true)
        .map(x => x._2._1)
    })

    clickLog.print()

    ssc.start()
    ssc.awaitTermination()

  }
}

4.5 Spark Streaming 整合 Spark SQL

/**
  * Spark Streaming 整合 Spark SQL完成词频统计
  */
object SqlNetworkWordCount {

  def main(args: Array[String]): Unit = {

    //因为主机没有配置hadoop环境，所以需要加上这句话
    System.setProperty("hadoop.home.dir", "E:/winutils/")

    val sparkConf = new SparkConf().setAppName("SqlNetworkWordCount").setMaster("local[2]")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val lines = ssc.socketTextStream("localhost", 6789)
    val words = lines.flatMap(_.split(" "))

    //从DStream里面遍历每一个批次
    words.foreachRDD((rdd, time) => {
      val spark = SparkSessionSingleton.getInstance(rdd.sparkContext.getConf)
      import spark.implicits._

      val wordsDataFrame = rdd.map(w => Record(w)).toDF()

      wordsDataFrame.createOrReplaceTempView("words")

      val wordCountsDataFrame = spark.sql("select word, count(*) as total from words group by word")
      println(s"=========== $time ===========")
      wordCountsDataFrame.show()
    })

    ssc.start()
    ssc.awaitTermination()
  }

  //用来将RDD转成DataFrame
  case class Record(word: String)

  object SparkSessionSingleton {

    @transient private var instance: SparkSession = _

    def getInstance(sparkConf: SparkConf): SparkSession = {
      if (instance == null) {
        instance = SparkSession
          .builder
          .config(sparkConf)
          .getOrCreate()
      }
      instance
    }
  }
}

5.Spark Streaming整合Flume

5.1 Push方式

Flume采集数据，直接传给Spark Streaming

vim flume_push_streaming.conf

simple-agent.sources = netcat-source
simple-agent.sinks = avro-sink
simple-agent.channels = memory-channel

simple-agent.sources.netcat-source.type = netcat
simple-agent.sources.netcat-source.bind = hadoop000
simple-agent.sources.netcat-source.port = 44444

simple-agent.sinks.avro-sink.type = avro
# 本地测试的时候，这里应该是本地ip
simple-agent.sinks.avro-sink.hostname = hadoop000
simple-agent.sinks.avro-sink.port = 41414 

simple-agent.channels.memory-channel.type = memory

simple-agent.sources.netcat-source.channels = memory-channel
simple-agent.sinks.avro-sink.channel = memory-channel

依赖

        
        
            org.apache.spark
            spark-streaming-flume_2.11
            ${spark.version}

/**
  * Spark Streaming 整合 Flume的第一种方式 --- Push
  */
object FlumePushWordCount {

  def main(args: Array[String]): Unit = {

    //因为主机没有配置hadoop环境，所以需要加上这句话
    //System.setProperty("hadoop.home.dir", "E:/winutils/")

    if (args.length != 2) {
      System.err.println("Usage: FlumePushWordCount  ")
      System.exit(1)
    }

    val Array(hostname, port) = args

    //通过submit方式提交到服务器，需要注释掉下面的内容
    val sparkConf = new SparkConf()
      //.setMaster("local[2]").setAppName("FlumePushWordCount")

    val ssc = new StreamingContext(sparkConf, Seconds(5))

    //如何使用SparkStreaming整合Flume
    //从hostname 的 port 中获取传过来的数据
    val flumeStream = FlumeUtils.createStream(ssc, hostname, port.toInt)
    flumeStream.map(x => new String(x.event.getBody.array()).trim)
        .flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).print(10)



    ssc.start()
    ssc.awaitTermination()

  }
}

测试：先启动应用程序，再启动Flume

flume-ng agent \
--name simple-agent \
--conf $FLUME_HOME/conf \
--conf-file $FLUME_HOME/conf/flume_push_streaming.conf \
-Dflume.root.logger=INFO,console

本地测试总结：
1> 启动Spark Streaming作业
2> 启动flume agent
3> 通过telnet输入数据，观察IDEA控制台的输出
打包方式：mvn clean package -DskipTests

提交到spark服务器调试

./spark-submit \
--class com.xq.spark.examples.FlumePushWordCount \
--name FlumePushWordCount \
--master local[2] \
--executor-memory 1G \
--packages org.apache.spark:spark-streaming-flume_2.11:2.2.0,org.apache.flume:flume-ng-sdk:1.6.0 \
/home/Kiku/lib/sparktrain-1.0-SNAPSHOT.jar \
hadoop000 41414

flume-ng agent \
--name simple-agent \
--conf $FLUME_HOME/conf \
--conf-file $FLUME_HOME/conf/flume_push_streaming.conf \
-Dflume.root.logger=INFO,console

telnet hadoop000 44444

测试成功！！

5.2 Pull方式（推荐！！）

Flume把数据采集过来之后，丢给sink，然后spark streaming到sink去获取数据。

依赖

        
        
            org.apache.spark
            spark-streaming-flume-sink_2.11
            ${spark.version}
        

        
            org.apache.commons
            commons-lang3
            3.5

vim flume_pull_streaming.conf

simple-agent.sources = netcat-source
simple-agent.sinks = spark-sink
simple-agent.channels = memory-channel

simple-agent.sources.netcat-source.type = netcat
simple-agent.sources.netcat-source.bind = hadoop000
simple-agent.sources.netcat-source.port = 44444

simple-agent.sinks.spark-sink.type = org.apache.spark.streaming.flume.sink.SparkSink
simple-agent.sinks.spark-sink.hostname = hadoop000
simple-agent.sinks.spark-sink.port = 41414 

simple-agent.channels.memory-channel.type = memory

simple-agent.sources.netcat-source.channels = memory-channel
simple-agent.sinks.spark-sink.channel = memory-channel

/**
  * Spark Streaming 整合 Flume的第二种方式 --- Pull
  */
object FlumePullWordCount {

  def main(args: Array[String]): Unit = {

    //因为主机没有配置hadoop环境，所以需要加上这句话
    //System.setProperty("hadoop.home.dir", "E:/winutils/")

    if (args.length != 2) {
      System.err.println("Usage: FlumePullWordCount  ")
      System.exit(1)
    }

    val Array(hostname, port) = args

    //通过submit方式提交到服务器，需要注释掉下面的内容
    val sparkConf = new SparkConf()
      //.setMaster("local[2]").setAppName("FlumePullWordCount")
    val ssc = new StreamingContext(sparkConf, Seconds(5))

    val flumeStream = FlumeUtils.createPollingStream(ssc, hostname, port.toInt)

    flumeStream.map(x => new String(x.event.getBody.array()).trim)
        .flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).print()

    ssc.start()
    ssc.awaitTermination()
  }
}

本地调试：

先启动Flume，后启动Spark应用程序

flume-ng agent \
--name simple-agent \
--conf $FLUME_HOME/conf \
--conf-file $FLUME_HOME/conf/flume_pull_streaming.conf \
-Dflume.root.logger=INFO,console

服务器调试：

项目打包【注意：注释掉local[2]，appName参数】

./spark-submit \
--class com.xq.spark.examples.FlumePullWordCount \
--name FlumePullWordCount \
--master local[2] \
--executor-memory 1G \
--packages org.apache.spark:spark-streaming-flume_2.11:2.2.0,org.apache.flume:flume-ng-sdk:1.6.0,org.apache.spark:spark-streaming-flume-sink_2.11:2.2.0 \
/home/Kiku/lib/sparktrain-1.0-SNAPSHOT.jar \
hadoop000 41414

6.Spark Streaming整合Kafka

6.1 Receiver方式整合

通过Receiver接受从Kafka过来的数据，存储到Spark Executor；job启动的时候，处理存储的这些数据。

1）启动ZK zkServer.sh start

2）启动Kafka kafka-server-start.sh -daemon /home/Kiku/app/kafka_2.11-0.9.0.0/config/server.properties

3）创建topic kafka-topics.sh --create --zookeeper hadoop000:2181 --replication-factor 1 --partitions 1 --topic xxxxxx

4）通过控制台测试topic能否正确的发送、接受消息

kafka-console-producer.sh --broker-list hadoop000:9092 --topic kafka_streaming_topic

kafka-console-consumer.sh --zookeeper hadoop000:2181 --topic kafka_streaming_topic

依赖

        
        
            org.apache.spark
            spark-streaming-kafka-0-8_2.11
            ${spark.version}

/**
  * Spark Streaming 对接 Kafka的第一种方式 -- Receiver
  */
object KafkaReceiverWordCount {

  def main(args: Array[String]): Unit = {

    //因为主机没有配置hadoop环境，所以需要加上这句话
    //System.setProperty("hadoop.home.dir", "E:/winutils/")

    if (args.length != 4) {
      System.err.println("Usage: KafkaReceiverWordCount    ")
    }

    val Array(zkQuorum, group, topics, numThreads) = args

    val sparkConf = new SparkConf()
        //.setMaster("local[2]").setAppName("KafkaReceiverWordCount")
    val ssc = new StreamingContext(sparkConf, Seconds(5))


    val topicMap = topics.split(",").map((_, numThreads.toInt)).toMap
    //Spark Streaming 如何对接Kafka
    val messages = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap)

    //第二位是我们字符串的值
    messages.map(_._2).flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).print()


    ssc.start()
    ssc.awaitTermination()
  }
}

提交到服务器

代码中去掉，local[2]、appName

spark-submit \
--class com.xq.spark.examples.KafkaReceiverWordCount \
--name KafkaReceiverWordCount \
--master local[2] \
--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 \
/home/Kiku/lib/sparktrain-1.0-SNAPSHOT.jar \
192.168.6.130:2181 test kafka_streaming_topic 1

6.2 Direct方式整合

无Receiver，端到端的数据保障。周期性的从每一个topic分区中查询Kafka偏移量，周期性的把这个范围的数据通过每个批次进行处理。

优点：简化并行度，不需要创建多个Input Stream，使用direct Stream进行处理

0数据丢失，Receiver方式中，我们需要WAL(Write Ahead Log)写入日志中，以副本的方式存储，才能保证数据不丢失。

效率不高。Direct方式，不再需要WAL，性能提升。

缺点：无法更新偏移量到Zookeeper，需要手动更新。

/**
  * Spark Streaming 对接 Kafka的第二种方式 -- Direct
  */
object KafkaDirectWordCount {

  def main(args: Array[String]): Unit = {

    //因为主机没有配置hadoop环境，所以需要加上这句话
    //System.setProperty("hadoop.home.dir", "E:/winutils/")

    if (args.length != 2) {
      System.err.println("Usage: KafkaReceiverWordCount  ")
      System.exit(1)
    }

    val Array(brokers, topics) = args

    val sparkConf = new SparkConf()
      //.setMaster("local[2]").setAppName("KafkaDirectWordCount")
    val ssc = new StreamingContext(sparkConf, Seconds(5))


    val topicsSet = topics.split(",").toSet
    val kafkaParams = Map[String, String]("metadata.broker.list" -> brokers)

    val messages = KafkaUtils.createDirectStream[String, String, StringDecoder, StringDecoder](
      ssc, kafkaParams, topicsSet
    )

    //第二位是我们字符串的值
    messages.map(_._2).flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).print()

    ssc.start()
    ssc.awaitTermination()

  }
}

提交到服务器

spark-submit \
--class com.xq.spark.examples.KafkaDirectWordCount \
--name KafkaDirectWordCount \
--master local[2] \
--packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 \
/home/Kiku/lib/sparktrain-1.0-SNAPSHOT.jar \
192.168.6.130:9092 kafka_streaming_topic

你可能感兴趣的:(Spark)

Azkaban各种类型的Job编写 __元昊__
一、概述原生的Azkaban支持的plugin类型有以下这些：command：Linuxshell命令行任务gobblin：通用数据采集工具hadoopJava：运行hadoopMR任务java：原生java任务hive：支持执行hiveSQLpig：pig脚本任务spark：spark任务hdfsToTeradata：把数据从hdfs导入TeradatateradataToHdfs：把数据从Te
关于HDP的20道高级运维面试题编织幻境的妖运维
1.描述HDP的主要组件及其作用。HDP（HortonworksDataPlatform）的主要组件包括Hadoop框架、HDFS、MapReduce、YARN以及Hadoop生态系统中的其他关键工具，如Spark、Flink、Hive、HBase等。以下是对这些组件及其作用的具体描述：Hadoop框架:Hadoop是一个开源的分布式计算框架，用Java语言编写，用于存储和处理大规模数据集。它广义
【Hadoop】使用Scala与Spark连接ClickHouse进行数据处理音乐学家方大刚 Scala Hadoop hadoop scala spark
风不懂不懂得叶的梦月不听不听闻窗里琴声意难穷水不见不曾见绿消红霜不知不知晓将别人怎道珍重落叶有风才敢做一个会飞的梦孤窗有月才敢登高在夜里从容桃花有水才怕身是客身是客此景不能久TieYann(铁阳)、薄彩生《不知晓》在大数据分析和处理领域，ApacheSpark是一个广泛使用的高性能、通用的计算框架，而ClickHouse作为一个高性能的列式数据库，特别适合在线分析处理（OLAP）。结合Scala语
Spark面试整理-Spark是什么？不务正业的猿面试 Spark spark 大数据分布式
ApacheSpark是一个开源的分布式计算系统，它提供了一个用于大规模数据处理的快速、通用、易于使用的平台。它最初是在加州大学伯克利分校的AMPLab开发的，并于2010年开源。自那时起，Spark已经成为大数据处理中最受欢迎和广泛使用的框架之一。下面是Spark的一些关键特点：速度：Spark使用了先进的DAG（有向无环图）执行引擎，可以支持循环数据流和内存计算。这使得Spark在数据处理方面
Spark Q&A 耐心的农夫2020
Q:在读取文件的时候，如何忽略空gzip文件?A:从Spark2.1开始，你可以通过启用spark.sql.files.ignoreCorruptFiles选项来忽略损毁的文件。可以将下面的选项添加到你的spark-submit或者pyspark命令中。--confspark.sql.files.ignoreCorruptFiles=true另外spark支持的选项可以通过在spark-shell
linux安装单机版spark3.5.0 爱上雪茄大数据 JAVA知识 spark 大数据分布式
一、spark介绍是一种通用的大数据计算框架，正如传统大数据技术Hadoop的MapReduce、Hive引擎，以及Storm流式实时计算引擎等.Spark主要用于大数据的计算二、spark下载spark3.5.0三、spark环境变量配置exportJAVA_HOME=/usr/local/jdk1.8.0_391exportJRE_HOME=/usr/local/jdk1.8.0_391/jr
Spark的数据结构——RDD bluedraam_pp Spark spark 数据结构大数据
RDD的5个特征下面来说一下RDD这东西，它是ResilientDistributedDatasets的简写。咱们来看看RDD在源码的解释。Alistofpartitions:在大数据领域，大数据都是分割成若干个部分，放到多个服务器上，这样就能做到多线程的处理数据，这对处理大数据量是非常重要的。分区意味着，可以使用多个线程了处理。Afunctionforcomputingeachsplit：作用在
大数据开发（Spark面试真题-卷一） Key-Key 大数据 spark 面试
大数据开发（Spark面试真题）1、什么是SparkStreaming？简要描述其工作原理。2、什么是Spark内存管理机制？请解释其中的主要概念，并说明其作用。3、请解释一下Spark中的shuffle是什么，以及为什么shuffle操作开销较大？4、请解释一下Spark中的RDD持久化（Caching）是什么以及为什么要使用持久化？5、请解释一下Spark中ResilientDistribut
基于HBase和Spark构建企业级数据处理平台 weixin_34071713 大数据数据库爬虫
摘要：在中国HBase技术社区第十届Meetup杭州站上，阿里云数据库技术专家李伟为大家分享了如何基于当下流行的HBase和Spark体系构建企业级数据处理平台，并且针对于一些具体落地场景进行了介绍。演讲嘉宾简介：李伟（花名：沐远），阿里云数据库技术专家。专注于大数据分布式计算和数据库领域，具有6年分布式开发经验，先后研发Spark及自主研发内存计算，目前为广大公有云用户提供专业的云HBase数据
lightGBM专题4:pyspark平台下lightgbm模型保存 I_belong_to_jesus 大数据
之前的文章（pysparklightGBM1和pysparklightGBM2）介绍了pyspark下lightGBM算法的实现，本文将重点介绍下如何保存训练好的模型，直接上代码：frompyspark.sqlimportSparkSessionfrompyspark.ml.featureimportStringIndexer#配置spark,创建SparkSession对象spark=Spark
大数据开发（Spark面试真题-卷六） Key-Key 大数据 spark 面试
大数据开发（Spark面试真题）1、SparkHashPartitioner和RangePartitioner的实现？2、SparkDAGScheduler、TaskScheduler、SchedulerBackend实现原理？3、介绍下Sparkclient提交application后，接下来的流程？4、Spark的cache和persist的区别？它们是transformation算子还是ac
大数据开发（Hadoop面试真题-卷二） Key-Key 大数据 hadoop 面试
大数据开发（Hadoop面试真题）1、在大规模数据处理过程中使用编写MapReduce程序存在什么缺点？如何解决这些问题？2、请解释一下HDFS架构中NameNode和DataNode之间是如何通信的？3、请解释一下Hadoop的工作原理及其组成部分？4、HDFS读写流程是什么样子？5、Hadoop中fsimage和edit的区别是什么？6、Spark为什么比MapReduce更快？7、详细描述一
Spark从入门到精通29:Spark SQL：工作原理剖析以及性能优化勇于自信
SparkSQL工作原理剖析1.编写SQL语句只要是在数据库类型的技术里面，例如MySQL、Oracle等，包括现在大数据领域的数据仓库，例如Hive。它的基本的SQL执行的模型，都是类似的，首先都是要生成一条SQL语句执行计划。执行计划即从哪里查询，在哪个文件，从文件中查询哪些数据，此外，复杂的SQL还包括查询时是否对表中的数据进行过滤和筛选等等。2.UnresolvedLogicalPlan未
大数据开发（Hadoop面试真题-卷九） Key-Key 大数据 hadoop 面试
大数据开发（Hadoop面试真题）1、Hivecount(distinct)有几个reduce，海量数据会有什么问题？2、既然HBase底层数据是存储在HDFS上，为什么不直接使用HDFS，而还要用HBase?3、Sparkmapjoin的实现原理？4、Spark的stage如何划分？在源码中是怎么判断属于ShuffleMapStage或ResultStage的？5、SparkreduceByKe
Spark Streaming（二）：DStream数据源雪飘千里
1、输入DStream和Receiver输入（Receiver）DStream代表了来自数据源的输入数据流，在之前的wordcount例子中，lines就是一个输入DStream（JavaReceiverInputDStream），代表了从netcat（nc）服务接收到的数据流。除了文件数据流之外，所有的输入DStream都会绑定一个Receiver对象，该对象是一个关键的组件，用来从数据源接收数
Spark常见问题汇总 midNightParis spark spark
注意：如果Driver写好了代码，eclipse或者程序上传后，没有开始处理数据，或者快速结束任务，也没有在控制台中打印错误，那么请进入spark的web页面，查看一下你的任务，找到每个分区日志的stderr，查看是否有错误，一般情况下一旦驱动提交了，报错的情况只能在任务日志里面查看是否有错误情况了1、OperationcategoryREADisnotsupportedinstatestandb
SparkShop开源可商用，匹配小程序H5和PC端带分销功能！行动之上源码免费下载小程序
SparkShop(星火商城)B2C商城是基于thinkphp6+elementui的开源免费可商用的高性能商城系统；包含小程序商城、H5商城、公众号商城、PC商城、App，支持页面diy、秒杀、优惠券、积分、分销、会员等级。营销功能采用插件化的方式方便扩展、二次开发源码下载地址你别走吖Σ(っ°Д°;)っ(chaobiji.cn)
【Hadoop】在spark读取clickhouse中数据方大刚233 Hadoop Scala hadoop spark clickhouse
读取clickhouse数据库数据importscala.collection.mutable.ArrayBufferimportjava.util.Propertiesimportorg.apache.spark.sql.SaveModeimportorg.apache.spark.sql.SparkSessiondefgetCKJdbcProperties(batchSize:String="
Spark-sql Adaptive Execution动态调整分区数量，调整输出文件数不想起的昵称 hive spark hive 数据仓库
背景：在数仓任务中，经常要解决小文件的问题。有时间为了解决小文件问题，我们把spark.sql.shuffle.partitions这个参数调整的很小，但是随着时间的推移，数据量越来越大，当初设置的参数就不合适了，那有没有一个可以自我伸缩的参数呢？看看这个参数如何运用：我们的spark-sql版本：[hadoop@666~]$spark-sql--versionWelcometo______/__
hive join中出现的数据暴增（数据重复）不想起的昵称 hive 大数据 hadoop hive
什么是join过程中导致的数据暴增？例如：给左表的每个用户打上是否是新用户的标签，左表的用户数为100，但是关联右表之后，得到的用户数为200甚至更多什么原因导致的数据暴增呢？我们来看一下案例：spark-sql>withtest1as>(select'10001'asuid,'xiaomi'asqid>unionall>select'10002'asuid,'huawei'asqid>union
hive四种常见的join 不想起的昵称 hive 大数据 hadoop hdfs hive
1.左连接leftjoinspark-sql>withtest1as(>select1asuser_id,'xiaoming'asname>unionall>select2asuser_id,'xiaolan'asname>unionall>select3asuser_id,'xiaoxin'asname>),>>test2as(>select1asuser_id,19asage>unionall
Spark整合hive（保姆级教程）万家林 spark hive spark hadoop
准备工作：1、需要安装配置好hive，如果不会安装可以跳转到Linux下编写脚本自动安装hive2、需要安装配置好spark，如果不会安装可以跳转到Spark安装与配置（单机版）3、需要安装配置好Hadoop，如果不会安装可以跳转到Linux安装配置Hadoop2.6操作步骤：1、将hive的conf目录下的hive-site.xml拷贝到spark的conf目录下（也可以建立软连接）cp/opt
在 Spark 数据导入中的一些实践细节 NebulaGraph
best-practices-import-data-spark-nebula-graph本文由合合信息大数据团队柳佳浩撰写1.前言图谱业务随着时间的推移愈发的复杂化，逐渐体现出了性能上的瓶颈：单机不足以支持更大的图谱。然而，从性能上来看，Neo4j的原生图存储有着不可替代的性能优势，这一点是之前调研的JanusGraph、Dgraph等都难以逾越的鸿沟。即使JanusGraph在OLAP上面非常
Spark开发_简单DataFrame判空赋值逻辑 Matrix70 Spark开发_工作 spark 大数据分布式
valtable1="实时转存数据"valtable2="历史存hdf数据"valdfin1=inputRDD(table1).asInstanceOf[org.apache.spark.sql.DataFrame]valdfin=if(!dfin1.isEmpty)dfin1elseinputRDD(table2).asInstanceOf[org.apache.spark.sql.DataFr
Spark SQL编程指南 <>= spark
SparkSQL编程指南SparkSQL是用于结构化数据处理的一个模块。同SparkRDD不同地方在于SparkSQL的API可以给Spark计算引擎提供更多地信息，例如:数据结构、计算算子等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这里有几种方式和SparkSQL进行交互，例如DatasetAPI和SQL等，这两种API可以混合使用。SparkSQL的一个用途是执行SQL查询。
Pandas将单列XML格式数据转化为字典再拆分成多列列表拆分成多列 aoyi1337 python
单列XML扩展成多列遇到了个需求是需要把XML格式的数据拆分成多列的一个需求，本来需要使用spark进行处理的，但是没想到什么优雅的解决方案，所以打算先使用pandas找找感觉。样例数据如下所示。df=pd.DataFrame([{"uid":1,"detail":'家电无失败'},{"uid":2,"detail":'无失败'},{"uid":3,"detail":'1337点卡成功'}])然后
航班数据预测与分析林坰大数据 spark 航班数据分析杜艳辉
流程：数据来源：数据集预览（原始数据500w行，使用excel打不开，因此使用notepad++打开）：。。。数据清洗：数据存储到HDFS：使用pyspark对数据进行分析：//数据导入frompysparkimportSparkContextfrompyspark.sqlimportSQLContextsc=SparkContext()sqlContext=SQLContext(sc)airpo
再聊阴影裁剪与高性能视锥剔除 unity
【USparkle专栏】如果你深怀绝技，爱“搞点研究”，乐于分享也博采众长，我们期待你的加入，让智慧的火花碰撞交织，让知识的传递生生不息！一、实际需求因为项目的树与草都采用ComputeShader剔除的GPUInstance绘制，所以需要自己实现阴影投递物的裁剪方法。也就是每一帧具体让哪些物体绘制ShadowMap。该计算的精确性会很影响树（有大量顶点又需要用AlphaTest镂空）的渲染性能。
spark为什么比mapreduce快？后端
spark为什么比mapreduce快？首先澄清几个误区：1：两者都是基于内存计算的，任何计算框架都肯定是基于内存的，所以网上说的spark是基于内存计算所以快，显然是错误的2;DAG计算模型减少的是磁盘I/O次数（相比于mapreduce计算模型而言），而不是shuffle次数，因为shuffle是根据数据重组的次数而定，所以shuffle次数不能减少所以总结spark比mapreduce快的原
[CDH] Spark 属性、内存、CPU相关知识梳理枪枪枪 Spark spark scala big data
version：2.4.0-cdh6.3.0文章目录sparkproperties常用配置sparktasksparktask使用的cpu核数sparkarchitecturesparkmemorysparkonyarn问题1：什么情况下使用spark.executor.memoryOverhead问题2:什么情况下使用spark.executor.memory小总结：归根结底，spark中的cp
java线程的无限循环和退出 3213213333332132 java
最近想写一个游戏，然后碰到有关线程的问题，网上查了好多资料都没满足。突然想起了前段时间看的有关线程的视频，于是信手拈来写了一个线程的代码片段。希望帮助刚学java线程的童鞋 package thread; import java.text.SimpleDateFormat; import java.util.Calendar; import java.util.Date
tomcat 容器 BlueSkator tomcat Web servlet
Tomcat的组成部分 1、server A Server element represents the entire Catalina servlet container. (Singleton) 2、service service包括多个connector以及一个engine，其职责为处理由connector获得的客户请求。 3、connector 一个connector
php递归,静态变量,匿名函数使用 dcj3sjt126com PHP 递归函数匿名函数静态变量引用传参
<!doctype html> <html lang="en"> <head> <meta charset="utf-8"> <title>Current To-Do List</title> </head> <body>
属性颜色字体变化周华华 JavaScript
function changSize(className){ var diva=byId("fot") diva.className=className; } </script> <style type="text/css"> .max{ background: #900; color:#039;
将properties内容放置到map中 g21121 properties
代码比较简单： private static Map<Object, Object> map; private static Properties p; static { //读取properties文件 InputStream is = XXX.class.getClassLoader().getResourceAsStream("xxx.properti
[简单]拼接字符串 53873039oycg 字符串
工作中遇到需要从Map里面取值拼接字符串的情况，自己写了个，不是很好，欢迎提出更优雅的写法，代码如下： import java.util.HashMap; import java.uti
Struts2学习云端月影
最近开始关注struts2的新特性，从这个版本开始，Struts开始使用convention-plugin代替codebehind-plugin来实现struts的零配置。配置文件精简了，的确是简便了开发过程，但是，我们熟悉的配置突然disappear了，真是一下很不适应。跟着潮流走吧，看看该怎样来搞定convention-plugin。使用Convention插件，你需要将其JAR文件放
Java新手入门的30个基本概念二 aijuans java 新手 java 入门
基本概念:　　1.OOP中唯一关系的是对象的接口是什么,就像计算机的销售商她不管电源内部结构是怎样的,他只关系能否给你提供电就行了,也就是只要知道can or not而不是how and why.所有的程序是由一定的属性和行为对象组成的,不同的对象的访问通过函数调用来完成,对象间所有的交流都是通过方法调用,通过对封装对象数据,很大限度上提高复用率。　　2.OOP中最重要的思想是类,类是模板是蓝图,
jedis 简单使用 antlove java redis cache command jedis
jedis.RedisOperationCollection.java package jedis; import org.apache.log4j.Logger; import redis.clients.jedis.Jedis; import java.util.List; import java.util.Map; import java.util.Set; pub
PL/SQL的函数和包体的基础百合不是茶 PL/SQL编程函数包体显示包的具体数据包
由于明天举要上课,所以刚刚将代码敲了一遍PL/SQL的函数和包体的实现(单例模式过几天好好的总结下再发出来);以便明天能更好的学习PL/SQL的循环,今天太累了,所以早点睡觉,明天继续PL/SQL总有一天我会将你永远的记载在心里,,, 函数; 函数:PL/SQL中的函数相当于java中的方法;函数有返回值定义函数的 --输入姓名找到该姓名的年薪 create or re
Mockito(二)--实例篇 bijian1013 持续集成 mockito 单元测试
学习了基本知识后，就可以实战了，Mockito的实际使用还是比较麻烦的。因为在实际使用中，最常遇到的就是需要模拟第三方类库的行为。比如现在有一个类FTPFileTransfer，实现了向FTP传输文件的功能。这个类中使用了a
精通Oracle10编程SQL(7)编写控制结构 bijian1013 oracle 数据库 plsql
/* *编写控制结构 */ --条件分支语句 --简单条件判断 DECLARE v_sal NUMBER(6,2); BEGIN select sal into v_sal from emp where lower(ename)=lower('&name'); if v_sal<2000 then update emp set
【Log4j二】Log4j属性文件配置详解 bit1129 log4j
如下是一个log4j.properties的配置 log4j.rootCategory=INFO, stdout , R log4j.appender.stdout=org.apache.log4j.ConsoleAppender log4j.appender.stdout.layout=org.apache.log4j.PatternLayout log4j.appe
java集合排序笔记白糖_ java
public class CollectionDemo implements Serializable,Comparable<CollectionDemo>{ private static final long serialVersionUID = -2958090810811192128L; private int id; private String nam
java导致linux负载过高的定位方法 ronin47
定位java进程ID 可以使用top或ps -ef |grep java ![图片描述][1] 根据进程ID找到最消耗资源的java pid 比如第一步找到的进程ID为5431 执行 top -p 5431 -H ![图片描述][2] 打印java栈信息 $ jstack -l 5431 > 5431.log 在栈信息中定位具体问题将消耗资源的Java PID转
给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数 bylijinnan 函数
import java.util.ArrayList; import java.util.List; import java.util.Random; public class RandNFromRand5 { /** 题目：给定能随机生成整数1到5的函数，写出能随机生成整数1到7的函数。解法1： f(k) = (x0-1)*5^0+(x1-
PL/SQL Developer保存布局 Kai_Ge
近日由于项目需要，数据库从DB2迁移到ORCAL，因此数据库连接客户端选择了PL/SQL Developer。由于软件运用不熟悉，造成了很多麻烦，最主要的就是进入后，左边列表有很多选项，自己删除了一些选项卡，布局很满意了，下次进入后又恢复了以前的布局，很是苦恼。在众多PL/SQL Developer使用技巧中找到如下这段： &n
[未来战士计划]超能查派[剧透,慎入] comsci 计划
非常好看,超能查派,这部电影......为我们这些热爱人工智能的工程技术人员提供一些参考意见和思想........ 虽然电影里面的人物形象不是非常的可爱....但是非常的贴近现实生活.... &nbs
Google Map API V2 dai_lm google map
以后如果要开发包含google map的程序就更麻烦咯 http://www.cnblogs.com/mengdd/archive/2013/01/01/2841390.html 找到篇不错的文章，大家可以参考一下 http://blog.sina.com.cn/s/blog_c2839d410101jahv.html 1. 创建Android工程由于v2的key需要G
java数据计算层的几种解决方法2 datamachine java sql 集算器
2、SQL SQL/SP/JDBC在这里属于一类，这是老牌的数据计算层，性能和灵活性是它的优势。但随着新情况的不断出现，单纯用SQL已经难以满足需求，比如： JAVA开发规模的扩大，数据量的剧增，复杂计算问题的涌现。虽然SQL得高分的指标不多，但都是权重最高的。成熟度：5星。最成熟的。
Linux下Telnet的安装与运行 dcj3sjt126com linux telnet
Linux下Telnet的安装与运行 linux默认是使用SSH服务的而不安装telnet服务如果要使用telnet 就必须先安装相应的软件包即使安装了软件包默认的设置telnet 服务也是不运行的需要手工进行设置如果是redhat9，则在第三张光盘中找到 telnet-server-0.17-25.i386.rpm
PHP中钩子函数的实现与认识 dcj3sjt126com PHP
假如有这么一段程序： function fun(){ fun1(); fun2(); } 首先程序执行完fun1()之后执行fun2()然后fun()结束。但是，假如我们想对函数做一些变化。比如说，fun是一个解析函数，我们希望后期可以提供丰富的解析函数，而究竟用哪个函数解析，我们希望在配置文件中配置。这个时候就可以发挥钩子的力量了。我们可以在fu
EOS中的WorkSpace密码修改蕃薯耀修改WorkSpace密码
EOS中BPS的WorkSpace密码修改 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 201
SpringMVC4零配置--SpringSecurity相关配置【SpringSecurityConfig】 hanqunfeng SpringSecurity
SpringSecurity的配置相对来说有些复杂，如果是完整的bean配置，则需要配置大量的bean，所以xml配置时使用了命名空间来简化配置，同样，spring为我们提供了一个抽象类WebSecurityConfigurerAdapter和一个注解@EnableWebMvcSecurity，达到同样减少bean配置的目的，如下： applicationContex
ie 9 kendo ui中ajax跨域的问题 jackyrong AJAX跨域
这两天遇到个问题，kendo ui的datagrid，根据json去读取数据，然后前端通过kendo ui的datagrid去渲染，但很奇怪的是，在ie 10,ie 11,chrome,firefox等浏览器中，同样的程序，浏览起来是没问题的，但把应用放到公网上的一台服务器，却发现如下情况： 1） ie 9下，不能出现任何数据，但用IE 9浏览器浏览本机的应用，却没任何问题
不要让别人笑你不能成为程序员 lampcy 编程程序员
在经历六个月的编程集训之后，我刚刚完成了我的第一次一对一的编码评估。但是事情并没有如我所想的那般顺利。说实话，我感觉我的脑细胞像被轰炸过一样。手慢慢地离开键盘，心里很压抑。不禁默默祈祷：一切都会进展顺利的，对吧？至少有些地方我的回答应该是没有遗漏的，是不是？难道我选择编程真的是一个巨大的错误吗——我真的永远也成不了程序员吗？我需要一点点安慰。在自我怀疑，不安全感和脆弱等等像龙卷风一
马皇后的贤德 nannan408
马皇后不怕朱元璋的坏脾气，并敢理直气壮地吹耳边风。众所周知，朱元璋不喜欢女人干政，他认为“后妃虽母仪天下，然不可使干政事”，因为“宠之太过，则骄恣犯分，上下失序”，因此还特地命人纂述《女诫》，以示警诫。但马皇后是个例外。　　有一次，马皇后问朱元璋道：“如今天下老百姓安居乐业了吗？”朱元璋不高兴地回答：“这不是你应该问的。”马皇后振振有词地回敬道：“陛下是天下之父，
选择某个属性值最大的那条记录（不仅仅包含指定属性，而是想要什么属性都可以） Rainbow702 sql group by 最大值 max 最大的那条记录
好久好久不写SQL了，技能退化严重啊！！！直入主题：比如我有一张表，file_info，它有两个属性（但实际不只，我这里只是作说明用）： file_code, file_version 同一个code可能对应多个version 现在，我想针对每一个code，取得它相关的记录中，version 值最大的那条记录， SQL如下： select *
VBScript脚本语言 tntxia VBScript
VBScript 是基于VB的脚本语言。主要用于Asp和Excel的编程。 VB家族语言简介 Visual Basic 6.0 源于BASIC语言。由微软公司开发的包含协助开发环境的事
java中枚举类型的使用 xiao1zhao2 java enum 枚举 1.5新特性
枚举类型是j2se在1.5引入的新的类型,通过关键字enum来定义,常用来存储一些常量. 1.定义一个简单的枚举类型 public enum Sex { MAN, WOMAN } 枚举类型本质是类,编译此段代码会生成.class文件.通过Sex.MAN来访问Sex中的成员,其返回值是Sex类型. 2.常用方法静态的values()方

大数据入门之分布式计算框架Spark(3) -- Spark Streaming

1.概述

2.核心概念

3.案例

3.1 Spark Streaming处理socket数据

3.2 Spark Streaming处理文件系统的数据

4.Spark Streaming进阶

4.1 统计累积出现单词的次数

4.2 统计单词个数写入到MySQL数据库

4.3 Window窗体的使用

4.4 黑名单过滤

5.Spark Streaming整合Flume

5.1 Push方式

提交到spark服务器调试

5.2 Pull方式 （推荐！！）

6.Spark Streaming整合Kafka

6.1 Receiver方式整合

提交到服务器

6.2 Direct方式整合

你可能感兴趣的:(Spark)

5.2 Pull方式（推荐！！）