Kevin.Yang

spark streaming 1.5.2 编程指南

1 概述

Spark Streaming是Spark核心API的一个扩展，对于实时流式数据的处理具有可扩展性、高吞吐量、可容错性等特点。Spark Streaming可以从
kafka、flume、Twitter、 ZeroMQ、Kinesis、TCP套接字等数据源获取数据，同时可以用由high-level函数（如map、reduce、join、window等）组成的复杂算法处理数据。最后，处理后的数据可以被推到文件系统、数据库和现场仪表盘。实际上,你可以将处理后的数据应用到Spark的机器学习算法、图处理算法中去。

它的工作原理图如下。Spark Streaming接收实时的输入数据流，然后将这些数据切分为批数据（batch）供Spark引擎(Spark engine)处理,Spark引擎将数据处理后生成最终的结果集，结果集仍然为batch。

Spark Streaming提供一个高层次的抽象，叫做离散流（discretized stream）或者DStream，它代表一个连续的数据流。DStream可以通过
如Kafka, Flume, and Kinesis等数据源的输入数据流创建，也可以在其他DStream上进行高级操作创建。在内部，DStream由一系列的RDDs组成。

这篇指南将会指导你如何利用DStream开启Spark Streaming的编程。用户可以用Scala、Java或者Python编写Spark Streming的程序，在官方文档对着三种语言都介绍了，本文翻译重点介绍Java语言。

2 一个快速的例子之HelloWorld

在我们深入研究如何编写自己的Spark Streaming程序的细节之前，让我们快速地看一下一个简单的Spark Streaming程序是什么样子的。在这个Hello world版本的例子的，程序从监听TCP套接字的服务器获取文本数据，让后统计单词的数目。其做法如下：

首先，我们创建一个JavaStreamingContext对象,它是Spark所有流操作的主要入口。我们创建一个具有两个执行线程以及1秒批间隔时间(即以秒为单位分割数据流)的本地StreamingContext。

import org.apache.spark.*;
import org.apache.spark.api.java.function.*;
import org.apache.spark.streaming.*;
import org.apache.spark.streaming.api.java.*;
import scala.Tuple2;

// Create a local StreamingContext with two working thread and batch interval of 1 second
SparkConf conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")
JavaStreamingContext jssc = new JavaStreamingContext(conf, Durations.seconds(1))

利用这个上下文，我们能够创建一个DStream，它表示从TCP套接字数据源（如host为localhost，端口为9999）获取的流数据

// Create a DStream that will connect to hostname:port, like localhost:9999
JavaReceiverInputDStream lines = jssc.socketTextStream("localhost", 9999);

这个名为lines的DStream表示即将从数据服务器接收的数据流。在这流中每一行记录是一行文本。然后，我们要把这行文本分割为一个个的单词。

// Split each line into words
JavaDStream<String> words = lines.flatMap(
  new FlatMapFunction<String, String>() {
    @Override public Iterable<String> call(String x) {
      return Arrays.asList(x.split(" "));
    }
  });

flatmap是一个DStream操作，它将源DStream中的的每条记录都生成多条新记录来创建一个新的DStream。在这个例子中，每一行文本被分割成多个单词，这些被分割形成的单词流用words DStream表示。需要注意的是，我们用了一个FlatMapFunction对象定义了一个转换操作。在接下来的讲解中，我们将会发现在Java API中有很多遍历方别的类来定义DStream的转换操作。

接下来，来统计这些单词：

// Count each word in each batch
JavaPairDStream<String, Integer> pairs = words.mapToPair(
  new PairFunction<String, String, Integer>() {
    @Override public Tuple2<String, Integer> call(String s) {
      return new Tuple2<String, Integer>(s, 1);
    }
  });
JavaPairDStream<String, Integer> wordCounts = pairs.reduceByKey(
  new Function2<Integer, Integer, Integer>() {
    @Override public Integer call(Integer i1, Integer i2) {
      return i1 + i2;
    }
  });

// Print the first ten elements of each RDD generated in this DStream to the console
wordCounts.print();

通过PairFunction 对象，words 这个DStream被mapper(一对一转换操作)成了一个新的DStream，新的DStream由（word，1）对组成。
然后，通过使用Function2对象，我们就可以用这个新的DStream计算每批数据的单词频率。最后，我们用 wordCounts.print() 打印每秒计算的词频。

需要注意的是，当上述的代码被执行时，Spark Streaming只是准备好了它要执行的运算，实际上并没有执行，只有当所有的转换操作（ transformation）准备好后，最后调用start()方法，才正在执行计算。

jssc.start();              // Start the computation
jssc.awaitTermination();   // Wait for the computation to terminate

完整的代码请参考NetworkWordCount（https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/streaming/NetworkWordCount.scala）

如果你已经下载和构建了Spark的环境，你姐可以用如下的方法运行这个HelloWorld的实例。首先你需要运行netcat作为数据服务器通过使用如下的命令：

$ nc -lk 9999

然后，在不同的终端，你可以通过如下方式运行例子

$ ./bin/run-example streaming.JavaNetworkWordCount localhost 9999

然后，每隔一秒在netcat server上输入的每行信息将会计算和打印在终端上。就像下面的这样：

# TERMINAL 1:
# Running Netcat

$ nc -lk 9999

hello world



...

# TERMINAL 2: RUNNING JavaNetworkWordCount

$ ./bin/run-example streaming.JavaNetworkWordCount localhost 9999
...
-------------------------------------------
Time: 1357008430000 ms
-------------------------------------------
(hello,1)
(world,1)
...

3 基本的概念

接下来，我们在这个简单的例子基础上开始阐述Spark Streaming的基础知识。

3.1 关联

与Spark类似，Spark Streaming也可以利用maven仓库。编写自己的Spark Streaming程序的时候，你需要引入下面的依赖到自己的Maven项目中。

<dependency>
    <groupId>org.apache.sparkgroupId>
    <artifactId>spark-streaming_2.10artifactId>
    <version>1.5.2version>
dependency>

如何你想从像Kafka、Flume、Kinesis这些不在Spark核心API的数据源获取数据时，你你必须添加相应的spark-streaming-xyz_2.10依赖。

为了获取最新的列表，请访问Apache repository（http://search.maven.org/）

3.2 初始化StreamingContext

为了初始化Spark Streaming程序，必须创建一个StreamingContext对象，它是Spark Streaming所有流操作的主要入口。StreamingContext 对象可以用SparkConf对象创建。

import org.apache.spark.*;
import org.apache.spark.streaming.api.java.*;

SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);
JavaStreamingContext ssc = new JavaStreamingContext(conf, Duration(1000));

参数appName是应用程序显示在集群UI上的名称。master 是一个Spark、Mesos、YARN集群URL 或者一个表示程序用本地模式运行的特殊字符串”local[ * ]” 当程序运行在集群中时，你并不希望在程序中将master硬编码，而是希望用 spark-submit启动应用程序，并从 spark-submit 中得到 master 的值。然而，在本地测试或者单元测试的时候，你可以传递”local[*]”来运行Spark。需要注意的是，它在内部创建了一个JavaSparkContext对象，你可以通过 ssc.sparkContext访问这个JavaSparkContext对象。

批时间片（batch interval）需要根据你的程序的潜在需求以及集群的可用资源来设定，具体的详细信息可以参考性能调优那一节。

一个JavaStreamingContext对象也可以从现有的JavaSparkContext创建。

import org.apache.spark.streaming.api.java.*;

JavaSparkContext sc = ...   //existing JavaSparkContext
JavaStreamingContext ssc = new JavaStreamingContext(sc, Durations.seconds(1));

当定义好一个上下文之后，接下来，你需要做几件事

定义输入源；
定义流计算指令（DStream的转化操作和输出操作）；
通过使用StreamingContext.start()开始接收和处理数据；
使用StreamingContext.awaittermination()(手动或由于任何错误）等待处理停止；
利用StreamingContext.stop() 手动停止处理；

几点需要注意的地方：

一旦一个context已经启动，就不能有新的流算子建立或者是添加到context中；
一旦一个context已经停止，它就不能再重新启动；
在一个JVM中，同一时间只能有一个StreamingContext是活跃状态的；
在StreamingContext上调用 stop()方法，SparkContext对象也会stop;如果只想关闭StreamingContext对象，只需将stop()方法里面的stopSparkContext参数设置为false;
一个SparkContext对象可以重复利用去创建多个StreamingContext对象，但是，前提条件是前面的StreamingContext在后面
StreamingContext创建之前关闭（不关闭SparkContext）；

3.3 离散流（DStreams）

离散流或者DStreams是Spark Streaming提供的基本的抽象。它代表一个连续的数据流，它是是从数据源中获取的输入流，或者是输入流通过转换算子生成的处理后的数据流。在内部，DStreams有一系列RDDs组成（RDD是Spark中分布式数据集的抽象）。DStreams中的每个RDD都
包含确定时间间隔内的数据，如下图所示：

任何对DStream的操作都会转化为对DStream中RDD的操作。举个例子，在前面的例子中， flatMap 操作应用于 lines 这个DStreams的每个RDD，生成 words 这个DStreams的 RDD，如下图所：

Spark引擎将计算这些隐含RDD的转换算子。DStreams操作隐藏了大部分的细节，并且为了更便捷，为开发者提供了high-level的API。下面几节将具体讨论这些操作的细节。

3.4 输入DStreams和接收器（Receivers）

输入DStreams代表从数据源接收的输入数据流的dstreams。在上述Helloworld例子中， lines 表示输入DStream，它代表从netcat服务器获取的数据流。每一个输入DStream与一个Recevier对象相关，Recevier从数据源获取数据，将其存储在Spark内存中用于处理。

Spark Streaming提供两类数据源：

基本源：这些源在StreamingContext API中直接可用。例如文件系统、套接字连接、Akka的actor等。
高级源：像Kafka、Flume、Kinesis、Twitter等可以通过额外的工具类来使用，我们在3.1节一节讨论了这些类的依赖

接下来，我们将介绍这两种类型数据源中一部分数据源。

需要注意的是，如果你想在一个流应用中并行地接收多个数据流，你需要创建多个输入DStream（这将在性能调优那一节介绍）。它将创建多个Receiver同时接收多个数据流。但是注意的是，Spark worker/executor是一个长期运行的任务，因此，recevier占据了分配给Spark Streaming应用的一个核。所以，要为Spark Streaming应用程序分配足够的
核（如果是本地运行，那么是线程）去处理接收到的数据并且运行 receiver 是非常重要的。

几点需要注意的地方：

当在本地运行一个Spark Streaming程序时，不要使用“local”或“local[1]”作为master URL，这两个都意味着只有一个线程来运行本地任务。如果你使用的是基于一个Recevier的输入DStream，然后单线程将运行Recevier，将没有线程用于处理接收的数据。因此，当在本地运行时，使用”local[n]”作为master URL，其中n大于运行的Recevier数量。
分配给Spark Streaming应用程序的核的数量必须大于Receivers的数量，否则，系统只能够接收数据而不能处理它们。

基本源

我们已经在HelloWorld的例子中看到， ssc.socketTextStream(…) 方法用来把从TCP套接字获取的文本数据创建成DStream。除了TCP 套接字，StreamingContext API也支持把文件以及Akka actors作为输入源创建DStream。

1 文件流

从任何与HDFS API兼容的文件系统中读取数据，一个DStream可以用如下方式创建

streamingContext.fileStream<KeyClass, ValueClass, InputFormatClass>(dataDirectory);

Spark Streaming将会监控 dataDirectory 目录，并且处理目录下生成的任何文件（嵌套目录不被支持）。需要注意的是：

1 所有文件具有相同的数据格式；
2 所有文件必须在"*dataDirectory*"目录下创建，文件是自动的移动和重命
  名到数据目录下
3 一旦移动，文件必须被修改。如果文件被持续的追加（append）数据，新的数
  据不会被读取。

对于简单地文本文件，有更加简单的方法：

streamingContext.textFileStream(dataDirectory)

文件流不需要运行一个receiver，所以不需要分配核。

2 基于自定义actor的流

DStream可以调用如下方法从Akka actors获取的数据流来创建，具体信息参考自定义Recevier指南（http://blog.csdn.net/ouyang111222/article/details/50414621）

streamingContext.actorStream(actorProps, actor-name)

3 RDD队列作为数据流

为了用测试数据测试Spark Streaming应用程序，人们可以用如下的方法创建基于RDDs队列的DStream。

streamingContext.queueStream(queueOfRDDs)

每个push到队列的RDD都被当做DStream的批数据，像流一样处理。

高级源

这种类型的数据源需要非Spark库接口，并且它们中的部分还需要复杂的依赖。因此，为了减少依赖的版本冲突的相关问题，从这些源创建DStream的功能已经被移到了独立的库中，你可以在3.1节查看详细的细节。例如，如果你想用来自推特的流数据创建DStream，你需要按照如下步骤操作：

关联：添加spark-streaming-twitter_2.10到maven项目
编程：导入TwitterUtils 类，利用TwitterUtils.createStream创建DStream
部署：将编写的程序以及其所有的依赖（包括spark-streaming-twitter_2.10的依赖以及它的传递依赖）打为jar包，然后
部署。这在部署章节将会详细的讲解。

import org.apache.spark.streaming.twitter.*;

TwitterUtils.createStream(jssc);

需要注意的是，这些高级的源在 spark-shell 中不能被使用，因此基于这些源的应用程序无法在shell中测试。如果你想在spark-shell中使用，你必须下载相应的jar包并将其添加到class path中。

下面介绍一些高级数据源：

Kafka：Spark Streaming 1.5.2能够从kafka 0.8.2.1中获取数据，可以查看kafka集成指南了解详细信息；
Flume：Spark Streaming 1.5.2能够从flume 1.6.0中获取数据，可以查看flume集成指南了解详细信息；
Kinesis：Spark Streaming 1.5.2能够从 Kinesis Client Library
1.2.1中获取数据，查看Kinesis集成指南了解详细信息；
Twitter：Spark Streaming 1.5.2 利用 Twitter4j 3.0.3获取公共的推特流，这些推文通过推特流API获得。认证信息可以通过Twitter4J库支持的任何方法获得。你既能够得到公共流，也能够得到基于关键字过滤后的流。

自定义的源

当然，输入DStream也可以通过自定义源创建，你需要做的是实现用户自定义的 receiver ，这个 receiver 可以从自定义源接收数据以及将数据推到Spark中。你可以通过自定义receiver指南了解详细信息（http://blog.csdn.net/ouyang111222/article/details/50414621）。

Receiver可靠性

基于可靠性有两类数据源。像Kafka、flume数据源允许确认/应答发送的数据。如果从这些可靠的源获取数据的系统能够正确的应答所接收的数据，它就能够确保在任何情况下不丢失数据。这样，就有两种类型receiver：

1 可靠的接收器：对于可靠的消息来源，允许发送的数据被确认，一个可靠的接收器正确地确认数据被接收器接收同时被可靠地存储在spark中。通常，实现可靠的接收器需仔细考量消息确认的语义。

2 不可靠的接收器：不可靠的接收器不向数据源发送确认信息。它可用于不支持确认机制的数据源，或者那些可靠的数据源但是我们不需要其使用复杂的确认机制。

详细信息请参考自定义Receiver指南（http://blog.csdn.net/ouyang111222/article/details/50414621）

3.5 DStream中的转换（Transformations ）

和RDD类似，转换允许从输入DStream来的数据被修改。DStreams支持很多在RDD中可用的转换。一些常用的转换（算子）如下所示：

其中一些转换需要重点讨论一下。

UpdateStateByKey操作

updateStateByKey操作允许保持任意状态，同时允许不断用新信息更新它。如果你想使用它，你需要做两步：

定义状态-状态可以是任意的数据类型。
定义状态更新函数-指定一个函数如何使用之前的状态和一个输入流的新值来更新状态

在每一batch中，无论batch中是否有新数据，对于所有存在的key,Spark都会应用状态更新函数。如果更新函数返回None,该键值对将被消除。

现在来举个例子说明。你想保持一个文本数据流中每个单词的运行次数，运行次数用一个state表示，它的类型是整数，我们定义如下的更新函数：

import com.google.common.base.Optional;
Function2<List<Integer>, Optional<Integer>, Optional<Integer>> updateFunction =
  new Function2<List<Integer>, Optional<Integer>, Optional<Integer>>() {
    @Override public Optional<Integer> call(List<Integer> values, Optional<Integer> state) {
      Integer newSum = ...  // add the new values with the previous running count to get the new count
      return Optional.of(newSum);
    }
  };

这个函数被用到了DStream包含的单词上

JavaPairDStream<String, Integer> runningCounts = pairs.updateStateByKey(updateFunction);

更新函数将会被每个单词调用， newValues 拥有一系列的1（从 (word, 1)而来），*runningCoun*t记录之前的次数。要看完整的
代码，参考JavaStatefulNetworkWordCount.java.（https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/streaming/JavaStatefulNetworkWordCount.java）

需要注意的是，使用updateStateByKey要求配置checkpoint目录, 这个这将会在checkpointing 章节详细讨论。

Transform操作

transform 操作允许在DStream运行任何RDD-to-RDD函数。它能够被用来应用任何没有在DStream API中提供的RDD操作。例如，连接数据流中的每个batch和另外一个数据集的功能并没有在DStream API中提供，然而你可以简单的利用 transform 方法做到。如果你想通过连接带有预先计算的垃圾邮件信息的输入数据流来清理实时数据，然后基于它们过滤，你可以按如下方法来做：

import org.apache.spark.streaming.api.java.*;
// RDD containing spam information
final JavaPairRDD spamInfoRDD = jssc.sparkContext().newAPIHadoopRDD(...);

JavaPairDStream cleanedDStream = wordCounts.transform(
  new Function, JavaPairRDD>() {
    @Override public JavaPairRDD call(JavaPairRDD rdd) throws Exception {
      rdd.join(spamInfoRDD).filter(...); // join data stream with spam information to do data cleaning
      ...
    }
  });

需要注意的是，在每一个批处理时间间隔中调用所提供的函数。这使得你可以做时变的RDD操作，也就是说，RDD操作、分区的数量、广播变量等都可以在batch之间改变。

Window 操作
Spark Streaming也支持窗口计算，它允许你在一个滑动窗口数据上应用转换（transformation）。下图阐明了这个滑动窗口：

如图显示，窗口在源DStream上滑动，合并和操作作用于窗内的源RDDs，产生窗口DStream的RDDs。在这个具体的例子中，程序在3个时间单元的数据上进行窗口操作，并且每2个时间单元滑动一次。这说明，任何一个窗口操作都需要指定两个参数：

窗口长度：窗口的持续时间
滑动的时间间隔：窗口操作执行的时间间隔

这两个参数必须是batch时间的倍数。

下面举例说明窗口操作。你想扩展前面的HelloWorld例子用来计算过去30秒的词频，间隔时间是10秒。为了达到这个目的，我们必须在过去30秒的 pairs DStream上应用 reduceByKey 操作。用方法reduceByKeyAndWindow 实现。

// Reduce function adding two integers, defined separately for clarity
Function2<Integer, Integer, Integer> reduceFunc = new Function2<Integer, Integer, Integer>() {
  @Override public Integer call(Integer i1, Integer i2) {
    return i1 + i2;
  }
};

// Reduce last 30 seconds of data, every 10 seconds
JavaPairDStream<String, Integer> windowedWordCounts = pairs.reduceByKeyAndWindow(reduceFunc, Durations.seconds(30), Durations.seconds(10));

下面是一些常用的窗口操作，这些操作都需要用到上文提到的两个参数：窗口长度和滑动的时间间隔

Join操作

最后，值得强调的是你可以轻松地在你的Spark Streaming程序中执行不同种类的join操作。

（1）流与流join(Stream-stream join)

JavaPairDStream stream1 = ...
JavaPairDStream stream2 = ...
JavaPairDStream> joinedStream = stream1.join(stream2);

在这里，在每个batch的时间间隔，stream1产生的RDD 会和stream2产生的RDD 连接（join）。你也可以做左外连接（leftOuterJoin）、右外连接（rightOuterJoin）、全外连接（fullOuterJoin）。此外，做窗口流的join非常有用，也很容易。

JavaPairDStream<String, String> windowedStream1 = stream1.window(Durations.seconds(20));
JavaPairDStream<String, String> windowedStream2 = stream2.window(Durations.minutes(1));
JavaPairDStream<String, Tuple2<String, String>> joinedStream = windowedStream1.join(windowedStream2);

(2) 流与数据集join(Stream-dataset joins)

在之前解释 DStream.transform 操作的时候已经展示了流与数据集的join。这里有另外一个关于窗口Stream与数据集的join。

JavaPairRDD<String, String> dataset = ...
JavaPairDStream<String, String> windowedStream = stream.window(Durations.seconds(20));
JavaPairDStream<String, String> joinedStream = windowedStream.transform(
    new FunctionString, String>>, JavaRDDString, String>>>() {
        @Override 
        public JavaRDDString, String>> call(JavaRDDString, String>> rdd) {
            return rdd.join(dataset);
        }
    }
);

此外，你可以动态的改变你要join的数据集。

3.6 DStream上的输出操作

输出操作允许DStream上的操作被push到如数据库、文件系统等外部系统中。因为输出操作实际上是允许外部系统消费转换后的数据，它们触发了DStream转换的实际执行。目前，定义了下面几种输出操作：

3.7 利用foreachRDD的设计模式

dstream.foreachRDD是一个强大的原语，它允许数据被发送到外部系统中。然而，明白怎样正确地、有效地用这个原语是非常重要。下面几点介绍了如何避免一般错误：

向外部系统写数据经常需要创建一个连接对象（如到远程服务器的TCP连接），同时用它发送数据到远程系统。举个例子，开发人员可能不经意的在Spark驱动中创建一个连接对象，但在Spark worker中尝试调用这个连接对象保存记录，如下（用scala）：

dstream.foreachRDD { rdd =>
  val connection = createNewConnection()  // executed at the driver
  rdd.foreach { record =>
    connection.send(record) // executed at the worker
  }
}

这是不正确的，因为这需要先序列化连接对象，然后将它从driver发送到worker中。这些连接对象很少在机器间传送。它可能表现为序列化错误（连接对象不可序列化）或者初始化错误（连接对象应该在worker中初始化）等等。正确的解决办法是在worker中创建连接对象。

然而，这可能导致另外一个常见的错误—为每一个记录创建一个连接对象，如下：

dstream.foreachRDD { rdd =>
  rdd.foreach { record =>
    val connection = createNewConnection()
    connection.send(record)
    connection.close()
  }
}

通常，创建一个连接对象有资源和时间的开销。因此，为每个记录创建和销毁连接对象会导致非常高的开销，同时极大的降低了系统的整体吞吐量。一个更好的解决办法是利用 rdd.foreachPartition 方法。为RDD的分区（partition）创建一个连接对象，用这个对象发送分区内的所有记录。

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    val connection = createNewConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    connection.close()
  }
}

这就将连接对象的创建开销分摊到分区的所有记录上了。最后，可以通过在多个RDD或者batch间重用连接对象做更进一步的优化。开发者可以持有一个静态的连接池，重复使用池中的对象将多批次的RDD推送到外部系统，以进一步节省开支。

dstream.foreachRDD { rdd =>
  rdd.foreachPartition { partitionOfRecords =>
    // ConnectionPool is a static, lazily initialized pool of connections
    val connection = ConnectionPool.getConnection()
    partitionOfRecords.foreach(record => connection.send(record))
    ConnectionPool.returnConnection(connection)  // return to the pool for future reuse
  }
}

需要注意的是，池中的连接对象应该根据需要懒创建，且在空闲一段时间后自动超时。这样就实现了最有效的方式将数据发送到外部系统。

其他几点需要注意的：

输出操作通过懒执行的方式操作DStreams，正如RDD action通过懒执行的方式操作RDD。具体地看，DStream上的输出操作中的RDD action推动了接收数据的处理。因此，如果你的应用程序没有任何输出操作或者用于输出操作 dstream.foreachRDD() 中没有任何RDD action操作，那么什么也不会执行。系统仅仅会接收输入，然后丢弃它们。
默认情况下，DStreams输出操作是分时执行的，它们按照应用程序的定义顺序按序执行。

3.8 DataFrame and SQL 操作
你可以在流数据上很容易使用DataFrame 和 SQL 操作。可以通过SparkContext创建SQLContext。此外，它可以在驱动故障时实现重启。下面的例子是上述helloworld例子的修改版本，它使用了DataFrames 和SQL进行word count。每一个RDD都转化为一个DataFrame，DataFrame被注册成一个临时表，之后使用SQL进行查询。

/** Java Bean class for converting RDD to DataFrame */
public class JavaRow implements java.io.Serializable {
  private String word;

  public String getWord() {
    return word;
  }

  public void setWord(String word) {
    this.word = word;
  }
}

...

/** DataFrame operations inside your streaming program */

JavaDStream words = ... 

words.foreachRDD(
  new Function2, Time, Void>() {
    @Override
    public Void call(JavaRDD rdd, Time time) {

      // Get the singleton instance of SQLContext
      SQLContext sqlContext = SQLContext.getOrCreate(rdd.context());

      // Convert RDD[String] to RDD[case class] to DataFrame
      JavaRDD rowRDD = rdd.map(new Function() {
        public JavaRow call(String word) {
          JavaRow record = new JavaRow();
          record.setWord(word);
          return record;
        }
      });
      DataFrame wordsDataFrame = sqlContext.createDataFrame(rowRDD, JavaRow.class);

      // Register as table
      wordsDataFrame.registerTempTable("words");

      // Do word count on table using SQL and print it
      DataFrame wordCountsDataFrame =
          sqlContext.sql("select word, count(*) as total from words group by word");
      wordCountsDataFrame.show();
      return null;
    }
  }
);

你可以在不同的线程上对定义流数据的表使用SQL查询（即异步运行StreamingContext）。只要确保你设置StreamingContext记得大量的流数据以确保运行查询。否则StreamingContext，无法感知任何异步的SQL查询，它将会在查询完成前删除旧的数据流。例如，如果你想要查询最后的batch，但是你的查询5分钟才运行一次，因此，需要调用这样的设置：streamingContext.remember(Minutes(5))

3.9 缓存/持久化

和RDD相似，DStreams也允许开发者持久化流数据到内存中。在DStream上使用 persist() 方法可以自动地持久化DStream中的RDD到内存中。如果DStream中的数据需要计算多次，这种做法将极大地提升新能。像 reduceByWindow 和 reduceByKeyAndWindow 这种窗口操作、 updateStateByKey 这种基于状态的操作，默认是持久化的，不需要开发者调用 persist() 方法。

例如通过网络（如kafka，flume等）获取的输入数据流，默认的持久化策略是复制数据到两个不同的节点以容错。

注意，与RDD不同的是，DStreams默认持久化级别是存储序列化数据到内存中，这将在性能调优章节介绍，更多的信息请看rdd持久化。

3.10 Checkpointing

一个流应用程序必须全天候运行，因此必须能够解决应用程序逻辑无关的故障（如系统错误，JVM崩溃等）。为了使这成为可能，Spark Streaming需要检查点（checkpoint）足够的信息到容错存储系统中，以使系统从故障中恢复。

1 Metadata checkpointing：保存流计算的定义信息到容错存储系统如HDFS中。这用来恢复应用程序中运行worker的节点的故障。元数据包括：

配置：创建Spark Streaming应用程序的配置信息
DStream 操作：定义Streaming应用程序的操作集合
未完成的batches：操作存在队列中的未完成的批

2 Data checkpointing：保存生成的RDD到可靠的存储系统中。这在有状态转换（transformation）（如结合跨多个批次的数据）中是必须的。
在这些transformation中，依赖之前的RDD生成的RDD,随着时间的推移，这个依赖链的长度会持续增长。在恢复的过程中，为了避免这种无限增长，有状态的transformation的中间RDD将会定时地存储到可靠存储系统中，以截断这个依赖链。

总之，元数据checkpoint主要是为了从driver故障中恢复数据；如果状态transformation操作被用到了，数据checkpoint即使在简单的操作
中都是必须的。

何时启用Checkpointing

Spark Streaming应用程序在以下两种情况下必须开启checkpoint

使用有状态的transformation：如果在应用程序中用到了updateStateByKey 或者reduceByKeyAndWindow ，checkpoint目录必需提供用以定期RDD checkpoint。
从运行应用程序的driver的故障中恢复过来：使用元数据checkpoint恢复进度信息。

需要注意的是，没有前述的有状态的transformation的简单流应用程序在运行时可以不开启checkpoint。在这种情况下，从driver故障的恢复将是部分恢复（接收到了但是还没有处理的数据将会丢失）。这通常是可以接受的，许多运行的Spark Streaming应用程序都是这种方式。在将来将会支持非hadoop的环境。

怎样配置Checkpointing

在容错、可靠的文件系统（HDFS、s3等）中设置一个目录用于保存checkpoint信息。这可以使用如下的方式来实现：

streamingContext.checkpoint(checkpointDirectory)

这样做之后，将允许你使用之前介绍的有状态transformation。另外，如果你想从driver故障中恢复，你应该以下面的方式重写你的Streaming应用程序：

当应用程序是第一次启动，新建一个StreamingContext，启动所有Stream，然后调用 start() 方法；
当应用程序因为故障重新启动，它将会根据checkpoint目录下的checkpoint数据重新创建StreamingContext；

// Create a factory object that can create a and setup a new JavaStreamingContext
JavaStreamingContextFactory contextFactory = new JavaStreamingContextFactory() {
  @Override public JavaStreamingContext create() {
    JavaStreamingContext jssc = new JavaStreamingContext(...);  // new context
    JavaDStream lines = jssc.socketTextStream(...);     // create DStreams
    ...
    jssc.checkpoint(checkpointDirectory);                       // set checkpoint directory
    return jssc;
  }
};

// Get JavaStreamingContext from checkpoint data or create a new one
JavaStreamingContext context = JavaStreamingContext.getOrCreate(checkpointDirectory, contextFactory);

// Do additional setup on context that needs to be done,
// irrespective of whether it is being started or restarted
context. ...

// Start the context
context.start();
context.awaitTermination();

如果 checkpointDirectory 存在，上下文将会利用checkpoint数据重新创建。如果这个目录不存在，将会调用contextFactory函数创建一个新的上下文，建立DStreams。请看NetworkWordCount例子。

除了使用getOrCreate方法，必须确保驱动在失败的时候自动重启。

值得注意的是，RDD的checkpointing有存储成本，这会导致批数据的处理时间增加。因此，需要小心的设置checkpointing的时间间隔。在最小的批容量(包含1秒的数据)情况下，checkpoint每批数据会显著的减少操作的吞吐量。相反，checkpointing太少会导致任务大小增大，这会产生不利的影响。因为有状态的transformation需要RDD checkpoint。默认的间隔时间是批间隔时间的倍数，最少10秒。它可以通过如下方法来设置：

 dstream.checkpoint(checkpointInterval).

典型的情况下，设置checkpoint间隔是DStream的滑动间隔的5-10大小是一个不错的选择。

3.11 部署应用程序

本章节将讨论Spark Streaming应用程序的部署步骤。

要求

运行一个Spark Streaming应用程序，必须做到以下几点：

集群：这是任何Spark应用都必须的，详情请见部署指南。
将应用打成jar包：编译你的程序将其打成jar，如果你用spark-submit启动应用程序，你不需要将Spark和Spark Streaming打包进这个jar。如果你的应用程序用到了高级源（如kafka，flume），你需要将它们关联的外部artifact以及它们的依赖打包进需要部署的应用程序jar包中。例如，一个应用程序用到了 TwitterUtils ，那么就需要将 spark streaming-twitter_2.10 以及它的所有依赖打包到应用程序jar中。
为executor配置足够的内存：因为接收的数据必须存储在内存中，executors必须配置足够的内存用来保存接收的数据。需要注意的是，如果你正在做10分钟的窗口操作，系统的内存要至少能保存10分钟的数据。所以，应用程序的内存需求依赖于使用它的操作。
配置checkpointing: 如果stream应用程序需要checkpointing，然后一个与Hadoop API兼容的容错存储目录必须配置为checkpoint的目录，Spark Streaming应用程序将checkpoint信息写入该目录用于错误恢复。具体详情参考3.10节。
配置应用程序driver的自动重启：为了自动从driver故障中恢复，运行Spark Streaming应用程序的部署设施必须能监控driver进程，如果
失败了能够重启它。不同的集群管理器，有不同的工具可以实现该功能。

（1）Spark Standalone：一个Spark应用程序driver可以提交到Spark独立集群运行，也就是说driver运行在一个worker节点上。进一步来说，Standalone集群管理器能够被指示用来监控driver，并且在driver失败（或者是由于非零的退出代码如exit(1)，或者由于运行driver的节点的故障）的情况下重启driver。

（2）YARN：YARN为自动重启应用程序提供了类似的机制。

（3）Mesos： Mesos可以用Marathon提供该功能

配置WAL（write ahead logs）：为了获得强大的容错保证，自Spark 1.2之后，我们引入了预写日志（write ahead logs）。如果WAL开启了，从receiver获取的所有数据会将预写日志写入配置的checkpoint目录。这可以防止driver故障丢失数据，从而保证零数据丢失。可以通过设置如下参数来开启WAL。

spark.streaming.receiver.writeAheadLogs.enable = true;

然而，这些较强的语义以receiver的接收吞吐量为代价,这可以通过并行运行多个receiver增加吞吐量来解决。另外，当WAL开启时，Spark中的复制数据的功能推荐不用，因为该日志已经存储在了一个副本在存储系统中。可以通过设置输入DStream的存储级别为 StorageLevel.MEMORY_AND_DISK_SER 获得该功能。

设置最大的接收数据率：如果集群资源有限，不足以应对Spark Streaming应用程序处理数据，可以为接收器设置一个最大的接受率（记录/秒）。以下两个配置参数值得关注：

spark.streaming.receiver.maxRate

spark.streaming.kafka.maxRatePerPartition

在Spark 1.5中，我们引入一个新的特征叫做backpressure，backpressure 消除了设置设置最大数据接收率的需求，取而代之的是Spark Streaming自动确定、计算速率限制并动态的调整它们。你可以通过如下的设置启动backpressure：

spark.streaming.backpressure.enabled = true

升级应用程序代码

如果运行的Spark Streaming应用程序需要升级，有如下两种可能的方法：

启动升级的应用程序，使其与未升级的应用程序并行运行。一旦新的程序已经准备就绪，旧的应用程序就可以关闭。需要注意的是，这种方法支持将数据发送到两个不同的目的地（新程序一个，旧程序一个）
首先，平滑的关闭（ StreamingContext.stop(…) 或JavaStreamingContext.stop(…) ）现有的应用程序，平滑的关闭意味着在关闭之前，要保证已经接收的数据完全处理完。然后，就可以启动升级的应用程序，升级的应用程序会接着旧应用程序的点开始处理。这种方法仅支持具有源端缓存功能的输入源（如flume，kafka），这是因为当旧的应用程序已经关闭，升级的应用程序还没有启动的时候，数据需要被缓存。

3.12 监控应用程序

除了Spark的监控功能，Spark Streaming增加了一些专有的功能。当应用一个StreamingContext的时候，Spark web UI 显示添加的 Streaming 菜单，用以显示运行的receivers（receivers是否是存活状态、接收的记录数、receiver错误等）和完成的batch的统计信息（批处理时间、队列等待等待）。这可以用来监控Spark Streaming应用程序的处理进度。

在Web UI中有两个度量指标非常重要。

处理时间（Processing Time）：表示批数据处理的时间；
调度延迟（Scheduling Delay ）：表示前面的batch处理完毕之后，当前batch在队列中的等待时间。

如果batch处理时间比batch间隔时间持续更长或者队列等待时间
持续增加，这就表示系统处理数据的速度跟不上batch数据产生的速度，整个处理过程滞后了。在这种情况下，考虑减少批处理时间。

Spark Streaming程序的处理过程也可以通过StreamingListener接口来监控，这个接口允许你获得receiver状态和处理时间。注意，这个接口是开发者API，它有可能在未来提供更多的信息。

3.13 性能调优

集群中的Spark Streaming应用程序获得最好的性能需要一些调整与优化。这章将介绍几个参数和配置，提高Spark Streaming应用程序的性能。在更高层面，你需要考虑两件事情：

高效地利用集群资源减少批数据的处理时间；
设置正确的batch size，使数据的处理速度能够赶上数据的接收速度

减少batch的处理时间

在Spark中减少的batch处理时间的有很多的优化的方法，这些可以在优化指南中作了讨论，这节重点讨论几个重要的。

数据接收的并行度

通过网络(如kafka，flume，socket等)接收数据需要这些数据反序列化并被保存到Spark中。如果数据接收成为系统的瓶颈，就要考虑并行地接收数据。需要注意的是，每个输入DStream创建一个 receiver （运行在worker机器上）接收单个数据流。创建多个输入DStream并配置它们可以从源中接收不同分区的数据流，从而实现多数据流接收。例如，接收两个topic数据的单个kafka输入DStream可以被切分为两个kafka输入流，
每个接收一个topic。这将在两个worker上运行两个receiver ，因此允许数据并行接收，提高整体的吞吐量。多个DStream可以被合并生成单个DStream，这样运用在单个输入DStream的transformation操作
可以运用在合并的DStream上。

int numStreams = 5;
List> kafkaStreams = new ArrayList>(numStreams);
for (int i = 0; i < numStreams; i++) {
  kafkaStreams.add(KafkaUtils.createStream(...));
}
JavaPairDStream unifiedStream = streamingContext.union(kafkaStreams.get(0), kafkaStreams.subList(1, kafkaStreams.size()));
unifiedStream.print();

另外一个需要考虑的参数是 receiver 的阻塞时间，阻塞时间由spark.streaming.blockInterval决定。

spark.streaming.blockInterval

对于大部分的 receiver，在存入Spark内存之前，接收的数据都被合并成
了一个大数据块。每批数据中块的个数决定了任务的个数。这些任务是用类似map的transformation操作接收的数据。每个recevier每个batch的任务数都相似。例如，如果block interva为200ms，那么每2个batch将会创建10个任务。如果任务数量非常少（也就是说，低于每一台机器的core）,那么这将是低效的。对于一个给定的批处理间隔增加其任务数，减少block interva。然而，建议的最小值的块间隔是约50 ms，低于这个值任务重启开销可能是一个问题。

多输入流或者多receiver 的可选的方法是明确地重新分配输入数据流（利用 inputStream.repartition() ），在进一步操作之前，通过集群的机器数分配接收的批数据。

数据处理的并行水平

如果运行在计算stage上的并发任务数不足够大，就不会充分利用集群的资源。例如，对于分布式reduce操作如 reduceByKey 和reduceByKeyAndWindow ，默认的并发任务数通过配置属性来确定
spark.default.parallelism 。你可以通过参数（PairDStreamFunctions）
传递并行度，或者设置参数spark.default.parallelism 修改默认值。

数据序列化

通过优化序列化方法可以减少数据序列化的开销，在Spark Streaming中，有两类数据需要被序列化：

输入数据：默认情况下，通过receiver接受到的数据存储在executor的内存中采用storagelevel.memory_and_disk_ser_2。也就是说，数据序列化为字节减少GC开销，同时为了容忍executor故障数据被复制。此外，数据首先被保存到内存中，只有到内存不足以支撑所有必须的输入数据的操作时，才会溢出到磁盘上。这种序列化具有明显的开销—recevier必须对接收的数据进行反序列化，当用spark的序列化格式时需要重新的序列化。

Spark中RDD数据的序列化：Streaming操作产生的RDD可能需要持久化到内存。例如，窗口操作将数据持久化到内存，因为它们将被处理多次。然而，不像Spark Core默认的storagelevel.memory_only，Streaming操作产生的RDD持久化默认使用storagelevel.memory_only_ser去减少GC开销。

在这两种情况下，使用kryo序列化可以减少CPU和内存开销。参考Spark调优指南查看详细信息。对于kryo，考虑注册自定义类对象，并禁用引用跟踪（在配置指南查看kryo相关的配置）。

在特殊情况下，Streaming应用需要保留的数据量不是很大，持久化两种类型的数据都是可行的，因为反序列化对象没有产生过多的GC开销。例如，如果你的batch间隔就几秒，且没有窗口操作，你可以在通过显示的设置存储级别在数据持久化时禁用序列化。这将减少由于序列化带来的CPU开销，由于没有太多GC开销而提高性能。

任务重启开销

如果每秒钟启动的任务数是非常大的（50或者更多），发送任务到slave的花费明显，这使请求很难获得亚秒（sub-second）级别的反应。通过下面的改变可以减小开支：

任务序列化：运行kyro序列化任何可以减小任务的大小，从而减小任务发送到slave的时间。
执行模式：在Standalone模式下或者粗粒度的Mesos模式下运行Spark可以在比细粒度Mesos模式下运行Spark获得更短的任务启动时间。可以在Mesos下运行Spark中获取更多信息。

设置正确的batch间隔

为了Spark Streaming应用程序能够在集群中稳定运行，系统应该能够以足够的速度处理接收的数据，换句话说，处理速度应该大于或等于接收数据的速度。这可以通过流的网络UI观察得到，批处理时间应该小于批间隔时间。

根据流计算的性质，批间隔时间可能显著的影响数据处理速率，这个速率可以通过应用程序维持。例如，考虑 WordCountNetwork 这个例子（前面提到的HelloWorld例子），对于一个特定的数据处理速率，系统可能每2秒打印一次单词计数（批间隔时间为2秒），但无法每500毫秒打印一次单词计数。所以，为了在生产环境中维持期望的数据处理速率，就应该设置合适的批间隔时间(即批数据的容量)。

找出正确的批容量的一个好的办法是用一个保守的批间隔时间（5-10,秒）和低数据速率来测试你的应用程序。为了验证你的系统是否能满足数据处理速率，你可以通过检查端到端的延迟值来判断（可以在 Spark驱动程序的log4j日志中查看”Total delay”或者利用StreamingListener口）。如果延迟维持稳定，那么系统是稳定的。如果延迟持续增长，那么系统无法跟上数据处理速率，是不稳定的。你能够尝试着增加数据处理速率或者减少批容量来作进一步的测试。注意，因为瞬间的数据处理速度增加导致延迟瞬间的增长可能是正常的，只要延迟能重新回到了低值（小于批容量）。

内存优化

调整内存的使用以及Spark应用程序的垃圾回收行为已经在Spark优化指南中详细介绍。强烈推荐对Spark优化指南中进行阅读。在这一章节，我们重点介绍一下在Spark Streaming中特殊的优化参数。

Spark Streaming应用要求的集群内存严重依赖于转换类型的使用。例如，如果你想对最近10分钟的数据进行窗口操作，那么你的集群应该有足够大的内存来存储数据。如果你想对大量的key使用updateStateByKey操作，那么内存要求更大。相反，如果你只是做简单的map-filter-store操作，那么内存要求想对较低。

一般来说，由于通过receiver接收到的数据其存储采用storagelevel.memory_and_disk_ser_2，不适合在内存的数据会溢出到磁盘。这将降低streming应用程序的性能，因此建议为应用程序提供足够的内存。最好小规模下看看内存使用量小，并做好相应的估计。

内存优化的另一方面是垃圾回收。对于spark streaming应用程序来说要求低延迟，由JVM的垃圾回收导致的大停顿是不可取的。

这里有一下参数能更好的帮你优化内存使用和GC消耗。

（1）Default persistence level of DStreams：在数据序列化章节，输入数据和RDDs默认持久化为字节。与反序列化持久化想不，这减少了内存使用和GC负担。如果采用Kryo序列化将进一步减少序列化大小与内存使用。内存使用量的减少还可以通过压缩（Spark中配置spark.rdd.compress）实现，前提是消耗CPU时间。

（2）Clearing old data：默认情况下，所有的输入数据和DStream 转换产生的、被持久化的RDD会被自动的清理。Spark Streaming在转换的基础上决定何时清理数据。例如，如果你使用一个10分钟的窗口操作，Spark Streaming将会保持最后10分钟的数据，丢弃旧的数据。通过设置streamingContext.remember，数据可以被保留更长时间。

（3）CMS Garbage Collector：使用并发的标记-清除垃圾回收可以进一步减少垃圾回收的暂停时间。尽管并发的垃圾回收会减少系统的整体吞吐量，但是仍然推荐使用它以获得更稳定的批处理时间。确保你在驱动（using –driver-java-options in spark-submit）和executors(using Spark configuration spark.executor.extraJavaOption)都设置了CMS GC。

ps：关于Spark Steaming的语义问题未纳入翻译的范畴

原文地址：https://spark.apache.org/docs/latest/streaming-programming-guide.html

你可能感兴趣的:(Spark)

Scala简介醉游江湖 scala
hadoop生态圈—>javaspark生态圈—>scala1.scala是面向对象的、面向函数的基于静态类型的编程语言。静态语言（强类型语言）静态语言是在编译时变量的数据类型即可确定的语言，多数静态类型语言要求在使用变量之前必须声明数据类型。例如：C++、Java、Delphi、C#,Scala等。scala编译后是字节码文件可以调用java源有的库动态语言（弱类型语言）动态语言是在运行时确定数
spark官方配置参数详解我丶怀念的 spark scala d s
以下是整理的Spark中的一些配置参数，官方文档请参考SparkConfiguration。Spark提供三个位置用来配置系统：Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置。例如IP地址、端口等信息日志配置：可以通过log4j.properties配置Spark属性Spark属性
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明 BigDataMLApplication spark spark 大数据分布式
【spark床头书系列】如何在YARN上启动Spark官网权威详解说明点击这里看全文文章目录添加其他JAR文件准备工作配置调试应用程序Spark属性重要说明KerberosYARN特定的Kerberos配置Kerberos故障排除配置外部Shuffle服务使用ApacheOozie启动应用程序使用Spark历史服务器替代SparkWebUI官网链接确保HADOOP_CONF_DIR或者YARN_C
xgboost在spark集群使用指南一颗小草333 算法 mapreduce spark 数据挖掘
简介XGBoost是一个优化的分布式梯度增强库，具有高效、灵活和可移植性。在梯度增强框架下实现了机器学习算法。XGBoost提供了一种并行树增强(也称为GBDT、GBM)，可以快速、准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop、SGE、MPI)上运行，可以解决数十亿个示例的训练问题。xgb相对于gbt所做的改进：1.2.3.XGBoost可以使用R、python、java
性能优化案例：通过合理设置spark.default.parallelism参数的值来优化PySpark程序的性能 weixin_30777913 大数据 spark python
在PySpark中，spark.default.parallelism是一个关键参数，直接影响作业的并行度和资源利用率。通过合理设置spark.default.parallelism并结合数据特征调整，可显著提升PySpark作业的并行效率和资源利用率。建议在开发和生产环境中进行多轮基准测试以确定最优值。以下是如何通过调整此参数优化性能的详细说明，结合案例和最佳实践：1.参数作用与问题场景参数意义
性能优化案例：通过合理设置spark.storage.memoryFraction参数的值来优化PySpark程序的性能 weixin_30777913 python 大数据 spark
优化PySpark程序的性能时，合理设置spark.storage.memoryFraction（或相关内存参数）是关键。合理设置spark.storage.memoryFraction需结合任务类型和内存使用监控。对于缓存密集型任务，适当提高存储内存比例；对于Shuffle密集型任务，优先保障执行内存。新版本Spark的动态内存机制简化了调优，但手动干预在极端场景下仍有效。最终需通过反复测试验证
转：Spark RDD算子练习题爱萨萨技术-大数据 spark RDD 练习
版权声明：本文为博主原创文章，遵循CC4.0BY-SA版权协议，转载请附上原文出处链接和本声明。本文链接：https://blog.csdn.net/qq_40825218/article/details/83720732给定数据如下：12张三25男chinese5012张三25男math6012张三25男english7012李四20男chinese5012李四20男math5012李四20男e
spark sql的练习题 a大数据yyds spark spark
1、使用StructuredStreaming读取Socket数据，把单词和单词的反转组成json格式写入到当前目录中的file文件夹中2、请使用StructuredStreaming读取student_info文件夹写的csv文件，2.1、统计出文件中的男女生各有多少人2.2、统计出姓“王”男生和女生的各有多少人3、请使用StructuredStreaming读取department_info文
Spark>sql练习题 BigMoM1573 Spark spark
练习题-------------------------------以下使用StructuredStreaming：-------------------------------1、请使用StructuredStreaming读取Socket数据，统计出每个单词的个数2、请使用StructuredStreaming读取student_info文件夹写的csv文件，2.1、统计出文件中的男女生各有多
《Spark大数据分析与内存计算》——第三章阿万古课程作业 spark 数据分析大数据
第三章作业及答案快捷查找：Ctrl+F在搜索框中输入题目一.单选题（共17题）1.(单选题)并不是所有企业都能自己产生数据，从而用于决策辅助，而更多的互联网企业如电商等大部分是要靠什么来抓取互联网数据进行分析A.HadoopB.pythonC.SparkD.网路爬虫正确答案:D:网路爬虫;2.(单选题)什么负责即席查询的应用A.MLlibB.SparkStreamingC.GraphXD.Spar
PySpark之金融数据分析（Spark RDD、SQL练习题）唯余木叶下弦声大数据大数据 spark pyspark python 数据分析 sql
目录一、数据来源二、PySparkRDD编程1、查询特定日期的资金流入和流出情况2、活跃用户分析三、PySparkSQL编程1、按城市统计2014年3月1日的平均余额2、统计每个城市总流量前3高的用户四、总结一、数据来源本文使用的数据来源于天池大赛数据集，由蚂蚁金服提供，包含用户基本信息、申购赎回记录、收益率、银行间拆借利率等多个维度，本文通过PySpark实现对该数据集的简单分析。数据来源：天池
用 Docker 搭建 Spark 集群 yeasy Bigdata Docker spark Docker 云计算集群分布式计算
简介Spark是Berkeley开发的分布式计算的框架，相对于Hadoop来说，Spark可以缓存中间结果到内存而提高某些需要迭代的计算场景的效率，目前收到广泛关注。熟悉Hadoop的同学也不必担心，Spark很多设计理念和用法都跟Hadoop保持一致和相似，并且在使用上完全兼容HDFS。但是Spark的安装并不容易，依赖包括Java、Scala、HDFS等。通过使用Docker，可以快速的在本地
Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)_streamsparkflink加载udf 2501_90243308 apache flink spark
3.基于ApacheFlink的流式计算平台为解决上述问题，bilibili希望根据以下三点要求构建基于ApacheFlink的流式计算平台。第一点，需要提供SQL化编程。bilibili对SQL进行了扩展，称为BSQL。BSQL扩展了Flink底层SQL的上层，即SQL语法层。**第二点，**DAG拖拽编程,一方面用户可以通过画板来构建自己的Pipeline，另一方面用户也可以使用原生Jar方式
免费AI大模型API汇总（非常详细），零基础入门到精通，看这一篇就够了大模型扬叔人工智能免费AI大模型API汇总大模型
前言一、免费大模型API一览大模型免费版本免费限制控制台（api_key等）讯飞星火大模型spark-litetokens：总量无限；QPS：2；(每秒发送的请求数)有效期：不限访问链接百度千帆大模型平台ERNIE-Speed-8KRPM=300，TPM=300000（RPM是每分钟请求数（RequestsPerMinute），TPM是指每分钟处理的tokens数量）访问链接ERNIE-Speed
用 Java 的思路快速学习 Scala 进朱者赤其他大数据 scala Scala
引言Scala是一种结合了面向对象和函数式编程的现代编程语言，广泛应用于大数据处理框架如ApacheSpark和ApacheFlink。对于熟悉Java的开发者来说，Scala的学习曲线相对平缓。本文将通过类比Java中的概念，帮助Java开发者快速上手Scala。1.基本语法1.1.数据类型以下是Scala和Java数据类型的汇总表格：Scala数据类型Java数据类型说明Intint32位整数
【Spark】Spark Join类型及Join实现方式 DataCrafter Spark 大数据计算框架 spark 大数据分布式
如果觉得这篇文章对您有帮助，别忘了点赞、分享或关注哦！您的一点小小支持，不仅能帮助更多人找到有价值的内容，还能鼓励我持续分享更多精彩的技术文章。感谢您的支持，让我们一起在技术的世界中不断进步！SparkJoin类型1.InnerJoin(内连接)示例：valresult=df1.join(df2,df1("id")===df2("id"),"inner")执行逻辑：只返回那些在两个表中都有匹配的行
Spark运行模式及Spark on Yarn两种运行模式的区别 DataCrafter Spark 大数据计算框架 spark 大数据
如果觉得这篇文章对您有帮助，别忘了点赞、分享或关注哦！您的一点小小支持，不仅能帮助更多人找到有价值的内容，还能鼓励我持续分享更多精彩的技术文章。感谢您的支持，让我们一起在技术的世界中不断进步！Spark运行模式1.Standalone模式描述：Standalone模式是Spark的独立集群模式，Spark自己管理资源和调度任务。适合小型集群或个人开发环境。特点：简单易用，适合开发和测试。不依赖外部
TiDB架构特性 #TiDB TiDB
文章目录TiDB整体架构TiDBServerPDServerTiKVServerTiSparkTiDBOperatorTiDB核心特性水平扩展高可用TiDB存储和计算能力存储能力-TiKV-LSM计算能力-TiDBServer总结TiDB整体架构 TiDB集群主要包括三个核心组件：TiDBServer，PDServer和TiKVServer。此外，还有用于解决用户复杂OLAP需求的TiSpark
大数据学习（七）Python3操作livy（使用pylivy模块）猪笨是念来过倒大数据大数据 python
Livy是一个用于与Spark交互的开源REST接口。pylivy是Livy的Python客户端，可以在Spark集群上轻松实现远程代码执行。安装$pipinstall-Ulivy请注意，pylivy需要Python3.6或更高版本。用法所述LivySession类的主界面提供由pylivy：from
【Redis】golang操作Redis基础入门 m0_74825360 面试学习路线阿里巴巴 redis golang 数据库
【Redis】golang操作Redis基础入门大家好我是寸铁??总结了一篇【Redis】golang操作Redis基础入门sparkles:喜欢的小伙伴可以点点关注??Redis的作用Redis（RemoteDictionaryServer）是一个开源的内存数据库，它主要用于存储键值对，并提供多种数据结构的支持。Redis的主要作用包括：1.缓存:Redis可以作为缓存系统，将常用的数据缓存在内
搭建单机伪分布式Hadoop+spark+scala 啥也不会0-0 分布式 hadoop spark
目录一、准备环境包：二、创建centos7虚拟机并配置ip三、链接Xshell并上环境包四、安装JDK1.解压jdk2.设置JAVA环境变量3.执行source使设置生效：4.检查JAVA是否可用。五、免密登陆1.创建ssh秘钥，输入如下命令，生成公私密钥2.将master公钥id_dsa复制到master进行公钥认证，实现本机免密登陆，测试完exit退出六、安装Hadoop软件1.解压hadoo
CDP中的Hive3之Apache Hive3特性对许 #Hive #Spark hive cdp
CDP中的Hive3之ApacheHive3特性1、ApacheHive3特性2、Hive不支持的接口和功能3、HiveonTez简介4、ApacheHive3架构概述CDP中采用的是ApacheHive3版本，相比Hive1/2，该版本在事务和安全性等方面有重大改进，了解这些版本之间的主要差异对于SQL用户至关重要，包括使用ApacheSpark和ApacheImpala的用户1、ApacheH
Hadoop 与 Spark：大数据处理的比较王子良. 大数据经验分享 hadoop spark 大数据
欢迎来到我的博客！非常高兴能在这里与您相遇。在这里，您不仅能获得有趣的技术分享，还能感受到轻松愉快的氛围。无论您是编程新手，还是资深开发者，都能在这里找到属于您的知识宝藏，学习和成长。博客内容包括：Java核心技术与微服务：涵盖Java基础、JVM、并发编程、Redis、Kafka、Spring等，帮助您全面掌握企业级开发技术。大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli
虚拟机VMware Workstation Pro安装集群+hadoop+spark+scala 落枫兮 hadoop spark scala
参考资料：参考视频教程链接：大数据实验虚拟机安装Hadoop和Spark_哔哩哔哩_bilibiliup主：孤独时代的硕硕namenode安装选择镜像、路径、磁盘（最好不要c盘）、内存和处理器编辑名称与位置可点击此处自定义硬盘进行设置。选择语言、时区、软件、位置和网络
大数据手写面试题Scala语言实现大全（持续更新）大模型大数据攻城狮大数据数据结构算法面试题面试宝典
在大数据领域，Scala语言因其强大的函数式编程特性和对并发处理的良好支持而成为了开发者们的热门选择。有些面试官，为了考验面试者的基本功，需要让手写一些面试题，以数据结构和算法类的居多。本文将为您提供一些常见的Scala手写面试题及参考答案，帮助您在面试或工作中更好地运用Scala。目录1.冒泡排序2.二分查找3.快速排序4.归并排序5.手写Spark-WordCount6.手写Spark程序求平
使用iFlyTek SparkLLM进行实时聊天应用开发 dagGAIYD 前端 javascript java python
技术背景介绍在当今的AI应用开发中，实时对话模型越来越受到重视。iFlyTek的SparkLLM为开发者提供了强大的聊天模型API，支持灵活的集成和扩展。本文将介绍如何使用SparkLLM搭建一个简单的聊天应用，包括基本的API初始化和调用，以及如何实现流式输出。核心原理解析SparkLLM是一款基于大规模语言模型的对话生成系统。它的核心在于通过自然语言理解和生成，实现人机之间的自然交流。通过使用
有了TiDB，是否还需要“散装”大数据组件？狮歌~资深攻城狮 tidb 数据仓库数据分析数据库分布式
有了TiDB，是否还需要“散装”大数据组件？最近和同事们讨论一个问题：在大数据应用日益增多的今天，如果使用了TiDB这样的一体化数据库，还需要使用那些传统的大数据组件（比如Hadoop、Spark等）吗？相信大家在公司或项目中，常常遇到需要处理大量数据的场景，特别是互联网、金融、电商等行业。随着TiDB的兴起，它作为一款分布式关系型数据库，似乎能够解决不少大数据问题。那么，问题来了：如果我们已经选
Spark GraphX原理与代码实例讲解 AI大模型应用之禅 AI大模型与大数据计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
SparkGraphX原理与代码实例讲解作者：禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来随着互联网和大数据技术的迅猛发展，社交网络、推荐系统、生物信息学、图分析等领域对图计算的需求日益增长。传统的图处理技术如GraphLab、Neo4j等，虽然功能强大，但往往存在扩展性差、易用性低、计算效率不足等问题。为了解决这些问题，A
spark电影数据分析系统 Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示 + [手把手视频教程和开发文档] QQ-1305637939 毕业设计大数据毕设计算机毕业设计 spark spring boot 爬虫大数据电影推荐电影分析
spark电影数据分析系统Springboot协同过滤-余弦函数推荐系统爬虫2万+数据大屏数据展示+[手把手视频教程和开发文档【功能介绍】1.java爬取【豆瓣电影】网站中电影数据,保存为data.csv文件,数据量2万+2.data.csv上传到hadoop集群环境3.MR数据清洗data.csv4.Spark汇总处理,将Spark处理的结果数据保存到本地Mysql数据库中5.Springboo
玩转至轻云大数据平台-docker部署篇 fanciNate454 大数据 docker
产品介绍至轻云是一款超轻量级、企业级大数据计算平台，基于Spark生态打造。一键部署，开箱即用。快速实现大数据离线ETL、Spark计算、实时计算、可视化调度、自定义接口、数据大屏以及自定义表单等多种功能，为企业提供高效便捷的大数据解决方案。至轻云有什么特点呢？又能怎么玩呢？产品特点开源轻量化云原生架构:兼容云原生架构，支持Docker、Rancher平台的快速部署。国内镜像下载:可直接从阿里云镜
项目中枚举与注解的结合使用飞翔的马甲 java enum annotation
前言：版本兼容，一直是迭代开发头疼的事，最近新版本加上了支持新题型，如果新创建一份问卷包含了新题型，那旧版本客户端就不支持，如果新创建的问卷不包含新题型，那么新旧客户端都支持。这里面我们通过给问卷类型枚举增加自定义注解的方式完成。顺便巩固下枚举与注解。一、枚举 1.在创建枚举类的时候，该类已继承java.lang.Enum类，所以自定义枚举类无法继承别的类，但可以实现接口。
【Scala十七】Scala核心十一：下划线_的用法 bit1129 scala
下划线_在Scala中广泛应用，_的基本含义是作为占位符使用。_在使用时是出问题非常多的地方，本文将不断完善_的使用场景以及所表达的含义 1. 在高阶函数中使用 scala> val list = List(-3,8,7,9) list: List[Int] = List(-3, 8, 7, 9) scala> list.filter(_ > 7) r
web缓存基础：术语、http报头和缓存策略 dalan_123 Web
对于很多人来说，去访问某一个站点，若是该站点能够提供智能化的内容缓存来提高用户体验，那么最终该站点的访问者将络绎不绝。缓存或者对之前的请求临时存储，是http协议实现中最核心的内容分发策略之一。分发路径中的组件均可以缓存内容来加速后续的请求，这是受控于对该内容所声明的缓存策略。接下来将讨web内容缓存策略的基本概念，具体包括如如何选择缓存策略以保证互联网范围内的缓存能够正确处理的您的内容，并谈论下
crontab 问题周凡杨 linux crontab unix
一： 0481-079 Reached a symbol that is not expected. 背景： */5 * * * * /usr/IBMIHS/rsync.sh
让tomcat支持2级域名共享session g21121 session
tomcat默认情况下是不支持2级域名共享session的，所有有些情况下登陆后从主域名跳转到子域名会发生链接session不相同的情况，但是只需修改几处配置就可以了。打开tomcat下conf下context.xml文件找到Context标签,修改为如下内容如果你的域名是www.test.com <Context sessionCookiePath="/path&q
web报表工具FineReport常用函数的用法总结（数学和三角函数）老A不折腾 Web finereport 总结
ABS ABS(number):返回指定数字的绝对值。绝对值是指没有正负符号的数值。 Number:需要求出绝对值的任意实数。示例: ABS(-1.5)等于1.5。 ABS(0)等于0。 ABS(2.5)等于2.5。 ACOS ACOS(number):返回指定数值的反余弦值。反余弦值为一个角度，返回角度以弧度形式表示。 Number:需要返回角
linux 启动java进程 sh文件墙头上一根草 linux shell jar
#!/bin/bash #初始化服务器的进程PId变量 user_pid=0; robot_pid=0; loadlort_pid=0; gateway_pid=0; ######### #检查相关服务器是否启动成功 #说明： #使用JDK自带的JPS命令及grep命令组合，准确查找pid #jps 加 l 参数，表示显示java的完整包路径 #使用awk，分割出pid
我的spring学习笔记5-如何使用ApplicationContext替换BeanFactory aijuans Spring 3 系列
如何使用ApplicationContext替换BeanFactory？ package onlyfun.caterpillar.device; import org.springframework.beans.factory.BeanFactory; import org.springframework.beans.factory.xml.XmlBeanFactory; import
Linux 内存使用方法详细解析 annan211 linux 内存 Linux内存解析
来源 http://blog.jobbole.com/45748/ 我是一名程序员，那么我在这里以一个程序员的角度来讲解Linux内存的使用。一提到内存管理，我们头脑中闪出的两个概念，就是虚拟内存，与物理内存。这两个概念主要来自于linux内核的支持。 Linux在内存管理上份为两级，一级是线性区，类似于00c73000-00c88000，对应于虚拟内存，它实际上不占用
数据库的单表查询常用命令及使用方法(-) 百合不是茶 oracle 函数单表查询
创建数据库; --建表 create table bloguser(username varchar2(20),userage number(10),usersex char(2)); 创建bloguser表,里面有三个字段 &nbs
多线程基础知识 bijian1013 java 多线程 thread java多线程
一．进程和线程进程就是一个在内存中独立运行的程序，有自己的地址空间。如正在运行的写字板程序就是一个进程。 “多任务”：指操作系统能同时运行多个进程（程序）。如WINDOWS系统可以同时运行写字板程序、画图程序、WORD、Eclipse等。线程：是进程内部单一的一个顺序控制流。线程和进程 a. 每个进程都有独立的
fastjson简单使用实例 bijian1013 fastjson
一.简介阿里巴巴fastjson是一个Java语言编写的高性能功能完善的JSON库。它采用一种“假定有序快速匹配”的算法，把JSON Parse的性能提升到极致，是目前Java语言中最快的JSON库；包括“序列化”和“反序列化”两部分，它具备如下特征：
【RPC框架Burlap】Spring集成Burlap bit1129 spring
Burlap和Hessian同属于codehaus的RPC调用框架，但是Burlap已经几年不更新，所以Spring在4.0里已经将Burlap的支持置为Deprecated,所以在选择RPC框架时，不应该考虑Burlap了。这篇文章还是记录下Burlap的用法吧，主要是复制粘贴了Hessian与Spring集成一文，【RPC框架Hessian四】Hessian与Spring集成
【Mahout一】基于Mahout 命令参数含义 bit1129 Mahout
1. mahout seqdirectory $ mahout seqdirectory --input (-i) input Path to job input directory(原始文本文件). --output (-o) output The directory pathna
linux使用flock文件锁解决脚本重复执行问题 ronin47 linux lock　重复执行
linux的crontab命令，可以定时执行操作，最小周期是每分钟执行一次。关于crontab实现每秒执行可参考我之前的文章《linux crontab 实现每秒执行》现在有个问题，如果设定了任务每分钟执行一次，但有可能一分钟内任务并没有执行完成，这时系统会再执行任务。导致两个相同的任务在执行。例如： <? // test .php
java-74-数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 bylijinnan java
public class OcuppyMoreThanHalf { /** * Q74 数组中有一个数字出现的次数超过了数组长度的一半，找出这个数字 * two solutions: * 1.O(n) * see <beauty of coding>--每次删除两个不同的数字，不改变数组的特性 * 2.O(nlogn) * 排序。中间
linux 系统相关命令 candiio linux
系统参数 cat /proc/cpuinfo cpu相关参数 cat /proc/meminfo 内存相关参数 cat /proc/loadavg 负载情况性能参数 1）top M：按内存使用排序 P：按CPU占用排序 1：显示各CPU的使用情况 k：kill进程 o：更多排序规则回车：刷新数据 2）ulimit ulimit -a：显示本用户的系统限制参
[经营与资产]保持独立性和稳定性对于软件开发的重要意义 comsci 软件开发
一个软件的架构从诞生到成熟，中间要经过很多次的修正和改造如果在这个过程中，外界的其它行业的资本不断的介入这种软件架构的升级过程中那么软件开发者原有的设计思想和开发路线
在CentOS5.5上编译OpenJDK6 Cwind linux OpenJDK
几番周折终于在自己的CentOS5.5上编译成功了OpenJDK6，将编译过程和遇到的问题作一简要记录，备查。 0. OpenJDK介绍 OpenJDK是Sun（现Oracle）公司发布的基于GPL许可的Java平台的实现。其优点： 1、它的核心代码与同时期Sun（-> Oracle）的产品版基本上是一样的，血统纯正，不用担心性能问题，也基本上没什么兼容性问题；（代码上最主要的差异是
java乱码问题 dashuaifu java乱码问题 js中文乱码
swfupload上传文件参数值为中文传递到后台接收中文乱码在js中用setPostParams（{"tag" : encodeURI( document.getElementByIdx_x("filetag").value，"utf-8")}）; 然后在servlet中String t
cygwin很多命令显示command not found的解决办法 dcj3sjt126com cygwin
cygwin很多命令显示command not found的解决办法修改cygwin.BAT文件如下 @echo off D: set CYGWIN=tty notitle glob set PATH=%PATH%;d:\cygwin\bin;d:\cygwin\sbin;d:\cygwin\usr\bin;d:\cygwin\usr\sbin;d:\cygwin\us
[介绍]从 Yii 1.1 升级 dcj3sjt126com PHP yii2
2.0 版框架是完全重写的，在 1.1 和 2.0 两个版本之间存在相当多差异。因此从 1.1 版升级并不像小版本间的跨越那么简单，通过本指南你将会了解两个版本间主要的不同之处。如果你之前没有用过 Yii 1.1，可以跳过本章，直接从"入门篇"开始读起。请注意，Yii 2.0 引入了很多本章并没有涉及到的新功能。强烈建议你通读整部权威指南来了解所有新特性。这样有可能会发
Linux SSH免登录配置总结 eksliang ssh-keygen Linux SSH免登录认证 Linux SSH互信
转载请出自出处：http://eksliang.iteye.com/blog/2187265 一、原理我们使用ssh-keygen在ServerA上生成私钥跟公钥，将生成的公钥拷贝到远程机器ServerB上后,就可以使用ssh命令无需密码登录到另外一台机器ServerB上。生成公钥与私钥有两种加密方式，第一种是
手势滑动销毁Activity gundumw100 android
老是效仿ios，做android的真悲催！有需求：需要手势滑动销毁一个Activity 怎么办尼？自己写？不用~，网上先问一下百度。结果： http://blog.csdn.net/xiaanming/article/details/20934541 首先将你需要的Activity继承SwipeBackActivity，它会在你的布局根目录新增一层SwipeBackLay
JavaScript变换表格边框颜色 ini JavaScript html Web html5 css
效果查看：http://hovertree.com/texiao/js/2.htm代码如下，保存到HTML文件也可以查看效果： <html> <head> <meta charset="utf-8"> <title>表格边框变换颜色代码-何问起</title> </head> <body&
Kafka Rest : Confluent kane_xie kafka REST confluent
最近拿到一个kafka rest的需求，但kafka暂时还没有提供rest api（应该是有在开发中，毕竟rest这么火），上网搜了一下，找到一个Confluent Platform，本文简单介绍一下安装。这里插一句，给大家推荐一个九尾搜索，原名叫谷粉SOSO，不想fanqiang谷歌的可以用这个。以前在外企用谷歌用习惯了，出来之后用度娘搜技术问题，那匹配度简直感人。环境声明：Ubu
Calender不是单例 men4661273 单例 Calender
在我们使用Calender的时候，使用过Calendar.getInstance()来获取一个日期类的对象，这种方式跟单例的获取方式一样，那么它到底是不是单例呢，如果是单例的话，一个对象修改内容之后，另外一个线程中的数据不久乱套了吗？从试验以及源码中可以得出，Calendar不是单例。测试： Calendar c1 =
线程内存和主内存之间联系 qifeifei java thread
1， java多线程共享主内存中变量的时候，一共会经过几个阶段， lock:将主内存中的变量锁定，为一个线程所独占。 unclock:将lock加的锁定解除，此时其它的线程可以有机会访问此变量。 read:将主内存中的变量值读到工作内存当中。 load:将read读取的值保存到工作内存中的变量副本中。
schedule和scheduleAtFixedRate tangqi609567707 java timer schedule
原文地址：http://blog.csdn.net/weidan1121/article/details/527307 import java.util.Timer;import java.util.TimerTask;import java.util.Date; /** * @author vincent */public class TimerTest {
erlang 部署 wudixiaotie erlang
1.如果在启动节点的时候报这个错： {"init terminating in do_boot",{'cannot load',elf_format,get_files}} 则需要在reltool.config中加入 {app, hipe, [{incl_cond, exclude}]}, 2.当generate时，遇到： ERROR