小结-Spark-Spark Streaming入门

定义及工作原理

Spark Streaming定义,官网翻译如下

Spark Streaming是核心Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。

数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数(如map,reduce,join和window)表示的复杂算法进行处理。

最后,处理后的数据可以推送到文件系统,数据库和实时仪表板。 实际上,您可以在数据流上应用Spark的机器学习和图形处理算法。

工作原理,官网翻译如下

在内部,它的工作原理如下:

Spark Streaming接收实时输入数据流并将数据分成批处理,然后由Spark引擎处理以批量生成最终结果流。

小结

Spark流数据处理就是将实时数据输入,按时间间隔分批次处理(形成一系列RDD)然后按需求输出。

流数据加载之初始化

Python

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

# Create a local StreamingContext with two working thread and batch interval of 1 second
sc = SparkContext("local[2]", "NetworkWordCount")
sc.setLogLevel("WARN")
ssc = StreamingContext(sc, 5)

Scala

import org.apache.spark._
import org.apache.spark.streaming._

// Create a local StreamingContext with two working thread and batch interval of 1 second.
// The master requires 2 cores to prevent a starvation scenario.

val conf = new SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")
val sc = new SparkContext(conf)
sc.setLogLevel("WARN")
val ssc = new StreamingContext(conf, Seconds(5))

小结

Spark Streaming初始化必须创建一个SparkContext流上下文对象,这是所有流处理的入口,接着创建StreamingContext对象。

如果后面结构化RDD,也就是DataFrame流操作,必须使用StreamingContext正在使用的 SparkContext 创建SparkSession

流数据加载之离散化流

Discretized Stream离散化流

Discretized Stream或DStream是Spark Streaming提供的基本抽象。

它表示连续的数据流,可以是从源接收的输入数据流,也可以是通过转换输入流生成的已处理数据流。 在内部,DStream由一系列连续的RDD表示,这是Spark对不可变分布式数据集的抽象。

DStream中的每个RDD都包含来自特定时间间隔的数据。

其实,DStram很好理解,就是按时间间隔组合的一系列RDD,其特点就是离散且持续。

离散流DStream的输入

Spark Streaming提供两类内置流媒体源。

基本来源:StreamingContext API中直接提供的源。 示例:文件系统和套接字连接。如上面StreamingContext。

高级资源:Kafka,Flume,Kinesis等资源可通过额外的实用程序类获得。 这些需要链接额外的依赖关系,如链接部分所述。

离散流DStream的转化

与RDD类似,转换允许修改来自输入DStream的数据。 DStreams支持普通Spark RDD上可用的许多转换。

DStream同样与RDD一样有map、flatmap、union、reduce、transform等等,但是区别于RDD,这些transform算子都不同于RDD算子的封装操作(针对于一些了RDD的操作),但其底层还是对每个RDD的操作。

离散流DStream的输出

输出操作允许将DStream的数据推送到外部系统,如数据库或文件系统。

由于输出操作实际上允许外部系统使用转换后的数据,因此它们会触发所有DStream转换的实际执行(类似于RDD的操作)

print(在Python API中pprint)、saveAsTextFiles、foreachRDD等等输出。

其中,值得注意的是,无论是什么输出底层调用的都是foreachRDD函数。

流数据处理扩展

了解更多,请参考 官网后续包括,结构化RDD的流操作、检查点、部署等等。

DataFrame流处理操作Demo

r"""
 Use DataFrames and SQL to count words in UTF8 encoded, '\n' delimited text received from the
 network every second.
 Usage: sql_network_wordcount.py  
    and  describe the TCP server that Spark Streaming would connect to receive data.
 To run this on your local machine, you need to first run a Netcat server
    `$ nc -lk 9999`
 and then run the example
    `$ bin/spark-submit examples/src/main/python/streaming/sql_network_wordcount.py localhost 9999`
"""

from __future__ import print_function
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.sql import Row, SparkSession


def getSparkSessionInstance(sparkConf):
    # if ('sparkSessionSingletonInstance' not in globals()):
    # 创建SparkSession
    # 必须使用StreamingContext正在使用的SparkContext创建SparkSession
    globals()['sparkSessionSingletonInstance'] = SparkSession \
        .builder \
        .config(conf=sparkConf) \
        .getOrCreate()
    return globals()['sparkSessionSingletonInstance']


def process(time, rdd):
    # Convert RDDs of the words DStream to DataFrame and run SQL query
    print("========= %s =========" % str(time))
    try:
        # Get the singleton instance of SparkSession
        spark = getSparkSessionInstance(rdd.context.getConf())

        # Convert RDD[String] to RDD[Row] to DataFrame
        rowRdd = rdd.map(lambda w: Row(word=w))
        wordsDataFrame = spark.createDataFrame(rowRdd)

        # Creates a temporary view using the DataFrame.
        wordsDataFrame.createOrReplaceTempView("words")

        # Do word count on table using SQL and print it
        wordCountsDataFrame = \
            spark.sql("select word, count(*) as total from words group by word")
        wordCountsDataFrame.show()
    except:
        pass


if __name__ == "__main__":
    # SparkContext---StreamingContext---SparkSession
    host, port = ["localhost", 9999]
    sc = SparkContext(appName="PythonSqlNetworkWordCount")
    # 默认log应该是info级,信息较多不利于观察;
    sc.setLogLevel("WARN")
    ssc = StreamingContext(sc, 5)

    # Create a socket stream on target ip:port and count the
    # words in input stream of \n delimited text (eg. generated by 'nc')
    lines = ssc.socketTextStream(host, int(port))

    words = lines.flatMap(lambda line: line.split(" "))

    words.foreachRDD(process)
    # 标准用法,没有output(foreachRDD)都是懒加载,只会记录后删除,并不运行;
    ssc.start()
    ssc.awaitTermination()

你可能感兴趣的:(小结-Spark-Spark Streaming入门)