版本说明:Spark2.4
前言
最近基于Spark Structured Streaming开发一套实时数据判别清洗系统,在开发过程接触了一些StructuredStreaming的新特性以及新用法。本文主要记录一下在开发过程中使用到的技术点,以及遇到的问题总结。
关于当时项目技术选型最终选择StructuredStreaming的原因,主要是因为团队具有Spark开发经验且Structured 比Spark Streaming具有基于事件时间处理机制。这里简单对Spark Streaming 和Structured Streaming 做一个优劣对比,详细的内容可以参考《是时候放弃Spark Streaming,转向Structured Streaming了》
刚才提到,我们技术选型的时候,就是因为Spark Streaming没有事件时间处理机制,所以被放弃。简单解释一下这两个时间的概念:Processing Time 是数据到达Spark被处理的时间,Event Time 是数据自身的时间,一般表示数据产生于数据源的时间。
DStream (Spark Streaming 的数据模型)提供的 API 类似 RDD 的 API 的,非常的 low level。当我们编写 Spark Streaming 程序的时候,本质上就是要去构造 RDD 的 DAG 执行图,然后通过 Spark Engine 运行。这样导致一个问题是,DAG 可能会因为开发者的水平参差不齐而导致执行效率上的天壤之别。这样导致开发者的体验非常不好,也是任何一个基础框架不想看到的(基础框架的口号一般都是:你们专注于自己的业务逻辑就好,其他的交给我)。这也是很多基础系统强调 Declarative 的一个原因。
DStream 只能保证自己的一致性语义是 exactly-once的,而Spark Streaming的inpu 和 output的一致性语义需要用户自己来保证。
尽管批流本是两套系统,但是这两套系统统一起来确实很有必要,我们有时候确实需要将我们的流处理逻辑运行到批数据上面。关于这一点,最早在 2014 年 Google 提出 Dataflow 计算服务的时候就批判了 streaming/batch 这种叫法,而是提出了 unbounded/bounded data 的说法。DStream 尽管是对 RDD 的封装,但是我们要将 DStream 代码完全转换成 RDD 还是有一点工作量的,更何况现在 Spark 的批处理都用 DataSet/DataFrame API 了。
Structured Streaming 的模型很简单,易于理解,用户可以直接把一个流想象成一个无限增长的表格
和Spark SQL 共用大部分API,对Spark SQL熟悉的用户很容易上手。批处理和流处理程序可以共用代码,提高开发效率。
Structured Streaming 在与 Spark SQL 共用 API 的同时,也直接使用了 Spark SQL 的 Catalyst 优化器和 Tungsten,数据处理性能十分出色。此外,Structured Streaming 还可以直接从未来 Spark SQL 的各种性能优化中受益。
Structured Streaming 直接支持目前 Spark SQL 支持的语言,包括 Scala,Java,Python,R 和 SQL。用户可以选择自己喜欢的语言进行开发
关于Structured数据源的问题,我在《Structured Streaming 内置数据源及实现自定义数据源》这边文章里有详细介绍。
Kafka是最为常见的数据源,kafka里我们通常会以JSON格式存储数据。Spark Structured 在处理kafka数据的时候,通常需要将kafka数据转成DataFrame,之前在《Spark Streaming解析Kafka JSON格式数据》这篇文章中介绍了几种Streaming处理Kafka JSON格式的方法,并在文末思考中,提到了Structured Streaming解析的方法。这里重新介绍几种方法。
Kafka数据里的value如下所示为json字符串:
{
"deviceId":"4d6021db-7483-4911-8025-87494776ba87","deviceName":"风机温度","deviceValue":76.3,"deviceTime":1553140083}
Structured 使用select($“value”.cast(“String”))解析如下所示:
为了使用from_json解析,我们首先要根据json结构定义好schema,如下:
val schema = StructType(Seq(
StructField("deviceId", StringType),
StructField("deviceName", StringType),
StructField("deviceValue", DoubleType),
StructField("deviceTime", LongType)
))
使用from_json函数进行解析,需要通过import org.apache.spark.sql.functions._引入函数。
.select(from_json($"value".cast("String"), schema).as("json")).select("json.*")
结果如下所示:
完整代码:
package com.hollysys.spark.structured.usecase
import com.google.gson.Gson
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types._
/**
* Created by shirukai on 2019-03-21 11:36
* Structured 解析Kafka数据
*/
object HandleKafkaJSONExample {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder()
.appName(this.getClass.getSimpleName)
.master("local[2]")
.getOrCreate()
val source = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "localhost:9092")
.option("subscribe", "structured-json-data")
.option("maxOffsetsPerTrigger", 1000)
.option("startingOffsets", "earliest")
.option("failOnDataLoss", "true")
.load()
import spark.implicits._
import org.apache.spark.sql.functions._
val schema = StructType(Seq(
StructField("deviceId", StringType),
StructField("deviceName", StringType),
StructField("deviceValue", DoubleType),
StructField("deviceTime", LongType)
))
val query = source
.select(from_json($"value".cast("String"), schema).as("json")).select("json.*")
.writeStream
.outputMode("update")
.format("console")
//.option("checkpointLocation", checkpointLocation)
.option("truncate", value = false)
.start()
query.awaitTermination()
}
}
此方法是先定义好case class,然后通过map函数,将json字符串使用gson转成case class 返回。
首先根据json结构定义case class:
case class Device(deviceId: String, deviceName: String, deviceValue: Double, deviceTime: Long)
定义json字符串转case class 函数,这里使用gson
def handleJson(json: String): Device = {
val gson = new Gson()
gson.fromJson(json, classOf[Device])
}
使用map转换
.select($"value".cast("String")).as[String].map(handleJson)
结果如下所示:
完整代码:
package com.hollysys.spark.structured.usecase
import com.google.gson.Gson
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types._
/**
* Created by shirukai on 2019-03-21 11:36
* Structured 解析Kafka数据
*/
object HandleKafkaJSONExample {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder()
.appName(this.getClass.getSimpleName)
.master("local[2]")
.getOrCreate()
val source = spark
.readStream
.format("kafka")
.option("kafka.bootstrap.servers", "localhost:9092")
.option("subscribe", "structured-json-data")
.option("maxOffsetsPerTrigger", 1000)
.option("startingOffsets", "earliest")
.option("failOnDataLoss", "true")
.load()
import spark.implicits._
import org.apache.spark.sql.functions._
val query = source
.select($"value".cast("String")).as[String].map(handleJson)
.writeStream
.outputMode("update")
.format("console")
//.option("checkpointLocation", checkpointLocation)
.option("truncate", value = false)
.start()
query.awaitTermination()
}
def handleJson(json: String): Device = {
val gson = new Gson()
gson.fromJson(json, classOf[Device])
}
}
case class Device(deviceId: String, deviceName: String, deviceValue: Double, deviceTime: Long)
上面提到的两种方法,是处理JSONObject的情况,即"{}"。如果数据为JSONArray格式,如[{},{}]该如何处理呢?
假如我们Kafka名为structured-json-array-data的topic里的单条数据如下:
[
{
"deviceId": "4d6021db-7483-4911-8025-87494776ba87",
"deviceName": "风机温度",
"deviceValue": 76.3,
"deviceTime": 1553140083
},
{
"deviceId": "89cf0815-9a1e-4dd5-a2d9-ff16c2308ddf",
"deviceName": "风机转速",
"deviceValue": 600,
"deviceTime": 1553140021
}
]
首先同样需要定义好schema,这里就不重复了,与上面定义schema相同。只不过这里我们使用from_json时需要在schema外嵌套一层结构ArrayType(schema),这时拿到的是array嵌套结构的json,然后我们在使用explode函数将其展开。代码如下:
.select(from_json($"value".cast("String"), ArrayType(schema))
.as("jsonArray"))
.select(explode($"jsonArray"))
.select("col.*")
上面我们提到使用map + case class 能够处理JSONObject 格式的数据,同样的道理,这里我们可以使用flatmap + case class 处理 JSONArray 格式的数据。具体思路是,重写上面handleJson 的方法,将json字符串转为 Array[clase class]格式,然后传入flatmap函数。
编写handleJsonArray方法:
def handleJsonArray(jsonArray: String): Array[Device] = {
val gson = new Gson()
gson.fromJson(jsonArray, classOf[Array[Device]])
}
使用flatmap函数展开
.select($"value".cast("String")).as[String].flatMap(handleJsonArray)
Structured Streaming 提供了三种输出模式:complete、update、append
不同类型的Streaming query 支持不同的输出模式:如下表所示:
complete模式下,会将整个更新的结果表写出到外部存储,即会将整张结果表写出,重点注意"更新"这个词,这就意味着,使用Complete模式是需要有聚合操作的,因为在结果表中保存非聚合的数据是没有意义的,所以,当在没有聚合的query中使用complete输出模式,就会报如下错误:
具有聚合操作的Query
以wordcount为例
/**
* 测试输出模式为complete
* 整个更新的结果表将写入外部存储器
* -------------------------------------------
* 输入:dog cat
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |dog |1 |
* |cat |1 |
* +-----+-----+
* -------------------------------------------
* 输入:dog fish
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |dog |2 |
* |cat |1 |
* |fish |1 |
* +-----+-----+
* -------------------------------------------
* 输入:cat lion
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |lion |1 |
* |dog |2 |
* |cat |2 |
* |fish |1 |
* +-----+-----+
* -------------------------------------------
*/
代码:
/**
* Created by shirukai on 2019-03-21 15:27
* Structured Streaming 三种输出模式的例子
* 以wordcount为例
* socket 命令:nc -lk 9090
*/
object OutputModeExample {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder()
.appName(this.getClass.getSimpleName)
.master("local[2]")
.getOrCreate()
val line = spark.readStream
.format("socket")
.option("host", "localhost")
.option("port", 9090)
.load()
import spark.implicits._
import org.apache.spark.sql.functions._
val words = line.as[String].flatMap(_.split(" "))
/**
* 测试输出模式为complete
* 整个更新的结果表将写入外部存储器
* -------------------------------------------
* 输入:dog cat
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |dog |1 |
* |cat |1 |
* +-----+-----+
* -------------------------------------------
* 输入:dog fish
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |dog |2 |
* |cat |1 |
* |fish |1 |
* +-----+-----+
* -------------------------------------------
* 输入:cat lion
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |lion |1 |
* |dog |2 |
* |cat |2 |
* |fish |1 |
* +-----+-----+
* -------------------------------------------
*/
val completeQuery = words.groupBy("value").count().writeStream
.outputMode(OutputMode.Complete())
.format("console")
.option("truncate", value = false)
.start()
completeQuery.awaitTermination()
}
}
update模式下,会将自上次触发后在结果表中更新的行写入外部存储(结果表中更新的行=新增行+更新历史行)
所有的query
/**
* 测试输出模式为:update
* 只有自上次触发后在结果表中更新的行才会写入外部存储(结果表中更新的行=新增行+更新历史行)
* -------------------------------------------
* 输入:dog cat
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |dog |1 |
* |cat |1 |
* +-----+-----+
* -------------------------------------------
* 输入:dog fish
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |dog |2 |
* |fish |1 |
* +-----+-----+
* -------------------------------------------
* 输入:cat lion
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |lion |1 |
* |cat |2 |
* +-----+-----+
* -------------------------------------------
*/
代码:
package com.hollysys.spark.structured.usecase
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.streaming.OutputMode
/**
* Created by shirukai on 2019-03-21 15:27
* Structured Streaming 三种输出模式的例子
* 以wordcount为例
* socket 命令:nc -lk 9090
*/
object OutputModeExample {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder()
.appName(this.getClass.getSimpleName)
.master("local[2]")
.getOrCreate()
val line = spark.readStream
.format("socket")
.option("host", "localhost")
.option("port", 9090)
.load()
import spark.implicits._
import org.apache.spark.sql.functions._
val words = line.as[String].flatMap(_.split(" "))
/**
* 测试输出模式为:update
* 只有自上次触发后在结果表中更新的行才会写入外部存储(结果表中更新的行=新增行+更新历史行)
* -------------------------------------------
* 输入:dog cat
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |dog |1 |
* |cat |1 |
* +-----+-----+
* -------------------------------------------
* 输入:dog fish
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |dog |2 |
* |fish |1 |
* +-----+-----+
* -------------------------------------------
* 输入:cat lion
* 结果:
* +-----+-----+
* |value|count|
* +-----+-----+
* |lion |1 |
* |cat |2 |
* +-----+-----+
* -------------------------------------------
*/
val updateQuery = words.groupBy("value").count().writeStream
.outputMode(OutputMoade.Update())
.format("console")
.option("truncate", value = false)
.start()
updateQuery.awaitTermination()
}
此模式下,会将上次触发后,结果表中附加的新行写入外部存储器。这仅适用于预计结果表中的现有行不会更改的查询,因此,这种方式能保证每行数据仅仅输出一次。例如,带有Select,where,map,flatmap,filter,join等的query操作支持append模式。支持聚合操作下使用Append模式,但是要求聚合操作必须设置Watermark,否则会报如下错误:
带Watermark的聚合操作
flatMapGroupWithState函数之后使用聚合操作
非聚合操作
package com.hollysys.spark.structured.usecase
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.streaming.OutputMode
/**
* Created by shirukai on 2019-03-21 15:27
* Structured Streaming 三种输出模式的例子
* 以wordcount为例
* socket 命令:nc -lk 9090
*/
object OutputModeExample {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder()
.appName(this.getClass.getSimpleName)
.master("local[2]")
.getOrCreate()
val line = spark.readStream
.format("socket")
.option("host", "localhost")
.option("port", 9090)
.load()
import spark.implicits._
import org.apache.spark.sql.functions._
val words = line.as[String].flatMap(_.split(" "))
/**
* 测试输出模式为:append
* 自上次触发后,只有结果表中附加的新行才会写入外部存储器。这仅适用于预计结果表中的现有行不会更改的查询
* -------------------------------------------
* 输入:dog cat
* 结果:
* +-----+
* |value|
* +-----+
* |dog |
* |cat |
* +-----+
* -------------------------------------------
* 输入:dog fish
* 结果:
* +-----+
* |value|
* +-----+
* |dog |
* |fish |
* +-----+
* -------------------------------------------
* 输入:cat lion
* 结果:
* +-----+
* |value|
* +-----+
* |cat |
* |lion |
* +-----+
* -------------------------------------------
*/
val appendQuery = words.writeStream
.outputMode(OutputMode.Complete())
.format("console")
.option("truncate", value = false)
.start()
appendQuery.awaitTermination()
}
使用Structured Streaming 基于时间的滑动窗口的聚合操作是很简单的,使用window()函数即可,很像分组聚合。在一个分组聚合操作中,聚合值被唯一保存在用户指定的列中。在基于窗口的聚合情况下,对于行的事件时间的每个窗口,维护聚合指。
在前面的输出模式的例子中,我们使用了wordcount进行演示。现在有这样的一个需求:要求我们以10分钟为窗口,且每5分钟滑动一次来进行10分钟内的词频统计。如下图所示,此图是官网的改进版,按照实际输出画图。由于使用的输出模式是Complete,会将完整的结果表输出。很容易理解,12:05时触发计算,计算12:02 和12:03来的两条数据,因为我们的窗口为滑动窗口,10分钟窗口大小,5分钟滑动一次,所以Spark会为每条数据划分两个窗口,结果如图所示。关于窗口的划分,后面会单独解释。
下面将使用具体的程序,进行演示。
package com.hollysys.spark.structured.usecase
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.types.TimestampType
/**
* Created by shirukai on 2019-03-22 14:17
* Structured Streaming 窗口函数操作例子
* 基于事件时间的wordcount
* socket:nc -lk 9090
*/
object WindowOptionExample {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder()
.appName(this.getClass.getSimpleName)
.master("local[2]")
.getOrCreate()
// Read stream form socket,The data format is: 1553235690:dog cat|1553235691:cat fish
val lines = spark.readStream
.format("socket")
.option("host", "localhost")
.option("port", 9090)
.load()
import spark.implicits._
import org.apache.spark.sql.functions._
// Transform socket lines to DataFrame of schema { timestamp: Timestamp, word: String }
val count = lines.as[String].flatMap(line => {
val lineSplits = line.split("[|]")
lineSplits.flatMap(item => {
val itemSplits = item.split(":")
val t = itemSplits(0).toLong
itemSplits(1).split(" ").map(word => (t, word))
})
}).toDF("time", "word")
.select($"time".cast(TimestampType), $"word")
// Group the data by window and word and compute the count of each group
.groupBy(
window($"time", "10 minutes", "5 minutes"),
$"word"
).count()
val query = count.writeStream
.outputMode(OutputMode.Complete())
.format("console")
.option("truncate", value = false)
.start()
query.awaitTermination()
}
}
上面的程序,是模拟数据处理,从socket里读取1553235690:dog cat|1553235691:cat owl格式的数据,然后经过转换,转成schema为{ timestamp: Timestamp, word: String }的DataFrame,然后使用window函数进行窗口划分,再使用groupBy进行聚合count,最后将结果输出到控制台,输出模式为Complete。
通过nc -lk 9090向socket发送数据
发送:1553227320:cat dog|1553227380:dog dog
结果:
-------------------------------------------
Batch: 0
-------------------------------------------
+------------------------------------------+----+-----+
|window |word|count|
+------------------------------------------+----+-----+
|[2019-03-22 11:55:00, 2019-03-22 12:05:00]|cat |1 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|cat |1 |
|[2019-03-22 11:55:00, 2019-03-22 12:05:00]|dog |3 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|dog |3 |
+------------------------------------------+----+-----+
发送:1553227620:owl cat
结果:
-------------------------------------------
Batch: 1
-------------------------------------------
+------------------------------------------+----+-----+
|window |word|count|
+------------------------------------------+----+-----+
|[2019-03-22 11:55:00, 2019-03-22 12:05:00]|cat |1 |
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|cat |1 |
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|owl |1 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|owl |1 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|cat |2 |
|[2019-03-22 11:55:00, 2019-03-22 12:05:00]|dog |3 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|dog |3 |
+------------------------------------------+----+-----+
发送:1553227860:dog|1553227980:owl
结果:
-------------------------------------------
Batch: 2
-------------------------------------------
+------------------------------------------+----+-----+
|window |word|count|
+------------------------------------------+----+-----+
|[2019-03-22 11:55:00, 2019-03-22 12:05:00]|cat |1 |
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|dog |1 |
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|cat |1 |
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|owl |2 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|owl |1 |
|[2019-03-22 12:10:00, 2019-03-22 12:20:00]|owl |1 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|cat |2 |
|[2019-03-22 12:10:00, 2019-03-22 12:20:00]|dog |1 |
|[2019-03-22 11:55:00, 2019-03-22 12:05:00]|dog |3 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|dog |3 |
+------------------------------------------+----+-----+
上面基于窗口的词频统计例子中,我们接触到了window()函数,这是spark的内置函数,具体底层实现,没要找到的源码位置,如有人知晓,烦请指点。我们可以看到在org.apache.spark.sql.functions中的window函数解析成表达式之前的函数定义:
/**
* window
*
* @param timeColumn 事件时间所在的列
* @param windowDuration 窗口间隔 字符串表达式:"10 seconds" or "10 minutes"等
* @param slideDuration 滑动间隔 字符串表达式:"10 seconds" or "10 minutes"等
* @return Column
*/
def window(timeColumn: Column, windowDuration: String, slideDuration: String): Column = {
window(timeColumn, windowDuration, slideDuration, "0 second")
}
这里通过一个简单的例子,来演示一下window()函数的作用。
我们对上面的WordCount的例子做一下改变,不去groupBy(window()),直接select来看一下window()的效果。
// Transform socket lines to DataFrame of schema { timestamp: Timestamp, word: String }
val count = lines.as[String].flatMap(line => {
val lineSplits = line.split("[|]")
lineSplits.flatMap(item => {
val itemSplits = item.split(":")
val t = itemSplits(0).toLong
itemSplits(1).split(" ").map(word => (t, word))
})
}).toDF("time", "word")
.select($"time".cast(TimestampType), $"word")
.select(
window($"time", "10 minutes", "5 minutes"),
$"word",
$"time"
)
如上,我们以10分钟为一个窗口,5分钟滑动一次,这时输入一个2019-03-23 13:58:24时间的数据,会产生几个窗口呢?
输入:1553320704:cat
结果:如下所示产生了两个窗口,13:50-14:00 和13:55-14:05
-------------------------------------------
Batch: 1
-------------------------------------------
+------------------------------------------+----+-------------------+
|window |word|time |
+------------------------------------------+----+-------------------+
|[2019-03-23 13:50:00, 2019-03-23 14:00:00]|cat |2019-03-23 13:58:24|
|[2019-03-23 13:55:00, 2019-03-23 14:05:00]|cat |2019-03-23 13:58:24|
+------------------------------------------+----+-------------------+
如果我同样设置10分钟的窗口,3分钟滑动一次,同样输入2019-03-23 13:58:24时间的数据,这时会产生几个窗口呢?
输入:1553320704:cat
结果:如下所示产生了三个窗口
-------------------------------------------
Batch: 0
-------------------------------------------
+------------------------------------------+----+-------------------+
|window |word|time |
+------------------------------------------+----+-------------------+
|[2019-03-23 13:51:00, 2019-03-23 14:01:00]|cat |2019-03-23 13:58:24|
|[2019-03-23 13:54:00, 2019-03-23 14:04:00]|cat |2019-03-23 13:58:24|
|[2019-03-23 13:57:00, 2019-03-23 14:07:00]|cat |2019-03-23 13:58:24|
+------------------------------------------+----+-------------------+
如果我同样设置10分钟的窗口,2分钟滑动一次,同样输入2019-03-23 13:58:24时间的数据,这时会产生几个窗口呢?
输入:1553320704:cat
结果:如下所示产生了五个窗口
-------------------------------------------
Batch: 0
-------------------------------------------
+------------------------------------------+----+-------------------+
|window |word|time |
+------------------------------------------+----+-------------------+
|[2019-03-23 13:50:00, 2019-03-23 14:00:00]|cat |2019-03-23 13:58:24|
|[2019-03-23 13:52:00, 2019-03-23 14:02:00]|cat |2019-03-23 13:58:24|
|[2019-03-23 13:54:00, 2019-03-23 14:04:00]|cat |2019-03-23 13:58:24|
|[2019-03-23 13:56:00, 2019-03-23 14:06:00]|cat |2019-03-23 13:58:24|
|[2019-03-23 13:58:00, 2019-03-23 14:08:00]|cat |2019-03-23 13:58:24|
+------------------------------------------+----+-------------------+
上面例子中,我们可以使用简单的窗口函数,根据不同的窗口大小和滑动间隔划分出不同的窗口,那么具体Spark是如何划分窗口的呢?如下图所示,我们以窗口大小为10分钟,滑动间隔为5分为例,进行窗口划分。
通过上面的图我们可以看出,当00:12这个时间点来了一条数据之后,它会落在00:05-00:15和00:10-00:20这两个窗口里,同样,当00:28来的数据会落到00:20-00:30和00:25-00:35这两个窗口。对于这个例子来说,每一条数据都会落到两个窗口里,那么,关于具体落到哪个窗口里是如何计算的呢?我们可以查看Spark window函数的实现,源码位置在org.apache.spark.sql.catalyst.analysis包下的SimpleAnalyzer,查看TimeWindowing的实现,注释里说的很清楚。
大体步骤如下
1 首先计算一个窗口跨度里最多有多少个重叠窗口
maxNumOverlapping = ceil(windowDuration / slideDuration)
使用窗口跨度除以滑动间隔向上取整,即可以得到最大重叠窗口个数,如windowDuration=10,slideDuration=5,则maxNumOverlapping=2;windowDuration=10,slideDuration=3,则maxNumOverlapping=4。
val overlappingWindows =
math.ceil(window.windowDuration * 1.0 / window.slideDuration).toInt
2 计算当前时间落入的距离窗口开始时间最近的窗口ID
windowId = ceil((timestamp - startTime) / slideDuration)
startTime这里指的是整个时间维度的开始时间,默认为0,即时间戳的0
使用当前时间减去开始时间startTime然后除以窗口跨度向上取整就能求出窗口ID来,这个ID表示,从startTime开始,一共划分了多少个窗口。
val division = (PreciseTimestampConversion(
window.timeColumn, TimestampType, LongType) - window.startTime) / window.slideDuration
val ceil = Ceil(division)
3 按最多的情况窗口划分
上面第一步中,我们计算出了一个窗口跨度里最多有多少个重叠窗口,这个有什么意义呢?其实它可以表示,一条数据,最多可以落到多少个窗口里,注意这里是最多,有些情况下,一条数据可能落不到计算的最多窗口里。比如说,当我窗口时间设置为10分钟,窗口跨度设置为3分钟的时候,这个时候计算出最多重叠个数为4,大多数情况下为3,如下图所示:
所以这里Spark先按照最多的情况划分窗口
val windows =
Seq.tabulate(overlappingWindows)(i => getWindow(i, overlappingWindows))
4 过滤不符合要求的窗口
通过上面的图,我们可以看出,如果我们按照最多重叠个数来划分窗口,数据会落到不正确的窗口中,如果我们 划分00:11:10这条数据,它会落到:00:00-00:10、00:03-00:13、00:06-00:16、00:09-00:19这四个窗口中,显然,00:00-00:10这个窗口是个错误的窗口,不需要出现,所以这里Spark又对窗口进行了一次过滤。
val filterExpr =
window.timeColumn >= windowAttr.getField(WINDOW_START) &&
window.timeColumn < windowAttr.getField(WINDOW_END)
通过上面四个步骤,spark很容易将我们的数据,划分到不同的窗口中,从而实现了窗口计算。
下面我按照源码思路,简单的实现了一个窗口划分的Demo,代码如下:
package com.hollysys.spark.structured.usecase
import java.util.Date
import org.apache.commons.lang3.time.FastDateFormat
import org.apache.spark.unsafe.types.CalendarInterval
/**
* Created by shirukai on 2019-03-23 11:29
* 官方源码window()函数实现
*
*
* The windows are calculated as below:
* maxNumOverlapping <- ceil(windowDuration / slideDuration)
* for (i <- 0 until maxNumOverlapping)
* windowId <- ceil((timestamp - startTime) / slideDuration)
* windowStart <- windowId * slideDuration + (i - maxNumOverlapping) * slideDuration + startTime
* windowEnd <- windowStart + windowDuration
* return windowStart, windowEnd
*/
object WindowSourceFunctionExample {
val TARGET_FORMAT: FastDateFormat = FastDateFormat.getInstance("yyyy-MM-dd HH:mm:ss")
/**
* 计算窗口ID
*
* @param t 事件时间
* @param s 滑动间隔
* @return id
*/
def calculateWindowId(t: Long, s: Long): Int = Math.ceil(t.toDouble / s.toDouble).toInt
/**
* 计算窗口开始时间
*
* @param windowId 窗口ID
* @param s 滑动间隔
* @param maxNumOverlapping 最大重叠窗口个数
* @param numOverlapping 当前重叠数
* @return start
*/
def calculateWindowStart(windowId: Int, s: Long, maxNumOverlapping: Int, numOverlapping: Int): Long =
windowId * s + (numOverlapping - maxNumOverlapping) * s
/**
* 计算窗口结束时间
*
* @param start 开始时间
* @param w 窗口大小
* @return end
*/
def calculateWindowEnd(start: Long, w: Long): Long = start + w
/**
* 计算最多的窗口重叠个数
* 思路:当前事件时间到所在窗口的结束时间 / 滑动间隔 向上取整,即是窗口个数
*
* @param w 窗口间隔
* @param s 滑动间隔
* @return 窗口个数
*/
def calculateMaxNumOverlapping(w: Long, s: Long): Int = Math.ceil(w.toDouble / s.toDouble).toInt
/**
* 模拟计算某个时间的窗口
*
* @param eventTime 事件时间 毫秒级时间戳
* @param windowDuration 窗口间隔 字符串表达式:"10 seconds" or "10 minutes"
* @param slideDuration 滑动间隔 字符串表达式:"10 seconds" or "10 minutes"
* @return List
*/
def window(eventTime: Long, windowDuration: String, slideDuration: String): List[String] = {
// Format window`s interval by CalendarInterval, e.g. "10 seconds" => "10000"
val windowInterval = CalendarInterval.fromString(s"interval $windowDuration").milliseconds()
// Format slide`s interval by CalendarInterval, e.g. "10 seconds" => "10000"
val slideInterval = CalendarInterval.fromString(s"interval $slideDuration").milliseconds()
if (slideInterval > windowInterval) throw
new RuntimeException(s"The slide duration ($slideInterval) must be less than or equal to the windowDuration ($windowInterval).")
val maxNumOverlapping = calculateMaxNumOverlapping(windowInterval, slideInterval)
val windowId = calculateWindowId(eventTime, slideInterval)
List.tabulate(maxNumOverlapping)(x => {
val start = calculateWindowStart(windowId, slideInterval, maxNumOverlapping, x)
val end = calculateWindowEnd(start, windowInterval)
(start, end)
}).filter(x => x._1 < eventTime && x._2 > eventTime)
.map(x =>
s"[${TARGET_FORMAT.format(new Date(x._1))}, ${TARGET_FORMAT.format(new Date(x._2))}]"
)
}
def main(args: Array[String]): Unit = {
window(1553320704000L, "10 minutes", "2 minutes").foreach(println)
}
}
之前没看找到源码前,一开始没想明白Spark是如何实现的窗口划分。后来按照自己的逻辑实现了一版窗口划分,与源码实现有异曲同工之处,但是还是有不少出入,下面贴一下我的思路,我的思路大体有三步:
1 计算事件时间最近的窗口的开始时间
windowStartTime = timestamp - (timestamp % slideDuration)
默认以0为第一个窗口的开始时间,滑动时间为s
第二个窗口的开始时间:0+s
第三个窗口的开始时间:0+2s
第四个窗口的开始时间:0+3s,第n个窗口的开始时间:(n-1)s
设时间t落在第n个窗口,根据上面的公式,t所在的窗口开始时间为:startTime_n = (n-1)s
再设时间t距离所在窗口开始时间为x,那么窗口开始时间也可以表示为:startTime_n = t-x
由上面两个式子可以得出:
t-x = (n-1)s
n-1 = (t-x)/s
n-1为整数,由上面式子可以得出,x = t % s
所以:startTime_n = t - (t % s)
def calculateWindowStartTime(t: Long, s: Long): Long = t - (t % s)
2 精确计算产生的窗口个数
windowNumber =ceil ((windowDuration - (timestamp % slideDuration)) / slideDuration)
当前事件时间到所在窗口的结束时间 / 滑动间隔 向上取整,即是窗口个数
def calculateWindowNumber(t: Long, w: Long, s: Long): Int = ((w - (t % s) + (s - 1)) / s).toInt
3 划分窗口
计算出最后一个窗口的开始时间,根据窗口跨度可以计算出最后一个窗口,根据窗口个数和滑动间隔,向前可以计算出所有的窗口
List.tabulate(windowNumber)(x => {
val start = windowStartTime - x * slideInterval
val end = start + windowInterval
s"[${TARGET_FORMAT.format(new Date(start))}, ${TARGET_FORMAT.format(new Date(end))}]"
}).reverse
完整代码:
package com.hollysys.spark.structured.usecase
import java.util.Date
import org.apache.commons.lang3.time.FastDateFormat
import org.apache.spark.unsafe.types.CalendarInterval
/**
* Created by shirukai on 2019-03-23 11:29
* 模拟window()函数实现
*/
object WindowMockFunctionExample {
val TARGET_FORMAT: FastDateFormat = FastDateFormat.getInstance("yyyy-MM-dd HH:mm:ss")
/**
* 计算最近窗口开始时间
* 思路:
* 默认以0为第一个窗口的开始时间,滑动时间为s
* 第二个窗口的开始时间:0+s
* 第三个窗口的开始时间:0+2s
* 第四个窗口的开始时间:0+3s
* ……
* 第n个窗口的开始时间:(n-1)s
*
* 设时间t落在第n个窗口,根据上面的公式,t所在的窗口开始时间为:startTime_n = (n-1)s
* 再设时间t距离所在窗口开始时间为x,那么窗口开始时间也可以表示为:startTime_n = t-x
* t-x = (n-1)s
* n-1 = (t-x)/s
* n-1为整数,由上面式子可以得出,x = t % s
* 所以:startTime_n = t - (t % s)
*
* @param t 事件时间
* @param s 滑动间隔
* @return 窗口开始时间
*/
def calculateWindowStartTime(t: Long, s: Long): Long = t - (t % s)
/**
* 计算窗口个数
* 思路:当前事件时间到所在窗口的结束时间 / 滑动间隔 向上取整,即是窗口个数
* @param w 窗口间隔
* @param s 滑动间隔
* @return 窗口个数
*/
def calculateWindowNumber(t: Long, w: Long, s: Long): Int = ((w - (t % s) + (s - 1)) / s).toInt
/**
* 模拟计算某个时间的窗口
*
* @param eventTime 事件时间 毫秒级时间戳
* @param windowDuration 窗口间隔 字符串表达式:"10 seconds" or "10 minutes"
* @param slideDuration 滑动间隔 字符串表达式:"10 seconds" or "10 minutes"
* @return List
*/
def window(eventTime: Long, windowDuration: String, slideDuration: String): List[String] = {
// Format window`s interval by CalendarInterval, e.g. "10 seconds" => "10000"
val windowInterval = CalendarInterval.fromString(s"interval $windowDuration").milliseconds()
// Format slide`s interval by CalendarInterval, e.g. "10 seconds" => "10000"
val slideInterval = CalendarInterval.fromString(s"interval $slideDuration").milliseconds()
if (slideInterval > windowInterval) throw
new RuntimeException(s"The slide duration ($slideInterval) must be less than or equal to the windowDuration ($windowInterval).")
val windowStartTime = calculateWindowStartTime(eventTime, slideInterval)
val windowNumber = calculateWindowNumber(eventTime,windowInterval, slideInterval)
List.tabulate(windowNumber)(x => {
val start = windowStartTime - x * slideInterval
val end = start + windowInterval
s"[${TARGET_FORMAT.format(new Date(start))}, ${TARGET_FORMAT.format(new Date(end))}]"
}).reverse
}
def main(args: Array[String]): Unit = {
window(1553320704000L, "10 minutes", "3 minutes").foreach(println)
}
}
对于业务中的延迟数据,我们该如何处理呢?同样是wordCount的例子,假如在12:11分时,接收到了12:04分的数据,那么Spark是如何处理的呢?这里为了方便理解,将上面的wordcount例子输出模式改为Update.
val query = count.writeStream
.outputMode(OutputMode.Update())
.format("console")
.option("truncate", value = false)
.start()
通过上面的图可以看出,Spark会我们保存历史状态,当遇到延迟数据后仍然会根据状态进行计算。但是,如果我们要持续执行这个Query,系统必须限制其积累的内存中间状态的数量。这意味着系统要知道何时可以从内存状态中删除旧聚合,因为应用程序不会再为该聚合接收到较晚的数据。为了实现这一点,在Spark2.1之后,引入了watermark,使得引擎可以自动跟踪数据中的当前事件时间,并尝试相应地清除旧状态。假如我们设置watermark的延迟阈值为10分钟,上一次Trigger中事件最大时间为12:15,那么本次Trigger中,12:05之前的数据将不会被计算。这里我们继续进行代码演示,上面我们修改了之前的wordcount例子的输出模式为update,因为使用complete模式,watermark是不生效的,也就是说complete会一直保存聚合状态。现在我们对程序设置watermark,并进行测试。
.withWatermark("time", "10 minutes")
// Group the data by window and word and compute the count of each group
.groupBy(
window($"time", "10 minutes", "5 minutes"),
$"word"
).count()
如上图所示为输出模式为Update,窗口时间为10分钟,滑动间隔为5分钟,watermark阈值设置为10分钟的计算过程。X轴表示trigger时间即触发计算的时间,Y轴表示事件时间,即数据产生的时间。蓝色虚线表示最大事件时间,红色时间为watermark时间。在红色线和蓝色虚线之间的数据会被计算,之外的数据所在的部分窗口或者全部窗口将会被丢弃。如12:25时,由于上一次trigger计算的watermark为12:06,表示11:55-12:05之前的窗口将会被丢弃,此时来了一条12:04的延迟数据,所以这条数据在11:55-12:05的窗口会被丢弃,但是在12:00-12:10的窗口仍然会参与计算。同理,12:30时,上一次trigger计算的watermark为12:11,表示12:00-12:10分之前的窗口将会被丢弃,此时来了也一条12:04的延迟数据,因为12:04的数据会落到11:55-12:05和12:00-12:10这两个窗口,都在watermark之前,所以这两个窗口都会被丢弃,该数据不参与计算。下面以Trigger顺序进行分析。
12:05
由于没有数据,此次计算为空。
12:10
此时接收到12:06 dog、12:08 owl 两条数据,最大事件时间为12:08,因为我们设置watermark的delayThreshold=10min分钟,所以计算下一个trigger的watermark=12:08-10min = 11:58,因为程序是从12:00开启的,所以这里Spark认为不会有延迟数据,就没有画出watermark为11:58分的线。
12:15
此时接收到12:14 dog和一条延迟的数据12:09 cat,最大事件时间为12:14,上一次计算的wm为11:58所以没有数据需要被丢弃。计算下一个trigger的watermark=12:14-10min = 12:04。
12:20
此时接收到12:16 cat、延迟数据12:08 dog 、延迟数据12:13 owl,上一次计算的wm为12:04,没有窗口被丢弃。此次最大事件时间为12:16,计算wm=12:16-10min=12:06。
12:25
此时接收到12:21 owl、延迟数据12:17 owl、延迟数据12:04 fish,上一次计算wm=12:06,所以11:55-12:05的窗口数据将会被丢弃。12:04的数据有一个窗口是落在了11:55-12:05,所以这个窗口中间状态将会被丢弃,但是12:04在12:00-12:10的窗口将继续参与计算。计算下一个trigger的wm =12:21-10min=12:11。
12:30
此时接收到12:27 owl、延迟数据12:04 lion,上一次计算的wm为12:11,所以在12:00-12:10之前的窗口中间状态将会被丢弃。12:04数据的窗口都在12:00-12:10之前,所以该条数据所有窗口都不会参与计算,计算下一个trigger的wm=12:27-10min=12:17。
……
代码示例:
package com.hollysys.spark.structured.usecase
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.types.TimestampType
/**
* Created by shirukai on 2019-03-22 14:17
* Structured Streaming 窗口函数操作例子
* 基于事件时间的wordcount,设置watermark
* socket:nc -lk 9090
*/
object WindowOptionWithWatermarkExample {
def main(args: Array[String]): Unit = {
val spark = SparkSession
.builder()
.appName(this.getClass.getSimpleName)
.master("local[2]")
.getOrCreate()
// Read stream form socket,The data format is: 1553235690:dog cat|1553235691:cat fish
val lines = spark.readStream
.format("socket")
.option("host", "localhost")
.option("port", 9090)
.load()
import org.apache.spark.sql.functions._
import spark.implicits._
// Transform socket lines to DataFrame of schema { timestamp: Timestamp, word: String }
val count = lines.as[String].flatMap(line => {
val lineSplits = line.split("[|]")
lineSplits.flatMap(item => {
val itemSplits = item.split(":")
val t = itemSplits(0).toLong
itemSplits(1).split(" ").map(word => (t, word))
})
}).toDF("time", "word")
.select($"time".cast(TimestampType), $"word")
.withWatermark("time", "10 minutes")
// Group the data by window and word and compute the count of each group
.groupBy(
window($"time", "10 minutes", "5 minutes"),
$"word"
).count()
val query = count.writeStream
.outputMode(OutputMode.Update())
.format("console")
.option("truncate", value = false)
.start()
query.awaitTermination()
}
}
/*
输入:1553227560:dog|1553227680:owl
-------------------------------------------
Batch: 0
-------------------------------------------
+------------------------------------------+----+-----+
|window |word|count|
+------------------------------------------+----+-----+
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|dog |1 |
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|owl |1 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|owl |1 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|dog |1 |
+------------------------------------------+----+-----+
输入:1553227740:cat|1553228040:dog
-------------------------------------------
Batch: 1
-------------------------------------------
+------------------------------------------+----+-----+
|window |word|count|
+------------------------------------------+----+-----+
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|dog |2 |
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|cat |1 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|cat |1 |
|[2019-03-22 12:10:00, 2019-03-22 12:20:00]|dog |1 |
+------------------------------------------+----+-----+
输入:1553228160:cat|1553227680:dog|1553227980:owl
-------------------------------------------
Batch: 2
-------------------------------------------
+------------------------------------------+----+-----+
|window |word|count|
+------------------------------------------+----+-----+
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|dog |3 |
|[2019-03-22 12:05:00, 2019-03-22 12:15:00]|owl |2 |
|[2019-03-22 12:15:00, 2019-03-22 12:25:00]|cat |1 |
|[2019-03-22 12:10:00, 2019-03-22 12:20:00]|owl |1 |
|[2019-03-22 12:10:00, 2019-03-22 12:20:00]|cat |1 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|dog |2 |
+------------------------------------------+----+-----+
输入:1553228460:owl|1553227440:fish|1553228220:owl
-------------------------------------------
Batch: 3
-------------------------------------------
+------------------------------------------+------+-----+
|window |word |count|
+------------------------------------------+------+-----+
|[2019-03-22 12:20:00, 2019-03-22 12:30:00]|owl |1 |
|[2019-03-22 12:10:00, 2019-03-22 12:20:00]|owl |2 |
|[2019-03-22 12:00:00, 2019-03-22 12:10:00]|fish |1 |
|[2019-03-22 12:15:00, 2019-03-22 12:25:00]|owl |2 |
+------------------------------------------+------+-----+
输入:1553227440:lion|1553228820:owl
-------------------------------------------
Batch: 4
-------------------------------------------
+------------------------------------------+----+-----+
|window |word|count|
+------------------------------------------+----+-----+
|[2019-03-22 12:25:00, 2019-03-22 12:35:00]|owl |1 |
|[2019-03-22 12:20:00, 2019-03-22 12:30:00]|owl |2 |
+------------------------------------------+----+-----+
*/
上面讲解了在Update模式下,设置watermark之后,我们的聚合操作对延迟数据的处理。下面,我们来看一下在Append模式下,设置watermark之后,聚合操作是如何作用的?
首先,将上面的代码稍作修改,将输出模式改为Append
val query = count.writeStream
.outputMode(OutputMode.Append())
.format("console")
.option("truncate", value = false)
.start()
如上图所示为Append模式下,设置watermark的聚合操作。与update模式不同,append模式不会立即输出结果集,而是等到设置的watermark下,再没有数据更新的情况下再输出到结果集。12:00到12:25 这段时间,12:00-12:10这个窗口的数据一直可能被更新,所以没有结果集输出。12:30时的trigger,由于上一个trigger计算的wm=12:11,所以12:00-12:10窗口的数据将会拒之门外,12:04 lion不会参与计算,因此12:00-12:10的窗口,不会被更新,最后12:00-12:10的中间状态将会被输出到结果集,同时中间状态将会被丢弃。
Watermark清理聚合状态的条件需要重点注意,为了清理聚合状态(从Spark2.1.1开始,将来会更改),必须满足以下条件:
A) 输出模式必须是Append或者Update,Complete模式要求保留所有聚合数据,因此不能使用watermark来中断状态。
B) 聚合必须具有时间时间列活事件时间列上的窗口
C) 必须在聚合中使用的时间戳列相同的列上调用withWatermark。例如:df.withWatermark(“time”, “1 min”).groupBy(“time2”).count() 是在Append模式下是无效的,因为watermark定义的列和聚合的列不一致。
D) 必须在聚合之前调用withWatermark 才能使用watermark 细节。例如,在附加输出模式下,df.groupBy(“time”).count().withWatermark(“time”,”1 min”)无效。
在使用StructuredStreaming的时候,我们可能会遇到在不重启Spark应用的情况下动态的更新参数,如:动态更新某个过滤条件、动态更新分区数量、动态更新join的静态数据等。在工作中,遇到了一个应用场景,是实时数据与静态DataFrame去Join,然后做一些处理,但是这个静态DataFrame偶尔会发生变化,要求在不重启Spark应用的前提下去动态更新。目前总结了两种解决方案,详细可以阅读我的《StructuredStreaming动态更新参数》这篇文章。
为保证多个Batch之间能够进行有状态的计算,SparkStreaming在1.6版本之前就引入了updateStateByKey的状态管理机制,在1.6之后又引入了mapWithState的状态管理机制。StructuredStreaming原本就是有状态的计算,这里我主要记录一下在StructuredStreaming里可以自定义状态操作的算子。详细内容可以阅读我的《StructuredStreaming有状态聚合》这篇文章。