在工业互联网场景中,工厂的现场积累了很多从设备上采集到的历史数据,可以用于数据模型的训练,同时通过现场的OPC Server 和Modbus Master 可以连接设备上的传感器进行实时数据的采集,将采集到的实时流数据应用到训练的模型,用于现场的设备故障预测。本文主要讨论基于Spark Structured Streaming 进行模型应用的实际应用。
基于工厂的实际情况,历史数据基于Spark的ML库进行模型的训练和模型的存储,采集的实时数据会汇总到Kafka中,同时使用Spark Structured Streaming 加载存储的数据模型进行模型应用,最终的预测数据重新写回到Kafka中,通过websocket协议推送到前端进行可视化显示。
选择使用Spark Streaming,主要三个原因:
1、由于Spark的2.4版本已经不再进行Spark Streaming 的更新,2.4版本对于流式处理方面特性都是基于Structured Streaming 的更新
2、Structured Streaming 提供了基于Dataset/Dataframe的统一API,使用更友好、与ML库的结合更便捷。
3、Structured Streaming不在是微批次的进行数据的处理,可以进行毫秒级的实时数据处理。
1、Kafka 2.12
2、Spark 2.4
3、Scala 2.11
4、CentOS 7.4 64位
创建SparkSession,建立与Spark集群的建立,对于生产环节推荐使用集群模式的Spark集群,最少也要是 Standalone的方式。
SparkSessionspark = SparkSession.builder().master("spark://master:7077").appName("ModelApplicationTask").getOrCreate();
建立source完成与kafka的连接、基于Topic进行数据的消费,获取到的DataSet的Scheml格式如下:
Dataset
df = spark.readStream().format("kafka").option("kafka.bootstrap.servers",bootstrapServers).option("subscribe",topic).option("startingOffsets","earliest").load();
整理Dataset中的数据,生成模型应用需要的特征列
Dataset data = df.withColumn("splitcol",split(col("value"),",")).select(col("splitcol").getItem(0).as("dpname"),col("splitcol").getItem(1).as("time"),col("splitcol").getItem(2).as("dptype"),col("splitcol").getItem(3).as("dpvalue")).drop("splitcol");
根据数据点名称,过滤数据集中的数据,生成用于预测的数据集
Dataset filterData = data.where("dpname = '"+dataPointName+"'");
Dataset predict_data = filterData.selectExpr("CAST(time AS STRING)","CAST(dpname AS STRING)","CAST(dptype AS STRING)","CAST(dpvalue AS DOUBLE)");
VectorAssembler assembler_for_predict =newVectorAssembler().setInputCols(newString[]{"dpvalue"}).setOutputCol("features");
Dataset
vecDF_for_predict = assembler_for_predict.transform(predict_data);
加载hdfs或本地磁盘加载训练后的模型,如果没有hdfs环境,可以通过Spark集群广播的方式将本地加载的模型,广播到Spark集群中。
LinearRegressionModellrModel = LinearRegressionModel.load(modelPath);
设置模型特征列,应用模型进行预测
Datasetprediction = lrModel.transform(vecDF_for_predict);
将预测结果,重新组合成逗号分隔的字符串,写回到Kafka中
String separator =",";
StreamingQuery ds = prediction.select(concat_ws(separator, col("dpname"), col("time"), col("dptype"), col("prediction")).cast("STRING").as("value")).writeStream().option("checkpointLocation", checkpointLocation).format("kafka").option("kafka.bootstrap.servers",bootstrapServers).option("topic","test").start();
ds.awaitTermination();
打包成jar包,通过submit提交到spark集群
sudobin/spark-submit --master spark://master:7077 --name test --total-executor-cores1--executor-memory600M--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0--class ModelApplicationTask ./jars/TestSpark.jar
通过消费kakfa中数据验证,模型是否应用成功。
./kafka-console-consumer.sh --bootstrap-server172.16.22.210:9092--topic test
问题1:java.lang.AssertionError: assertion failed: Concurrent update to thelog. Multiple streamingjobsdetectedfor1936
原因:主要是checkpointLocation目录一样了,导致更新log是出错啦
解决办法:一个提交的app占用一个独立的 checkpointLocation目录
问题2:Please deploy the applicationasper the deployment sectionof"Structured Streaming + Kafka Integration Guide".
原因:官方提供的Spark 2.4版本发布包的jars目录中缺少kafka的包
解决办法:在/spark-submit 是加入以上参数--packages org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0
问题3:WARN TaskSchedulerImpl: Initial job has not accepted any resources;checkyour cluster UItoensure that workersareregisteredandhave sufficient resources
原因:Spark Structured Streaming采用预分配资源的方式,不支持动态资源调度,长期占用系统资源,无法最大化利用系统硬件资源
解决方法:通过total-executor-cores 和 executor-memory 参数,限定每个任务占用的core和内存大小
Spark Structured Streaming结合Kafka数据源,应用ML机器学习库可以快捷的实现数据模型的流式应用,但是采用的预分配硬件资源的方式,将长期占用系统资源,无法最大化利用Spark集群的资源,需要结合具体的情况进行权衡后选择。