SparkStreaming简介 - 与第一个Spark实时计算程序,使用netcat来写数据 - wordcount
官方文档SparkStreaming火花流是sparkAPI的扩展,它支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从多种来源(如Kafka、Flume、Kinesis或tcp套接字)中摄取,并且可以使用用高级函数表示的复杂算法进行处理,例如map,reduce,join和window…最后,可以将处理过的数据推送到文件系统、数据库和活动仪表板。事实上,你可以申请星火机器学习和图形处理数据流