[Spark streaming 基础]--使用低阶API消费Kafka数据(手动更新offset)
版本:spark(1.6.0)+kafka(0.9.0)+zookeeper(3.4.6)由于目前spark每天需要从kafka中消费数亿条左右的消息,集群压力比较大,会导致job不同程度的异常退出。原来使用spark1.6.0版本中的createStream函数,但是在数据处理速度跟不上数据消费速度且job异常退出的情况下,可能造成大量的数据丢失。还好,spark后续版本对这一情况有了很大的改进