org.apache.spark.rdd.MapPartitionsRDD cannot be cast to org.apache.spark.streaming.kafka010.HasOffse

最近有很多同学来问我这个问题,说我的代码啥也没改呀,昨天晚上还运行的好好的,第二天早上再运行就报错了,org.apache.spark.rdd.MapPartitionsRDD cannot be cast to org.apache.spark.streaming.kafka010.HasOffsetRanges,怎么都运行不了,这个错相信大家都非常的熟悉,就是一个类型转换异常,从报错上看呢,说是MapPartitionsRD不能转换成HasOffsetRanges,这个错在什么情况下才会出现呢?,先看下面的代码(只粘贴了一部分)

 val word = kafkaStreams.map(_.value()).flatMap(_.split(" ")).map((_,1))
    word.foreachRDD(rdd => {
      if(!rdd.isEmpty()) {
        val offsetRanges = rdd.asInstanceOf[HasOffsetRanges].offsetRanges

 其实这个错发生在获取偏移量的时候,在spark中获取偏移量只用rdd.asInstanceOf[HasOffsetRanges].offsetRanges这一句话就可以了,简单说一下就是先把rdd强制类型转换成HasOffsetRanges,然后调用HasOffsetRanges里面的offsetRanges这个方法返回一个Array[OffsetRange]数组.下面带大家分析一下源码,就理解了为什么这个地方会报错.

首先这个地方的rdd是一个KafkaRDD,然后我们来看一下KafkaRDD的源码如下:

private[spark] class KafkaRDD[K, V](
    sc: SparkContext,
    val kafkaParams: ju.Map[String, Object],
    val offsetRanges

你可能感兴趣的:(Spark)