spark创建RDD方式

Spark RDD基本创建所需要的数据源(集合、本地文件、HDFSHbaseHiveSQL

   1利用集合创建RDD,就是为了方便测试。

调用SparkContextparallelize()方法进行创建并行化的数据集合。

val arrays =Array(1,3,4,5,6,7,11,29)

val arrayRDD = sc.parallelize(arrays, num)

val totalySum = arrayRDD.reduce(_ + _)

1、调用parallelize()时,我们可以指定要将集合切分成多少个partition

Spark会为每一个partition运行一个task线程进行处理。

2Spark默认情况下,建议每个CPU创建2~4partition

默认会根据此值进行partition的创建。但是也可以在调用parallelize()方法时,

传入第二个参数,来设置RDDpartition数量。比如parallelize(arr, 10)


   2、使用本地文件创建RDD时,主要进行大数据量的操作,在提交给Spark集群之前,做一些验证。

//第一步:创建sparkConf

    val sparkConf = new SparkConf()
            .setAppName("aa")
            .setMaster("local[2]")
    //第二部:创建SparkContext
    val sc = new SparkContext(sparkConf)
    //第三步:加载数据
    val linesRDD:RDD[String] = sc.textFile("E:/data/spark/core/hello.txt")
    /*//第四部:执行各种transformation
    val wordsRDD:RDD[String] = linesRDD.flatMap(line => line.split(" "))
    val pairsRDD:RDD[(String, Int)] = wordsRDD.map(word => new Tuple2[String, Int](word, 1))
    val retRDD:RDD[(String, Int)] = pairsRDD.reduceByKey((v1, v2) => merge(v1, v2))
    //第五步:执行action(多次)
    retRDD.foreach(t => println(t))*/


    linesRDD.flatMap(_.split(" "))
            .map((_, 1))
            .reduceByKey(_+_)
            .foreach(println)
    //第六步:关闭资源
    sc.stop()


   3、生产环境中使用HDFSHBaseHvieSQLZMQKafka等各种原始数据。

3.1:hdfs

  def main(args: Array[String]): Unit = {
    //第一步:创建sparkConf
    val sparkConf = new SparkConf()
            .setAppName("bb")
    //      .setMaster("spark://km1:7077")//spark子群自身 standalone
    //第二部:创建SparkContext
    val sc = new SparkContext(sparkConf)
    //第三步:加载数据
    val linesRDD:RDD[String] = sc.textFile("hdfs://ns1/input/spark/data.log")
    /*//第四部:执行各种transformation
    val wordsRDD:RDD[String] = linesRDD.flatMap(line => line.split(" "))
    val pairsRDD:RDD[(String, Int)] = wordsRDD.map(word => new Tuple2[String, Int](word, 1))
    val retRDD:RDD[(String, Int)] = pairsRDD.reduceByKey((v1, v2) => merge(v1, v2))
    //第五步:执行action(多次)
    retRDD.foreach(t => println(t))*/


    linesRDD.flatMap(_.split(" "))
            .map((_, 1))
            .reduceByKey(_+_)
//            .collect()//把spark worker节点上面的数据拉回到dirver节点上
//            .foreach(println)//这样去执行的话,可能看不到任何的输出
            .saveAsNewAPIHadoopFile("hdfs://ns1/output/spark",
      classOf[Text], classOf[IntWritable], classOf[TextOutputFormat[Text, IntWritable]])
    //第六步:关闭资源
    sc.stop()
  }
  def merge(v1:Int, v2:Int) = v1 + v2






你可能感兴趣的:(spark)