Spark RDD基本创建所需要的数据源(集合、本地文件、HDFS、Hbase和HiveSQL等)
1利用集合创建RDD,就是为了方便测试。
调用SparkContext的parallelize()方法进行创建并行化的数据集合。
val arrays =Array(1,3,4,5,6,7,11,29)
val arrayRDD = sc.parallelize(arrays, num)
val totalySum = arrayRDD.reduce(_ + _)
1、调用parallelize()时,我们可以指定要将集合切分成多少个partition。
Spark会为每一个partition运行一个task线程进行处理。
2、Spark默认情况下,建议每个CPU创建2~4个partition。
默认会根据此值进行partition的创建。但是也可以在调用parallelize()方法时,
传入第二个参数,来设置RDD的partition数量。比如parallelize(arr, 10)
2、使用本地文件创建RDD时,主要进行大数据量的操作,在提交给Spark集群之前,做一些验证。
//第一步:创建sparkConf
val sparkConf = new SparkConf()
.setAppName("aa")
.setMaster("local[2]")
//第二部:创建SparkContext
val sc = new SparkContext(sparkConf)
//第三步:加载数据
val linesRDD:RDD[String] = sc.textFile("E:/data/spark/core/hello.txt")
/*//第四部:执行各种transformation
val wordsRDD:RDD[String] = linesRDD.flatMap(line => line.split(" "))
val pairsRDD:RDD[(String, Int)] = wordsRDD.map(word => new Tuple2[String, Int](word, 1))
val retRDD:RDD[(String, Int)] = pairsRDD.reduceByKey((v1, v2) => merge(v1, v2))
//第五步:执行action(多次)
retRDD.foreach(t => println(t))*/
linesRDD.flatMap(_.split(" "))
.map((_, 1))
.reduceByKey(_+_)
.foreach(println)
//第六步:关闭资源
sc.stop()
3.1:hdfs
def main(args: Array[String]): Unit = {
//第一步:创建sparkConf
val sparkConf = new SparkConf()
.setAppName("bb")
// .setMaster("spark://km1:7077")//spark子群自身 standalone
//第二部:创建SparkContext
val sc = new SparkContext(sparkConf)
//第三步:加载数据
val linesRDD:RDD[String] = sc.textFile("hdfs://ns1/input/spark/data.log")
/*//第四部:执行各种transformation
val wordsRDD:RDD[String] = linesRDD.flatMap(line => line.split(" "))
val pairsRDD:RDD[(String, Int)] = wordsRDD.map(word => new Tuple2[String, Int](word, 1))
val retRDD:RDD[(String, Int)] = pairsRDD.reduceByKey((v1, v2) => merge(v1, v2))
//第五步:执行action(多次)
retRDD.foreach(t => println(t))*/
linesRDD.flatMap(_.split(" "))
.map((_, 1))
.reduceByKey(_+_)
// .collect()//把spark worker节点上面的数据拉回到dirver节点上
// .foreach(println)//这样去执行的话,可能看不到任何的输出
.saveAsNewAPIHadoopFile("hdfs://ns1/output/spark",
classOf[Text], classOf[IntWritable], classOf[TextOutputFormat[Text, IntWritable]])
//第六步:关闭资源
sc.stop()
}
def merge(v1:Int, v2:Int) = v1 + v2