spark textFile基本语法

val sparkConf = new SparkConf().setAppName("test")

val  sc = new SparkContext(sparkConf)

val cacheRDD = sc.textFile(path,2)

textFile(path,minPartitions):path是String类型的一个URI,可以是HDFS和本地文件URI;minPartitions是指定数据的分区,如果不指定分区,当你的核数大于2的时候,不指定分区数默认就是2;返回的是一个字符串类型的RDD,也就是RDD的内部形式Iterator[(String)]

当数据大于128M的时候,Spark为每一块(block)创建一个分片(Hadoop2.x之后128m一个块)

path可以是单个文件,可以是多个文件

也可以使用通配符的形式代替文件,比如val path = "/usr/local/spark/data/*/*"

采用通配符,读取多个文件名类似的文件

for(i<- 1 to 2){

 val rdd1 = sc.textFile(s"/usr/local/spark/data/test$i*",2)

}

//读取相同后缀的文件

val path = "/usr/local/spark/data/*/*.txt"

 

你可能感兴趣的:(Spark,Scala)