spark-shell读取hdfs数据

打开spark-shell,输入下面代码(注意“yourPATHinHDFS”这里换成自己文件的路径)

val textFile = sc.textFile("hdfs://localhost:9000/yourPATHinHDFS/test.txt")

因为我的是json数据,就可以通过下面这条命令显示

textFile.collect

spark-shell读取hdfs数据_第1张图片

实现计数,一共有多少行

textFile.count()

打印第一行

textFile.first()

你可能感兴趣的:(分布式框架,spark)