Spark SQL 基础学习 【一】命令行操作DataFrame

1.上传文件到hdfs

vi student.txt 

内容:
1,dayu,23
2,wangbaoqiang,28
3,xuzheng,30

将文件上传到hdfs
hadoop fs -put student.txt /

2.读取数据并分割

在spark shell执行下面命令,读取数据,将每一行的数据使用列分隔符分割

val rdd=sc.textFile("hdfs://hadoop01:9000/student.txt").map(_.split(","))


3.定义case class

case class student (id:Long ,name: String,age: Int)



4.将RDD和case class关联

val studentRDD=rdd.map(x=>student(x(0).toLong,x(1),x(2).toInt))



5.将RDD转换成DataFrame

 val df=studentRDD.toDF


6.将DataFrame注册成表

如果想使用SQL风格的语法,需要将DataFrame注册成表

df.registerTempTable("t_student")

7.测试使用

sqlContext.sql("").show模板

sqlContext.sql("select * from t_student").show
Spark SQL 基础学习 【一】命令行操作DataFrame_第1张图片


你可能感兴趣的:(Spark)