Dataframe加载数据的4种方法

DataFrame官网

http://spark.apache.org/docs/latest/sql-programming-guide.html#loading-data-programmatically

点击打开链接


第一种:加载json数据

原始数据

 {"name":"Michael"}
 {"name":"Andy", "age":30}
 {"name":"Justin", "age":19}

加载数据

val jsondf=sqlContext.read.json("hdfs://hadoop14:9000/yuhui/json/datajson.txt")

Dataframe加载数据的4种方法_第1张图片



第二种:加载Mysql数据

原始数据

Dataframe加载数据的4种方法_第2张图片


启动spark-shell

[root@hadoop14 ~]# SPARK_CLASSPATH=/usr/app/hive/lib/mysql-connector-java-5.1.36-bin.jar spark-shell

(注意:mysql-connector-java-5.1.36-bin.jar 这个一定要加

加载数据
val jdbcDF = sqlContext.read.format("jdbc").options(Map("url" -> "jdbc:mysql://localhost:3306/sina_weibo?user=root&password=123456","dbtable" -> "sina_weibo")).load()
Dataframe加载数据的4种方法_第3张图片

第三种:加载parquet数据

scala>  val parquetDF = sqlContext.read.parquet("hdfs://hadoop14:9000/yuhui/parquet/part-r-00004.gz.parquet")
Dataframe加载数据的4种方法_第4张图片


第四种:加载本地数据

[root@hadoop14 ~]# cat /root/people.txt 
{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}
{"name":"yuhui"}
{"name":"yuhui", "age":30}
{"name":"yuhui", "age":19}
Dataframe加载数据的4种方法_第5张图片 Dataframe加载数据的4种方法_第6张图片

你可能感兴趣的:(【大数据】Spark)