Spark DataFrame 的创建和保存

前言

DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。

DataFrame 创建

法一 、从不同类型的文件中加载数据创建DataFrame,spark.read 操作

  • spark.read.json(“testJson.json”) 或者spark.read.format(“json”).load(“testJson.json”)
    json文件
{"name":"min","age":20,}
{"name":"ho", "age":19}
{"name":"zi", "age":21}

代码:

val dfJson = spark.read.format("json").load("/Users/testJson.json")
dfJson.show()
  • spark.read.csv(“testCsv.csv”) 或者spark.read.format(“json”).load(“testCsv.csv”)
    csv文件
name,age,phone
min,20
ho,19
zi,21

代码

val dfCsv = spark.read.format("csv").option("header", true).load("/Users/testCsv.csv")
dfCsv.show()
  • spark.read.parquet(“testParquet.parquet”) 或者spark.read.format(“parquet”).load(“testParquetparquet”)
    parquet文件、代码
val dfCsv = spark.read.format("parquet").option("header", true).load("/Users/testParquet.parquet")
dfCsv.show()

法二、 通过Seq + oDF创建DataFrame

val spark = SparkSession
  .builder()
  .appName("test")
  .master("local")
  .getOrCreate()

val df = spark.createDataFrame(Seq(
  ("min", 20),
  ("ho", 19),
  ("zi", 21)
)) toDF("name", "age")
df.show()

DataFrame 保存

从不同类型的文件中加载数据保存DataFrame,spark.write 操作

  • df.write.json(“testJson.json”) 或者df.write.format(“json”).save(“testJson.json”)
    json文件
  • df.write.csv(“testCsv.csv”) 或者df.write.format(“csv”).save(“testCsv.csv”)
    csv文件
  • df.write.parquet(“testParquet.parquet”) 或者df.write.format(“parquet”).save(“testParquet.parquet”)
    parquet文件
  • df.write.saveAsTable(“table_name”);保存库表数据信息

dataframe写入的模式一共有4种:

df.write.mode("overwrite").csv("adf.csv")
  • overwrite 覆盖已经存在的文件
  • append 向存在的文件追加
  • ignore 如果文件已存在,则忽略保存操作
  • error / default 如果文件存在,则报错

Spark DataFrame 的创建和保存_第1张图片

你可能感兴趣的:(SparK学习和总结,spark,scala,big,data)