SparkSQL读取CSV文件

一、核心代码

   val spark = SparkSession
                    .builder()
                    .master("local[2]")
                    .appName("app")
                    .getOrCreate()
    //读取文件
    val srcDF = spark
                    .read
                    .format("csv")
                    .option("header","true")
                    .option("multiLine", true)
                    .load("file:///C:\\1.csv")

    spark.stop()

二、关键参数

       format指定读取csv文件。

       header是否指定头部行作为schema。

       multiLine在单元格中可能因为字数多有换行,但是不指定这个参数,处理数据时可能会报错。指定这个参数为true,可以将换行的单元格合并为1行。

三、写出csv文件

      

write.csv("/data/csv")

   如果字段内有换行的话,最好对字段进行处理。

translate(jsonData,'\r\n','')
//将字段中换行去掉

 

你可能感兴趣的:(大数据,SparkSQL)