spark2.x读取csv文件乱码问题

由于spark读取csv时,默认编码格式是utf-8,如果csv文件的格式是其他,需要加上编码格式的设定

例:如果csv格式为GBK

import org.apache.spark.sql.SparkSession
val spark = SparkSession.builder().appName(“demo”).getOrCreate();

如果用默认格式utf-8读取:

var data = spark.read.option("header", false).option("delimiter", ",").csv("/tmp/ggbkk.csv")

data.head(5)

在这里插入图片描述
设置为gbk编码读取

var rdata = spark.read.option("header", false).option("encoding","gbk").option("delimiter", ",").csv("/tmp/ggbkk.csv")

rdata.head(3)

展示为:
在这里插入图片描述
一切正常!!

参考:https://www.cnblogs.com/qi-yuan-008/p/11771473.html

你可能感兴趣的:(Scala,Spark,DateFrame)