Pyspark 统计DF对象某字段的最大值、最小值及读取csv文件时忽略字段内前后空格

实现 

from pyspark.sql.functions import *

#df_tmp为DF对象,包含列“captureTime”
df_tmp.agg(min(col("captureTime")),max(col("captureTime"))).show()

结果

Pyspark 统计DF对象某字段的最大值、最小值及读取csv文件时忽略字段内前后空格_第1张图片


 读取忽略空格

#ignoreLeadingWhiteSpace=True ->忽略字段内前面空格
#ignoreTrailingWhiteSpace=True ->忽略字段内后面空格
df=sqlContext.read.csv(path_yitiji,header=True,ignoreLeadingWhiteSpace=True,ignoreTrailingWhiteSpace=True,encoding="utf-8")

 

你可能感兴趣的:(大数据,Spark)