Explode in PySpark

                                       Explode in PySpark

有时要将dataframe中的一列变成多列:

df = sqlContext.createDataFrame(
    [('cat \n\n elephant rat \n rat cat', )], ['word']
)

df.select(explode(split(col("word"), "\s+")).alias("word")).show()

结果: 

## +--------+
## |    word|
## +--------+
## |     cat|
## |elephant|
## |     rat|
## |     rat|
## |     cat|
## +--------+

 

你可能感兴趣的:(Python,Spark)