pyspark操作 rdd dataframe,pyspark.sql.functions详解 行列变换

官网文档可以参考:https://spark.apache.org/docs/latest/api/python/index.html

dataframe读写

生成以逗号分隔的数据

stringCSVRDD = spark.sparkContext.parallelize([
    (123, "Katie", 19, "brown"),
    (234, "Michael", 22, "green"),
    (345, "Simone", 23, "blue")
])

指定模式, StructField(name,dataType,nullable)

其中:

name: 该字段的名字,

dataType:该字段的数据类型,

nullable: 指示该字段的值是否为空

from pyspark.sql.types import StructType, StructField, LongType, StringType  # 导入类型

schema = StructType([
    StructField("id", LongType(), True),
    StructField("name", StringType(), True),
    StructField("age", LongType(), True),
    StructField("eyeColor", StringType(), True)
])

对RDD应用该模式并且创建DataFrame

swimmers = spar

你可能感兴趣的:(大数据,系列课程,快速学习实战应用)