from pyspark.sql.functions import monotonically_increasing_id
tempdf_index=tempdf.withColumn(“id”,monotonically_increasing_id())
tempdf_index.limit(10).show()
注意:
①monotonically_increasing_id()是方法,不是属性
②利用DataFrame.withColumn(colName,colExpress)
colName如果是新列名则是新增,是旧的则覆盖;
colExpress可以是个计算表达式,但是里面要么包含monotonically_increasing_id()函数,要么就一定要包含一个已有的列名值计算,如:
tempdf.withColumn(“newCol”,tempdf.age+10)
若是没有则会爆AssertionError: col should be Column的错误信息
例如tempdf.withColumn(“newCol”,“hello”)就报错