pyspark 批量修改Dateframe列名

toDF方法

df4 = df3.toDF(‘tg_id’,‘org_no’,‘data_date_day’)
df3为原有数据表,df4为改过列名的df3。

mapping 方法

from pyspark.sql.functions import col

mapping = dict(zip(['col_1', 'tg_id'], ['col_2', 'org_no'], ['col_3', 'data_date_day']))
df3.select([col(c).alias(mapping.get(c, c)) for c in df3.columns])
#col_1,col_2,col_3为原有数据表列名

你可能感兴趣的:(pyspark)