Python-pyspark中常见问题总结

在实际工作中经常遇到各种坑,特别使用pyspark进行相关挖掘探索,有许多编程上的问题,在这里逐个记录一下吧,便于以后查找……

  • pyspark中将dataframe注册为内存数据表时,命名中不能带点(.),否则出现无法找到数据表
    如下所示,registerDataFrameAsTable将df注册为内存数据表时,由于惯性思维,习惯性指定到hive仓库的某个库某个表,结果出现无法找到对应的表
df = pd.DataFrame()
......
df = sqlContext.createDataFrame(df)
Error:sqlContext.registerDataFrameAsTable(df,"tmp.tmp_table")
Correct:sqlContext.registerDataFrameAsTable(df,"tmp_table")

df = sqlContext.sql("select * from tmp_table").cache()

持续更新……

你可能感兴趣的:(编程语言)