pandas处理数据最多是M级?还是G?还是亿?极限数量是多少呢?

一般来说,用pandas处理小于100兆的数据,性能不是问题。当用pandas来处理100兆至几个G的数据时,将会比较耗时,同时会导致程序因内存不足而运行失败。

      我今天用pyspark读取2~3G日志文件时,居然报OOM!想必就是数据量超过了pd处理极限导致的

【报错代码】HalfStruct表存储在HDFS上,每天2~3G,一个月70~80G,这点量就OOM真出我意料

spark.sql("select * from HalfStruct").toPandas()

 

但是又看到另一篇说pandas处理亿级数据,

见http://www.justinablog.com/archives/1357

转载于:https://my.oschina.net/u/3575262/blog/1578116

你可能感兴趣的:(pandas处理数据最多是M级?还是G?还是亿?极限数量是多少呢?)