1.read_csv 的engine设置为c:
pd.read_csv(filename, engine='c')
使用的分析引擎。可以选择C或者是python。C引擎快但是Python引擎功能更加完备。
2.read_csv 的usecols 指定:
在数据分析过程中有些表字段对我们来说是没有用的,不必要加载,这样可以提升pandas文件速度。
3.处理加载文件过程中日期转换问题:
正常可以用pandas中to_datetime方法转换,直接使用该方法转换会很耗时。用之前需要指定一下时间的格式。这样速度可以成倍提升。
4.还可以使用modin库:
Pandas运行在一个内核上,modin可以运行在多个内核上,从本质上讲,Modin 所做的只是增加了 CPU 所有内核的利用率,从而提供了更好的性能。这个库其实也很鸡肋,当你的数据量大到一定的量时这个库才会展现比较好的效果,不然还没有pandas快。
5.使用多线程:
这里不建议使用多线程,因为read_csv加载文件可以充分利用单核cpu。还有加载文件的过程中不光是io操作,还有很多cpu密集操作。
6.使用多进程:
在以上效果达不到要求的时候就可以使用多进程了。