在 Windows
上安装使用 modin
时有一些坎坷,特此记录。
Modin
是加州大学伯克利分校 RISELab
的一个早期项目,旨在促进分布式计算在数据科学领域的应用。它是一个多进程的数据帧(Dataframe
)库,具有与 Pandas
相同的应用程序接口(API
),使用户可以加速他们的 Pandas
工作流。
在一台 8
核的机器上,用户只需要修改一行代码,Modin
就能将 Pandas
查询任务加速 4
倍。
该系统是为希望程序运行得更快、伸缩性更好,而无需进行重大代码更改的 Pandas
用户设计的。这项工作的最终目标是能够在云环境中使用 Pandas
。
① pip install modin
② pip install modin[dask]
③ pip install py
④ pip install pyarrow
在 Windows
环境下,Ray
是安装 Modin
所需的依赖之一。Windows
本身并不支持 Ray
,所以为了安装它,用户需要使用 WSL
(适用 Linux
的 Windows
子系统)。在这里我们安装使用的是 dask
。
然后即可使用modin模块的pandas为所欲为了:
import modin.pandas as pd
但是目前只是发现read_csv的效率提高了点,其它的API的效率好像没有提升反而降低了:
import pandas as pd2
先测试读取 660MB
的 csv
文件:
可以发现 modin
对 pandas
的提升是显著的。
再测试读取 1.2GB
的 feather
文件:
可以发现 modin
的效率不升反降。
接下来我们使用apply函数做一下数据的运算,然后对比一下:
由此可见,modin
的提升也是显著的。
至于其它的 pandas API
是否有没有提升本人没有全部测试,有需要的同学可以自己下去测试一下,或者去官方文档查看对应的使用说明:
http://modin.readthedocs.io