在Windows上使用modin

前言

Windows 上安装使用 modin 时有一些坎坷,特此记录。

Modin 是加州大学伯克利分校 RISELab 的一个早期项目,旨在促进分布式计算在数据科学领域的应用。它是一个多进程的数据帧(Dataframe)库,具有与 Pandas 相同的应用程序接口(API),使用户可以加速他们的 Pandas 工作流。

在一台 8 核的机器上,用户只需要修改一行代码,Modin 就能将 Pandas 查询任务加速 4 倍。

该系统是为希望程序运行得更快、伸缩性更好,而无需进行重大代码更改的 Pandas 用户设计的。这项工作的最终目标是能够在云环境中使用 Pandas

modin在Windows上的安装步骤:

① pip install modin

② pip install modin[dask]

③ pip install py

④ pip install pyarrow

Windows 环境下,Ray 是安装 Modin 所需的依赖之一。Windows 本身并不支持 Ray,所以为了安装它,用户需要使用 WSL(适用 LinuxWindows 子系统)。在这里我们安装使用的是 dask

然后即可使用modin模块的pandas为所欲为了:

import modin.pandas as pd

但是目前只是发现read_csv的效率提高了点,其它的API的效率好像没有提升反而降低了:

import pandas as pd2  

先测试读取 660MBcsv 文件:
在Windows上使用modin_第1张图片
可以发现 modinpandas 的提升是显著的。

再测试读取 1.2GBfeather 文件:
在Windows上使用modin_第2张图片
可以发现 modin 的效率不升反降。

接下来我们使用apply函数做一下数据的运算,然后对比一下:
在Windows上使用modin_第3张图片
由此可见,modin 的提升也是显著的。

至于其它的 pandas API 是否有没有提升本人没有全部测试,有需要的同学可以自己下去测试一下,或者去官方文档查看对应的使用说明:

http://modin.readthedocs.io

你可能感兴趣的:(python,python库)