经验拾忆(纯手工)=> Modin(Ray)加速Pandas大熊猫

前言

用过Pandas的都知道,数据大了后,处理很慢。so, modin在Pandas基础上封装一层透明壳。
并且依赖ray能实现多进程pandas操作。

特色:一行代码实现Pandas加速。。。

安装依赖环境

原生windows(不支持)

WSL(支持)

WSL就是 (Windows Sub Linux) windows内嵌的linux子系统,自行百度
sudo pip3 install psutil
sudo pip3 install setproctitle

pip install modin[ray

WSL 不建议接触,我是感觉没啥用。(小心你的C盘~~~)
除非你Aliyun, TencentCloud, VirtualBox, VMWare,都懒得用。。。

Linux/kaggle(支持)

modin 依赖 ray (所以用了pip的 [] 语法): 一条命令即可

pip install modin[ray]

不了解pip新鲜语法的,可以见官档: https://pip.pypa.io/en/stable...

MacOS(支持,买不起)

导入

import ray
import modin.pandas as pd
    # 这个导入很眼熟不, 没错,就是 多了个   "modin.", 用法和原生pandas没什么区别

使用

ray.init(num_cpus=4, ignore_reinit_error=True)    
# 第一个参数充分利用4核CPU。
# 第二个参数 ignore_reinit_error=True, 忽略重复初始化的 而产生的报错。
    # 如果不忽略,那么你用Jupyter运行时:
        # 第一次会调用正常运行。
        # 而之后每次重复调用就会报错。 所以这个参数最好设为True
        
pd.DataFrame()
...
...
按原生pandas的语法正常使用即可。。。

Modin官档

https://modin.readthedocs.io/...

你可能感兴趣的:(python,pandas)