github教程,我也是看这里学的。
git clone http://github.com/dask/dask-tutorial
dask官网
http://dask.pydata.org/en/latest/
Dask是一个python的并行计算的库。
Dask对远远超过内存的数据集进行多核或分布式的并行计算运行。
Dask提供了Array,Bag和DataFrame,都是模仿numpy,list和Pandas的。不同的是,dask提供的集合能够在不将数据集全部填充到内存中进行并行计算。可以去替代numpy和pandas去处理大的数据集。
Dask提供了并行的动态的任务调度和执行任务图。意思就是,将一个任务划分成多个小任务,然后画出图表,有一些任务是可以同时执行的,根据这个图表进行动态的并行去执行。
如上图所示,两个inc函数同时执行,然后再执行add函数得到结果。
Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。 [1] 因为包含了大量的科学包
安装Anaconda
下载地址
pip install dask
本人使用的是virtualStudioCode集成开发环境,这个看个人。
下载地址
推荐插件
Anaconda Extension Pack
推荐使用这个,非常好用。
它就是个web应用程序,但是可以在上面进行类似于ipython的编写,而且调试方便。
ipython notebook