提示:由于Julia 使用mmap管理内存,windows环境下 如果报以下异常 SystemError: mmap: 页面文件太小,无法完成操作。需要重新设置系统的内存管理方式参考:内存管理配置。多线程与多进程的使用准则参考:Julia 并发编程 ---- 多线程与多进程的一些使用建议
using Random
const m = MersenneTwister(0);
function dothestuff!(out_N, N, ic, m)
out_N[:, ic] .= rand(m, N)
end
function dummy_base(m=m, N=100_000,c=256)
out_N = Array{Float64}(undef,N,c)
for ic in 1:c
dothestuff!(out_N, N, ic, m)
end
out_N
end
执行时间:
using BenchmarkTools;
@btime dummy_base();
#执行时间与消耗内存 231.890 ms (770 allocations: 390.66 MiB)
using Random
#Mersenne Twister算法译为马特赛特旋转演算法,是伪随机数发生器之一
const mt = MersenneTwister.(1:Threads.nthreads());
function dothestuff!(out_N, N, ic, m)
out_N[:, ic] .= rand(m, N)
end
function dummy_threads(mt=mt, N=100_000,c=256)
out_N = Array{Float64}(undef,N,c)
Threads.@threads for ic in 1:c
dothestuff!(out_N, N, ic, mt[Threads.threadid()])
end
out_N
end
执行时间
using BenchmarkTools;
@btime dummy_threads();
#执行时间与消耗内存,141.481 ms (783 allocations: 390.66 MiB)
using Distributed
addprocs(4)
using Random, SharedArrays
@everywhere using Random, SharedArrays, Distributed
@everywhere Random.seed!(myid())
@everywhere function dothestuff!(out_N, N, ic)
out_N[:, ic] .= rand(N)
end
function dummy_distr(N=100_000,c=256)
out_N = SharedArray{Float64}(N,c)
@sync @distributed for ic in 1:c
dothestuff!(out_N, N, ic)
end
out_N
end
执行时间:
using BenchmarkTools;
@btime dummy_distr();
#执行时间与消耗内存 485.634 ms (1043 allocations: 43.89 KiB)
这个例子中一定要注意的是,addprocs(3)得到的进程 有:2,3,4 三个worker ,其中1 worker是默认的住进程。所以 dummy函数中的chains = 4,如果超过这个数字,会报越界异常。进程数设置参考:Julia并发编程 ---- 进程数设置
using Distributed
@everywhere using Distributed, SharedArrays
addprocs(3)
@everywhere function inner_loop!(out_N, chain_number,steps,width)
N = zeros(steps, width)
state = zeros(width)
for i = 1:steps
state .+= rand(width)
N[i,:] .= state
end
out_N[:,:,chain_number] .= N
nothing
end
function dummy(steps = 10000, width = 100, chains = 4)
out_N = SharedArray{Float64}((steps, width, chains); pids = collect(1:4))
@sync for c = 1:chains
# print("c=$c\n")
@spawnat :any inner_loop!(out_N, c, steps,width)
end
sdata(out_N)
end
执行时间:
using BenchmarkTools;
@time dummy(out_N);
#执行时间与内存 2.477380 seconds (978.85 k allocations: 50.213 MiB, 0.49% gc time)
如果数据量不是太大,多线程应该就足够了. 多进程需要进程间通信,会额外增加执行时间,同时还要使用SharedArrays 或者DistributeArray 这些重量级的数据结构. 针对SharedArrays 或者DistributeArray区别后面再做介绍。