matlab中的并行方法与理解(2):parfor中的变量类型

转载至:http://blog.csdn.net/caozhk/article/details/38234293?utm_source=tuicool&utm_medium=referral

通常消耗最多计算资源的程序往往是循环。把循环并行化,或者优化循环体中的代码是最常用的加快程序运行速度的思路。
Matlab提供了parfor关键字,可以很方便的在多核机器或集群上实现并行计算。

parfor关键字的使用

由for关键字引导的循环通常为串行运行,如果改为parfor则可以由多个worker以并行方式执行。
parfor可以将n次循环分解为独立不相关的m部分,然后将各部分分别交给一个worker执行。
循环执行的结果应该与n次循环执行的顺序无关。

parfor中的变量类型

简约变量

一般parfor中各次循环对应的运算应该相互独立,但简约操作可以在多次循环内同时对一个变量操作。这种变量称为简约变量。例如下方代码中a就是简约变量。
a = 0;
for i = 1:1000
a = a+i;
end
简约操作包括+ - * .* & | [,] [;] {,} {;} min max union intersect。
同一个parfor循环对简约变量的操作必须一致,即必须是同一种简约操作符。而且与操作符的相对位置也必须一致。
简约变量赋值表达式应该满足结合律和交换律。* [] {}底层有特殊处理保证结果的正确性。

切片变量(sliced)

parfor中可能需要读取或写入parfor之外的矩阵,读取写入位置与循环变量相关。这样就需要向worker传输大量的数据。
矩阵如果被Matlab识别为切片变量,则数据可以分段传输到各worker,提高传输效率。
切片变量矩阵的大小是不可在parfor中改变的,且为了保证Matlab识别正确,每次循环中只能读取由同一个索引值索引的切片,如a[i] a[i+1]同时出现则a不被识别为切片变量。

循环变量(loop)

如上例中的i,表示当前循环的id。

广播变量(broadcast)

在parfor之前赋值,在parfor内只进行读取操作,不能再parfor之内对其赋值。若在parfor以内对广播变量赋值,则会显示“the variable xxxx in a parfor cannot be classified.”

临时变量(temporary)

作用域局限于parfor内,parfor结束后不存在。不影响parfor之前声明的同名变量。

各种变量区分的例子

下例中,parfor中的tmp是临时变量,parfor结束后tmp的值依然是5,不受临时变量的影响。
broadcast是广播变量,每次循环中的值不变。
redued是简约变量,Matlab对其的值将分段由各worker计算后送回主进程处理。
sliced为切片变量,数据传输有优化提升。
i为循环变量。

    tmp = 5;
    broadcast = 1;
    reduced = 0;
    sliced = ones(1, 10);
    parfor i = 1:10
      tmp = i;
      reduced = reduced + i + broadcast;
      sliced(i) = sliced(i) * i;
    end

worker配置

在运行程序之前,需要配置worker。否则如前文所说,parfor循环将以普通for循环的形式运行,无法并行。

单机配置

使用matlabpool命令可以开启关闭本机的并行计算池。
matlabpool n命令可以打开n个worker。
matlabpool open configname按照指定配置打开,默认配置为local。
程序运行结束后,应该使用matlabpool close关闭worker。
配置项的修改可以通过Parallel -> Manage Cluster Profile完成。

n的选择:

如果有c个cpu核心,通常可以设置为c。如果是远程服务器,为防止服务器响应卡顿,可以设置为c-1。对于计算密集型程序,超线程带来的性能提升几乎为0,可以设置为核心数,而不是线程数。

注意事项

循环次数n最好能整除以worker个数m,否则部分worker会分配较多的循环,造成一部分worker闲置一段时间,降低了并行性。
并行运行时各个worker之间会进行通信,要注意大量数据传输带来的性能下降。尤其对于广播变量,如果较大可尝试变为切片变量。

你可能感兴趣的:(matlab,CPU并行处理)