What's OpenMP

The OpenMP API supports multi-platform shared-memory parallel programming in C/C++ and Fortran. The OpenMP API defines a portable, scalable model with a simple and flexible interface for developing parallel applications on platforms from the desktop to the supercomputer.

语法

#pragma omp [clause[[,] clause] ...]

directive

1. atomic：内存位置将会原子更新，只对下一行有效。
2. barrier：线程在此等待，直到所有的线程都运行到此barrier。用来同步所有线程，只对下一行有效。
3. critical：其后的代码块为临界区，任意时刻只能被一个线程运行，只对下一行有效。
4. flush：所有线程对所有共享对象具有相同的内存视图（view of memory）
5. for：用在for循环之前，把for循环并行化由多个线程执行。循环变量只能是整型
6. master：指定由主线程来运行接下来的程序。
7. ordered：指定在接下来的代码块中，被并行化的 for循环将依序运行（sequential loop）
8. parallel：代表接下来的代码块将被多个线程并行各执行一遍。
9. sections：将接下来的代码块包含将被并行执行的section块。
10. single：之后的程序将只会在一个线程（未必是主线程）中被执行，不会被并行执行。
11. threadprivate 指定一个变量是线程局部存储（thread local storage）

clause

1. copyin：让threadprivate的变量的值和主线程的值相同。
2. copyprivate：不同线程中的变量在所有线程中共享。
3. default： Specifies the behavior of unscoped variables in a parallel region.
4. firstprivate：对于线程局部存储的变量，其初值是进入并行区之前的值。
5. if：判断条件，可用来决定是否要并行化。
6. lastprivate：在一个循环并行执行结束后，指定变量的值为循环体在顺序最后一次执行时获取的值，或者#pragma sections在中，按文本顺序最后一个section中执行获取的值。
7. nowait：忽略barrier的同步等待。
8. num_threads：设置线程数量的数量。默认值为当前计算机硬件支持的最大并发数。一般就是CPU的内核数目。超线程被操作系统视为独立的CPU内核。
9. ordered：使用于 for，可以在将循环并行化的时候，将程序中有标记 directive ordered 的部分依序运行。
10. private：指定变量为线程局部存储。
11. reduction： Specifies that one or more variables that are private to each thread are the subject of a reduction operation at the end of the parallel region.
12. schedule：设置for循环的并行化方法；有 dynamic、guided、runtime、static 四种方法。
1）schedule(static, chunk_size) 把chunk_size数目的循环体的执行，静态依序指定给各线程。
2）schedule(dynamic, chunk_size) 把循环体的执行按照chunk_size（缺省值为1）分为若干组（即chunk），每个等待的线程获得当前一组去执行，执行完后重新等待分配新的组。
3）schedule(guided, chunk_size) 把循环体的执行分组，分配给等待执行的线程。最初的组中的循环体执行数目较大，然后逐渐按指数方式下降到chunk_size。
4）schedule(runtime) 循环的并行化方式不在编译时静态确定，而是推迟到程序执行时动态地根据环境变量OMP_SCHEDULE 来决定要使用的方法。
13. shared：指定变量为所有线程共享。

常用directive

parallel：

#pragma omp parallel [clause[[,]clause]...]
{
}

clause type:
if([parallel :]scalar-expression)
num_threads(integer-expression)
default(shared | none)
private(list)
firstprivate(list)
shared(list)
copyin(list)
reduction([reduction-modifier ,] reduction-identifier : list)
proc_bind(master | close | spread)
allocate([allocator :] list)

for ：

#pragma omp for [clause[[,]clause]...]
{
}

clause type:
private(list)
firstprivate(list)
lastprivate([ lastprivate-modifier:] list)
linear(list[ : linear-step])
reduction([ reduction-modifier,]reduction-identifier : list)
schedule([modifier[, modifier]:]kind[,chunk_size]) // static/dynamic/guided/auto/runtime
collapse(n) //for嵌套层数
ordered[(n)]allocate([allocator :]list)
order(concurrent)

约束条件：
1. for循环中比较操作符必须是<, <=, >, >=。例如for (int i = 0; i != 10; ++i){}会编译不通过
2. 循环必须是单入口、单出口，也就是说循环内部不允许能够达到循环以外的跳转语句，exit除外。异常的处理也必须在循环体内处理。例如：若循环体内的break或goto会跳转到循环体外，那么会编译不通过

常用库函数

1.void omp_set_num_threads(int _Num_threads);
在后续并行区域设置线程数，此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域.说明：此函数只能在串行代码部分调用.

2.int omp_get_num_threads(void);
返回当前线程数目.说明：如果在串行代码中调用此函数，返回值为1.

3.int omp_get_max_threads(void);
如果在程序中此处遇到未使用 num_threads() 子句指定的活动并行区域,则返回程序的最大可用线程数量.说明：可以在串行或并行区域调用，通常这个最大数量由omp_set_num_threads()或OMP_NUM_THREADS环境变量决定.

4.int omp_get_thread_num(void);
返回当前线程id.id从1开始顺序编号,主线程id是0.

5.int omp_get_num_procs(void);
返回程序可用的处理器数.

6.void omp_set_dynamic(int _Dynamic_threads);
启用或禁用可用线程数的动态调整.(缺省情况下启用动态调整.)此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域.如果 _Dynamic_threads 的值为非零值,启用动态调整;否则,禁用动态调整.

7.int omp_get_dynamic(void);
确定在程序中此处是否启用了动态线程调整.启用了动态线程调整时返回非零值;否则,返回零值.

8.int omp_in_parallel(void);
确定线程是否在并行区域的动态范围内执行.如果在活动并行区域的动态范围内调用,则返回非零值;否则,返回零值.活动并行区域是指 IF 子句求值为 TRUE 的并行区域.

9.void omp_set_nested(int _Nested);
启用或禁用嵌套并行操作.此调用只影响调用线程所遇到的同一级或内部嵌套级别的后续并行区域._Nested 的值为非零值时启用嵌套并行操作;否则,禁用嵌套并行操作.缺省情况下,禁用嵌套并行操作.

10.int omp_get_nested(void);
确定在程序中此处是否启用了嵌套并行操作.启用嵌套并行操作时返回非零值;否则,返回零值.

互斥锁操作嵌套锁操作功能
11.void omp_init_lock(omp_lock_t * _Lock);
12.void omp_init_nest_lock(omp_nest_lock_t * _Lock);
初始化一个（嵌套）互斥锁.

13.void omp_destroy_lock(omp_lock_t * _Lock);
14.void omp_destroy_nest_lock(omp_nest_lock_t * _Lock);
结束一个（嵌套）互斥锁的使用并释放内存.

15.void omp_set_lock(omp_lock_t * _Lock);
16.void omp_set_nest_lock(omp_nest_lock_t * _Lock);
获得一个（嵌套）互斥锁.

17.void omp_unset_lock(omp_lock_t * _Lock);
18.void omp_unset_nest_lock(omp_nest_lock_t * _Lock);
释放一个（嵌套）互斥锁.

19.int omp_test_lock(omp_lock_t * _Lock);
20.int omp_test_nest_lock(omp_nest_lock_t * _Lock);
试图获得一个（嵌套）互斥锁,并在成功时放回真（true）,失败是返回假（false）.

21.double omp_get_wtime(void);
获取wall clock time,返回一个double的数,表示从过去的某一时刻经历的时间,一般用于成对出现,进行时间比较. 此函数得到的时间是相对于线程的,也就是每一个线程都有自己的时间.

22.double omp_get_wtick(void);
得到clock ticks的秒数.

编译

g++ xxx -fopenmp

引用

https://zh.wikipedia.org/wiki/OpenMP
https://www.cnblogs.com/liangliangh/p/3565234.html

OpenMP入门指南