isFan.y

OpenMP编译器指令

1. 编译器指令

OpenMP通过在串行程序中插入编译制导指令, 来实现并行化, 支持OpenMP的编译器可以识别, 处理这些指令并实现对应的功能. 所有的编译制导指令都是以#pragma omp开始, 后面跟具体的功能指令(directive)或者命令. 一般格式如下所示:

#pragma omp directive [clause [[,] clause]...]
    structured bloc

Parallel Construct(并行域结构)

为了使程序可以并行执行, 我们首先要构造一个并行域(parallel region), 在这里我们使用parallel指令来实现并行域的构造, 其语法形式如下

#pragma omp parallel  [clause [[,] clause]...]
     structured block

parallel ：用在一个结构块之前，表示这段代码将被多个线程并行执行；该指令只保证代码以并行的方式执行, 但是并不负责线程之间的任务分发. 在并行域执行结束之后, 会有一个隐式的屏障(barrier), 来同步所有的该区域内的所有线程. 下面是一个使用示例:

#include 
#include 

using namespace std;

void fun1()

{
     
     #pragma omp parallel num_threads(5)  //定义5个线程，每个线程都将运行{}内代码，运行结果：输出6次Test
    {
     
        cout << "Test" << endl;
    }
}
int main()
{
     
    fun1();
}
/*TestTestTestTest
Test*/

parallel指令后面可以跟一些子句(clause), 如下所示

if(scalar-expression)
num_threads(integer-expression)
private(list)
firstprivate(list)
shared(list)
default(none | shared)
copyin(list)
reduction(operator:list)

后面介绍这些从句用法

Work-sharing Construct(任务分担结构)

任务分担指令主要用于为线程分配不同的任务, 一个任务分担域(work-sharing region)必须要和一个活跃(active)的并行域(parellel region)关联, 如果任务分担指令处于一个不活跃的并行域或者处于一个串行域中, 那么该指令就会被忽略. 在C/C++有3个任务分担指令: for、sections、single, 严格意义上讲只有for和sections是任务分担指令, 而single只是协助任务分担的指令.

Syntax in C++	功能
#pragma omp for	Distribute iterations over the threads
#pragma omp sections	Distribute independent work units
#pragma omp single	Only one thread executes the code block

for

用于for循环语句之前，表示将循环计算任务分配到多个线程中并行执行，以实现任务分担，必须由编程人员自己保证每次循环之间无数据相关性；
for指令一般可以和parallel指令合起来形成parallel for指令使用，也可以单独用在parallel语句的并行块中。parallel for用于生成一个并行域，并将计算任务在多个线程之间分配，用于分担任务。程序示例如下：

void parallel_for() {
     
    int n = 9;
    int i = 0;
    #pragma omp parallel shared(n) private(i) 
    {
     
        #pragma omp for
        for(i = 0; i < n; i++) {
     
            printf("Thread %d executes loop iteration %d\n", omp_get_thread_num(),i);
        }
    }
}
/*Thread 2 executes loop iteration 5
Thread 2 executes loop iteration 6
Thread 3 executes loop iteration 7
Thread 3 executes loop iteration 8
Thread 0 executes loop iteration 0
Thread 0 executes loop iteration 1
Thread 0 executes loop iteration 2
Thread 1 executes loop iteration 3
Thread 1 executes loop iteration 4
*/

在上面的程序中共有4个线程执行9次循环, 线程0分到了3次, 剩余的线程分到了2次, 这是一种常用的调度方式, 即假设有n次循环迭代, t个线程, 那么每个线程分配到n/t 或者 n/t + 1 次连续的迭代计算, 但是某些情况下使用这种方式并不是最好的选择, 我们可以使用schedule 来指定调度方式, 在后面会具体介绍. 下面是for 指令后面可以跟的一些子句:

private(list)
fistprivate(list)
lastprivate(list)
reduction(operator:list)
ordered
schedule(kind[,chunk_size])
nowait

下面还有一些示例

#include 
#include 

using namespace std;

int main()
{
     
    #pragma omp parallel  
    for (int i = 0; i < 10; i++)
    {
     
        cout << i;
    }
    return 0;
}
/*00102132435671203010102430182132456756479849342516278956788345956934576677889899*/

咋一看程序好像抽风了，产生了4个线程同时执行了for循环。通常这不是我们想要的，我们想要的是把for中的任务等分成4份，分别由4个线程各执行其中的一份。这样做其实很简单，只要在parallel后面加上for就可以了。

#include 
#include 

using namespace std;


int main()
{
     
    #pragma omp parallel for
    for (int i = 0; i < 10; i++)
    {
     
        cout << i;
    }
    return 0;
}

//result: 2890156734

结果为对的, 因为在同一段并行代码中，我们并不能保证各线程执行的先后顺序。扩散开来，在并行代码中，各线程的工作不能有依赖性，比如如果一个线程的输入和另一个线程的输出相依赖，那么此程序不适合并行计算。
下面再看下面的例子

#include 
#include 

using namespace std;


int main()
{
     
    //for循环并行化声明形式1  
    #pragma omp parallel   
    {
     
        cout << "OK" << endl;
        #pragma omp for   
        for (int i = 0; i < 4; ++i)
        {
     
            cout << i << endl;
        }
    }

    cout << "形式2" << endl;

    //for循环并行化声明形式2  
    #pragma omp parallel for  
    //cout << "ERROR" << endl; 
    for (int j = 0; j < 4; ++j)
    {
     
        cout << j << endl;
    }
    return 0;
}

这个结果为

形式1与形式2相比, 其优点是在for循环体前可以有其他执行代码，当然在一个#pragma omp parallel块内，可以有多个#pragma omp parallel for循环体。

for循环并行化的约束条件

尽管OpenMP可以方便地对for循环进行并行化，但并不是所有的for循环都可以进行并行化。以下几种情况不能进行并行化：

for循环中的循环变量必须是有符号整形。例如，for (unsigned int i = 0; i < 10; ++i){}会编译不通过；
for循环中比较操作符必须是<, <=, >, >=。例如for (int i = 0; i ！= 10; ++i){}会编译不通过；
for循环中的第三个表达式，必须是整数的加减，并且加减的值必须是一个循环不变量。例如for (int i = 0; i != 10; i = i + 1){}会编译不通过；感觉只能++i; i++; --i; 或i–；
如果for循环中的比较操作为<或<=，那么循环变量只能增加；反之亦然。例如for (int i = 0; i != 10; --i)会编译不通过；
循环必须是单入口、单出口，也就是说循环内部不允许能够达到循环以外的跳转语句，exit除外。异常的处理也必须在循环体内处理。例如：若循环体内的break或goto会跳转到循环体外，那么会编译不通过。

section

如果说for directive用作数据并行，那么sections directive用于任务并行，它指示后面的代码块包含将被多个线程并行执行的section块。下面是一个例子：sections指令可以为不同的线程分配不同的任务, 语法如下所示:

#pragma omp sections [clause[[,] clause]...] 
    {
     
        [#pragma omp section]
            structured block
        [#pragma omp section]
            structured block
        ...
    }

从上面的代码中我们可以看到, sections将代码分为多个section, 每个线程处理一个section, 注意区分sections和section）下面是一个使用示例:

/**
 * 使用#pragma omp sections 和 #pragma omp section, 来使不同的线程执行不同的任务
 * 如果线程数量大于section数量, 那么多余的线程会处于空闲状态(idle)
 * 如果线程数量少于section数量, 那么一个线程会执行多个section代码
 */

void funcA() {
     
    printf("In funcA: this section is executed by thread %d\n",
            omp_get_thread_num());
}

void funcB() {
     
    printf("In funcB: this section is executed by thread %d\n",
            omp_get_thread_num());
}

void parallel_section() {
     
    #pragma omp parallel
    {
     
        #pragma omp sections
        {
     
            #pragma omp section 
            {
     
                (void)funcA();
            }

            #pragma omp section 
            {
     
                (void)funcB();
            }
        }
    } 
}
/*In funcA: this section is executed by thread 0
In funcB: this section is executed by thread 1
*/

还有一些例子


void test_sections() {
     
     #pragma omp parallel
    {
     
       #pragma omp sections
        {
     
            #pragma omp section
            cout << omp_get_thread_num()<<endl;

            #pragma omp section
            cout << omp_get_thread_num()<<endl;
        }
    }
}

int main() {
     
    test_sections();
}
/* 1
   4*/

上面代码中2个section块将被2个线程并行执行，2个section是被哪2个线程执行是不确定的，当section块多于8个时，会有一个线程执行不止1个section块
上面的代码也可以修改为

void test_sections() {
     
    #pragma omp parallel sections
    {
     
            #pragma omp section
            cout << omp_get_thread_num();
            #pragma omp section
            cout << omp_get_thread_num();
    }
}

int main() {
     
    test_sections();
}

下面是sections后面可以跟的一些子句

private(list)
firstprivate(list)
lastprivate(list)
reduction(operator:list)
nowait

single

single 指令用来指定某段代码块只能被一个线程来执行, 具体是哪个线程不确定. 如果没有nowait字句, 所有线程在 single 指令结束处隐式同步点同步, 如果single指令有nowait从句, 则别的线程直接往下执行. 语法如下所示:

#pragma omp single [clause[[,] clause]...]
    structured block

下面是一个示例

void test_single() {
     
    #pragma omp parallel num_threads(4)
    {
     
        #pragma omp single
        cout << omp_get_thread_num() << endl;
        cout << omp_get_thread_num() << " -";
       
    }
}

/*
0
3 -1 -20 - -
这里0号线程执行了那两行代码,其他线程只执行后面那行代码
*/


void test_single() {
     
    #pragma omp parallel num_threads(4)
    {
     
        #pragma omp single
        {
     
            cout << omp_get_thread_num() << endl;
            cout << omp_get_thread_num() << " -";
        }
    }
}
/*
0
0 -
*/

另外一个示例

#include 
#include 

void parallel_single() {
     
    int a = 0;
    int n = 10;
    int i;
    int b[10];
    #pragma omp parallel shared(a, b) private(i)
    {
     
        // 只有一个线程会执行这段代码, 其他线程会等待该线程执行完毕
        #pragma omp single 
        {
     
            a = 10;
            printf("Single construct executed by thread %d\n", omp_get_thread_num());
        }

        // A barrier is automatically inserted here

        #pragma omp for
        for (i = 0; i < n; i++) {
     
            b[i] = a;
        }
    }

    printf("After the parallel region:\n");
    for (i = 0; i < n; i++)
        printf("b[%d] = %d\n", i, b[i]);
}


int main() {
     
    parallel_single();
}

/*Single construct executed by thread 0
After the parallel region:
b[0] = 10
b[1] = 10
b[2] = 10
b[3] = 10
b[4] = 10
b[5] = 10
b[6] = 10
b[7] = 10
b[8] = 10
b[9] = 10
*/

下面是single指令后面可以跟随的子句:

private(list)
firstprivate(list)
copyprivate(list)
nowait

Combined Parallel Work-Sharing Constructs

将parallel指令和work-sharing指令结合起来, 使代码更加简洁. 如下面的代码

#pragma omp parallel
{
     
    #pragma omp for
    for(.....)
}

也可以写为

#pragma omp parallel
{
     
    #pragma omp for
    for(.....)
}

具体参见下图

使用这些组合结构体(combined constructs)不仅增加程序的可读性, 而且对程序的性能有一定的帮助. 当使用这些组合结构体的时候, 编译器可以知道下一步要做什么, 从而可能会生成更高效的代码.

Clauses to Control Parallel and Work-Sharing Constructs

OpenMP指令后面可以跟一些子句, 用来控制构造器的行为. 下面介绍一些常用的子句.

shared

shared子句可以用于声明一个或多个变量为共享变量。所谓的共享变量，是值在一个并行区域的team内的所有线程只拥有变量的一个内存地址，所有线程访问同一地址。所以，对于并行区域内的共享变量，需要考虑数据竞争条件，要防止竞争，需要增加对应的保护, 下面是其使用方法:

#pragma omp parallel for shared(a)
    for(i = 0; i < n; i++)
    {
     
        a[i] += i;
    }

在并行域中使用共享变量时, 如果存在写操作, 需要对共享变量加以保存, 因为可能存在多个线程同时修改共享变量或者在一个线程读取共享变量时另外一个变量在更新共享变量的情况, 而这些情况都可能会引起程序错误. 程序示例如下：

#include 
#include 
using namespace std;

#define COUNT  10000
int main()
{
     
    int sum = 0;
    #pragma omp parallel for shared(sum)
    for (int i = 0; i < COUNT; i++)
    {
     
        sum = sum + i;
    }
    printf("%d\n", sum);
    return 0;
}
//result=46367978

多次运行，结果可能不一样. 需要注意的是：循环迭代变量 i 在循环构造区域里是私有的。即使使用shared来修饰循环迭代变量，也不会改变循环迭代变量在循环构造区域中是私有的这一特点。程序示例如下：

#include 
#include 

using namespace std;

#define COUNT  10

int main()

{
     
    int sum = 0;
    int i = 0;
    #pragma omp parallel for shared(sum, i)
    for (i = 0; i < COUNT; i++)
    {
     
        sum = sum + i;
    }
    printf("%d\n", i);
    printf("%d\n", sum);
    return 0;
}
/*0
 45*/

上述程序中，循环迭代变量i的输出值为0，尽管这里使用shared修饰变量i。注意，这里的规则只是针对循环并行区域，对于其他的并行区域没有这样的要求。同时在循环并行区域内，循环迭代变量是不可修改的。即在上述程序中，不能在for循环体内对循环迭代变量i进行修改。

#pragma omp parallel for shared(a)
    for(i = 0; i < n; i++)
    {
     
        a[i] += i;
    }

private

private子句用来指定哪些数据是线程私有的, 即每个线程具有变量的私有副本, 线程之间互不影响. 其语法形式为private(list), 使用方法如下:

// Author: Mario Talevski
#include 
#include 


using namespace std;

void test_private() {
     
    int n = 8;
    int i = 2, a = 3;
    // i,a 定义为private之后不改变原先的值
    #pragma omp parallel for private(i, a)
    for (i = 0; i < n; i++)
    {
     
        a = i + 1;
        printf("In for: thread %d has a value of a = %d for i = %d\n", omp_get_thread_num(), a, i);
    }

    printf("\n");
    printf("Out for: thread %d has a value of a = %d for i = %d\n", omp_get_thread_num(), a, i);
}

int main(int argc, char* argv[])
{
     
    test_private();
	return 0;
}

/*
In for: thread 3 has a value of a = 4 for i = 3
In for: thread 0 has a value of a = 1 for i = 0
In for: thread 5 has a value of a = 6 for i = 5
In for: thread 2 has a value of a = 3 for i = 2
In for: thread 4 has a value of a = 5 for i = 4
In for: thread 1 has a value of a = 2 for i = 1
In for: thread 7 has a value of a = 8 for i = 7
In for: thread 6 has a value of a = 7 for i = 6

Out for: thread 0 has a value of a = 3 for i = 2*/

对于private子句中的变量, 需要注意一下两点:

不论该变量之前有没有初始值, 在进入并行域之后都是未初始化的.
并行域中对变量的修改只在该域中起作用, 当离开并行域后, 变量值仍然是未进入并行域之前的值

lastprivate

lastprivate会在退出并行域时, 将其修饰变量的最后取值(last value)保存下来, 可以作用于 for 和 sections, 语法格式为lastprivate(list). 关于last value的定义: 如果是作用于for指令, 那么last value就是指串行执行的最后一次循环的值；如果是作用于sections指令, 那么last value就是执行完最后一个包含该变量的section之后的值. 使用方法如下:

#include 
#include 


using namespace std;

void test_last_private() {
     
    int n = 8;
    int i = 2, a = 3;
    // lastprivate 将for中最后一次循环(i == n-1) a 的值赋给a    
    #pragma omp parallel for private(i) lastprivate(a)
    for (i = 0; i < n; i++)
    {
     
        a = i + 1;
        printf("In for: thread %d has a value of a = %d for i = %d\n", omp_get_thread_num(), a, i);
    }

    printf("\n");
    printf("Out for: thread %d has a value of a = %d for i = %d\n", omp_get_thread_num(), a, i);
}

int main(int argc, char* argv[])
{
     
    test_last_private();
	return 0;
}
/*
In for: thread 2 has a value of a = 3 for i = 2
In for: thread 3 has a value of a = 4 for i = 3
In for: thread 5 has a value of a = 6 for i = 5
In for: thread 0 has a value of a = 1 for i = 0
In for: thread 6 has a value of a = 7 for i = 6
In for: thread 1 has a value of a = 2 for i = 1
In for: thread 4 has a value of a = 5 for i = 4
In for: thread 7 has a value of a = 8 for i = 7

Out for: thread 0 has a value of a = 8 for i = 2*/

firstprivate

firstprivate 子句用于为private变量提供初始值. 使用firstprivate修饰的变量会使用在前面定义的同名变量的值作为其初始值. 语法形式为firstprivate(list), 使用方法如下:

#include 
#include 


using namespace std;


void test_first_private() {
     
    int n = 8;
    int i = 0, a[8];

    for (i = 0; i < n; i++) {
     
        a[i] = i + 1;
    }
    #pragma omp parallel for private(i) firstprivate(a)
    for (i = 0; i < n; i++)
    {
     
        printf("thread %d: a[%d] is %d\n", omp_get_thread_num(), i, a[i]);
    }
}

int main(int argc, char* argv[])
{
     
    test_first_private();
	return 0;
}

/*
thread 3: a[3] is 4
thread 4: a[4] is 5
thread 0: a[0] is 1
thread 5: a[5] is 6
thread 2: a[2] is 3
thread 1: a[1] is 2
thread 6: a[6] is 7
thread 7: a[7] is 8
*/

下面是合并的例子


```cpp
#include 
#include 

using namespace std;

int main()
{
     
    int k = 100;

   #pragma omp parallel for firstprivate(k),lastprivate(k)
    for (int i = 0; i < 3; i++)
    {
     
        k += i;
        cout<<"kin"<<k<<endl;
    }
    cout << "kout " << k << endl;
}
/*
kinkin102100
kin101

kout 102*/

打印结果看出, 退出for循环的并行区域后，共享变量k的值变成了103，而不是保持原来的100不变。OpenMP规范中指出，如果是循环迭代，那么是将最后一次循环迭代中的值赋给对应的共享变量；如果是section构造，那么是最后一个section语句中的值赋给对应的共享变量。注意这里说的最后一个section是指程序语法上的最后一个，而不是实际运行时的最后一个运行完的。

default

default指定并行区域内变量的属性，C++的OpenMP中default的参数只能为shared或none。default(shared)：表示并行区域内的共享变量在不指定的情况下都是shared属性

default(none)：表示必须显式指定所有共享变量的数据属性，否则会报错，除非变量有明确的属性定义（比如循环并行区域的循环迭代变量只能是私有的）如果一个并行区域，没有使用default子句，那么其默认行为为default(shared)

nowait

用于取消任务分担结构(work-sharing constructs)中的隐式屏障(implicit barrier)(即并行区域中所有线程执行完毕之后，主线程才继续执行), 下面是一个使用示例:

#include 
#include 
using namespace std;

void test_nowait() {
     
    int i, n = 3;
    //#pragma omp parallel 
    {
     
        //#pragma omp for nowait 
        for (i = 0; i < n; i++) {
     
            printf("thread %d: ++++\n", omp_get_thread_num());
        }

        #pragma omp for
        for (i = 0; i < n; i++) {
     
            printf("thread %d: ----\n", omp_get_thread_num());
        }
    }
}
int main()
{
     
    test_nowait();
}
/*
thread 3: ++++
thread 0: ++++
thread 0: ++++
thread 2: ++++
thread 1: ++++
thread 1: ++++
thread 0: ----
thread 0: ----
thread 3: ----
thread 1: ----
thread 1: ----
thread 2: ----

*/

因为for指令有一个隐式的屏障, 会同步所有的线程直到第一个for循环执行完, 再继续往下执行. 加上 nowait 之后就消除了这个屏障, 使线程执行完第一个for循环之后无需再等待其他线程就可以去执行第二个for循环的内容, 下面是加上nowait之后的输出:

#include 
#include 


using namespace std;


void test_nowait() {
     
    int i, n = 3;
    #pragma omp parallel 
    {
     
        #pragma omp for nowait 
        for (i = 0; i < n; i++) {
     
            printf("thread %d: ++++\n", omp_get_thread_num());
        }

        #pragma omp for
        for (i = 0; i < n; i++) {
     
            printf("thread %d: ----\n", omp_get_thread_num());
        }
    }
}
int main()
{
     
    test_nowait();
}
/*
thread 0: ++++
thread 0: ----
thread 1: ++++
thread 1: ----
thread 2: ++++
thread 2: ----
*/

使用nowait时需要注意前后for之间有没有依赖关系, 如果第二个for循环需要用到第一个for循环的结果, 那么使用nowait就可能会造成程序错误.

schedule

schedule子句只作用于循环结构(loop construct), 它用来设置循环任务的调度方式. 语法形式为schedule(kind[,chunk_size]), 其中kind的取值有static, dynamic, guided,auto ,runtime chunk_size是可选项,可以指定也可以不指定. 下面是使用方法:

#include 
#include 
using namespace std;

void test_schedule() {
     
    int i, n = 10;

    #pragma omp parallel for default(none) schedule(static, 2) private(i) shared(n)
    for (i = 0; i < n; i++) {
     
        printf("Iteration %d executed by thread %d\n", i, omp_get_thread_num());
    }
}
int main()
{
     
    test_schedule();
}
/*
Iteration 8 executed by thread 4
Iteration 9 executed by thread 4
Iteration 0 executed by thread 0
Iteration 1 executed by thread 0
Iteration 2 executed by thread 1
Iteration 3 executed by thread 1
Iteration 4 executed by thread 2
Iteration 5 executed by thread 2
Iteration 6 executed by thread 3
Iteration 7 executed by thread 3
*/

下面介绍一下各个取值的含义, 假设有n次循环, t个线程

static

静态调度, 如果不指定chunk_size , 那么会为每个线程分配 n/t 或者 n/t+1(不能除尽)次连续的迭代计算, 如果指定了 chunk_size, 那么每次为线程分配chunk_size次迭代计算, 如果第一轮没有分配完, 则循环进行下一轮分配, 假设n=8, t=4, 下表给出了chunk_size未指定、等于1、等于3时的分配情况.

(1) schedule(static, size)将所有迭代按每连续size个为一组，然后将这些组轮转分给各个线程。例如有4个线程，100次迭代，schedule(static, 5)将迭代：0-4, 5-9, 10-14, 15-19, 20-24…依次分给0, 1, 2, 3, 0…号线程。schedule(static)同schedule(static, size_av)，其中size_av等于迭代次数除以线程数，即将迭代分成连续的和线程数相同的等分（或近似等分）。
(2) schedule(dynamic, size)同样分组，然后依次将每组分给目前空闲的线程（故叫动态）。
(3) schedule(guided, size) 把迭代分组，分配给目前空闲的线程，最初组大小为迭代数除以线程数，然后逐渐按指数方式（依次除以2）下降到size。

#include 
#include 
#include 
#include 
#include 
using namespace std;


int counter = 10;
#pragma omp threadprivate(counter)

void test_static() {
     
    #pragma omp parallel num_threads(3)
    {
     
        #pragma omp for
        for (int i = 0; i < 9; i++) {
     
            #pragma omp critical
            cout << omp_get_thread_num() << ":" << i << "   ";
        }
    }
}
int main() {
     
    test_static();
}


/*
0:0   0:1   0:2   1:3   1:4   1:5   2:6   2:7   2:8*/

上面输出说明0号线程执行0-2迭代，1号执行3-5,2号执行6-9，相当于schedule(static, 3)。
我们将size换为1

void test_static() {
     
    #pragma omp parallel num_threads(3)
    {
     
        #pragma omp for schedule(static, 1)
        for (int i = 0; i < 9; i++) {
     
            #pragma omp critical
            cout << omp_get_thread_num() << ":" << i << "   ";
        }
    }
}


int main() {
     
    test_static();
}
/*
0:0   0:3   0:6   2:2   2:5   2:8   1:1   1:4   1:7*/

dynamic

动态调度, 动态为线程分配迭代计算, 只要线程空闲就为其分配任务, 计算快的线程分配到更多的迭代. 如果不指定chunk_size参数, 则每次为一个线程分配一次迭代循环(相当于chunk_size=1), 若指定chunk_size, 则每次为一个线程分配chunk_size次迭代循环. 在动态调度下, 分配结果是不固定的, 重复执行同一个程序, 每次的分配结果一般来说是不同的, 下面给出n=12, t=4时, chunk_size未指定、等于2时的分配情况(运行两次)

使用动态动态可以一定程度减少负载不均衡的问题, 但是需要注意任务动态申请时也会有一定的开销.

guided

guided调度是一种指定性的启发式自调度方法. 开始时每个线程会分配到较大的迭代块, 之后分配到的迭代块的大小会逐渐递减. 如果指定chunk_size, 则迭代块会按指数级下降到指定的chunk_size大小, 如果没有指定size参数, 那么迭代块大小最小会降到1(相当于chunk_size=1). 和动态调度一样, 执行块的线程会分到更多的任务, 不同的是这里迭代块的大小是变化的. 同样使用guided调度的分配结果也不是固定的, 重复执行会得到不同的分配结果. 下面给出n=20, t=4, chunk_size未指定、chunk_size=3时的分配情况(执行两次)

当设置chunk_size=3时, 因为最后只剩下18、19两次循环, 所以最后执行的那个线程只分配到2次循环.

下面的图展示了当循环次数为200次, 线程数量为4时, static 、 (dynamic,7) 、(guided, 7) 3种调度方式的分配情况

负载不均衡

在for循环中, 如果每次循环之间花费的时间是不同的, 那么就可能出现负载不均衡问题,比如,

static   : use time 8.67s
static,2 : use time 6.42s
dynamic  : use time 5.62s
dynamic,2: use time 6.43s
guided   : use time 5.92s
guided,2 : use time 6.43s

对于static调度, 如果不指定chunk_size的值, 则会将最后几次循环分给最后一个线程, 而最后几次循环是最耗时的, 其他线程执行完各自的工作需要等待这个线程执行完毕, 浪费了系统资源, 这就造成了负载不均衡. dynamic和guided可以在一定程度上减轻负载不均衡, 但是也不是绝对的, 最终选用哪种方式还是要根据具体的问题.

Synchronization Constructs(同步)

同步指令主要用来控制多个线程之间对于共享变量的访问. 它可以保证线程以一定的顺序更新共享变量, 或者保证两个或多个线程不同时修改共享变量.

barrier

同步路障(barrier), 当线程遇到路障时必须要停下等待, 直到并行区域中的所有线程都到达路障点, 线程才继续往下执行. 在每一个并行域和任务分担域的结束处都会有一个隐式的同步路障, 即在parallel、for、sections、single构造的区域之后会有一个隐式的路障, 因此在很多时候我们无需显示的插入路障. 下面示例:

#include 
#include 
using namespace std;

void test_barrier() {
     
#pragma omp parallel num_threads(6)
{
     
    #pragma omp critical
    cout << omp_get_thread_num() << " ";
     #pragma omp critical
    cout << omp_get_thread_num() + 10 << " ";
    }
}

int main() {
     
    test_barrier();
}
/*
0 10 3 13 4 14 2 12 5 15 1 11*/

我们加上barrier

#include 
#include 
using namespace std;

void test_barrier() {
     
#pragma omp parallel num_threads(6)
{
     
    #pragma omp critical
    cout << omp_get_thread_num() << " ";
    #pragma omp barrier
     #pragma omp critical
    cout << omp_get_thread_num() + 10 << " ";
    }
}

int main() {
     
    test_barrier();
}
/*
4 1 2 0 3 5 15 11 13 12 14 10*/

可以看到，这时一位数数字打印完了才开始打印两位数数字，因为，所有线程执行到第5行代码时，都要等待所有线程都执行到第5行，这时所有线程再都继续执行第7行及以后的代码，即所谓同步.
再来说说for, sections, single directives的隐含barrier，以及nowait clause如下示例：

#include 
#include 
#include 
#include 
#include 
using namespace std;



void test_barrier() {
     
#pragma omp parallel num_threads(6)
{
        
    #pragma omp for
        for (int i = 0; i < 10; ++i) {
     
        #pragma omp critical
            cout << omp_get_thread_num() << " ";
    }
        //this is an implicit barrier here
     #pragma omp critical
    cout << omp_get_thread_num() + 10 << " ";
    }
}

int main() {
     
    test_barrier();
}
/*
0 0 3 3 1 1 5 4 2 2 14 12 13 15 11 10*/

加上nowait将会disable implicit barrier

#include 
#include 
#include 
#include 
#include 
using namespace std;



void test_barrier() {
     
#pragma omp parallel num_threads(6)
{
        
    #pragma omp for nowait
        for (int i = 0; i < 10; ++i) {
     
        #pragma omp critical
            cout << omp_get_thread_num() << " ";
    }
        //The implicit barrier here is disabled by nowait.
     #pragma omp critical
    cout << omp_get_thread_num() + 10 << " ";
    }
}

int main() {
     
    test_barrier();
}

/*
0 0 10 2 2 12 1 1 11 5 15 3 3 13 4 14*/

sections, single directives是类似的.

ordered

ordered结构允许在并行域中以串行的顺序执行一段代码, 如果我们在并行域中想按照顺序打印被不同的线程计算的数据, 就可以使用这个子句. 使用在有ordered clause的for directive（或parallel for）中，确保代码将被按迭代次序执行(像串行程序一样).
在使用时注意以下两点

ordered 只作用于循环结构(loop construct)
使用ordered时需要在构造并行域的时候加上ordered子句, 如#pragma omp parallel for ordered
一个例子

#include 
#include 
using namespace std;

void test_ordered() {
     
     #pragma omp parallel num_threads(8)
    {
     
        #pragma omp for ordered
        for (int i = 0; i < 10; i++) {
     
            #pragma omp critical
            cout << i << " ";
            #pragma omp ordered
            {
     
                #pragma omp critical
                cout << -i << " ";
            }
        }
    }
  
}

int main() {
     
    test_ordered();
}
/*
4 0 0 1 -1 7 8 9 6 5 2 -2 3 -3 -4 -5 -6 -7 -8 -9
*/

只看前面有"-“的数字，是不是按顺序的，而没有”-"的数字则没有顺序。值得强调的是for directive的ordered clause只是配合ordered directive使用，而不是让迭代有序执行的意思

另一个例子

#include 
#include 
using namespace std;

void test_order() {
     
    int i, tid, n = 5;
    int a[5];
    for (i = 0; i < n; i++) {
     
        a[i] = 0;
    }

    #pragma omp parallel for default(none) ordered  schedule(dynamic) private (i, tid) shared(n, a)
    for (i = 0; i < n; i++) {
     
        tid = omp_get_thread_num();
        printf("Thread %d updates a[%d]\n", tid, i);

        a[i] += i;

         #pragma omp ordered
        {
     
            printf("Thread %d printf value of a[%d] = %d\n", tid, i, a[i]);
        }
    }
}

int main() {
     
    test_order();
}

/*
Thread 0 updates a[0]
Thread 0 printf value of a[0] = 0
Thread 4 updates a[2]
Thread 3 updates a[4]
Thread 1 updates a[3]
Thread 2 updates a[1]
Thread 2 printf value of a[1] = 1
Thread 4 printf value of a[2] = 2
Thread 1 printf value of a[3] = 3
Thread 3 printf value of a[4] = 4
*/

从输出结果我们可以看到, 在update时是以乱序的顺序更新, 但是在打印时是以串行顺序的形式打印.

critical

临界区(critical), 临界区保证在任意一个时间段内只有一个线程执行该区域中的代码, 一个线程要进入临界区必须要等待临界区处于空闲状态, 下面是语法形式

#pragma omp critical [(name)]
    structured block

其中name是为临界区指定的一个名字.

void test_critical() {
     
    #pragma omp parallel num_threads(6)
    {
     
        cout << omp_get_thread_num() << omp_get_thread_num();
       
    }
}

int main() {
     
    test_critical();
}
/*
001152254433
*/

上面5号线程代码时被2号线程打断了（并不是每次运行都可能出现打断）。

void test_critical() {
     
    #pragma omp parallel num_threads(6)
    {
        
        #pragma omp critical
        cout << omp_get_thread_num() << omp_get_thread_num();
       
    }
}

int main() {
     
    test_critical();
}

/*
001133224455
*/

这次不管运行多少遍都不会出现某个数字不是连续两个出现，因为在第4行代码被一个线程执行期间，其他线程不能执行（该行代码是临界区）。
下面是一个求和的使用示例, 注意这里只是用来说明临界区的作用, 对于求和操作我们可以使用reduction指令

#include 
#include 
#include 
#include 
#include 
using namespace std;



void test_critical() {
     
    int n = 100, sum = 0, sumLocal, i, tid;
    int a[100];
    for (i = 0; i < n; i++) {
     
        a[i] = i;
    }

#pragma omp parallel shared(n, a, sum) private (tid, sumLocal)
    {
     
        tid = omp_get_thread_num();
        sumLocal = 0;
        #pragma omp for
        for (i = 0; i < n; i++) {
     
            sumLocal += a[i];
        }

        #pragma omp critical(update_sum) 
        {
     
            sum += sumLocal;
            printf("Thread %d: sumLocal = %d sum =%d\n", tid, sumLocal, sum);
        }
    }

    printf("Value of sum after parallel region: %d\n", sum);
}

int main() {
     
    test_critical();
}
/*
Thread 6: sumLocal = 978 sum =978
Thread 0: sumLocal = 78 sum =1056
Thread 2: sumLocal = 416 sum =1472
Thread 1: sumLocal = 247 sum =1719
Thread 4: sumLocal = 690 sum =2409
Thread 5: sumLocal = 834 sum =3243
Thread 3: sumLocal = 585 sum =3828
Thread 7: sumLocal = 1122 sum =4950
Value of sum after parallel region: 4950
下面是将临界区去掉的运行结果(运行结果不是固定的, 这里只是其中一种情况):
Thread 5: sumLocal = 834 sum =834
Thread 2: sumLocal = 416 sum =3531
Thread 6: sumLocal = 978 sum =3115
Thread 1: sumLocal = 247 sum =247
Thread 7: sumLocal = 1122 sum =1447
Thread 3: sumLocal = 585 sum =4116
Thread 0: sumLocal = 78 sum =325
Thread 4: sumLocal = 690 sum =2137
Value of sum after parallel region: 4116
*/

通过对比我们可以看到临界区保证了程序的正确性.

atomic

原子操作, 可以锁定一个特殊的存储单元(可以是一个单独的变量,也可以是数组元素), 使得该存储单元只能原子的更新, 而不允许让多个线程同时去写(是不是很像critical directive). atomic只能作用于单条赋值语句, 而不能作用于代码块. 语法形式为:

#pragma omp atomic
    statement

在C/C++中, statement必须是下列形式之一

x++, x--, ++x, --x,
x binop= expr其中binop是二元操作符:+, -, *, /, &, ^, |, <<, >>之一
atomic的可以有效的利用的硬件的原子操作机制来控制多个线程对共享变量的写操作, 效率较高, 下面是一个使用示例

int m = 0;
void test_automic() {
     
    #pragma omp parallel num_threads(6)
    {
        
        for (int i = 0; i < 1000000; i++) {
     
            ++m;
        }
    }
    cout << "The expect value:" << 6000000<< endl;
    cout << "The value is  " << m << endl;

}

int main() {
     
    test_automic();
}
/*
The expect value:6000000
The value is  1223186
*/

m实际值比预期要小，因为“++m”的汇编代码不止一条指令，假设三条：load, inc, mov（读RAM到寄存器、加1，写回RAM），有可能线程A执行到inc时，线程B执行了load（线程A inc后的值还没写回），接着线程A mov，线程B inc后再mov，原本应该加2就变成了加1.
使用atomic directive后可以得到正确结果：

int m = 0;
void test_automic() {
     
    #pragma omp parallel num_threads(6)
    {
        
        for (int i = 0; i < 1000000; i++) {
     
            #pragma  omp atomic
             ++m;
        }
    }
    cout << "The expect value:" << 6000000<< endl;
    cout << "The value is  " << m << endl;

}

int main() {
     
    test_automic();
}
/*
The expect value:6000000
The value is  6000000
*/

那当我们使用critical 会怎样呢

int m = 0;
void test_automic() {
     
    #pragma omp parallel num_threads(6)
    {
        
        for (int i = 0; i < 1000000; i++) {
     
            #pragma  omp critical
             ++m;
        }
    }
    cout << "The expect value:" << 6000000<< endl;
    cout << "The value is  " << m << endl;

}

int main() {
     
    test_automic();
}
/*
The expect value:6000000
The value is  6000000
*/

差别为何呢，显然是效率。atomic的速度比critical快
下面是另外一个例子

#include 
#include 
using namespace std;


void test_atomic() {
     
    int counter = 0, n = 1000000, i;

#pragma omp parallel for shared(counter, n)
    for (i = 0; i < n; i++) {
     
        #pragma omp atomic
        counter += 1;
    }

    printf("counter is %d\n", counter);
}

int main() {
     
    test_atomic();
}
/*
counter is 1000000
*/

对于下面的情况

#pragma omp atomic
ic += func();

atomic只保证ic的更新是原子的, 即不会被多个线程同时更新, 但是不会保证func函数的执行是原子的, 即多个线程可以同时执行func函数, 如果要使func的执行也是原子的, 可以使用临界区.

master

用于指定一段代码只由主线程执行. master指令和single指令的区别如下:

master指令包含的代码段只有主线程执行, 而single指令包含的代码可以由任意一个线程执行.
master指令在结束处没有隐式同步, 也不可以使用nowait从句
下面使用一个示例

#include 
#include 
using namespace std;


void test_master() {
     
    int a, i, n = 5;
    int b[5];
#pragma omp parallel shared(a, b) private(i)
    {
     
         #pragma omp master
        {
     
            a = 10;
            printf("Master construct is executed by thread %d\n", omp_get_thread_num());
        }
         #pragma omp barrier

          #pragma omp for
        for (i = 0; i < n; i++)
            b[i] = a;
    }

    printf("After the parallel region:\n");
    for (i = 0; i < n; i++)
        printf("b[%d] = %d\n", i, b[i]);
}

int main() {
     
    test_master();
}
/*
Master construct is executed by thread 0
After the parallel region:
b[0] = 10
b[1] = 10
b[2] = 10
b[3] = 10
b[4] = 10
*/

一些其他指令

flush

flush指令主要用于处理内存一致性问题. 每个处理器(processor)都有自己的本地(local)存储单元:寄存器和缓存, 当一个线程更新了共享变量之后, 新的值会首先存储到寄存器中, 然后更新到本地缓存中. 这些更新并非立刻就可以被其他线程得知, 因此在其它处理器中运行的线程不能访问这些存储单元. 如果一个线程不知道这些更新而使用共享变量的旧值进行运算, 就可能会得到错误的结果.
通过使用flush指令, 可以保证线程读取到的共享变量的最新值. 下面是语法形式:

#pragma omp flush[(list)]

list指定需要flush的共享变量, 如果不指定list, 将flush作用于所有的共享变量. 在下面的几个位置已经隐式的添加了不指定list的flush指令.

所有隐式和显式的路障(barrier)
Entry to and exit from critical regions
Entry to and exit from lock routines

threadprivate

threadprivate作用于全局变量, 用来指定该全局变量被各个线程各自复制一份私有的拷贝, 即各个线程具有各自私有、线程范围内的全局对象, 语法形式如下:

#pragma omp threadprivate(list)

其与private不同的时, threadprivate变量是存储在heap或者Thread local storage当中, 可以跨并行域访问, 而private绝大多数情况是存储在stack中, 只在当前并行域中访问, 下面是一个使用示例:

#include 
#include 
using namespace std;


void test_threadprivate() {
     
    int a;
    cout << omp_get_thread_num() << ": " << &a << endl;
    #pragma omp parallel num_threads(8)
    {
     
        int b;
        #pragma omp critical
        cout << omp_get_thread_num() << " : " << &a << " " << &b << endl;
    }
}


int main() {
     
    test_threadprivate();
}
/*
0: 0000007B7F0FFC04
0 : 0000007B7F0FFC04 0000007B7F0FF924
3 : 0000007B7F0FFC04 0000007B7F5FFC14
4 : 0000007B7F0FFC04 0000007B7F6FF954
2 : 0000007B7F0FFC04 0000007B7F4FFA04
1 : 0000007B7F0FFC04 0000007B7F1FF784
6 : 0000007B7F0FFC04 0000007B7F8FFC94
7 : 0000007B7F0FFC04 0000007B7F9FFAB4
5 : 0000007B7F0FFC04 0000007B7F7FFA64
*/

要被8个线程执行8遍，变量a是线程之间共享的，变量b是每个线程都有一个(在线程自己的栈空间).
怎么区分哪些变量是共享的，哪些是私有的呢。在parallel region内定义的变量（非堆分配）当然是私有的。没有特别用clause指定的（上面代码就是这样），在parallel region前（parallel region后的不可见，这点和纯C++相同）定义的变量是共享的，在堆（用new或malloc函数分配的）上分配的变量是共享的(即使是在多个线程中使用new或malloc, 当然指向这块堆内存的指针可能是私有的), for directive作用的C++ for的循环变量不管在哪里定义都是私有的.
回到threadprivate directive，看例子：

#include 
#include 
using namespace std;

int a;
#pragma omp threadprivate(a)
void test_threadprivate() {
     
    cout << omp_get_thread_num() << ": " << &a << endl;
    #pragma omp parallel num_threads(8)
    {
     
        int b;
        #pragma omp critical
        cout << omp_get_thread_num() << " : " << &a << " " << &b << endl;
    }
}

int main() {
     
    test_threadprivate();
}
/*
0: 000002A334B03BF4
0 : 000002A334B03BF4 000000AE3A13F364
2 : 000002A334B17AA4 000000AE3A7FFB14
1 : 000002A334B17CC4 000000AE3A4FF7F4
4 : 000002A334B17EE4 000000AE3A9FF5D4
3 : 000002A334B1A494 000000AE3A8FF834
5 : 000002A334B1DEC4 000000AE3AAFFA14
6 : 000002A334B1FCB4 000000AE3ABFF5E4
7 : 000002A334B1FA94 000000AE3ACFF734
*/

下面另外一个示例

int counter;
#pragma omp threadprivate(counter)

void test_threadprivate() {
     
    #pragma omp parallel num_threads(3)
    {
     
        counter = omp_get_thread_num();
        printf("1: thread %d : counter is %d\n", omp_get_thread_num(), counter);
    }

    printf("\n");
     #pragma omp parallel num_threads(3)
    {
     
        printf("2: thread %d : counter is %d\n", omp_get_thread_num(), counter);
    }
}

int main() {
     
    test_threadprivate();
}

/*
1: thread 0 : counter is 0
1: thread 2 : counter is 2
1: thread 1 : counter is 1

2: thread 0 : counter is 0
2: thread 2 : counter is 2
2: thread 1 : counter is 1
*/

从输出结果我们可以看到, 在第二个并行域中, counter保存了在第一个并行域中的值. 如果要使两个并行域之间可以共享threadprivate变量的值, 需要满足以下几个条件:
任意一个并行域都不能嵌套在其他并行域中
执行两个并行域的线程数量要相同
执行两个并行域时的线程亲和度策略要相同
在进入并行域之前dyn-var变量的值必须为false(0).

if

用来控制并行域是串行执行还是并行执行, 只能作用于paralle指令, 下面是其语法形式:

#pragma omp parallel if(scalar-logical-expression)

如果if的判断条件为true, 则并行执行, 否则串行执行, 下面是一个使用示例


#include 
#include 
#include 
#include 
#include 
using namespace std;

void test_if() {
     
    int n = 1, tid;
    printf("n = 1\n");
    #pragma omp parallel if(n>5) default(none) private(tid) shared(n)
    {
     
        tid = omp_get_thread_num();
        printf("thread %d is running\n", tid);
    }
    
    printf("\n");
    n = 10;
    printf("n = 10\n");

    #pragma omp parallel if(n>5) default(none) private(tid) shared(n)
    {
     
        tid = omp_get_thread_num();
        printf("thread %d is running\n", tid);
    }
}

int main() {
     
    test_if();
}
/*
n = 1
thread 0 is running

n = 10
thread 0 is running
thread 4 is running
thread 2 is running
thread 6 is running
thread 7 is running
thread 5 is running
thread 1 is running
thread 3 is running
*/

reduction

如果利用循环, 将某项计算的所有结果进行求和(或者减、乘等其他操作)得出一个数值, 这在并行计算中十分常见, 通常将其称为规约. OpenMP提供了reduction子句由于规约操作, 其语法形式为

reduction(operator:list)

下面是一个实例

#include 
#include 
#include 
#include 
#include 
using namespace std;


void test_reduction() {
     
    int sum = 0;
    int i;
    int n = 100;
    int a[100];
    for (i = 0; i < n; i++) {
     
        a[i] = i;
    }

    #pragma omp parallel for default(none) private(i) shared(a,n) reduction(+:sum)
    for (i = 0; i < n; i++) {
     
        sum += a[i];
    }

    printf("sum is %d\n", sum);
}

int main() {
     
    test_reduction();
}
/*
sum is 4950
*/

使用规约子句之后, 无需再对sum进行保护, 下面是reduction支持的操作符以及变量的初值

copyin

将主线程中threadprivate变量的值复制到执行并行域的各个线程的threadprivate变量中, 作为各线程中threadprivate变量的初始值. 作用于parallel指令, 下面是一个使用示例:

#include 
#include 
#include 
#include 
#include 
using namespace std;


int counter = 10;
#pragma omp threadprivate(counter)

void test_copyin() {
     

    printf("counter is %d\n", counter);
     #pragma omp parallel copyin(counter) 
    {
     
        counter = omp_get_thread_num() + counter + 1;
        printf(" thread %d : counter is %d\n", omp_get_thread_num(), counter);
    }
    printf("counter is %d\n", counter);
}


int main() {
     
    test_copyin();
}

/*
counter is 10
 thread 4 : counter is 15
 thread 5 : counter is 16
 thread 7 : counter is 18
 thread 3 : counter is 14
 thread 1 : counter is 12
 thread 6 : counter is 17
 thread 2 : counter is 13
 thread 0 : counter is 11
counter is 11
*/

copyprivate：配合single指令，将指定线程的专有变量广播到并行域内其他线程的同名变量中；
copyin n：用来指定一个threadprivate类型的变量需要用主线程同名变量进行初始化；

copyprivate

将一个线程私有变量的值广播到执行同一并行域的其他线程. 只能作用于single指令, 下面是一个使用示例:

#include 
#include 
#include 
#include 
#include 
using namespace std;


int counter = 10;
#pragma omp threadprivate(counter)

void test_copyprivate() {
     
    int i;
    #pragma omp parallel private(i)
    {
     
        #pragma omp single copyprivate(i, counter) 
        {
     
            i = 50;
            counter = 100;
            printf("thread %d execute single\n", omp_get_thread_num());
        }
        printf("thread %d: i is %d and counter is %d\n", omp_get_thread_num(), i, counter);

    }
}

int main() {
     
    test_copyprivate();
}
/*
thread 3 execute single
thread 5: i is 50 and counter is 100
thread 3: i is 50 and counter is 100
thread 6: i is 50 and counter is 100
thread 4: i is 50 and counter is 100
thread 7: i is 50 and counter is 100
thread 0: i is 50 and counter is 100
thread 1: i is 50 and counter is 100
thread 2: i is 50 and counter is 100
*/

2. API函数

除上述编译制导指令之外，OpenMP还提供了一组API函数用于控制并发线程的某些行为，下面是一些常用的OpenMP API函数以及说明：

// 设置并行线程数
_OMPIMP void _OMPAPI omp_set_num_threads(int _Num_threads);
 
// 获取当前并行线程数
_OMPIMP int  _OMPAPI omp_get_num_threads(void);
 
// 获取当前系统最大可并行运行的线程数
_OMPIMP int  _OMPAPI omp_get_max_threads(void);
 
// 获取当前运行线程的ID，注意和操作系统中的线程ID不同
_OMPIMP int  _OMPAPI omp_get_thread_num(void);
 
// 获取当前系统中处理器数目
_OMPIMP int  _OMPAPI omp_get_num_procs(void);
 
_OMPIMP void _OMPAPI omp_set_dynamic(int _Dynamic_threads);
 
_OMPIMP int  _OMPAPI omp_get_dynamic(void);
 
_OMPIMP int  _OMPAPI omp_in_parallel(void);
 
_OMPIMP void _OMPAPI omp_set_nested(int _Nested);
 
_OMPIMP int  _OMPAPI omp_get_nested(void);
 
_OMPIMP void _OMPAPI omp_init_lock(omp_lock_t * _Lock);
 
_OMPIMP void _OMPAPI omp_destroy_lock(omp_lock_t * _Lock);
 
_OMPIMP void _OMPAPI omp_set_lock(omp_lock_t * _Lock);
 
_OMPIMP void _OMPAPI omp_unset_lock(omp_lock_t * _Lock);
 
_OMPIMP int  _OMPAPI omp_test_lock(omp_lock_t * _Lock);
 
_OMPIMP void _OMPAPI omp_init_nest_lock(omp_nest_lock_t * _Lock);
 
_OMPIMP void _OMPAPI omp_destroy_nest_lock(omp_nest_lock_t * _Lock);
 
_OMPIMP void _OMPAPI omp_set_nest_lock(omp_nest_lock_t * _Lock);
 
_OMPIMP void _OMPAPI omp_unset_nest_lock(omp_nest_lock_t * _Lock);
 
_OMPIMP int  _OMPAPI omp_test_nest_lock(omp_nest_lock_t * _Lock);
 
_OMPIMP double _OMPAPI omp_get_wtime(void);
 
_OMPIMP double _OMPAPI omp_get_wtick(void);

使用上述函数的一些例子

#include 
#include 

using namespace std;


void TestAPIs()
{
        // 获取当前并行线程数
    cout << "Num of Procs: " << omp_get_num_procs() << endl;
    // 获取当前系统最大可并行运行的线程数
    cout << "Max Threads: " << omp_get_max_threads() << endl;
    cout << "Set Num of Threads = 2 " << endl;
    // 设置并行线程数
    omp_set_num_threads(2);

#pragma omp parallel
    cout << "Get Thread Num: " << omp_get_thread_num() << endl;

  // 设置并行线程数
    omp_set_num_threads(omp_get_num_procs() - 1);
#pragma omp parallel 
    {
     
        cout << "OPENMP\n";
    }
}

int main()
{
     
    TestAPIs();
}

3.环境变量

OpenMP提供了一些环境变量，用来在运行时对并行代码的执行进行控制。这些环境变量可以控制：1）设置线程数；2）指定循环如何划分；3）将线程绑定到处理器；4）启用/禁用嵌套并行，设置最大的嵌套并行级别；5）启用/禁用动态线程；6）设置线程堆栈大小；7）设置线程等待策略。常用的环境变量：

OMP_SCHEDULE ：用于for循环并行化后的调度，它的值就是循环调度的类型；
OMP_NUM_THREADS：用于设置并行域中的线程数；
OMP_DYNAMIC：通过设定变量值，来确定是否允许动态设定并行域内的线程数；
OMP_NESTED：指出是否可以并行嵌套。

你可能感兴趣的:(OpenMP,c++,openmp,多线程)

『 C 』 `##` 在 C 语言宏定义中的作用解析锐策 C c语言
文章目录`##`运算符的基本概念可变参数宏与`##`的应用可变参数宏简介`##`处理可变参数的两种情况可变参数列表为空可变参数列表不为空示例代码验证在C和C++编程里，宏定义是个很有用的工具。今天咱们就来聊聊##这个预处理器连接运算符在宏定义中的作用，特别是在可变参数宏里的应用。##运算符的基本概念##是预处理器的连接运算符，也叫“令牌粘贴”运算符。它能把两个预处理令牌连在一起，变成一个新的预处理
Android中的C++虚函数机制详解与应用 Mn孟
本文还有配套的精品资源，点击获取简介：在Android系统中，C++作为支持Java层的底层语言，在原生库开发和高性能应用中发挥重要作用。虚函数作为C++面向对象编程的关键特性，允许基类指针调用派生类重写的成员函数实现多态性。本文将详细讨论虚函数在Android中的概念、原理和应用，包括虚函数的声明、重写以及与JNI的交互。同时，将阐述虚函数性能开销以及在Android开发中虚函数的典型应用场景，
简述C++虚函数 ikkkkkkkl c++
1、什么是虚函数在C++编程中，虚函数是实现多态性的关键机制，它为面向对象程序设计带来了极大的灵活性和可扩展性。在类的成员函数声明前加上关键字virtual，即可将该函数定义为虚函数。例如：classAnimal{public:virtualvoidmakeSound(){coutmakeSound();animal2->makeSound();deleteanimal1;deleteanimal
【C++】类、静态static、枚举、重载、多态、继承、重写、虚函数、纯需函数、虚析构函数宝贝儿好 C++c++开发语言改行学it visualstudio 青少年编程
五、类面向对象编程是一个巨大的编程范式。C++中的类class就是基于对象的程序设计。我们可以用类来定义一个新的类型，这些新类型就可以像内置类型一样使用。内置类型颗粒度太太小，现实需求又非常复杂，这就需要我们把内置类型适度的进行拼搭，拼搭成一个能描述现实问题的大粒度颗粒，来解决现实问题。C++的数据类型有：常量、变量、布尔类型、指针类型、字符串类型、引用类型、枚举类型、数组类型、vector容器类
在Ubuntu 22.04 LTS下编译llama.cpp（基于OpenBLAS） m0_70960708 笔记 ubuntu llama linux
步骤如下：a.安装make、C++、pkg-config：sudoaptinstallmakeg++pkg-configb.安装openblas-lapack：wgethttps://github.com/xianyi/OpenBLAS/releases/download/v0.3.27/OpenBLAS-0.3.27.tar.gztarzxvfOpenBLAS-0.3.27.tar.gzsudo
【C++】运算符大全 programming expert 开发语言 c++运算符
目录1.算术运算符(ArithmeticOperators)‌加法(+)‌:两个操作数相加。‌减法(-)‌:从第一个操作数中减去第二个操作数。‌乘法(*)‌:两个操作数相乘。‌除法(/)‌:第一个操作数除以第二个操作数。‌取模(%)‌:两个操作数相除后的余数。‌自增(++)‌:操作数的值增加1。‌自减(--)‌:操作数的值减少1。2.关系运算符(RelationalOperators)‌等于(==
基于celery的任务管理，本文主要是处理自己的算法，暴露API，管理任务并发，多线程 MarcusPlus python python celery flask
基于celery的任务管理，本文主要是处理自己的算法，暴露API，管理任务并发，多线程基本需求描述潜在问题主函数配置文件基本需求描述暴露API，供其他人调用算法。方便查看任务状态。因为服务器资源有限，控制并发数量。多任务并发加快处理速度。这里需要说明的是python本身是可以做多线程的，但是（1）直接使用threading，GIL的存在导致并不是多线程处理，实际上并发还是一个CPU核在处理；（2）
【8. C++ 存储类详解：理解生命周期、作用域与优化技巧】涛ing C++基础 c++java 开发语言 c语言 ubuntu linux vim
本章目录:前言一、什么是存储类？二、C++存储类详解1.`auto`存储类使用场景：注意事项：2.`register`存储类（已废弃）使用示例：备注：3.`static`存储类使用场景：示例：备注：4.`extern`存储类使用场景：示例：备注：5.`mutable`存储类（C++11）使用场景：示例：备注：6.`thread_local`存储类（C++11）使用场景：示例：备注：三、总结前言在C
编程常用哪些语言 hnlixinhua 开发语言
1.JavaJava是一门面向对象编程语言，吸收了C++语言的各种优点，摒弃了C++里难以理解的多继承、指针等概念，因此Java语言具有功能强大和简单易用两个特征。Java语言作为静态面向对象编程语言的代表，极好地实现了面向对象理论，允许程序员以优雅的思维方式进行复杂的编程2.C由于C它有良好的可移植性，所以至今仍被Microsoft，Oracle和Apple在内的多个科技巨头公司沿用，它几乎可以
【Java，C++，Web, Python】等开发/软件岗位 huaxinjiayou java
sql199selectem.last_name,em.first_name,de.dept_nofromesql201selectemp_no,count(emp_no)ascntfromsalariesgro还得是大公司啊，见世面了真的见世面了。。太太太太太太太太幸运了，真的收获满满，开心到飞起，赶紧发帖留念！再次感慨找工作真的要题解|#判断元素是否出现##includeusingnamesp
指针和动态内存管理 2501_90255623 c++数据结构开发语言
对于小学生而言，C++中的一个超级难点可能是‌指针和动态内存管理‌。这个概念对于初学者来说往往非常难以理解和掌握，因为它涉及到了内存地址、引用、以及手动管理内存分配和释放等高级编程概念。以下是指针和动态内存管理对小学生来说可能难以理解的几个方面：‌指针的概念‌：指针是一个存储内存地址的变量。对于小学生来说，理解“内存地址”这个概念可能就很困难，因为它是一个相对抽象的概念。指针的声明和使用语法（如i
每个程序员‌都应掌握的5种开发语言 2501_90255623 开发语言
一、C/C++：底层与性能的基石‌C和C++是两种紧密相关的编程语言，它们共同构成了许多现代软件系统的底层基础。C语言，作为最早的高级编程语言之一，以其简洁、高效和接近硬件的特性，成为了操作系统、嵌入式系统、驱动程序等底层软件开发的首选。而C++，作为C语言的扩展，引入了面向对象编程、模板等现代语言特性，使得它在保持C语言高性能的同时，也具备了更强的表达能力和可扩展性。学习C/C++，你将深入理解
c++教程之循环结构 hlb20130715 c++算法开发语言
C++循环结构教程在C++编程中，循环结构是控制程序流程的重要组成部分，它允许我们重复执行一段代码多次，直到满足特定条件为止。循环结构是处理重复任务、遍历数据结构（如数组、向量等）以及实现复杂算法的基础。C++提供了几种基本的循环结构，包括for循环、while循环、do-while循环以及基于范围的for循环（C++11及以后版本）。下面，我们将逐一详细介绍这些循环结构。一、for循环for循环
c++11有哪些特性 hlb20130715 c++算法开发语言数据结构
C++11是C++语言的一个重要版本，它在C++03的基础上进行了大量的改进和扩展，引入了众多新特性和改进点。以下是一些C++11的主要特性：1.类型推导示例：autoa=10;//a被推导为int类型doubleb=2.0;autoc=b;//c被推导为double类型1.2.decltype关键字与auto不同，decltype用于在编译时推断表达式的类型，而不是变量的类型。decltype的
Windows图形界面(GUI)-QT-C/C++ - QT Frame 0xCC说逆向 qt c++开发语言 c语言 windows
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录一、概述二、使用场景1.分隔内容区域2.装饰性边框3.自定义控件容器三、常见样式1.框架形状（Shape）2.框架阴影（Shadow）3.线条宽度（LineWidth）4.中线宽度（MidLineWidth）四、属性设置1.设置框架形状2.获取框架形状3.设置框架阴影4.获取框架阴影5.设置线条宽度6.获取线条宽度7.设置中线宽度
Windows图形界面(GUI)-QT-C/C++ - QT MDI Area 0xCC说逆向 windows qt c++开发语言 c语言 java
公开视频->链接点击跳转公开课程博客首页->链接点击跳转博客主页目录一、概述二、使用场景1.多文档编辑器2.多窗口应用程序3.多视图应用程序三、常见样式1.子窗口管理2.布局管理四、属性设置1.添加子窗口2.移除子窗口3.设置活动子窗口4.获取活动子窗口5.获取所有子窗口6.平铺子窗口7.层叠子窗口8.子窗口激活信号一、概述QMdiArea是Qt框架中用于实现多文档界面（MDI，MultipleD
C/C++经典面试题（一）——常考知识点（持续更新） TB81266 C++
文章目录前言1、引用和指针有什么区别？2、explicit（显示）关键字3、inline内联函数4、经典面试题之new和malloc的区别5、static关键字有什么作用6、c++与ｃ区别7、union共同体和struct结构体的区别8、变量的声明和定义有什么区别9、sizeof和strlen的区别10、“标准”的宏MIN11、一个指针可以是volatile吗12、数组a[5]中，a和&a有什么区
C++面试常见题目 qq_42941526 c++
C++面试常见题目c++编译过程自动类型推导auto和decltype重载、重写（覆盖）和隐藏的区别C++构造函数和析构函数能调用虚函数吗volatile关键词运算符重载格式noexecpt函数连续出现两个括号inline和define的作用和区别关于静态函数只能调用静态变量this指针的调用友元friendC++公有继承、保护继承和私有继承的对比C++如何避免内存泄露二进制、八进制、十进制、十六
利用CAS实现无锁访问共享变量 format_push java 开发语言
一般情况不加锁在多线程下访问共享变量会出问题例如：publicclasscas{publicstaticvoidmain(String[]args){Banka=newBank();a.DeclineMoney();}}classBank{intmoney=100;voidDeclineMoney(){for(inti=0;i{while(true){if(money>=1){try{Thread
如何用C++/C语言写一个简单的闹钟程序会编程的土豆 C++实用编程项目 c++c语言 apache
偶然想做个简单的闹钟，作用是在指定时间后响起声音提醒我，于是有了这个小程序。一共做了两个版本。版本1：不使用time.h头文件（简单版）//C++Alarm_Easyv1.0//MadeByCoding_Potato#include#includeusingnamespacestd;//Clock函数模拟闹钟响起voidClock(){for(inti=0;i>flag;for(longlongi
推荐一个开源C++的rpc--rest_rpc fensnote 随笔 rpc c++网络协议
GitHub-qicosmos/rest_rpc:modernC++(C++11),simple,easytouserpcframeworkhttps://github.com/qicosmos/rest_rpc
Xbox：Xbox游戏开发基础_2024-07-19_19-30-54.Tex chenjj4003 游戏开发2 xbox 硬件架构游戏 java 数据库
Xbox：Xbox游戏开发基础Xbox开发环境搭建安装Xbox开发工具在开始Xbox游戏开发之前，首先需要安装Xbox开发工具。这些工具主要包含在VisualStudio中，VisualStudio是微软提供的一款功能强大的集成开发环境(IDE)，支持多种编程语言，包括C++，这是Xbox游戏开发的主要语言。步骤1：下载VisualStudio前往VisualStudio官方网站下载最新版本的Vi
Java 的线程通信机制是怎样的呢？海姐软件测试其他笔记经验分享职场和发展面试
在Java中，线程通信机制主要有以下几种方式：一、共享内存这是最常见的线程通信方式。多个线程可以访问同一个共享对象，通过对这个对象的读写来实现通信。1.使用volatile关键字：•保证变量的可见性，即当一个线程修改了一个volatile变量的值，其他线程能够立即看到这个变化。•例如，在多线程环境下，一个线程负责修改某个标志位，其他线程通过读取这个标志位来决定是否执行特定的操作。2.使用synch
C++ Primer 数组 c-c-developer C++Primer c++数据结构
欢迎阅读我的【C++Primer】专栏专栏简介：本专栏主要面向C++初学者，解释C++的一些基本概念和基础语言特性，涉及C++标准库的用法，面向对象特性，泛型特性高级用法。通过使用标准库中定义的抽象设施，使你更加适应高级程序设计技术。希望对读者有帮助！目录3.5数组定义和初始化内置数组显式初始化数组元素字符数组的特殊性理解复杂的数组声明访问数组元素检查下标的值指针和数组指针也是迭代器指针运算解引用
CPP-存储区域无帧起手 CPP学习开发语言
CPP支持手动开辟和释放内存，所以对于内存的理解非常重要！在C++中，内存存储通常可以大致分为几个区域，这些区域根据存储的数据类型、生命周期和作用域来划分。这些区域主要包括：代码区（CodeSegment/TextSegment）：存储程序执行代码（即机器指令）的内存区域。这部分内存是共享的，只读的，且在程序执行期间不会改变。举例说明：当你编译一个C++程序时，所有的函数定义、控制结构等都会被转换
C++11 多线程编程-小白零基础到手撕线程池晴山ぺ C++c++开发语言
提示：文章文章目录前言一、背景二、2.12.2总结前言前期疑问：本文目标：一、背景来源于b站视频C++11多线程编程-小白零基础到手撕线程池学习来源：https://www.bilibili.com/video/BV1d841117SH/?p=2&spm_id_from=pageDriver&vd_source=1a54eaaaa0e36b9ef70e2dbe59d5b137http://www.
小白零基础--CPP多线程无帧起手 CPP学习 c++算法开发语言
进程进程就是运行中的程序线程=进程中的进程1、C++11Thread线程库基础#include#include#includevoidprintthread(std::stringmsg){std::cout#includevoidfoo(int&x){x+=1;}intmain(){//std::threadt(foo,1);t.join();system("pause");return0;}正
C/C++题目字符数组-单词翻转 Zhang_Charls c++字符串 c算法
描述：输入一个句子（一行），将句子中的每一个单词翻转后输出。输入只有一行，为一个字符串，不超过500500个字符。单词之间以空格隔开。输出翻转每一个单词后的字符串，单词之间的空格需与原文一致。Simple：Input：helloworldOutput：ollehdlrow#includeusingnamespacestd;charch[510];intmain()
OpenCV4.8 开发实战系列专栏之 28 - 图像积分图算法 gloomyfish OpenCV4.8 从入门到工程实战 opencv 计算机视觉深度学习图像处理算法
欢迎大家学习OpenCV4.8开发实战专栏，长期更新，不断分享源码。专栏代码全部基于C++与Python双语演示。进贾老师OpenCV学堂交流群，+V：OpenCVXueTang_Asst本文关键知识点：图像积分图算法积分图像是Crow在1984年首次提出，是为了在多尺度透视投影中提高渲染速度，是一种快速计算图像区域和与平方和的算法。其核心思想是对每个图像建立自己的积分图查找表，在图像积分处理计算
OpenCV4.8 开发实战系列专栏之 27 - 边缘保留滤波算法-均值迁移模糊(mean-shift blur) gloomyfish OpenCV4.8 从入门到工程实战算法均值算法 opencv 图像处理计算机视觉深度学习人工智能
欢迎大家学习OpenCV4.8开发实战专栏，长期更新，不断分享源码。专栏代码全部基于C++与Python双语演示。进贾老师OpenCV学堂交流群，+V：OpenCVXueTang_Asst本文关键知识点：边缘保留滤波算法-均值迁移模糊(mean-shiftblur)均值迁移模糊是图像边缘保留滤波算法中一种，经常用来在对图像进行分水岭分割之前去噪声，可以大幅度提升分水岭分割的效果。均值迁移模糊的主要
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D