skdskd

OpenMP共享内存并行编程详解

http://www.cnblogs.com/liangliangh/p/3565234.html

实验平台：win7， VS2010

1. 介绍

平行计算机可以简单分为共享内存和分布式内存，共享内存就是多个核心共享一个内存，目前的PC就是这类（不管是只有一个多核CPU还是可以插多个CPU，它们都有多个核心和一个内存），一般的大型计算机结合分布式内存和共享内存结构，即每个计算节点内是共享内存，节点间是分布式内存。想要在这些并行计算机上获得较好的性能，进行并行编程是必要条件。目前流行的并行程序设计方法是，分布式内存结构上使用MPI，共享内存结构上使用Pthreads或 OpenMP。我们这里关注的是共享内存并行计算机，因为编辑这篇文章的机器就属于此类型（普通的台式机）。和Pthreads相比OpenMP更简单，对于关注算法、只要求对线程之间关系进行最基本控制（同步，互斥等）的我们来说，OpenMP再适合不过了。

本文对windows上Visual Studio开发环境下的OpenMP并行编程进行简单的探讨。本文参考了wikipedia关于OpenMP条目、OpenMP.org（有 OpenMP Specification）、MSDM上关于OpenMP条目以及教材《MPI与OpenMP并行程序设计（C语言版）》：

http://zh.wikipedia.org/wiki/OpenMP
http://openmp.org/
http://msdn.microsoft.com/en-us/library/tt15eb9t(v=vs.100).aspx
《MPI与OpenMP并行程序设计（C语言版）》第17章，Michael J. Quinn著，陈文光等译，清华大学出版社，2004

注意，OpenMP目前最新版本为4.0.0，而VS2010仅支持OpenMP2.0（2002年版本），所以本文所讲的也是OpenMP2.0，本文注重使用OpenMP获得接近核心数的加速比，所以OpenMP2.0也足够了。

2. 第一个OpenMP程序

step 1：新建控制台程序

step 2：项目属性，所有配置下“配置属性>>C/C++>>语言>>OpenMP支持”修改为是（/openmp），如下图：

step 3：添加如下代码：

 1 #include
 2 #include
 3 int main()
 4 {
 5     std::cout << "parallel begin:\n";
 6     #pragma omp parallel
 7     {
 8         std::cout << omp_get_thread_num();
 9     }
10     std::cout << "\n parallel end.\n";
11     std::cin.get();
12     return 0;
13 }

step 4：运行结果如下图：

可以看到，我的计算机是8核的（严格说是8线程的），这是我们实验室的小型工作站（至多支持24核）。

3. “第一个OpenMP程序”幕后，并行原理

OpenMP由Compiler Directives（编译指导语句）、Run-time Library Functions（库函数）组成，另外还有一些和OpenMP有关的Environment Variables（环境变量）、Data Types（数据类型）以及_OPENMP宏定义。之所以说OpenMP非常简单，是因为，所有这些总共只有50个左右，OpenMP2.0 Specification仅有100余页。第2节的“第一个OpenMP程序”的第6行“#pragma omp parallel”即Compiler Directive，“#pragma omp parallel”下面的语句将被多个线程并行执行（也即被执行不止一遍），第8行的omp_get_thread_num()即Run-time Library Function，omp_get_thread_num()返回当前执行代码所在线程编号。

共享内存计算机上并行程序的基本思路就是使用多线程，从而将可并行负载分配到多个物理计算核心，从而缩短执行时间（同时提高CPU利用率）。在共享内存的并行程序中，标准的并行模式为fork/join式并行，这个基本模型如下图示：

其中，主线程执行算法的顺序部分，当遇到需要进行并行计算式，主线程派生出（创建或者唤醒）一些附加线程。在并行区域内，主线程和这些派生线程协同工作，在并行代码结束时，派生的线程退出或者挂起，同时控制流回到单独的主线程中，称为汇合。对应第2节的“第一个OpenMP程序”，第4行对应程序开始，4-5行对应串行部分，6-9行对应第一个并行块（8个线程），10-13行对应串行部分，13行对应程序结束。

简单来说，OpenMP程序就是在一般程序代码中加入Compiler Directives，这些Compiler Directives指示编译器其后的代码应该如何处理（是多线程执行还是同步什么的）。所以说OpenMP需要编译器的支持。上一小节的step 2即打开编译器的OpenMP支持。和Pthreads不同，OpenMP下程序员只需要设计高层并行结构，创建及调度线程均由编译器自动生成代码完成。

4. Compiler Directives

4.1 一般格式

Compiler Directive的基本格式如下：

#pragma omp directive-name [clause[ [,] clause]...]

其中“[]”表示可选，每个Compiler Directive作用于其后的语句（C++中“{}”括起来部分是一个复合语句）。

directive-name可以为：parallel, for, sections, single, atomic, barrier, critical, flush, master, ordered, threadprivate（共11个，只有前4个有可选的clause）。

clause（子句）相当于是Directive的修饰，定义一些Directive的参数什么的。clause可以为：copyin(variable-list), copyprivate(variable-list), default(shared | none), firstprivate(variable-list), if(expression), lastprivate(variable-list), nowait, num_threads(num), ordered, private(variable-list), reduction(operation: variable-list), schedule(type[,size]), shared(variable-list)（共13个）。

例如“#pragma omp parallel”表示其后语句将被多个线程并行执行，线程个数由系统预设（一般等于逻辑处理器个数，例如i5 4核8线程CPU有8个逻辑处理器），可以在该directive中加入可选的clauses，如“#pragma omp parallel num_threads(4)”仍旧表示其后语句将被多个线程并行执行，但是线程个数为4。

4.2 详细解释

本节的叙述顺序同我的另一篇博文：OpenMP编程总结表，读者可以对照阅读，也可以快速预览OpenMP所有语法。

如果没有特殊说明，程序均在Debug下编译运行。

parallel　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

parallel表示其后语句将被多个线程并行执行，这已经知道了。“#pragma omp parallel”后面的语句（或者，语句块）被称为parallel region。

可以用if clause条件地进行并行化，用num_threads clause覆盖默认线程数：

1 int a = 0;
2 #pragma omp parallel if(a) num_threads(6)
3 {
4     std::cout << omp_get_thread_num();
5 }

int a = 7;
#pragma omp parallel if(a) num_threads(6)
{
    std::cout << omp_get_thread_num();
}

可以看到多个线程的执行顺序是不能保证的。

private, firstprivate, shared, default, reduction, copyin clauses留到threadprivate directive时说。

for　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

第2节的“第一个OpenMP程序”其实不符合我们对并行程序的预期——我们一般并不是要对相同代码在多个线程并行执行，而是，对一个计算量庞大的任务，对其进行划分，让多个线程分别执行计算任务的每一部分，从而达到缩短计算时间的目的。这里的关键是，每个线程执行的计算互不相同（操作的数据不同或者计算任务本身不同），多个线程协作完成所有计算。OpenMP for指示将C++ for循环的多次迭代划分给多个线程（划分指，每个线程执行的迭代互不重复，所有线程的迭代并起来正好是C++ for循环的所有迭代），这里C++ for循环需要一些限制从而能在执行C++ for之前确定循环次数，例如C++ for中不应含有break等。OpenMP for作用于其后的第一层C++ for循环。下面是一个例子：

1 const int size = 1000;
2 int data[size];
3 #pragma omp parallel
4 {
5     #pragma omp for
6     for(int i=0; ii)
7         data[i] = 123;
8 }

默认情况下，上面的代码中，程序执行到“#pragma omp parallel”处会派生出7和线程，加上主线程共8个线程（在我的机器上），C++ for的1000次迭代会被分成连续的8段——0-124次迭代由0号线程计算，125-249次迭代由1号线程计算，以此类推。可能你已经猜到了，具体 C++ for的各次迭代在线程间如何分配可以由clause指示，它就是schedule(type[,size])，后面会具体说。

如果parallel region中只包含一个for directive作用的语句，上面代码就是这种情况，此时可以将parallel和for“缩写”为parallel for，上面代码等价于这样：

1 const int size = 1000;
2 int data[size];
3 #pragma omp parallel for
4 for(int i=0; ii)
5     data[i] = 123;

正确使用for directive有两个条件，第1是C++ for符合特定限制，否则编译器将报告错误，第2是C++ for的各次迭代的执行顺序不影响结果正确性，这是一个逻辑条件。例子如下：

1 #pragma omp parallel num_threads(6)
2 {
3     #pragma omp for
4     for(int i=0; i<1000000; ++i)
5         if(i>999)
6             break;
7 }

编译器报错如下：

error C3010: “break”: 不允许跳出 OpenMP 结构化块

schedule(type[,size])设置C++ for的多次迭代如何在多个线程间划分：

schedule(static, size)将所有迭代按每连续size个为一组，然后将这些组轮转分给各个线程。例如有4个线程，100次迭代，schedule(static, 5)将迭代：0-4, 5-9, 10-14, 15-19, 20-24...依次分给0, 1, 2, 3, 0...号线程。schedule(static)同schedule(static, size_av)，其中size_av等于迭代次数除以线程数，即将迭代分成连续的和线程数相同的等分（或近似等分）。
schedule(dynamic, size)同样分组，然后依次将每组分给目前空闲的线程（故叫动态）。
schedule(guided, size) 把迭代分组，分配给目前空闲的线程，最初组大小为迭代数除以线程数，然后逐渐按指数方式（依次除以2）下降到size。
schedule(runtime)的划分方式由环境变量OMP_SCHEDULE定义。

下面是几个例子，可以先忽略critical directive：

1 #pragma omp parallel num_threads(3)
2 {
3     #pragma omp for
4     for(int i=0; i<9; ++i){
5         #pragma omp critical
6         std::cout << omp_get_thread_num() << i << " ";
7     }
8 }

上面输出说明0号线程执行0-2迭代，1号执行3-5,2号执行6-9，相当于schedule(static, 3)。

1 #pragma omp parallel num_threads(3)
2 {
3     #pragma omp for schedule(static, 1)
4     for(int i=0; i<9; ++i){
5         #pragma omp critical 
6         std::cout << omp_get_thread_num() << i << " ";
7     }
8 }

1 #pragma omp parallel num_threads(3)
2 {
3     #pragma omp for schedule(dynamic, 2)
4     for(int i=0; i<9; ++i){
5         #pragma omp critical 
6         std::cout << omp_get_thread_num() << i << " ";
7     }
8 }

ordered clause配合ordered directive使用，请见ordered directive，nowait留到barrier directive时说，private, firstprivate, lastprivate, reduction留到threadprivate directive时说。

sections　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

如果说for directive用作数据并行，那么sections directive用于任务并行，它指示后面的代码块包含将被多个线程并行执行的section块。下面是一个例子：

 1 #pragma omp parallel
 2 {
 3     #pragma omp sections
 4     {
 5         #pragma omp section
 6         std::cout << omp_get_thread_num();
 7         #pragma omp section
 8         std::cout << omp_get_thread_num();
 9     }
10 }

上面代码中2个section块将被2个线程并行执行，多个个section块的第1个“#pragma omp section”可以省略。这里有些问题，执行这段代码是总共会有多少个线程呢，“#pragma omp parallel”没有clause，默认是8个线程（又说的在我的机器上），2个section是被哪2个线程执行是不确定的，当section块多于 8个时，会有一个线程执行不止1个section块。

同样，上面代码可以“缩写”为parallel sections：

1 #pragma omp parallel sections
2 {
3     #pragma omp section
4     std::cout << omp_get_thread_num();
5     #pragma omp section
6     std::cout << omp_get_thread_num();
7 }

nowait clause留到barrier directive时说，private, firstprivate, lastprivate, reduction clauses留到threadprivate directive时说。

single　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

指示代码将仅被一个线程执行，具体是哪个线程不确定，例子如下：

1 #pragma omp parallel num_threads(4)
2 {
3     #pragma omp single
4     std::cout << omp_get_thread_num();
5     std::cout << "-";
6 }

这里0号线程执行了第4 5两行代码，其余三个线程执行了第5行代码。

nowait clause留到barrier directive时说，private, firstprivate, copyprivate clauses留到threadprivate directive时说。

master　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

指示代码将仅被主线程执行，功能类似于single directive，但single directive时具体是哪个线程不确定（有可能是当时闲的那个）。

critical　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

定义一个临界区，保证同一时刻只有一个线程访问临界区。观察如下代码及其结果：

1 #pragma omp parallel num_threads(6)
2 {
3     std::cout << omp_get_thread_num() << omp_get_thread_num();
4 }

5号线程执行第3行代码时被2号线程打断了（并不是每次运行都可能出现打断）。

1 #pragma omp parallel num_threads(6)
2 {
3     #pragma omp critical
4     std::cout << omp_get_thread_num() << omp_get_thread_num();
5 }

这次不管运行多少遍都不会出现某个数字不是连续两个出现，因为在第4行代码被一个线程执行期间，其他线程不能执行（该行代码是临界区）。

barrier　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

定义一个同步，所有线程都执行到该行后，所有线程才继续执行后面的代码，请看例子：

1 #pragma omp parallel num_threads(6)
2 {
3     #pragma omp critical
4     std::cout << omp_get_thread_num() << " ";
5     #pragma omp critical
6     std::cout << omp_get_thread_num()+10 << " ";
7 }

1 #pragma omp parallel num_threads(6)
2 {
3     #pragma omp critical
4     std::cout << omp_get_thread_num() << " ";
5     #pragma omp barrier
6     #pragma omp critical
7     std::cout << omp_get_thread_num()+10 << " ";
8 }

可以看到，这时一位数数字打印完了才开始打印两位数数字，因为，所有线程执行到第5行代码时，都要等待所有线程都执行到第5行，这时所有线程再都继续执行第7行及以后的代码，即所谓同步。

再来说说for, sections, single directives的隐含barrier，以及nowait clause如下示例：

 1 #pragma omp parallel num_threads(6)
 2 {
 3     #pragma omp for
 4     for(int i=0; i<10; ++i){
 5         #pragma omp critical
 6         std::cout << omp_get_thread_num() << " ";
 7     }
 8     // There is an implicit barrier here.
 9     #pragma omp critical
10     std::cout << omp_get_thread_num()+10 << " ";
11 }

 1 #pragma omp parallel num_threads(6)
 2 {
 3     #pragma omp for nowait
 4     for(int i=0; i<10; ++i){
 5         #pragma omp critical
 6         std::cout << omp_get_thread_num() << " ";
 7     }
 8     // The implicit barrier here is disabled by nowait.
 9     #pragma omp critical
10     std::cout << omp_get_thread_num()+10 << " ";
11 }

sections, single directives是类似的。

atomic　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

atomic directive保证变量被原子的更新，即同一时刻只有一个线程再更新该变量（是不是很像critical directive），见例子：

1 int m=0;
2 #pragma omp parallel num_threads(6)
3 {
4     for(int i=0; i<1000000; ++i)
5         ++m;
6 }
7 std::cout << "value should be: " << 1000000*6 << std::endl;
8 std::cout << "value is: "<< m << std::endl;

m实际值比预期要小，因为“++m”的汇编代码不止一条指令，假设三条：load, inc, mov（读RAM到寄存器、加1，写回RAM），有可能线程A执行到inc时，线程B执行了load（线程A inc后的值还没写回），接着线程A mov，线程B inc后再mov，原本应该加2就变成了加1。

使用atomic directive后可以得到正确结果：

1 int m=0;
2 #pragma omp parallel num_threads(6)
3 {
4     for(int i=0; i<1000000; ++i)
5         #pragma omp atomic
6         ++m;
7 }
8 std::cout << "value should be: " << 1000000*6 << std::endl;
9 std::cout << "value is: "<< m << std::endl;

那用critical directive行不行呢：

1 int m=0;
2 #pragma omp parallel num_threads(6)
3 {
4     for(int i=0; i<1000000; ++i)
5         #pragma omp critical
6         ++m;
7 }
8 std::cout << "value should be: " << 1000000*6 << std::endl;
9 std::cout << "value is: "<< m << std::endl;

差别为何呢，显然是效率啦，我们做个定量分析：

 1 #pragma omp parallel num_threads(6)
 2 {
 3     for(int i=0; i<1000000; ++i) ;
 4 }
 5 int m;
 6 double t, t2;
 7 m = 0;
 8 t = omp_get_wtime();
 9 #pragma omp parallel num_threads(6)
10 {
11     for(int i=0; i<1000000; ++i)
12         ++m;
13 }
14 t2 = omp_get_wtime();
15 std::cout << "value should be: " << 1000000*6 << std::endl;
16 std::cout << "value is: "<< m << std::endl;
17 std::cout << "time(S): " << t2-t << std::endl;
18 m = 0;
19 t = omp_get_wtime();
20 #pragma omp parallel num_threads(6)
21 {
22     for(int i=0; i<1000000; ++i)
23         #pragma omp critical
24         ++m;
25 }
26 t2 = omp_get_wtime();
27 std::cout << "value should be: " << 1000000*6 << std::endl;
28 std::cout << "value is: "<< m << std::endl;
29 std::cout << "time of critical(S): " << t2-t << std::endl;
30 m = 0;
31 t = omp_get_wtime();
32 #pragma omp parallel num_threads(6)
33 {
34     for(int i=0; i<1000000; ++i)
35         #pragma omp atomic
36         ++m;
37 }
38 t2 = omp_get_wtime();
39 std::cout << "value should be: " << 1000000*6 << std::endl;
40 std::cout << "value is: "<< m << std::endl;
41 std::cout << "time of atomic(S): " << t2-t << std::endl;

按照惯例，需要列出机器配置：Intel Xeon Processor E5-2637 v2 (4核8线程 15M Cache, 3.50 GHz)，16GB RAM。上面代码需要在Release下编译运行以获得更为真实的运行时间（实际部署的程序不可能是Debug版本的），第一个parallel directive的用意是跳过潜在的创建线程的步骤，让下面三个parallel directives有相同的环境，以增加可比性。从结果可以看出，没有atomic clause或critical clause时运行时间短了很多，可见正确性是用性能置换而来的。不出所料，“大材小用”的critical clause运行时间比atomic clause要长很多。

flush　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

指示所有线程对所有共享对象具有相同的内存视图（view of memory），该directive指示将对变量的更新直接写回内存（有时候给变量赋值可能只改变了寄存器，后来才才写回内存，这是编译器优化的结果）。这不好理解，看例子，为了让编译器尽情的优化代码，需要在Release下编译运行如下代码：

 1 int data, flag=0;
 2 #pragma omp parallel sections num_threads(2) shared(data, flag)
 3 {
 4     #pragma omp section // thread 0
 5     {
 6         #pragma omp critical
 7         std::cout << "thread:" << omp_get_thread_num() << std::endl;
 8         for(int i=0; i<10000; ++i)
 9             ++data;
10         flag = 1;
11     }
12     #pragma omp section // thread 1
13     {
14         while(!flag) ;
15         #pragma omp critical
16         std::cout << "thread:" << omp_get_thread_num() << std::endl;
17         -- data;
18         std::cout << data << std::endl;
19     }
20 }

程序进入了死循环…… 我们的初衷是，用flag来做手动同步，线程0修改data的值，修改好了置flag，线程1反复测试flag检查线程0有没有修改完data，线程1接着再修改data并打印结果。这里进入死循环的可能原因是，线程1反复测试的flag只是读到寄存器中的值，因为线程1认为，只有自己在访问flag（甚至以为只有自己这1个线程），在自己没有修改内存之前不需要重新去读flag的值到寄存器。用flush directive修改后：

 1 int data=0, flag=0;
 2 #pragma omp parallel sections num_threads(2) shared(data, flag)
 3 {
 4     #pragma omp section // thread 0
 5     {
 6         #pragma omp critical
 7         std::cout << "thread:" << omp_get_thread_num() << std::endl;
 8         for(int i=0; i<10000; ++i)
 9             ++data;
10         #pragma omp flush(data)
11         flag = 1;
12         #pragma omp flush(flag)
13     }
14     #pragma omp section // thread 1
15     {
16         while(!flag){
17             #pragma omp flush(flag)
18         }
19         #pragma omp critical
20         std::cout << "thread:" << omp_get_thread_num() << std::endl;
21         #pragma omp flush(data)
22         -- data;
23         std::cout << data << std::endl;
24     }
25 }

这回结果对了，解释一下，第10行代码告诉编译器，确保data的新值已经写回内存，第17行代码说，重新从内存读flag的值。

ordered　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

使用在有ordered clause的for directive（或parallel for）中，确保代码将被按迭代次序执行（像串行程序一样），例子：

 1 #pragma omp parallel num_threads(8)
 2 {
 3     #pragma omp for ordered
 4     for(int i=0; i<10; ++i){
 5         #pragma omp critical
 6             std::cout << i << " ";
 7         #pragma omp ordered
 8         {
 9             #pragma omp critical
10                 std::cout << "-" << i << " ";
11         }
12     }
13 }

只看前面有"-"的数字，是不是按顺序的，而没有"-"的数字则没有顺序。值得强调的是for directive的ordered clause只是配合ordered directive使用，而不是让迭代有序执行的意思，后者的代码是这样的：

1 #pragma omp for ordered
2 for(int i=0; i<10; ++i)
3     #pragma omp ordered{
4     ; // all the C++ for code
5 }

threadprivate　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

将全局或静态变量声明为线程私有的。为理解线程共享和私有变量，看如下代码：

1 int a;
2 std::cout << omp_get_thread_num() << ": " << &a << std::endl;
3 #pragma omp parallel num_threads(8)
4 {
5     int b;
6     #pragma omp critical
7     std::cout << omp_get_thread_num() << ": " << &a << "  " << &b << std::endl;
8 }

记住第3-7行代码要被8个线程执行8遍，变量a是线程之间共享的，变量b是每个线程都有一个（在线程自己的栈空间）。

怎么区分哪些变量是共享的，哪些是私有的呢。在parallel region内定义的变量（非堆分配）当然是私有的。没有特别用clause指定的（上面代码就是这样），在parallel region前（parallel region后的不可见，这点和纯C++相同）定义的变量是共享的，在堆（用new或malloc函数分配的）上分配的变量是共享的（即使是在多个线程中使用new或malloc，当然指向这块堆内存的指针可能是私有的），for directive作用的C++ for的循环变量不管在哪里定义都是私有的。

好了，回到threadprivate directive，看例子：

 1 #include
 2 #include
 3 int a;
 4 #pragma omp threadprivate(a)
 5 int main()
 6 {
 7     std::cout << omp_get_thread_num() << ": " << &a << std::endl;
 8     #pragma omp parallel num_threads(8)
 9     {
10         int b;
11         #pragma omp critical
12         std::cout << omp_get_thread_num() << ": " << &a << "  " << &b << std::endl;
13     }
14     std::cin.get();
15     return 0;
16 }

下面是最后几个没有讲的clauses：private, firstprivate, lastprivate, shared, default, reduction, copyin, copyprivate clauses，先看private clause：

1 int a = 0;
2 std::cout << omp_get_thread_num() << ": " << &a << std::endl;
3 #pragma omp parallel num_threads(8) private(a)
4 {
5     #pragma omp critical
6     std::cout << omp_get_thread_num() << ": *" << &a << "  " << a << std::endl;
7 }

private clause将变量a由默认线程共享变为线程私有的，每个线程会调用默认构造函数生成一个变量a的副本（当然这里int没有构造函数）。

firstprivate clause和private clause的区别是，会用共享版本变量a来初始化。lastprivate clause在private基础上，将执行最后一次迭代（for）或最后一个section块（sections）的线程的私有副本拷贝到共享变量。shared clause和private clause相对，将变量声明为共享的。如下例子，其中的shared clause可以省略：

 1 int a=10, b=11, c=12, d=13;
 2 std::cout << "abcd's values: " << a << " " << b << " " << c << " " << d << std::endl;
 3 #pragma omp parallel for num_threads(8) \
 4     firstprivate(a) lastprivate(b) firstprivate(c) lastprivate(c) shared(d)
 5 for(int i=0; i<8; ++i){
 6     #pragma omp critical
 7     std::cout << "thread " << omp_get_thread_num() << " acd's values: "
 8         << a << " " << c << " " << d << std::endl;
 9     a = b = c = d = omp_get_thread_num();
10 }
11 std::cout << "abcd's values: " << a << " " << b << " " << c << " " << d << std::endl;

每个线程都对a,b,c,d的值进行了修改。因为d是共享的，所以每个线程打印d前可能被其他线程修改了。parallel region结束，a的共享版本不变，b,c由于被lastprivate clause声明了，所以执行最后一次迭代的那个线程用自己的私有b,c更新了共享版本的b,c，共享版本d的值取决于那个线程最后更新d。

default(shared|none)：参数shared同于将所有变量用share clause定义，参数none指示对没有用private, shared, reduction, firstprivate, lastprivate clause定义的变量报错。

reduction clause用于归约，如下是一个并行求和的例子：

 1 int sum=0;
 2 std::cout << omp_get_thread_num() << ":" << &sum << std::endl << std::endl;
 3 #pragma omp parallel num_threads(8) reduction(+:sum)
 4 {
 5     #pragma omp critical
 6     std::cout << omp_get_thread_num() << ":" << &sum << std::endl;
 7     #pragma omp for
 8     for(int i=1; i<=10000; ++i){
 9         sum += i;
10     }
11 }
12 std::cout << "sum's valuse: " << sum << std::endl;

可以看到变量sum在parallel region中是线程私有的，每个线程用自己的sum求一部分和，最后将所有线程的私有sum加起来赋值给共享版本的sum。除了“+”归约，/, |, &&等都可以作为归约操作的算法。

copyin clause让threadprivate声明的变量的值和主线程的值相同，如下例子：

 1 #include
 2 #include
 3 int a;
 4 #pragma omp threadprivate(a)
 5 int main()
 6 {
 7     a = 99;
 8     std::cout << omp_get_thread_num() << ": " << &a << std::endl << std::endl;
 9     #pragma omp parallel num_threads(8) copyin(a)
10     {
11         #pragma omp critical
12         std::cout << omp_get_thread_num() << ": *" << &a << "  " << a << std::endl;
13     }
14     std::cin.get();
15     return 0;
16 }

如果第9行代码修改为去掉copyin clause，结果如下：

copyprivate clause让不同线程中的私有变量的值在所有线程中共享，例子：

1 int a = 0;
2 #pragma omp parallel num_threads(8) firstprivate(a)
3 {
4     #pragma omp single copyprivate(a)
5     a = omp_get_thread_num()+10;
6     #pragma omp critical
7     std::cout << omp_get_thread_num() << ": *" << &a << "  " << a << std::endl;
8 }

能写在copyprivate里的变量必须是线程私有的，变量a符合这个条件，从上面结果可以看出，single directive的代码是被第4号线程执行的，虽然第4号线程赋值的a只是这个线程私有的，但是该新值将被广播到其他线程的a，这就造成了上面的结果。

如果去掉copyprivate clause，结果变为：

这次single directive的代码是被第0号线程执行的。

呼，终于说完了，未尽事宜，见另一篇文章：OpenMP共享内存并行编程总结表。

6. 加速比

加速比即同一程序串行执行时间除以并行执行时间，即并行化之后比串行的性能提高倍数。理论上，加速比受这些因素影响：程序可并行部分占比、线程数、负载是否均衡（可以查查Amdahl定律），另外，由于实际执行时并行程序可能存在的总线冲突，使得内存访问称为瓶颈（还有Cache命中率的问题），实际加速比一般低于理论加速比。

为了看看加速比随线程数增加的变化情况，编写了如下代码，需要在Release下编译运行代码：

 1 #include
 2 #include
 3 int main(int arc, char* arg[])
 4 {
 5     const int size = 1000, times = 10000;
 6     long long int data[size], dataValue=0;
 7     for(int j=1; j<=times; ++j)
 8         dataValue += j;
 9  
10     #pragma omp parallel num_threads(16)
11         for(int i=0; i<1000000; ++i) ;
12  
13     bool wrong; double t, tsigle;
14     for(int m=1; m<=16; ++m){
15         wrong = false;
16         t = omp_get_wtime();
17         for(int n=0; n<100; ++n){
18             #pragma omp parallel for num_threads(m)
19             for(int i=0; ii){
20                 data[i] = 0;
21                 for(int j=1; j<=times; ++j)
22                     data[i] += j;
23                 if(data[i] != dataValue)
24                     wrong = true;
25             }
26         }
27         t = omp_get_wtime()-t;
28         if(m==1) tsigle=t;
29         std::cout << "num_threads(" << m << ") rumtime: " << t << " s.\n";
30         std::cout << "wrong=" << wrong << "\tspeedup: " << tsigle/t << "\tefficiency: " << tsigle/t/m << "\n\n";
31     }
32  
33     std::cin.get();
34     return 0;
35 }

可以看到，由于我们的程序是在操作系统层面上运行，而非直接在硬件上运行，上面的测试结果出现了看似不可思议的结果——效率竟然有时能大于1！最好的加速比出现在num_threads(8)时，为7.4左右，已经很接近物理核心数8了，充分利用多核原来如此简单。

你可能感兴趣的:(openmp)

Visual Studio（VS）中使用OpenMP 我叫柳云烟 c++visual studio 算法
一、OpenMP简介OpenMP是由OpenMPArchitectureReviewBoard牵头提出的，并已被广泛接受，用于共享内存并行系统的多处理器程序设计的一套指导性编译处理方案。它支持的编程语言包括C、C++和Fortran，支持的编译器包括SunCompiler、GNUCompiler和IntelCompiler等。二、VS中启用OpenMP项目配置：打开你的VS项目，找到“项目属性”。
windows C++-并行编程-将使用缩减变量的 OpenMP 循环转换为使用并发运行时 sului c++开发语言
此示例介绍如何将使用reduction子句的OpenMPparallelforloop转换为使用并发运行时。OpenMPreduction子句允许指定一个或多个线程专用变量，这些变量受并行区域末尾的缩减操作的约束。OpenMP预定义一组缩减运算符。每个减量变量必须是标量（例如int、long和float）。OpenMP还定义了一些限制，说明如何在并行区域中使用缩减变量。并行模式库(PPL)提供co
Python，pip安装模块提示模块无法卸载导致安装失败，which files belong to it which would lead to only a partial uninstall. 飞天小女警出击 python pip 开发语言
问题描述：pip安装模块的时候，模块无法安装成功，提示有模块无法卸载这次是tbb模块无法卸载，之前遇到过wrapt、setuptools、request、反正同样的报错无论什么报错，都可以通过这个方案解决Installingcollectedpackages:tbb,intel-openmp,typing-extensions,mkl,torchAttemptinguninstall:tbbFou
OMP: Error #15问题解决方法 WD-ss python
报错信息OMP:Error#15:Initializinglibomp140.x86_64.dll,butfoundlibiomp5md.dllalreadyinitialized.OMP:HintThismeansthatmultiplecopiesoftheOpenMPruntimehavebeenlinkedintotheprogram.Thatisdangerous,sinceitcand
多机多卡运行nccl-tests和channel获取 Pretend ^^ #NCCL NCCL 分布式 mpi 深度学习 ubuntu 网络大模型
nccl-tests环境1.安装nccl2.安装openmpi3.单机测试4.多机测试mpirun多机多进程多节点运行nccl-testschannel获取环境Ubuntu22.04.3LTS(GNU/Linux5.15.0-91-genericx86_64)cuda11.8+cudnn8nccl2.15.1NVIDIAGeForceRTX4090*21.安装nccl#查看cuda版本nvcc-V
并行计算工具 MPI 简单教程疯狂的泰码君 MPI 并行计算 MPI
UsingMPIwithC并行程序使用户能够充分利用超级计算集群的多节点结构。消息传递接口(MPI)是一种标准，用于允许集群上的多个不同处理器相互通信。在本教程中，我们将使用英特尔C++编译器、GCC、IntelMPI和OpenMPI用C++创建多处理器“helloworld”程序。本教程假设用户具有Linux终端和C++经验。Setupand“Hello,World”这应该为您的环境准备好编译和
国外现代并行计算课程CMU-15-418/15-618: Parallel Computer Architecture and Programming wwxy261 算法
这是与计算物理最相关的CS课程，计算物理方向很容易吃透作为项目写到简历上这部分主要包括多核计算OpenMPSIMD集群计算MPIGPU计算CUDA分布式计算MapReduceSpark互联网主要重视分布式计算，科学研究主要在多核和MPI，但是科学研究很少研究底层，只管应用。GPU在算法工程师领域用得比较多。18645(15spring)HowtoWriteFastCodeECE版的parallel
openmpi运行时出现error while loading shared libraries: libimf.so: cannot open shared object file: odin_linux
使用openmpi，通过intel编译器编译，使用mpirun时出现这个问题：errorwhileloadingsharedlibraries:libimf.so:cannotopensharedobjectfile:出现这个问题说明intel的库文件路径没有配置好，所以考虑在~/.bashrc文件中添加：exportLD_LIBRARY_PATH="/opt/intel/compilers_an
CUDA Cpp正电子发射断层扫描仪校准和图像重建—蒙特卡洛3D伊辛模型亚图跨际数学 C/C++计算 CUDA c++蒙特卡洛并行计算
要点GPU对比CPU计算正弦和：使用单CPU、使用OpenMP库和CUDACUDA并行计算：3D网格运行内核：线程块，线程线性处理3D数组，并行归约，共享内存，矩阵乘法/平铺矩阵乘法，基本线性代数子程序平铺分区，矢量加载，warp级内在函数和子warp，线程发散和同步，联合组使用2D和3D模板，迭代求解偏微分方程和图像处理使用GPU纹理硬件执行快速插值，图像配准蒙特卡洛模拟3D伊辛模型CUDA流C
Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践(三) 沉木渡香 OpenCV学习笔记 opencv c++学习 arm开发
接上文，本章尝试在RV1106上使用TBB。依然是一言难尽，此文依然只是记录实践过程。源码下载，编译TBB下载地址:https://github.com/oneapi-src/oneTBB版本使用oneTBB-2021.11.0，这个版本可以使用cmake编译。cmake配置完后，进入build目录，使用make指令，正常情况下应该一切正常，遗憾的是编译过程会报如下错误：/media/oneTBB
Qt扩展-muParser数学公式解析太阳风暴 #▶Qt扫盲数学表达式计算数学表达式 muparser eval cpp
muParser数学公式解析一、概述1.针对速度进行了优化2.支持的运算符3.支持的函数4.用户定义的常量5.用户定义的变量6.自定义值识别回调7.其他功能二、内置函数三、内置二元运算符四、三元运算符五、内置常量六、源码引入1.源码文件2.编译器开关1.MUP_BASETYPE2.MUP_USE_OPENMP3.MUP_STRING_TYPE七、实例一、概述muparser-FastMathPar
Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践(二) 沉木渡香 OpenCV学习笔记 opencv c++学习
在上一篇文章中，我们成功验证了IntelThreadingBuildingBlocks(TBB)与OpenMP在多线程并行处理方面的加速潜力。为了更深入地理解这些技术在实际应用场景中的效能提升，接下来我们将目光转向目标开发板环境，进一步探究这两种框架在嵌入式系统上的实际加速效果。一、OPENMP加速效果测试在探讨OPENMP对性能提升的影响时，我们首先遇到了一个有趣的插曲。通常情况下，OpenMP
CMakeLists 增加 OpenMP 的支持 comedate C++实用源码三方库技术分享 c++visual studio OpenMP CMakeLists
1.CMakeLists增加如下：find_package(OpenMPREQUIRED)if(OpenMP_FOUND)message(STATUS"foundopenmp")set(CMAKE_C_FLAGS${CMAKE_C_FLAGS},${OPENMP_C_FLAGS})set(CMAKE_CXX_FLAGS${CMAKE_CXX_FLAGS},${OPENMP_CXX_FLAGS})e
并行化K-means聚类算法的实现与分析 OverlordDuke 聚类算法算法 kmeans 聚类并行聚类算法
并行化K-means聚类算法并行化K-means聚类算法的实现与分析项目背景与意义算法原理与串行实现分析并行化策略与关键细节实验结果与讨论未来改进方向结语并行化K-means聚类算法的实现与分析在大数据时代，对数据进行高效的聚类是数据分析与挖掘的重要工具之一。本文将介绍并讨论使用OpenMP在C++中实现的并行化K-means聚类算法。我们将深入探讨算法的原理、并行化策略以及实验结果，以期为相关领
openmp编程在linux下编译命令,OpenMP在ARM-Linux以及NDK中的编译和使用半生瓜Cc
以前对OpenCV在ARM-Linux，ARM-Android上的优化做了很多编译方面的努力，例如添加TBB支持，添加CUDA支持(NvidiaK1平台上)。这次突然听同事说增加了OpenMP选项后，在Windows+X86上有极大的优势，adaboost速度提高3倍。所以赶快在ARM-Android-NDK上测试一下。0.OpenMP基础：OpenMP(OpenMulti-Processing)
Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践沉木渡香 OpenCV学习笔记 opencv c++学习
背景：在某个嵌入式上的图像处理项目功能开发告一段落，进入性能优化阶段。尝试从多线程上对图像处理过程进行加速。经过初步调研后，可以从OPENMP，TBB这两块进行加速，当前项目中有些算法已采用多线程加速，这次主要是对比以上两个加速模块与多线程加速效果的对比。现在PC上实验，然后再移植相关库。环境准备：WIN11,VS2022,Debug641、编译OPENCV。经测试，编译过程是否选择TBB,MP相
如何使用 OpenCV parallel_for_并行化代码人工智能小豪 opencv 人工智能计算机视觉
目标本教程的目的是演示如何使用OpenCV框架轻松并行化代码。为了说明这个概念，我们将编写一个程序来对图像执行卷积运算。完整的教程代码在这里。parallel_for_前提并行框架第一个前提条件是使用并行框架构建OpenCV。在OpenCV4.5中，以下并行框架按此顺序提供：英特尔线程构建模块（第三方库，应显式启用）OpenMP（集成到编译器，应显式启用）APPLEGCD（系统范围，自动使用（仅限
需要安装cmake 3.13或更高版本的Ubuntu PIP。您运行的是xgboost的3.10.2版本,ubuntupip,CMake313orhigherisrequiredYouarerunni 冠切云之崔嵬 linux
今天在装xgboost的时候出现了下面的错误：INFO:XGBoostbuild_ext:Buildingfromsource./tmp/pip-install-elc4qdig/lib/libxgboost.soINFO:XGBoostbuild_ext:RunCMakecommand:['cmake','xgboost','-GUnixMakefiles','-DUSE_OPENMP=1','
Parallel Computing 并行计算相关学习御风@户外算法并行计算
参考资料https://hpc.llnl.gov/documentation/tutorialshttps://hpc.llnl.gov/documentation/tutorials/introduction-parallel-computing-tutorialhttps://hpc-tutorials.llnl.gov/openmp/https://www.openmp.org/Parall
openmp matlab,matlab – 为什么在mex文件中的OpenMP只产生1个线程？立夏之光 openmp matlab
我是OpenMP的新手.我有以下代码使用配置了MSVS2010的Matlabmex进行编译.计算机有8个处理器(我也使用matlabpool检查过).#include"mex.h"#includetypedefunsignedcharuchar;typedefunsignedintuint;//Takesauint8inputarrayanduint32indexarrayandprealloca
性能优化-OpenMP基础教程（四）-Android上运行OpenMP 发狂的小花高性能（HPC）开发基础教程 #OpenMP入门教程 android OpenMP 并行 C c++NDK
本文主要介绍如何在一个常规的Android手机上调试OpenMP程序，包括AndroidNDK的环境配置和使用JNI编写一个OpenMP程序运行在Android手机中。个人简介：一个全栈工程师的升级之路！个人专栏：高性能（HPC）开发基础教程CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录一、前言1AndroidNDK2AndroidNDK环境配置2.1AndroidNDK下载2.2A
北京交通大学高性能作业——多类积分函数华为鲲鹏 CPU 与 CPU + GPU 对比 Apylee 后继高性能 c++算法性能优化大作业 gpu算力华为云
多类积分函数华为鲲鹏CPU与CPU+GPU对比1.descriptionoftheproblemyouhavechosen2.descriptionoftheHUAWEIplatformyouuse(includingbothsoftwareandhardware)3.youralgorithmflowchart直接计算流程图OpenMP计算流程图CUDA计算流程图4.analysisofthek
学习OpenMP的第一个程序(解决：undefined reference to `omp_get_thread_num‘）南七行者 OpenMP c++
一、问题1.源代码#include#include"omp.h"//#incluce""格式：引用非标准库的头文件，编译器从用户的工作目录开始搜索intmain(intargc,char*argv[]){intnthreads,tid;#pragmaompparallelprivate(nthreads,tid)//{花括号写在这会报错{tid=omp_get_thread_num();print
性能优化-OpenMP基础教程（三）发狂的小花高性能（HPC）开发基础教程 #OpenMP入门教程 linux OpenMP 并行编程嵌套并行 c++
本文主要介绍OpenMP并行编程的环境变量和实战、主要对比理解嵌套并行的效果。个人简介：一个全栈工程师的升级之路！个人专栏：高性能（HPC）开发基础教程CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录一、OpenMP是什么？1OpenMP的主要特点2Linux下OpenMP版本查看3OpenMP环境变量二、OPenMP实战1parallel2parallelfor3最大线程数获取（核数
tensorflow环境安装配置 weixin_43870390 网络
下载匹配cuda的kaldi镜像Ubuntu20.04includingPython3.8NVIDIACUDA11.6.0cuBLAS11.8.1.74NVIDIAcuDNN8.3.2.44NVIDIANCCL2.11.4(optimizedforNVLink™)rdma-core36.0NVIDIAHPC-X2.10OpenMPI4.1.2rc4+OpenUCX1.12.0GDRCopy2.3N
性能优化-OpenMP基础教程（五）-全面讲解OpenMP基本编程方法发狂的小花 #OpenMP入门教程高性能（HPC）开发基础教程性能优化 OpenMP C 并行 fork
本文主要介绍OpenMP编程的编程要素和实战，包括并行域管理详细实战、任务分担详细实战。个人简介：一个全栈工程师的升级之路！个人专栏：高性能（HPC）开发基础教程CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录一、前言1OpenMP执行模式2OpenMP编程要素二、OpenMP编程实战1并行域管理1.1parallel并行域使用1.2并行域线程数量控制方式1.3并行域动态调整线程数量2
性能优化-OpenMP概述（一）-宏观全面理解OpenMP 发狂的小花高性能（HPC）开发基础教程 #OpenMP入门教程性能优化 OpenMP 并行 CUDA c++c
本文旨在从宏观角度来介绍OpenMP的原理、编程模型、以及在各个领域的应用、使用、希望读者能够从本文整体上了解OpenMP。个人简介：一个全栈工程师的升级之路！个人专栏：高性能（HPC）开发基础教程CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录1OpenMP概述1.1定义和背景1.2历史和发展1.3OpenMP的应用领域2OpenMP编程模型2.1并行计算基本概念2.2OpenMP编
并行计算工具OpenMP 二伊亚玎
如果你想要变量是每个线程拥有自己的单独的变量，那么就在并行块里面定义变量，对于在进入并行块前已经定义了的变量，是在多个线程之间共享的，需要小心处理，否则程序不会按照我们想要的方式执行。并行块前定义变量在上面这个程序中，试图用sum来累加变量和。#pragmaompparallelfor告诉编译器要把这个for语句拆开来并行执行。注意sum定义在并行块外面，所以在并行块中会共享这个变量。也就是说在四
性能优化-OpenMP基础教程（一）发狂的小花高性能（HPC）开发基础教程性能优化开发语言 OpenMP 并行编程 c++c语言
本文主要介绍OpenMP并行编程技术，编程模型、指令和函数的介绍、以及OpenMP实战的几个例子。希望给OpenMP并行编程者提供指导。个人简介：一个全栈工程师的升级之路！个人专栏：高性能（HPC）开发基础教程CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录一、OpenMP简介二、OpenMP编程模型1.指令与库函数1.1OpenMP指令格式1.1.1并行区域（ParallelRegi
TMS320多核 DSP 实时算法实现亚图跨际嵌入式算法 TMS320 dsp
特点学习如何使用开发工具，利用该处理器的最大性能和功能了解从架构、开发工具和编程模型（如OpenCL和OpenMP）到调试工具的丰富内容详细介绍了各种多核音频和图像应用一套丰富的经过测试的实验室练习和解决方案音频和图像处理应用程序源代码内容DSP介绍TMS320架构软件开发工具和TMS320EVM数值问题软件优化TMS320中断实时操作系统：TI-RTOS增强型直接内存访问(EDMA3)控制器处理
关于旗正规则引擎下载页面需要弹窗保存到本地目录的问题何必如此 jsp 超链接文件下载窗口
生成下载页面是需要选择“录入提交页面”，生成之后默认的下载页面<a>标签超链接为：<a href="<%=root_stimage%>stimage/image.jsp?filename=<%=strfile234%>&attachname=<%=java.net.URLEncoder.encode(file234filesourc
【Spark九十八】Standalone Cluster Mode下的资源调度源代码分析 bit1129 cluster
在分析源代码之前，首先对Standalone Cluster Mode的资源调度有一个基本的认识：首先，运行一个Application需要Driver进程和一组Executor进程。在Standalone Cluster Mode下，Driver和Executor都是在Master的监护下给Worker发消息创建(Driver进程和Executor进程都需要分配内存和CPU，这就需要Maste
linux上独立安装部署spark daizj linux 安装 spark 1.4 部署
下面讲一下linux上安装spark，以 Standalone Mode 安装 1）首先安装JDK 下载JDK：jdk-7u79-linux-x64.tar.gz ，版本是1.7以上都行，解压 tar -zxvf jdk-7u79-linux-x64.tar.gz 然后配置 ~/.bashrc&nb
Java 字节码之解析一周凡杨 java 字节码 javap
一： Java 字节代码的组织形式类文件 { OxCAFEBABE ，小版本号，大版本号，常量池大小，常量池数组，访问控制标记，当前类信息，父类信息，实现的接口个数，实现的接口信息数组，域个数，域信息数组，方法个数，方法信息数组，属性个数，属性信息数组 } &nbs
java各种小工具代码 g21121 java
1.数组转换成List import java.util.Arrays; Arrays.asList(Object[] obj); 2.判断一个String型是否有值 import org.springframework.util.StringUtils; if (StringUtils.hasText(str)) 3.判断一个List是否有值 import org.spring
加快FineReport报表设计的几个心得体会老A不折腾 finereport
一、从远程服务器大批量取数进行表样设计时，最好按“列顺序”取一个“空的SQL语句”，这样可提高设计速度。否则每次设计时模板均要从远程读取数据，速度相当慢！！二、找一个富文本编辑软件（如NOTEPAD+）编辑SQL语句，这样会很好地检查语法。有时候带参数较多检查语法复杂时，结合FineReport中生成的日志，再找一个第三方数据库访问软件（如PL/SQL）进行数据检索，可以很快定位语法错误。
mysql linux启动与停止墙头上一根草
如何启动/停止/重启MySQL一、启动方式1、使用 service 启动：service mysqld start2、使用 mysqld 脚本启动：/etc/inint.d/mysqld start3、使用 safe_mysqld 启动：safe_mysqld&二、停止1、使用 service 启动：service mysqld stop2、使用 mysqld 脚本启动：/etc/inin
Spring中事务管理浅谈 aijuans spring 事务管理
Spring中事务管理浅谈 By Tony Jiang@2012-1-20 Spring中对事务的声明式管理拿一个XML举例 [html] view plain copy print ? <?xml version="1.0" encoding="UTF-8"?>&nb
php中隐形字符65279（utf-8的BOM头）问题 alxw4616
php中隐形字符65279（utf-8的BOM头）问题今天遇到一个问题. php输出JSON 前端在解析时发生问题:parsererror. 调试: 1.仔细对比字符串发现字符串拼写正确.怀疑是非打印字符的问题. 2.逐一将字符串还原为unicode编码. 发现在字符串头的位置出现了一个 65279的非打印字符.
调用对象是否需要传递对象(初学者一定要注意这个问题) 百合不是茶对象的传递与调用技巧
类和对象的简单的复习,在做项目的过程中有时候不知道怎样来调用类创建的对象,简单的几个类可以看清楚,一般在项目中创建十几个类往往就不知道怎么来看为了以后能够看清楚,现在来回顾一下类和对象的创建,对象的调用和传递(前面写过一篇) 类和对象的基础概念: JAVA中万事万物都是类类有字段(属性),方法,嵌套类和嵌套接
JDK1.5 AtomicLong实例 bijian1013 java thread java多线程 AtomicLong
JDK1.5 AtomicLong实例类 AtomicLong 可以用原子方式更新的 long 值。有关原子变量属性的描述，请参阅 java.util.concurrent.atomic 包规范。AtomicLong 可用在应用程序中（如以原子方式增加的序列号），并且不能用于替换 Long。但是，此类确实扩展了 Number，允许那些处理基于数字类的工具和实用工具进行统一访问。
自定义的RPC的Java实现 bijian1013 java rpc
网上看到纯java实现的RPC，很不错。 RPC的全名Remote Process Call，即远程过程调用。使用RPC，可以像使用本地的程序一样使用远程服务器上的程序。下面是一个简单的RPC 调用实例，从中可以看到RPC如何
【RPC框架Hessian一】Hessian RPC Hello World bit1129 Hello world
什么是Hessian The Hessian binary web service protocol makes web services usable without requiring a large framework, and without learning yet another alphabet soup of protocols. Because it is a binary p
【Spark九十五】Spark Shell操作Spark SQL bit1129 shell
在Spark Shell上，通过创建HiveContext可以直接进行Hive操作 1. 操作Hive中已存在的表 [hadoop@hadoop bin]$ ./spark-shell Spark assembly has been built with Hive, including Datanucleus jars on classpath Welcom
F5　往header加入客户端的ip ronin47
when HTTP_RESPONSE {if {[HTTP::is_redirect]}{ HTTP::header replace Location [string map {:port/ /} [HTTP::header value Location]]HTTP::header replace Lo
java-61-在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差. 求所有数对之差的最大值。例如在数组{2, 4, 1, 16, 7, 5, bylijinnan java
思路来自： http://zhedahht.blog.163.com/blog/static/2541117420116135376632/ 写了个java版的 public class GreatestLeftRightDiff { /** * Q61.在数组中，数字减去它右边(注意是右边)的数字得到一个数对之差。 * 求所有数对之差的最大值。例如在数组
mongoDB 索引开窍的石头 mongoDB索引
在这一节中我们讲讲在mongo中如何创建索引得到当前查询的索引信息 db.user.find(_id:12).explain(); cursor: basicCoursor 指的是没有索引 &
[硬件和系统]迎峰度夏 comsci 系统
从这几天的气温来看，今年夏天的高温天气可能会维持在一个比较长的时间内所以，从现在开始准备渡过炎热的夏天。。。。每间房屋要有一个落地电风扇，一个空调(空调的功率和房间的面积有密切的关系) 坐的，躺的地方要有凉垫，床上要有凉席电脑的机箱
基于ThinkPHP开发的公司官网 cuiyadll 行业系统
后端基于ThinkPHP，前端基于jQuery和BootstrapCo.MZ 企业系统轻量级企业网站管理系统运行环境:PHP5.3+, MySQL5.0 系统预览系统下载：http://www.tecmz.com 预览地址：http://co.tecmz.com 各种设备自适应响应式的网站设计能够对用户产生友好度，并且对于
Transaction and redelivery in JMS (JMS的事务和失败消息重发机制) darrenzhu jms 事务承认 MQ acknowledge
JMS Message Delivery Reliability and Acknowledgement Patterns http://wso2.com/library/articles/2013/01/jms-message-delivery-reliability-acknowledgement-patterns/ Transaction and redelivery in
Centos添加硬盘完全教程 dcj3sjt126com linux centos hardware
Linux的硬盘识别: sda 表示第1块SCSI硬盘 hda 表示第1块IDE硬盘 scd0 表示第1个USB光驱一般使用“fdisk -l”命
yii2 restful web服务路由 dcj3sjt126com PHP yii2
路由随着资源和控制器类准备，您可以使用URL如 http://localhost/index.php?r=user/create访问资源，类似于你可以用正常的Web应用程序做法。在实践中，你通常要用美观的URL并采取有优势的HTTP动词。例如，请求POST /users意味着访问user/create动作。这可以很容易地通过配置urlManager应用程序组件来完成如下所示
MongoDB查询(4)——游标和分页[八] eksliang mongodb MongoDB游标 MongoDB深分页
转载请出自出处：http://eksliang.iteye.com/blog/2177567 一、游标数据库使用游标返回find的执行结果。客户端对游标的实现通常能够对最终结果进行有效控制，从shell中定义一个游标非常简单，就是将查询结果分配给一个变量（用var声明的变量就是局部变量），便创建了一个游标，如下所示： > var
Activity的四种启动模式和onNewIntent() gundumw100 android
Android中Activity启动模式详解　　在Android中每个界面都是一个Activity，切换界面操作其实是多个不同Activity之间的实例化操作。在Android中Activity的启动模式决定了Activity的启动运行方式。　　Android总Activity的启动模式分为四种： Activity启动模式设置： <acti
攻城狮送女友的CSS3生日蛋糕 ini html Web html5 css css3
在线预览：http://keleyi.com/keleyi/phtml/html5/29.htm 代码如下： <!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>攻城狮送女友的CSS3生日蛋糕-柯乐义<
读源码学Servlet（1）GenericServlet 源码分析 jzinfo tomcat Web servlet 网络应用网络协议
Servlet API的核心就是javax.servlet.Servlet接口，所有的Servlet 类（抽象的或者自己写的）都必须实现这个接口。在Servlet接口中定义了5个方法，其中有3个方法是由Servlet 容器在Servlet的生命周期的不同阶段来调用的特定方法。先看javax.servlet.servlet接口源码： package
JAVA进阶：VO(DTO)与PO(DAO)之间的转换 snoopy7713 java VO Hibernate po
PO即 Persistence Object　　VO即 Value Object 　VO和PO的主要区别在于：　　VO是独立的Java Object。　　PO是由Hibernate纳入其实体容器（Entity Map）的对象，它代表了与数据库中某条记录对应的Hibernate实体，PO的变化在事务提交时将反应到实际数据库中。　实际上，这个VO被用作Data Transfer
mongodb group by date 聚合查询日期统计每天数据（信息量） qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
/* 1 */ { "_id" : ObjectId("557ac1e2153c43c320393d9d"), "msgType" : "text", "sendTime" : ISODate("2015-06-12T11:26:26.000Z")
java之18天常用的类(一) Luob. Math Date System Runtime Rundom
System类 import java.util.Properties; /** * System: * out:标准输出,默认是控制台 * in:标准输入,默认是键盘 * * 描述系统的一些信息 * 获取系统的属性信息:Properties getProperties(); * * * */ public class Sy
maven wuai maven
1、安装maven：解压缩、添加M2_HOME、添加环境变量path 2、创建maven_home文件夹，创建项目mvn_ch01,在其下面建立src、pom.xml，在src下面简历main、test、main下面建立java文件夹 3、编写类，在java文件夹下面依照类的包逐层创建文件夹，将此类放入最后一级文件夹 4、进入mvn_ch01 4.1、mvn compile ,执行后会在