rybgis

OpenMP共享内存并行编程详解

文章转自：http://www.cnblogs.com/liangliangh/p/3565234.html点击打开链接

实验平台：win7， VS2010

1. 介绍

平行计算机可以简单分为共享内存和分布式内存，共享内存就是多个核心共享一个内存，目前的PC就是这类（不管是只有一个多核CPU还是可以插多个CPU，它们都有多个核心和一个内存），一般的大型计算机结合分布式内存和共享内存结构，即每个计算节点内是共享内存，节点间是分布式内存。想要在这些并行计算机上获得较好的性能，进行并行编程是必要条件。目前流行的并行程序设计方法是，分布式内存结构上使用MPI，共享内存结构上使用Pthreads或OpenMP。我们这里关注的是共享内存并行计算机，因为编辑这篇文章的机器就属于此类型（普通的台式机）。和Pthreads相比OpenMP更简单，对于关注算法、只要求对线程之间关系进行最基本控制（同步，互斥等）的我们来说，OpenMP再适合不过了。

本文对windows上Visual Studio开发环境下的OpenMP并行编程进行简单的探讨。本文参考了wikipedia关于OpenMP条目、OpenMP.org（有OpenMP Specification）、MSDM上关于OpenMP条目以及教材《MPI与OpenMP并行程序设计（C语言版）》：

http://zh.wikipedia.org/wiki/OpenMP
http://openmp.org/
http://msdn.microsoft.com/en-us/library/tt15eb9t(v=vs.100).aspx
《MPI与OpenMP并行程序设计（C语言版）》第17章，Michael J. Quinn著，陈文光等译，清华大学出版社，2004

注意，OpenMP目前最新版本为4.0.0，而VS2010仅支持OpenMP2.0（2002年版本），所以本文所讲的也是OpenMP2.0，本文注重使用OpenMP获得接近核心数的加速比，所以OpenMP2.0也足够了。

2. 第一个OpenMP程序

step 1：新建控制台程序

step 2：项目属性，所有配置下“配置属性>>C/C++>>语言>>OpenMP支持”修改为是（/openmp），如下图：

step 3：添加如下代码：

 1 #include
 2 #include
 3 int main()
 4 {
 5     std::cout << "parallel begin:\n";
 6     #pragma omp parallel
 7     {
 8         std::cout << omp_get_thread_num();
 9     }
10     std::cout << "\n parallel end.\n";
11     std::cin.get();
12     return 0;
13 }

step 4：运行结果如下图：

可以看到，我的计算机是8核的（严格说是8线程的），这是我们实验室的小型工作站（至多支持24核）。

3. “第一个OpenMP程序”幕后，并行原理

OpenMP由Compiler Directives（编译指导语句）、Run-time Library Functions（库函数）组成，另外还有一些和OpenMP有关的Environment Variables（环境变量）、Data Types（数据类型）以及_OPENMP宏定义。之所以说OpenMP非常简单，是因为，所有这些总共只有50个左右，OpenMP2.0 Specification仅有100余页。第2节的“第一个OpenMP程序”的第6行“#pragma omp parallel”即Compiler Directive，“#pragma omp parallel”下面的语句将被多个线程并行执行（也即被执行不止一遍），第8行的omp_get_thread_num()即Run-time Library Function，omp_get_thread_num()返回当前执行代码所在线程编号。

共享内存计算机上并行程序的基本思路就是使用多线程，从而将可并行负载分配到多个物理计算核心，从而缩短执行时间（同时提高CPU利用率）。在共享内存的并行程序中，标准的并行模式为fork/join式并行，这个基本模型如下图示：

其中，主线程执行算法的顺序部分，当遇到需要进行并行计算式，主线程派生出（创建或者唤醒）一些附加线程。在并行区域内，主线程和这些派生线程协同工作，在并行代码结束时，派生的线程退出或者挂起，同时控制流回到单独的主线程中，称为汇合。对应第2节的“第一个OpenMP程序”，第4行对应程序开始，4-5行对应串行部分，6-9行对应第一个并行块（8个线程），10-13行对应串行部分，13行对应程序结束。

简单来说，OpenMP程序就是在一般程序代码中加入Compiler Directives，这些Compiler Directives指示编译器其后的代码应该如何处理（是多线程执行还是同步什么的）。所以说OpenMP需要编译器的支持。上一小节的step 2即打开编译器的OpenMP支持。和Pthreads不同，OpenMP下程序员只需要设计高层并行结构，创建及调度线程均由编译器自动生成代码完成。

4. Compiler Directives

4.1 一般格式

Compiler Directive的基本格式如下：

#pragma omp directive-name [clause[ [,] clause]...]

其中“[]”表示可选，每个Compiler Directive作用于其后的语句（C++中“{}”括起来部分是一个复合语句）。

directive-name可以为：parallel, for, sections, single, atomic, barrier, critical, flush, master, ordered, threadprivate（共11个，只有前4个有可选的clause）。

clause（子句）相当于是Directive的修饰，定义一些Directive的参数什么的。clause可以为：copyin(variable-list), copyprivate(variable-list), default(shared | none), firstprivate(variable-list), if(expression), lastprivate(variable-list), nowait, num_threads(num), ordered, private(variable-list), reduction(operation: variable-list), schedule(type[,size]), shared(variable-list)（共13个）。

例如“#pragma omp parallel”表示其后语句将被多个线程并行执行，线程个数由系统预设（一般等于逻辑处理器个数，例如i5 4核8线程CPU有8个逻辑处理器），可以在该directive中加入可选的clauses，如“#pragma omp parallel num_threads(4)”仍旧表示其后语句将被多个线程并行执行，但是线程个数为4。

4.2 详细解释

本节的叙述顺序同我的另一篇博文：OpenMP编程总结表，读者可以对照阅读，也可以快速预览OpenMP所有语法。

如果没有特殊说明，程序均在Debug下编译运行。

parallel　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

parallel表示其后语句将被多个线程并行执行，这已经知道了。“#pragma omp parallel”后面的语句（或者，语句块）被称为parallel region。

可以用if clause条件地进行并行化，用num_threads clause覆盖默认线程数：

1 int a = 0;
2 #pragma omp parallel if(a) num_threads(6)
3 {
4     std::cout << omp_get_thread_num();
5 }

int a = 7;
#pragma omp parallel if(a) num_threads(6)
{
    std::cout << omp_get_thread_num();
}

可以看到多个线程的执行顺序是不能保证的。

private, firstprivate, shared, default, reduction, copyin clauses留到threadprivate directive时说。

for　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

第2节的“第一个OpenMP程序”其实不符合我们对并行程序的预期——我们一般并不是要对相同代码在多个线程并行执行，而是，对一个计算量庞大的任务，对其进行划分，让多个线程分别执行计算任务的每一部分，从而达到缩短计算时间的目的。这里的关键是，每个线程执行的计算互不相同（操作的数据不同或者计算任务本身不同），多个线程协作完成所有计算。OpenMP for指示将C++ for循环的多次迭代划分给多个线程（划分指，每个线程执行的迭代互不重复，所有线程的迭代并起来正好是C++ for循环的所有迭代），这里C++ for循环需要一些限制从而能在执行C++ for之前确定循环次数，例如C++ for中不应含有break等。OpenMP for作用于其后的第一层C++ for循环。下面是一个例子：

1 const int size = 1000;
2 int data[size];
3 #pragma omp parallel
4 {
5     #pragma omp for
6     for(int i=0; ii)
7         data[i] = 123;
8 }

默认情况下，上面的代码中，程序执行到“#pragma omp parallel”处会派生出7和线程，加上主线程共8个线程（在我的机器上），C++ for的1000次迭代会被分成连续的8段——0-124次迭代由0号线程计算，125-249次迭代由1号线程计算，以此类推。可能你已经猜到了，具体C++ for的各次迭代在线程间如何分配可以由clause指示，它就是schedule(type[,size])，后面会具体说。

如果parallel region中只包含一个for directive作用的语句，上面代码就是这种情况，此时可以将parallel和for“缩写”为parallel for，上面代码等价于这样：

1 const int size = 1000;
2 int data[size];
3 #pragma omp parallel for
4 for(int i=0; ii)
5     data[i] = 123;

正确使用for directive有两个条件，第1是C++ for符合特定限制，否则编译器将报告错误，第2是C++ for的各次迭代的执行顺序不影响结果正确性，这是一个逻辑条件。例子如下：

1 #pragma omp parallel num_threads(6)
2 {
3     #pragma omp for
4     for(int i=0; i<1000000; ++i)
5         if(i>999)
6             break;
7 }

编译器报错如下：

error C3010: “break”: 不允许跳出 OpenMP 结构化块

schedule(type[,size])设置C++ for的多次迭代如何在多个线程间划分：

schedule(static, size)将所有迭代按每连续size个为一组，然后将这些组轮转分给各个线程。例如有4个线程，100次迭代，schedule(static, 5)将迭代：0-4, 5-9, 10-14, 15-19, 20-24...依次分给0, 1, 2, 3, 0...号线程。schedule(static)同schedule(static, size_av)，其中size_av等于迭代次数除以线程数，即将迭代分成连续的和线程数相同的等分（或近似等分）。
schedule(dynamic, size)同样分组，然后依次将每组分给目前空闲的线程（故叫动态）。
schedule(guided, size) 把迭代分组，分配给目前空闲的线程，最初组大小为迭代数除以线程数，然后逐渐按指数方式（依次除以2）下降到size。
schedule(runtime)的划分方式由环境变量OMP_SCHEDULE定义。

下面是几个例子，可以先忽略critical directive：

1 #pragma omp parallel num_threads(3)
2 {
3     #pragma omp for
4     for(int i=0; i<9; ++i){
5         #pragma omp critical
6         std::cout << omp_get_thread_num() << i << " ";
7     }
8 }

上面输出说明0号线程执行0-2迭代，1号执行3-5,2号执行6-9，相当于schedule(static, 3)。

1 #pragma omp parallel num_threads(3)
2 {
3     #pragma omp for schedule(static, 1)
4     for(int i=0; i<9; ++i){
5         #pragma omp critical 
6         std::cout << omp_get_thread_num() << i << " ";
7     }
8 }

1 #pragma omp parallel num_threads(3)
2 {
3     #pragma omp for schedule(dynamic, 2)
4     for(int i=0; i<9; ++i){
5         #pragma omp critical 
6         std::cout << omp_get_thread_num() << i << " ";
7     }
8 }

ordered clause配合ordered directive使用，请见ordered directive，nowait留到barrier directive时说，private, firstprivate, lastprivate, reduction留到threadprivate directive时说。

sections　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

如果说for directive用作数据并行，那么sections directive用于任务并行，它指示后面的代码块包含将被多个线程并行执行的section块。下面是一个例子：

 1 #pragma omp parallel
 2 {
 3     #pragma omp sections
 4     {
 5         #pragma omp section
 6         std::cout << omp_get_thread_num();
 7         #pragma omp section
 8         std::cout << omp_get_thread_num();
 9     }
10 }

上面代码中2个section块将被2个线程并行执行，多个个section块的第1个“#pragma omp section”可以省略。这里有些问题，执行这段代码是总共会有多少个线程呢，“#pragma omp parallel”没有clause，默认是8个线程（又说的在我的机器上），2个section是被哪2个线程执行是不确定的，当section块多于8个时，会有一个线程执行不止1个section块。

同样，上面代码可以“缩写”为parallel sections：

1 #pragma omp parallel sections
2 {
3     #pragma omp section
4     std::cout << omp_get_thread_num();
5     #pragma omp section
6     std::cout << omp_get_thread_num();
7 }

nowait clause留到barrier directive时说，private, firstprivate, lastprivate, reduction clauses留到threadprivate directive时说。

single　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

指示代码将仅被一个线程执行，具体是哪个线程不确定，例子如下：

1 #pragma omp parallel num_threads(4)
2 {
3     #pragma omp single
4     std::cout << omp_get_thread_num();
5     std::cout << "-";
6 }

这里0号线程执行了第4 5两行代码，其余三个线程执行了第5行代码。

nowait clause留到barrier directive时说，private, firstprivate, copyprivate clauses留到threadprivate directive时说。

master　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

指示代码将仅被主线程执行，功能类似于single directive，但single directive时具体是哪个线程不确定（有可能是当时闲的那个）。

critical　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

定义一个临界区，保证同一时刻只有一个线程访问临界区。观察如下代码及其结果：

1 #pragma omp parallel num_threads(6)
2 {
3     std::cout << omp_get_thread_num() << omp_get_thread_num();
4 }

5号线程执行第3行代码时被2号线程打断了（并不是每次运行都可能出现打断）。

1 #pragma omp parallel num_threads(6)
2 {
3     #pragma omp critical
4     std::cout << omp_get_thread_num() << omp_get_thread_num();
5 }

这次不管运行多少遍都不会出现某个数字不是连续两个出现，因为在第4行代码被一个线程执行期间，其他线程不能执行（该行代码是临界区）。

barrier　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

定义一个同步，所有线程都执行到该行后，所有线程才继续执行后面的代码，请看例子：

1 #pragma omp parallel num_threads(6)
2 {
3     #pragma omp critical
4     std::cout << omp_get_thread_num() << " ";
5     #pragma omp critical
6     std::cout << omp_get_thread_num()+10 << " ";
7 }

1 #pragma omp parallel num_threads(6)
2 {
3     #pragma omp critical
4     std::cout << omp_get_thread_num() << " ";
5     #pragma omp barrier
6     #pragma omp critical
7     std::cout << omp_get_thread_num()+10 << " ";
8 }

可以看到，这时一位数数字打印完了才开始打印两位数数字，因为，所有线程执行到第5行代码时，都要等待所有线程都执行到第5行，这时所有线程再都继续执行第7行及以后的代码，即所谓同步。

再来说说for, sections, single directives的隐含barrier，以及nowait clause如下示例：

 1 #pragma omp parallel num_threads(6)
 2 {
 3     #pragma omp for
 4     for(int i=0; i<10; ++i){
 5         #pragma omp critical
 6         std::cout << omp_get_thread_num() << " ";
 7     }
 8     // There is an implicit barrier here.
 9     #pragma omp critical
10     std::cout << omp_get_thread_num()+10 << " ";
11 }

 1 #pragma omp parallel num_threads(6)
 2 {
 3     #pragma omp for nowait
 4     for(int i=0; i<10; ++i){
 5         #pragma omp critical
 6         std::cout << omp_get_thread_num() << " ";
 7     }
 8     // The implicit barrier here is disabled by nowait.
 9     #pragma omp critical
10     std::cout << omp_get_thread_num()+10 << " ";
11 }

sections, single directives是类似的。

atomic　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

atomic directive保证变量被原子的更新，即同一时刻只有一个线程再更新该变量（是不是很像critical directive），见例子：

1 int m=0;
2 #pragma omp parallel num_threads(6)
3 {
4     for(int i=0; i<1000000; ++i)
5         ++m;
6 }
7 std::cout << "value should be: " << 1000000*6 << std::endl;
8 std::cout << "value is: "<< m << std::endl;

m实际值比预期要小，因为“++m”的汇编代码不止一条指令，假设三条：load, inc, mov（读RAM到寄存器、加1，写回RAM），有可能线程A执行到inc时，线程B执行了load（线程A inc后的值还没写回），接着线程A mov，线程B inc后再mov，原本应该加2就变成了加1。

使用atomic directive后可以得到正确结果：

1 int m=0;
2 #pragma omp parallel num_threads(6)
3 {
4     for(int i=0; i<1000000; ++i)
5         #pragma omp atomic
6         ++m;
7 }
8 std::cout << "value should be: " << 1000000*6 << std::endl;
9 std::cout << "value is: "<< m << std::endl;

那用critical directive行不行呢：

1 int m=0;
2 #pragma omp parallel num_threads(6)
3 {
4     for(int i=0; i<1000000; ++i)
5         #pragma omp critical
6         ++m;
7 }
8 std::cout << "value should be: " << 1000000*6 << std::endl;
9 std::cout << "value is: "<< m << std::endl;

差别为何呢，显然是效率啦，我们做个定量分析：

 1 #pragma omp parallel num_threads(6)
 2 {
 3     for(int i=0; i<1000000; ++i) ;
 4 }
 5 int m;
 6 double t, t2;
 7 m = 0;
 8 t = omp_get_wtime();
 9 #pragma omp parallel num_threads(6)
10 {
11     for(int i=0; i<1000000; ++i)
12         ++m;
13 }
14 t2 = omp_get_wtime();
15 std::cout << "value should be: " << 1000000*6 << std::endl;
16 std::cout << "value is: "<< m << std::endl;
17 std::cout << "time(S): " << t2-t << std::endl;
18 m = 0;
19 t = omp_get_wtime();
20 #pragma omp parallel num_threads(6)
21 {
22     for(int i=0; i<1000000; ++i)
23         #pragma omp critical
24         ++m;
25 }
26 t2 = omp_get_wtime();
27 std::cout << "value should be: " << 1000000*6 << std::endl;
28 std::cout << "value is: "<< m << std::endl;
29 std::cout << "time of critical(S): " << t2-t << std::endl;
30 m = 0;
31 t = omp_get_wtime();
32 #pragma omp parallel num_threads(6)
33 {
34     for(int i=0; i<1000000; ++i)
35         #pragma omp atomic
36         ++m;
37 }
38 t2 = omp_get_wtime();
39 std::cout << "value should be: " << 1000000*6 << std::endl;
40 std::cout << "value is: "<< m << std::endl;
41 std::cout << "time of atomic(S): " << t2-t << std::endl;

按照惯例，需要列出机器配置：Intel Xeon Processor E5-2637 v2 (4核8线程 15M Cache, 3.50 GHz)，16GB RAM。上面代码需要在Release下编译运行以获得更为真实的运行时间（实际部署的程序不可能是Debug版本的），第一个parallel directive的用意是跳过潜在的创建线程的步骤，让下面三个parallel directives有相同的环境，以增加可比性。从结果可以看出，没有atomic clause或critical clause时运行时间短了很多，可见正确性是用性能置换而来的。不出所料，“大材小用”的critical clause运行时间比atomic clause要长很多。

flush　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

指示所有线程对所有共享对象具有相同的内存视图（view of memory），该directive指示将对变量的更新直接写回内存（有时候给变量赋值可能只改变了寄存器，后来才才写回内存，这是编译器优化的结果）。这不好理解，看例子，为了让编译器尽情的优化代码，需要在Release下编译运行如下代码：

 1 int data, flag=0;
 2 #pragma omp parallel sections num_threads(2) shared(data, flag)
 3 {
 4     #pragma omp section // thread 0
 5     {
 6         #pragma omp critical
 7         std::cout << "thread:" << omp_get_thread_num() << std::endl;
 8         for(int i=0; i<10000; ++i)
 9             ++data;
10         flag = 1;
11     }
12     #pragma omp section // thread 1
13     {
14         while(!flag) ;
15         #pragma omp critical
16         std::cout << "thread:" << omp_get_thread_num() << std::endl;
17         -- data;
18         std::cout << data << std::endl;
19     }
20 }

程序进入了死循环…… 我们的初衷是，用flag来做手动同步，线程0修改data的值，修改好了置flag，线程1反复测试flag检查线程0有没有修改完data，线程1接着再修改data并打印结果。这里进入死循环的可能原始是，线程1反复测试的flag只是读到寄存器中的值，因为线程1认为，只有自己在访问flag（甚至以为只有自己这1个线程），在自己没有修改内存之前不需要重新去读flag的值到寄存器。用flush directive修改后：

 1 int data=0, flag=0;
 2 #pragma omp parallel sections num_threads(2) shared(data, flag)
 3 {
 4     #pragma omp section // thread 0
 5     {
 6         #pragma omp critical
 7         std::cout << "thread:" << omp_get_thread_num() << std::endl;
 8         for(int i=0; i<10000; ++i)
 9             ++data;
10         #pragma omp flush(data)
11         flag = 1;
12         #pragma omp flush(flag)
13     }
14     #pragma omp section // thread 1
15     {
16         while(!flag){
17             #pragma omp flush(flag)
18         }
19         #pragma omp critical
20         std::cout << "thread:" << omp_get_thread_num() << std::endl;
21         #pragma omp flush(data)
22         -- data;
23         std::cout << data << std::endl;
24     }
25 }

这回结果对了，解释一下，第10行代码告诉编译器，确保data的新值已经写回内存，第17行代码说，重新从内存读flag的值。

ordered　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

使用在有ordered clause的for directive（或parallel for）中，确保代码将被按迭代次序执行（像串行程序一样），例子：

 1 #pragma omp parallel num_threads(8)
 2 {
 3     #pragma omp for ordered
 4     for(int i=0; i<10; ++i){
 5         #pragma omp critical
 6             std::cout << i << " ";
 7         #pragma omp ordered
 8         {
 9             #pragma omp critical
10                 std::cout << "-" << i << " ";
11         }
12     }
13 }

只看前面有"-"的数字，是不是按顺序的，而没有"-"的数字则没有顺序。值得强调的是for directive的ordered clause只是配合ordered directive使用，而不是让迭代有序执行的意思，后者的代码是这样的：

1 #pragma omp for ordered
2 for(int i=0; i<10; ++i)
3     #pragma omp ordered{
4     ; // all the C++ for code
5 }

threadprivate　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　

将全局或静态变量声明为线程私有的。为理解线程共享和私有变量，看如下代码：

1 int a;
2 std::cout << omp_get_thread_num() << ": " << &a << std::endl;
3 #pragma omp parallel num_threads(8)
4 {
5     int b;
6     #pragma omp critical
7     std::cout << omp_get_thread_num() << ": " << &a << "  " << &b << std::endl;
8 }

记住第3-7行代码要被8个线程执行8遍，变量a是线程之间共享的，变量b是每个线程都有一个（在线程自己的栈空间）。

怎么区分哪些变量是共享的，哪些是私有的呢。在parallel region内定义的变量（非堆分配）当然是私有的。没有特别用clause指定的（上面代码就是这样），在parallel region前（parallel region后的不可见，这点和纯C++相同）定义的变量是共享的，在堆（用new或malloc函数分配的）上分配的变量是共享的（即使是在多个线程中使用new或malloc，当然指向这块堆内存的指针可能是私有的），for directive作用的C++ for的循环变量不管在哪里定义都是私有的。

好了，回到threadprivate directive，看例子：

 1 #include
 2 #include
 3 int a;
 4 #pragma omp threadprivate(a)
 5 int main()
 6 {
 7     std::cout << omp_get_thread_num() << ": " << &a << std::endl;
 8     #pragma omp parallel num_threads(8)
 9     {
10         int b;
11         #pragma omp critical
12         std::cout << omp_get_thread_num() << ": " << &a << "  " << &b << std::endl;
13     }
14     std::cin.get();
15     return 0;
16 }

下面是最后几个没有讲的clauses：private, firstprivate, lastprivate, shared, default, reduction, copyin, copyprivate clauses，先看private clause：

1 int a = 0;
2 std::cout << omp_get_thread_num() << ": " << &a << std::endl;
3 #pragma omp parallel num_threads(8) private(a)
4 {
5     #pragma omp critical
6     std::cout << omp_get_thread_num() << ": *" << &a << "  " << a << std::endl;
7 }

private clause将变量a由默认线程共享变为线程私有的，每个线程会调用默认构造函数生成一个变量a的副本（当然这里int没有构造函数）。

firstprivate clause和private clause的区别是，会用共享版本变量a来初始化。lastprivate clause在private基础上，将执行最后一次迭代（for）或最后一个section块（sections）的线程的私有副本拷贝到共享变量。shared clause和private clause相对，将变量声明为共享的。如下例子，其中的shared clause可以省略：

 1 int a=10, b=11, c=12, d=13;
 2 std::cout << "abcd's values: " << a << " " << b << " " << c << " " << d << std::endl;
 3 #pragma omp parallel for num_threads(8) \
 4     firstprivate(a) lastprivate(b) firstprivate(c) lastprivate(c) shared(d)
 5 for(int i=0; i<8; ++i){
 6     #pragma omp critical
 7     std::cout << "thread " << omp_get_thread_num() << " acd's values: "
 8         << a << " " << c << " " << d << std::endl;
 9     a = b = c = d = omp_get_thread_num();
10 }
11 std::cout << "abcd's values: " << a << " " << b << " " << c << " " << d << std::endl;

每个线程都对a,b,c,d的值进行了修改。因为d是共享的，所以每个线程打印d前可能被其他线程修改了。parallel region结束，a的共享版本不变，b,c由于被lastprivate clause声明了，所以执行最后一次迭代的那个线程用自己的私有b,c更新了共享版本的b,c，共享版本d的值取决于那个线程最后更新d。

default(shared|none)：参数shared同于将所有变量用share clause定义，参数none指示对没有用private, shared, reduction, firstprivate, lastprivate clause定义的变量报错。

reduction clause用于归约，如下是一个并行求和的例子：

 1 int sum=0;
 2 std::cout << omp_get_thread_num() << ":" << &sum << std::endl << std::endl;
 3 #pragma omp parallel num_threads(8) reduction(+:sum)
 4 {
 5     #pragma omp critical
 6     std::cout << omp_get_thread_num() << ":" << &sum << std::endl;
 7     #pragma omp for
 8     for(int i=1; i<=10000; ++i){
 9         sum += i;
10     }
11 }
12 std::cout << "sum's valuse: " << sum << std::endl;

可以看到变量sum在parallel region中是线程私有的，每个线程用自己的sum求一部分和，最后将所有线程的私有sum加起来赋值给共享版本的sum。除了“+”归约，/, |, &&等都可以作为归约操作的算法。

copyin clause让threadprivate声明的变量的值和主线程的值相同，如下例子：

 1 #include
 2 #include
 3 int a;
 4 #pragma omp threadprivate(a)
 5 int main()
 6 {
 7     a = 99;
 8     std::cout << omp_get_thread_num() << ": " << &a << std::endl << std::endl;
 9     #pragma omp parallel num_threads(8) copyin(a)
10     {
11         #pragma omp critical
12         std::cout << omp_get_thread_num() << ": *" << &a << "  " << a << std::endl;
13     }
14     std::cin.get();
15     return 0;
16 }

如果第9行代码修改为去掉copyin clause，结果如下：

copyprivate clause让不同线程中的私有变量的值在所有线程中共享，例子：

1 int a = 0;
2 #pragma omp parallel num_threads(8) firstprivate(a)
3 {
4     #pragma omp single copyprivate(a)
5     a = omp_get_thread_num()+10;
6     #pragma omp critical
7     std::cout << omp_get_thread_num() << ": *" << &a << "  " << a << std::endl;
8 }

能写在copyprivate里的变量必须是线程私有的，变量a符合这个条件，从上面结果可以看出，single directive的代码是被第4号线程执行的，虽然第4号线程赋值的a只是这个线程私有的，但是该新值将被广播到其他线程的a，这就造成了上面的结果。

如果去掉copyprivate clause，结果变为：

这次single directive的代码是被第0号线程执行的。

呼，终于说完了，未尽事宜，见另一篇文章：OpenMP共享内存并行编程总结表。

6. 加速比

加速比即同一程序串行执行时间除以并行执行时间，即并行化之后比串行的性能提高倍数。理论上，加速比受这些因素影响：程序可并行部分占比、线程数、负载是否均衡（可以查查Amdahl定律），另外，由于实际执行时并行程序可能存在的总线冲突，使得内存访问称为瓶颈（还有Cache命中率的问题），实际加速比一般低于理论加速比。

为了看看加速比随线程数增加的变化情况，编写了如下代码，需要在Release下编译运行代码：

 1 #include
 2 #include
 3 int main(int arc, char* arg[])
 4 {
 5     const int size = 1000, times = 10000;
 6     long long int data[size], dataValue=0;
 7     for(int j=1; j<=times; ++j)
 8         dataValue += j;
 9  
10     #pragma omp parallel num_threads(16)
11         for(int i=0; i<1000000; ++i) ;
12  
13     bool wrong; double t, tsigle;
14     for(int m=1; m<=16; ++m){
15         wrong = false;
16         t = omp_get_wtime();
17         for(int n=0; n<100; ++n){
18             #pragma omp parallel for num_threads(m)
19             for(int i=0; ii){
20                 data[i] = 0;
21                 for(int j=1; j<=times; ++j)
22                     data[i] += j;
23                 if(data[i] != dataValue)
24                     wrong = true;
25             }
26         }
27         t = omp_get_wtime()-t;
28         if(m==1) tsigle=t;
29         std::cout << "num_threads(" << m << ") rumtime: " << t << " s.\n";
30         std::cout << "wrong=" << wrong << "\tspeedup: " << tsigle/t << "\tefficiency: " << tsigle/t/m << "\n\n";
31     }
32  
33     std::cin.get();
34     return 0;
35 }

可以看到，由于我们的程序是在操作系统层面上运行，而非直接在硬件上运行，上面的测试结果出现了看似不可思议的结果——效率竟然有时能大于1！最好的加速比出现在num_threads(8)时，为7.4左右，已经很接近物理核心数8了，充分利用多核原来如此简单。

你可能感兴趣的:(并行)

Python多线程实现大规模数据集高效转移 sand&wich 网络 python 服务器
背景在处理大规模数据集时，通常需要在不同存储设备、不同服务器或文件夹之间高效地传输数据。如果采用单线程传输方式，当数据量非常大时，整个过程会非常耗时。因此，通过多线程并行处理可以大幅提升数据传输效率。本文将分享一个基于Python多线程实现的高效数据传输工具，通过遍历源文件夹中的所有文件，将它们移动到目标文件夹。工具和库这个数据集转移工具主要依赖于以下Python标准库：os：用于文件系统操作，如
三者兼顾的一天荣灿100
图片发自App图片发自App图片发自App图片发自App上午和宝贝做了一个寒假作息表，差点完美主义爆发，忍住没说，期待明天起6:45起床下午和冬青，达妈，陶苏一块讨论合作到7点，赶到荷花园大厦参加美乐家茶话会很接地气的分享，要好好珍惜每一天，正面管教传播和美乐家的推广并行，感恩相遇，过自己想要的生活，享受生活图片发自App图片发自App图片发自App图片发自App图片发自App图片发自App
2021.10.25-2021.10.31一周计划从21年9月11日起
一、事业1、工作：100封开发信。2、学习开发新客户知识补充30min/天*3天二、心灵1、晨间日记+一日总结。2、读经：15分钟/天*5天3、10min/天*5天观照自己的内心。三、成长1、趁早学习：3个主题并行。美貌、赚钱、饮食—-并落地实践2、纸质书：30分钟/天*6天《刻意练习》3、一周总结和计划4、时间管理群人员的学习跟进四、社交西湖一圈行五、亲子1、带小朋友出去走走2、制作卡片，实行积
【前端】vue 报错:The template root requires exactly one element 程序员-张师傅前端前端 vue.js javascript
【前端】vue报错:Thetemplaterootrequiresexactlyoneelement在Vue.js中，当你遇到错误“Thetemplaterootrequiresexactlyoneelement”时，这通常意味着你的Vue组件的模板（template）根节点不是单一的元素。Vue要求每个组件的模板必须有一个根元素来包裹所有的子元素。这个错误通常出现在以下几种情况：模板中有多个并行
Go编程语言前景怎么样？参加培训好就业吗 QFdongdong
Go语言专门针对多处理器系统应用程序的编程进行了优化，使用Go编译的程序可以媲美C或C++代码的速度，而且更加安全、支持并行进程。不仅可以开发web,可以开发底层，目前知乎就是用golang开发。区块链首选语言就是go,以-太坊，超级账本都是基于go语言，还有go语言版本的btcd.Go的目标是希望提升现有编程语言对程序库等依赖性(dependency)的管理，这些软件元素会被应用程序反复调用。由
Fork/Join框架与ForkJoinPool 浪白条
1.Fork/Join框架fork操作的作用是把一个大的问题划分成若干个较小的问题。在这个划分过程一般是递归进行的。直到可以直接进行计算。需要恰当地选取子问题的大小。太大的子问题不利于通过并行方式来提高性能，而太小的子问题则会带来较大的额外开销。每个子问题计算完成后，可以得到关于整个问题的部分解。join操作的作用是把这些分解手机组织起来，得到完整解。简单的说，ForkJoin其核心思想就是分治。
SQLite的入门级项目学习记录（二）深蓝海拓 SQLite学习笔记 sqlite 学习数据库
再补充一些基础知识：并行操作的问题1、可以多游标同时运行SQLite，对于同一个连接sqlite3.connect(db_file)，可以同时创建多个游标，每个游标都是独立的，可以执行各自的SQL命令序列。importsqlite3#创建数据库连接conn=sqlite3.connect('example.db')#创建第一个游标cursor1=conn.cursor()cursor1.execu
Spark 组件 GraphX、Streaming 叶域大数据 spark spark 大数据分布式
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、SparkStreaming2.1SparkStreaming的主要概念2.2示例代码2.3SparkStreaming的集成2.4SparkStreaming的应用场景SparkGraphX用于处理图和图并行计算。Graph
PIPE接口奥特曼升级打怪兽网络 macos
nameDeswidthpipe的数据位宽2’b00：8bits（10bits）2’b01：16bits(20bits)2’b11:32bits(40bits)2’b11:保留(80bits)8/10b编码（128/130b编码）data并行数据（加扰）datak指示data为控制字符（gen1/gen2）valid有效接收/输出，表明data、datak上的Symbollock和有效数据data
多线程相关面试题（2024大厂高频面试题系列）小橘子831 后端面试 java 面试后端
1、聊一下并行和并发有什么区别？并发是同一时间应对多件事情的能力，多个线程轮流使用一个或多个CPU并行是同一时间动手做多件事情的能力，4核CPU同时执行4个线程2、说一下线程和进程的区别？进程是正在运行程序的实例，进程中包含了线程，每个线程执行不同的任务不同的进程使用不同的内存空间，在当前进程下的所有线程可以共享内存空间3、如果在java中创建线程有哪些方式？在java中一共有四种常见的创建方式，
Java多线程相关面试题整理长河落日袁同学不积跬步无以至千里 java 笔记多线程锁面试
目录1.什么是线程和进程？线程与进程有什么区别？那什么是上下文切换？进程间怎么通信？什么是用户线程和守护线程？2.并行和并发的区别？3.创建线程的几种方式？Runnable接口和Callable接口的区别？run()方法和start()有什么区别？4.Java线程状态和方法？描述线程的生命周期？一个线程两次调用start()方法会出现什么情况？sleep()和wait()方法的区别是什么？5.并发
windows C++-并行编程-PPL任务并行(二) sului windows C++并行编程技术 windows c++开发语言
延续任务在异步编程中，一个异步操作在完成时调用另一个操作并将数据传递到其中的情况非常常见。传统上，这使用回调方法来完成。在并发运行时中，延续任务提供了同样的功能。延续任务(也简称为“延续”)是一个异步任务，由另一个任务(称为先行)在完成时调用。使用延续可以：将数据从前面的任务传递到延续；指定调用或不调用延续所依据的精确条件；在延续启动之前取消延续，或在延续正在运行时以协作方式取消延续；提供有关应如
windows C++-并行编程-并行算法(五) -选择排序算法 sului windows C++并行编程技术 c++windows
并行模式库(PPL)提供了对数据集合并行地执行工作的算法。这些算法类似于C++标准库提供的算法。并行算法由并发运行时中的现有功能组成。在许多情况下，parallel_sort会提供速度和内存性能的最佳平衡。但是，当您增加数据集的大小、可用处理器的数量或比较函数的复杂性时，parallel_buffered_sort或parallel_radixsort性能更佳。确定在任何给定方案中使用哪种排序算法
windows C++ 并行编程-编写parallel_for 循环 sului windows C++并行编程技术 c++开发语言
示例：计算两个矩阵的乘积以下示例显示了matrix_multiply函数，可计算两个方阵的乘积。//Computestheproductoftwosquarematrices.voidmatrix_multiply(double**m1,double**m2,double**result,size_tsize){for(size_ti=0;i#include#include#includeusin
windows C++-并行编程-PPL任务并行(一) sului windows C++并行编程技术 c++开发语言
在并发运行时中，任务是执行特定作业并通常与其他任务并行运行的工作单元。任务可以分解为组织成任务组的其他更细化的任务。编写异步代码，并希望在异步操作完成之后进行某种操作时，可使用任务。例如，可以使用一个任务以异步方式从文件读取，然后使用另一个任务(延续任务，本文档稍后会对此进行说明)在数据可用之后处理数据。相反，可以使用任务组将并行工作分解成较小的各部分。例如，假设你有一个将剩余工作划分为两个分区的
从零开始学PostgreSQL (十三)：并行查询 DBA实战 postgresql 数据库
目录概述1.并行查询的工作原理2.什么时候可以使用并行查询？3.并行计划3.1.并行扫描3.2.并行连接3.3.并行聚合3.4.并行追加3.5.并行计划提示4.并行安全4.1.函数和聚合的并行标签5.注意事项6.总结概述并行查询是PostgreSQL提供的一种功能，它允许查询在多个CPU核心或处理器上同时执行，从而显著提高查询性能，特别是在处理大型数据集时。并行查询的设计目标是在多核处理器的现代硬
Java并发复习 vd_vd Java并发安全容器 java 开发语言
Java基础1.为什么要使用并发编程？一般我们工作的电脑都有多核，我们创建多个线程，然后操作系统可以将多个线程分配给不同的CPU去执行，每个CPU执行一个线程，这样就提高了CPU使用效率。在网络购物中，我们买了一个东西的同时，需要减库存，生成订单等等这些操作，就可以进行拆分利用多线程的技术完成。面对复杂业务模型，并行程序串行会比程序更适应业务需求，而并发编程更能吻合这种业务拆分。->充分利用多核C
go 语言常见问题（4） jzpfbpx golang 开发语言后端
31.go语言编程的好处是什么编译和运行都很快。在语言层级支持并行操作。有垃圾处理器。内置字符串和maps。函数是go语言的最基本编程单位。32.说说go语言的select机制select机制用来处理异步IO问题select机制最大的一条限制就是每个case语句里必须是一个IO操作golang在语言级别支持select关键字33.解释一下go语言中的静态类型声明静态类型声明是告诉编译器不需要太多的
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
15-HDMI TVS管SPICE仿真及性能分析芯片SIPI设计单片机嵌入式硬件
TVS二极管参数选取1)确定被保护电路最大直流或连续工作电压、电路的额定标准电压和高端容限。2)TVS额定反向关断Vwm应大于或等于被保护电路的最大工作电压。若选用的Vwm太低，器件可能进入雪崩或因反向漏电流太大影响电路的正常工作。串行连接分电压，并行连接分电流。3)TVS的最大筘位电压咋应小于被保护电路的损坏电压。4)在规定的脉冲持续时间内，TvS的最大峰值脉冲功耗R必须大于被保护电路内可能出现
HarmonyOS NEXT应用开发性能优化篇(一) 周星0927 harmonyos 性能优化华为
在开发HarmonyOSNEXT应用时，优化应用性能是至关重要的。文章将性能优化分为四篇按照顺序(1.并行化、预加载和缓存2.布局嵌套层数3.管理状态变量4.系统接口)来介绍介绍应用开发过程中常见的一些性能问题，配合相关参考示例。合理使用并行化、预加载和缓存优化篇一：合理地使用并行化、预加载和缓存等方法，例如使用多线程并发、异步并发、Web预加载等能力，提升系统资源利用率，减少主线程负载，加快应用
Kafka 实战 - Kafka分区和副本机制理解用心去追梦 kafka 分布式
ApacheKafka的分区（Partition）和副本（Replica）机制是其核心架构和可靠性保证的关键组成部分。以下是对其理解的详细解释：分区（Partition）分区概念：在Kafka中，每个主题（Topic）可以被划分为多个分区。分区是一个有序的、不可变的消息序列。这意味着消息在分区中按生成顺序存储，每个消息都有一个唯一的偏移量（Offset）。目的：分区的主要目的是为了水平扩展和并行处
PCI/CPCI/PXI/PCIE/PXIE的区别小腓腓嵌入式硬件 fpga
PCIPeripheralComponentInterconnect(外设部件互联标准)，是由外围部件互联专业组PCISIG推出的一种局部并行总线标准。PCI的工作频率为33MHz/66MHz，位宽为32bit/64bit。改良的PCI系统--PCI-X最高可达64bit@133MHz，可达到超过1GB/s的数据传输速率。目前流行的是32bit@33MHz，理想状态下最高数据传输速率为132MB/
python并发与并行（十一） ———— 让asyncio的事件循环保持畅通，以便进一步提升程序的响应能力 bug404_ python并发与并行 python 开发语言
前一篇blog说明了怎样把采用线程所实现的项目逐步迁移到asyncio方案上面。迁移后的run_tasks协程，可以将多份输入文件通过tail_async协程正确地合并成一份输出文件。importasyncio#OnWindows,aProactorEventLoopcan'tbecreatedwithin#threadsbecauseittriestoregistersignalhandlers
多道程序设计和分时 yanlingyun0210 操作系统操作系统
分类：（3类）多道程序设计分时简单批处理一些其他补充1多道程序设计1.设计起因：单用户通常不能总使cpu和设备在所有时间都忙碌。2.概念：在内存中同时存在多道作业，在管理程序的控制下“相互穿插运行”（交替运行）3.目的：提高cpu的利用率，充分发挥并行性。2分时（多任务）（时间片）1.分时系统：一种联机的多用户交互式操作系统（其实是多道程序设计的延伸）（每个用户都能实时得到服务）（unix就是常见
学习node.js十三，文件的上传于下载涛涛酱10086 node.js 学习 node.js
文件上传文件上传的方案：大文件上传：将大文件切分成较小的片段（通常称为分片或块），然后逐个上传这些分片。这种方法可以提高上传的稳定性，因为如果某个分片上传失败，只需要重新上传该分片而不需要重新上传整个文件。同时，分片上传还可以利用多个网络连接并行上传多个分片，提高上传速度断点续传：在上传过程中，如果网络中断或上传被中止，断点续传技术可以记录已成功上传的分片信息，以便在恢复上传时继续上传未完成的部分
LLM大模型学习：LLM大模型推理加速七七Seven～学习人工智能 transformer 深度学习 llama
文Mia/叶娇娇推理优化部署、推理加速技术是现在，尤其在大模型时代背景之下，消费级GPU和边端设备仍为主流的状况下。推理加速是实际工程落地的首要考虑因素之一，今天笔者来聊聊涉及到的可以实现大模型推理加速的技术。目录一、模型优化技术二、模型压缩技术三、硬件加速四、GPU加速五、模型并行化和分布式计算技术一、模型优化学习常见的模型优化技术，如模型剪枝、量化、分片、蒸馏等，掌握相应的实现方法。1.1剪枝
ColumnParallelLinear 和 RowParallelLinear 道真人算法人工智能
ColumnParallelLinear和RowParallelLinear是两种并行线性层，它们的主要区别在于权重矩阵的分割方式和计算过程。具体来说：ColumnParallelLinear权重矩阵分割方式：权重矩阵W被按列（column）分割成多个子矩阵，每个子矩阵在并行设备上进行计算。如果权重矩阵W的形状是(output_dim,input_dim)，它会被分割成P个子矩阵，每个子矩阵的形状
SIMD（单指令多数据）指令集简介 goTsHgo CPU架构分布式大数据硬件架构
SIMD（SingleInstruction,MultipleData，单指令多数据）是一种并行处理技术，广泛应用于现代计算机处理器的架构中。它允许在一次指令操作中对多个数据元素进行并行处理，从而提高计算效率，尤其在处理大量相同类型数据时具有显著优势。SIMD的工作原理在传统的指令集架构（如SISD，单指令单数据）中，一条指令一次只能操作一个数据元素。例如，如果你有一个数组，你需要对数组中的每一个
python ray分布式_取代 Python 多进程！伯克利开源分布式框架 Ray weixin_39946313 python ray分布式
Ray由伯克利开源，是一个用于并行计算和分布式Python开发的开源项目。本文将介绍如何使用Ray轻松构建可从笔记本电脑扩展到大型集群的应用程序。并行和分布式计算是现代应用程序的主要内容。我们需要利用多个核心或多台机器来加速应用程序或大规模运行它们。网络爬虫和搜索所使用的基础设施并不是在某人笔记本电脑上运行的单线程程序，而是相互通信和交互的服务的集合。云计算承诺在所有维度上(内存、计算、存储等)实
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st