魔豆Magicbean

[并行计算] 2. OpenMP简介

OpenMP简介

（这篇翻译只涉及与C/C++相关的代码和示例，忽略了与Fortran相关的代码和示例，感兴趣的读者可以参考原文）

1 摘要

OpenMP是由一组计算机硬件和软件供应商联合定义的应用程序接口（API）。OpenMP为基于共享内存的并行程序的开发人员提供了一种便携式和可扩展的编程模型，其API支持各种架构上的C/C++和Fortran。本教程介绍了OpenMP 3.1的大部分主要功能，包括并行区域，工作共享，同步和数据环境的构造和指令。我们同时也包含了对运行时库函数（Runtime library）和环境变量的介绍。本教程包括C和Fortran的示例代码和实验练习（译注：译者在这里忽略了Fortran语言的示例代码和实验练习）。

先决条件：本教程非常适合那些正在使用OpenMP进行并行编程的人员，需要对C或者Fortran语言中的并行编程有一定了解。对于并行编程的一般概念尚不了解的读者，EC3500: Introduction to Parallel Computing 可能会非常有帮助（译注：译者在此博客上也翻译了这篇帖子，请参见 [并行计算] 1. 并行计算简介）。

2. 介绍

OpenMP是：
一组应用程序接口（Application Program Interface, API）,可以用来显式地指导多线程、共享内存式程序的并行化。

由如下三个主要API组件构成：1）编译器指令；2）运行时库函数；3）环境变量。

是 Open Multi-Processing 的简称。

OpenMP不是：

OpenMP不是分布式内存并行系统；需要所有供应商一致地实现；保证最有效地利用共享内存；需要程序员去显式地检查数据依赖性、数据冲突、竞争条件、思索，或者导致程序无法保持一致性的代码序列；支持并行I/O操作，但程序员需要负责保证I/O的同步。

OpenMP的目标：

标准化：1）在各种共享内存架构/平台之间提供一套标准；2）由一批主要的计算机硬件和软件供应商联合定义和支持。
精简性：1）位共享内存机器上的编程提供一套简单而有限的指令；2）主要的并行化仅仅通过3-4个指令就可以实现；3）显然，随着新版本的不断发布，该目标变得越来越没有意义。
易用性：1）提供了对串行程序进行增量并行的能力，而不像消息传递库那样需要全有或全无的方法（all or nothing approach）；2）提供了实现粗粒度和细粒度并行化的能力。
可移植性：1）该API基于C/C++和Fortran进行定义；2）提供了公开的API和会员论坛；3）已经在大多数计算平台上实现，包括Unix/Linux平台和Windows平台。

历史：

在90年代早期，共享内存机器的供应商提供了类似的，基于指令式的对Fortran语言的扩展：1）用户可以对一段串行的Fortran程序通过指令进行增量修改，指定需要并行化的部分；2）编译器将自动地对这些循环通过跨SMP处理器进行并行化。这种实现在功能上是相似的，但是内部却存在不一致。

第一次标准化的尝试是1994年的ANSI X3H5草稿。它从来未被实施，很大程度上是由于当时大家对分布式内存机器更感兴趣。

但此后不久，更新的共享式内存机器架构开始变得主流。从1997年开始，OpenMP标准开始制定，接过了ANSI X3H5的遗产。由OpenMP架构审查委员会（ARB）领导的原始ARB成员和贡献者如下所示（免责声明：以下合作伙伴名称均来自 OpenMP网站）。

APR成员	程序开发者	软件供应商
Compaq / Digital	ADINA R&D, Inc.	Absoft Corporation
Hewlett-Packard Company	ANSYS, Inc.	Edinburgh Portable Compilers
Intel Corporation	Dash Associates	GENIAS Software GmBH
International Business Machines (IBM)	Fluent, Inc.	Myrias Computer Technologies, Inc.
Kuck & Associates, Inc. (KAI)	ILOG CPLEX Division	The Portland Group, Inc. (PGI)
Silicon Graphics, Inc.	Livermore Software Technology Corporation (LSTC)
Sun Microsystems, Inc.	MECALOG SARL
U.S. Department of Energy ASCI program	Oxford Molecular Group PLC
	The Numerical Algorithms Group Ltd.(NAG)

发布历史：

OpenMP目前仍然在不断的演进中——新的构件和特征在新版本中不断被添加。最开始，C和Fortran的API定义被分开发布，但从2005年开始，它们被一起发布。下面的列表总结了OpenMP的发布历史。

时间	版本
1997年10月	Fortran 1.0
1998年10月	C/C++ 1.0
1999年11月	Fortran 1.1
2000年11月	Fortran 2.0
2002年3月	C/C++ 2.0
2005年5月	OpenMP 2.5
2008年5月	OpenMP 3.0
2011年7月	OpenMP 3.1
2013年7月	OpenMP 4.0
2015年11月	OpenMP 4.5

注意：本指南基于OpenMP 3.1，所有此后新版本的语法和特征并没有包含在此。

参考资料：

OpenMP官方网站：OpenMP.org，包含API定义，常见问题，报告，讨论，多媒体，日程，会员应用等。
维基百科：en.wikipedia.org/wiki/OpenMP。

3. OpenMP编程模型

共享内存模型： OpenMP专为多处理器/多核机器而设计。其底层架构可以是共享内存的UMA或者NUMA。

统一内存访问（Uniform Memory Access）

非统一内存访问

基于线程的并行化： 1）OpenMP程序通过使用线程来完成并行化；2）线程是可由操作系统调度的最小处理单元，其特点是可以安排自主运行的子程序；3）线程存在于单个进程的资源中，如果没有这个进程，那么线程也就不存在了；4）通常，线程数与机器处理器/内核的数量相匹配，但是线程的实际使用也取决于具体的应用程序。

显式并行化： 1）OpenMP是一个显式的（而不是自动的）编程模型，为编程者提供了对并行化的完全控制；2）并行化可以简单到仅仅为一段串行程序添加几条编译器指令……3）或者复杂到插入子程序，以建立多层次的并行机制、锁甚至嵌套锁。

分叉-合并模型： 1）OpenMP采用分叉-合并模型（fork-join）实现并行化。2）所有的OpenMP程序都从一个 主线程 开始。主线程串行执行，直到遇到第一个并行区域。3）分叉：之后主线程将创建一组并行线程。4）并行区域内的代码被用大括号包围起来，然后在多个并行线程上被并行执行。5）合并：当并行线程执行完成并行区域内的代码之后，它们进行同步并且自动结束，只剩下主线程。6）并行区域的数量以及并行线程的数量都可以是任意的。

基于编译器指令： 大多数OpenMP的并行化都是通过在C/C++或者Fortran中嵌入编译器指令而实现的。

嵌套并行： 1）API运行在并行区域内再次嵌入并行区域；2）软硬件实现中可能支持，也可能不支持此功能。

动态线程： 1）API也提供了运行时环境，来动态第更改用于执行并行区域的线程数，在有可能的情况下尽可能地有效利用已有资源；2）软硬件实现中可能支持，也可能不支持此功能。

输入输出 (I/O)： 1）OpenMP没有对并行I/O做出规定，所以对于多个线程尝试读写同一个文件的情况要特别小心；2）但如果每个线程对不同的文件进行I/O操作，则问题并不重要；3）编程者有完全责任确保I/O在多线程中被正确地执行。

内存模型：频繁更新（flush）？ 1）OpenMP在线程内存中提供了一种“松弛一致性”（relaxed-consistency）和“临时视图”（temporary view）。那就是说，线程可以“缓存”它们的数据，而不必要在任何时刻都保持内存数据的实时精确一致性；2）在所有线程都查看共享变量的关键时刻，编程者需要确保所有所有线程都根据需要更新了共享数据。3）更多关于这个……

4. OpenMI API总览

三类组件： OpenMP API包含三个不同的组件：

编译器指令（44个）；
运行时库函数（35个）；
环境变量（13条个）。

由应用程序开发者决定如何使用这些组件。在最简单的情况下，仅仅需要它们中的几个就可以完成并行化。

对所有API组件的实现方式可能会有所不同。例如某种实现可以表示它支持嵌套并行化，但是API却可能让它们只限于主线程。这并不是编程者所期待的？

编译器指令： 编译器指令在你的源代码中可能被显示为注释，并且被编译器所忽略，除非你明显地告诉编译器——通常情况下是设置适当的编译器标识，这将在 5. OpenMP程序编译中进行讨论。

OpenMP的编译器指令的目标主要有：1）产生一个并行区域；2）划分线程中的代码块；3）在线程之间分配循环迭代；4）序列化代码段；5）同步线程间的工作。

编译器指令的语法如下：

sentinel directive-name [clause, ...]

例如下面的指令，我们将在随后详细介绍这些指令。

#pragma omp parallel default(shared) private(beta,pi)

运行时库函数： OpenMP API中的运行时库函数是不断增长的，其主要目标包括：1）设置和查询线程数；2）查询线程的唯一标识符（ID），线程的祖先标识符，或者线程组的大小等；3）设置和查询动态线程的属性；4）查询是否在并行须臾，以及在什么级别的并行区域中；5）设置和查询嵌套并行；6）设置、初始化以及终止锁或者嵌套锁；7）查询挂钟时间和分辨率。

对C/C++而言，所有的运行时库函数都是子程序。例如：

#include 
int omp_get_num_threads(void)

注意对于C/C++，你通常需要包含头文件，并且是大小写敏感的。运行时库函数将在 7. 运行时库函数一节中简单讨论，更多的细节可以参考附录A：运行时库函数。

环境变量： OpenMP提供了一些环境变量，用来在运行时对并行代码的执行进行控制。这些环境变量可以控制：1）设置线程数；2）指定循环如何划分；3）将线程绑定到处理器；4）启用/禁用嵌套并行，设置最大的嵌套并行级别；5）启用/禁用动态线程；6）设置线程堆栈大小；7）设置线程等待策略。

设置OpenMP的环境变量与设置其它环境变量是一样的，它取决于你使用的是什么Shell。例如：

Shell名称	设置方法
csh/tcsh	setenv OMP_NUM_THREADS 8
sh/bash	export OMP_NUM_THREADS=8

关于OpenMP环境变量的详细讨论可见：8. 环境变量。

OpenMP的一个代码结构示例：

#include <omp.h>
main ()
{
   int var1, var2, var3;
   Serial code 
         .
         .
         .
   Beginning of parallel region. Fork a team of threads.
   Specify variable scoping 

   #pragma omp parallel private(var1, var2) shared(var3) 
   {
      Parallel region executed by all threads 
                 .
      Other OpenMP directives
                 .
      Run-time Library calls
                 .
      All threads join master thread and disband
   }
   Resume serial code
         .
         .
         .
}

5. OpenMP程序编译

LC OpenMP实现： 截止2017年6月，LC默认编译器的文档声称对OpenMP的支持如下：

平台	编译器	版本标识	默认版本	支持版本
Linux	Intel C/C++, Fortran	–version	16.0.3	OpenMP 4.0
	GNU C/C++, Fortran	–version	4.4.7 (TOSS 2)	OpenMP 3.0
			4.9.3 (TOSS 3)	OpenMP 4.0
	PGI C/C++, Fortran	-v	8.0.1 (TOSS 2)	OpenMP 3.0
		–version	16.9-0 (TOSS 3)	OpenMP 3.1
	Clang C/C++	–version	3.7.0 (TOSS 2)	OpenMP 3.1
			4.0.0 (TOSS 3)	Some OpenMP 4.0 and 4.5
BG/Q	IBM XL C/C++	-qversion	12.1	OpenMP 3.1
	IBM XL Fortran	-qversion	14.1	OpenMP 3.1
	GNU C/C++, Fortran	–version	4.4.7	OpenMP 3.0
CORAL EA	IBM XL C/C++	-qversion	14.01 beta	OpenMP 4.5
	IBM XL Fortran	-qversion	16.01 beta	OpenMP 4.5
	GNU C/C++	–version	4.9.3	OpenMP 4.0
	GNU Fortran	–version	4.8.5	OpenMP 3.1
	PGI C/C++, Fortran	-V	17.4-0	OpenMP 3.1
		–version	17.4-0	OpenMP 3.1
	Clang C/C++	–version	4.0 beta	OpenMP 4.5
	xlflang Fortran	–version	4.0 beta	OpenMP 4.5

为了查看所有的LC编译器版本，请使用下述命令：

TOSS 2, BG/Q：use -l compilers
TOSS 3, CORAL EA：module avail

可以在这里查看编译器对OpenMP的支持情况：http://openmp.org/wp/openmp-compilers/。

编译： 所有的LC编译器都需要你使用适当的编译器标识来“打开”OpenMP的编译选项。下面的表格给出了每种编译器需要使用的编译器标识。关于MPI的编译器命令可以参见这里。

编译器平台	编译器命令	OpenMP标识0
Intel	icc	-qopenmp
Linux	icpc	-openmp
	ifort
GNU	gcc	-fopenmp
Linux	g++
IBM Blue Gene	g77
CORAL EA	gfortran
PGI	pgcc	-mp
Linux	pgCC
CORAL EA	pgf77
	pgf90
Clang	clang	-fopenmp
Linux	clang++
CORAL EA
xlflang	xlflang
CORAL EA
IBM XL	bgxlc_r, bgcc_r	-qsmp=omp
Blue Gene *	bgxlC_r, bgxlc++_r
	bgxlc89_r
	bgxlc99_r
	bgxlf_r
	bgxlf90_r
	bgxlf95_r
	bgxlf2003_r
IBM XL	xlc_r	-qsmp=omp
CORAL EA *	xlC_r, xlc++_r
	xlf_r
	xlf90_r
	xlf95_r
	xlf2003_r
	xlf2008_r

* 请确保采用线程安全的编译器——它的名字以 _r 结尾。

编译器文档：

Intel和PGI：其编译器文档可参见：/opt/compilername。更多信息可参见Intel和PGI的网页。
IBM BlueGene：www-01.ibm.com/software/awdtools/xlcpp。
GNU：http://www.gnu.org/。
Clang：http://clang.llvm.org/docs/。

6. OpenMP指令

6.1 Fortran指令格式

略。

6.2 C/C++指令格式

格式：

pragma omp	directive-name	[clause, …]	newline
所有OpenMP C/C++指令都需要由此开头。	一个合法的OpenMP指令。需要出现在pragma之后，所有其它从句之前。	可选。从句可以以任意次序出现，并且可以在需要的时候重复出现出现（特殊情况除外）。	必须。先于本指令附带的结构化块出现。

示例：

#pragma omp parallel default(shared) private(beta,pi)

一般规则：1）大小写敏感；2）OpenMP指令遵循C/C++指令的标准约定；3）每个指令只能指定一个指令名；4）每个指令最多只适用于一个后续的声明，而且该后续声明必须是一个结构化的块；5）在之领航的末尾通过使用反斜杠“\”转移换行符，可以在后续行上“延续”长指令行。

6.3 指令有效范围

静态（词汇）范围：

代码以本文的方式包含在指令之后的结构化块中；
指令的静态范围不跨越多个例程或者代码文件。

孤立指令：

独立于另一个封装指令的OpenMP指令被称为是一个孤立指令。它存在于另一个指令的静态（词法）范围之外；
独立指令将跨越例程或者可能的代码文件。

动态范围：

指令的动态范围包括其静态（词法）范围以及孤立指令的范围。

示例：

#pragma omp parallel for
for (int i = 0; i < 10; ++i) {
    sub_routine_1();
    sub_routine_2();
}

sub_routine_1() {
    #pragma omp critical
    {
        do_something_1();
    }
}

sub_routine_2() {
    #pragma omp sections
    {
        do_something_2();
    }
}

静态扩展：for指令在封闭并行块内发生；
孤立指令：CRITICAL和SECTIONS指令在封闭并行块外发生；
动态扩展：CRITICAL和SECTIONS指令在for和PARALLEL指令的动态上下文中发生。

为什么重要？

OpenMP定义了大量的有效范围规则，指定指令之间如何合并和相互嵌套；
如果OpenMP绑定和嵌套规则被忽略，则可能会导致非常或者不正确的程序结果；
更多规则请参见：6.12 数据范围/属性从句。

6.4 并行区域构建

目标：并行区域是指一个可以被多个线程执行的代码块。这是OpenMP并行构建的基础。

格式：

#pragma omp parallel [clause ...]  newline 
                     if (scalar_expression) 
                     private (list) 
                     shared (list) 
                     default (shared | none) 
                     firstprivate (list) 
                     reduction (operator: list) 
                     copyin (list) 
                     num_threads (integer-expression)


   structured_block

注意事项：

当一个线程执行到并行指令时，它创建一组线程，并自己成为线程组的主线程。主线程是该组线程中的一员，并且其线程编号为0；
从并行区域开始，代码将会被复制，并且不同的线程将会执行代码的不同副本；
在并行区域结束之处有一个隐式的屏障。在屏障之后只有主线程会继续执行；
如果任何一个线程在并行区域中终止，则组中的所有线程都将终止。截止此时所完成的工作是没有定义的。

多少个线程？ 并行区域中的线程数取决于如下因素，其优先级依次为：

对 IF 从句的验算；
对 NUM_THREADS 从句的设置；
对omp_set_num_threads() 库函数的使用；
对 OMP_NUM_THREADS 环境变量的设置；
默认实现：通常是CPU的数量或者其内核的数量，当然也可以是动态的。

线程编号从0（主线程）到 N-1。

动态线程：

采用omp_get_dynamic() 来确定动态线程是否被启动；
如果被支持，则可以采用如下两种方法来启动动态线程：1）库函数omp_set_dynamic()；2）设置环境变量 OMP_DYNAMIC 为TRUE。

嵌套并行区域：

采用库函数omp_get_nested() 来确定嵌套并行区域是否被启动；
可以采用如下两种方法启动嵌套并行区域：1）库函数omp_set_nested()；2）设置环境变量OMP_NESTED 为TRUE。
如果嵌套并行区域不被支持，那么嵌套在其它并行区域中的一个并行区域将导致新创建一个新组，改组中默认只包含一个线程。

从句：

IF 从句：从句中表达式必须为验算为TRUE，以便于线程组可以被创建。否则，区域内的代码将会被主线程串行执行。
其它从句将会在后面加以描述，请见：6.12 数据范围/属性从句。

限制： 1）并行区域必须是一个结构化的块，不能跨越多个例程或者代码文件；2）在并行区域内采用分支（goto）是非法的；3）仅仅可以使用一个 IF 从句；4）仅仅允许使用一个NUM_THREADS；5）程序不能依赖于从句出现的次序。

一个并行区域的例子： 一个简单的“Hello World”程序：1）每个线程执行并行区域内的所有代码；2）OpenMP库函数被用来获取线程ID以及总线程数。

#include 

main(int argc, char *argv[]) {
    int nthreads, tid;
    /* Fork a team of threads with each thread having a private tid variable */
    #pragma omp parallel private(tid)
    {
       /* Obtain and print thread id */
       tid = omp_get_thread_num();
       printf("Hello World from thread = %d\n", tid);

       /* Only master thread does this */
       if (tid == 0) {
           nthreads = omp_get_num_threads();
           printf("Number of threads = %d\n", nthreads);
       }
    }  /* All threads join master thread and terminate */
}

6.5 OpenMP练习1

总览：

使用你的用户名和OTP令牌登录讲习班的集群系统；
将练习文件复制到您的主目录下；
熟悉LC和OpenMP环境；
编写一个简单的“Hello World”OpenMP程序；
成功编译你的程序；
成功运行你的程序；
修改用户运行程序的线程数。

点击 GO TO THE EXERCISE HERE 开始，大约需要20分钟。

6.6 工作共享构造

工作共享构造将一段封闭代码划分给当前组内的线程；工作共享构造并不会启动新的线程；在进入工作共享构造之处没有隐含的屏障，但是在工作共享手造结束之处存在隐含的障碍。

工作共享构造的分类：

Do/For	SECTIONS	SINGLE
在组线程成员之间分享循环迭代。这种构造代表一种“数据并行”	将工作分解为独立的部分，每个部分由一个线程执行，代表一种“功能并行”	将一段代码串行执行。该部分的所有代码都由一个线程独立完成

限制条件： 1）工作共享结构必须在并行区域内动态封闭，以便指令并行执行；2）工作共享结构必须由组内成员全部遇到或者全部都没遇到；3）一个组的所有成员必须以相同的顺序遇到连续的工作共享结构。

6.6.1 DO/for指令

目标： DO/For指令指定紧随其后的循环迭代必须由组内线程并行执行。这里假设并行区域已经启动，否则这些循环迭代将只会在单个处理器上串行执行。

形式：

#pragma omp for [clause ...]  newline 
                schedule (type [,chunk]) 
                ordered
                private (list) 
                firstprivate (list) 
                lastprivate (list) 
                shared (list) 
                reduction (operator: list) 
                collapse (n) 
                nowait 

   for_loop

从句：

SCHEDULE：定义迭代循环如何在一组线程之间进行分配。其默认调度策略是取决于具体实现的。关于某种调度策略比其它策略更优的详细讨论请参见：http://forum.openmp.org/forum/viewtopic.php?f=3&t=83。
- 静态的（STATIC）：循环迭代被划分成为大小为chunk 的一系列块，然后这些块被静态地分配给不同的线程。如果chunk 没有被明确定义，则迭代被平均（如果可能）并且连续第分配给组内线程。
- 动态的（DYNAMIC）：循环迭代被划分成为大小为chunk 的一系列块，并在线程之间动态调度；当一个线程完成一个块时，它被动态地分配给另外一个块。默认的chunk 大小为1。
- 有指导的（GUIDED）：当线程发出请求时，迭代被动态地分配给发出请求的线程，直到没有块被分配为止。与动态分配方式（DYNAMIC）类似，只是每次线程提供一个工作包时，其大小都会减小。初始块的大小与number_of_iterations / number_of_threads 成正比；随后的块与number_of_iterations_remaining / number_of_threads 成正比；参数chunk 定义最小块大小，默认大小为1。
- 运行时的（RUNTIME）：调度策略由环境变量OMP_SCHEDULE 推迟到运行时为止。为这一类型的调度策略指定chunk 大小是非法的。
- 自动的（AUTO）：将调度决定委托给编译器和/或运行时系统。
NO WAIT / nowait：如果指定，那么线程在并行循环结束时不同步。
ORDERED：执行循环的迭代必须像在串行程序中一样执行。
COLLAPSE：指定嵌套循环中的循环应该被折叠成一个大的迭代空间，并根据SCHEDULE子句进行划分。所有关联循环中的迭代的执行顺序确定了折叠迭代空间中的迭代顺序。

关于其余从句的详细描述请参见：6.12 数据范围/属性从句。

限制条件：

DO循环不能是DO WHILE循环，或者没有循环控制的循环。此外，循环迭代变量必须是整数，所有线程的循环控制参数必须相同。
程序的正确性不能取决于哪个线程执行哪个特定的迭代。
在与DO/For指令相关联的循环中，分支（goto）语句时非法的。
必须将块大小指定为循环不变的整数表达式，因为在其不同线程的评估期间没有同步。
ORDERED, COLLAPSE和SCHEDULE子句可能均会出现一次。
有关其他的限制条件，请参考OpenMP的说明文档。

示例：

一个简单的向量加程序：1）数组A, B, C以及变量N将被所有线程共享；2）变量I将成为不同线程内的私有变量，每个线程将会拥有其唯一的副本；3）循环迭代将会被动态地在线程之间分配，其块大小为CHUNK；4）线程在完成它们各自的块之后将不会同步（NOWAIT）。

#include 
#define N 1000
#define CHUNKSIZE 100

main(int argc, char *argv[]) {
    int i, chunk;
    float a[N], b[N], c[N];

    /* Some initializations */
    for (i=0; i < N; i++)
       a[i] = b[i] = i * 1.0;
    chunk = CHUNKSIZE;

    #pragma omp parallel shared(a,b,c,chunk) private(i)
    {
        #pragma omp for schedule(dynamic,chunk) nowait
        for (i=0; i < N; i++)
            c[i] = a[i] + b[i];
    }   /* end of parallel region */
}

6.6.2 SECTIONS指令

目标： SECTIONS指令是一个非迭代的工作共享结构，它表明封闭的代码段将在组内线程之间划分。独立的SECTION指令被嵌套在SECTIONS指令内。每个SECTION由组内的一个线程执行一次，不同的SECTION部分可能会由不同的线程来执行。如果某个线程执行的足够快并且实现中也允许这样，那么一个线程也有可能在实际中执行多个SECTION部分。

格式：

#pragma omp sections [clause ...]  newline 
                     private (list) 
                     firstprivate (list) 
                     lastprivate (list) 
                     reduction (operator: list) 
                     nowait
  {
  #pragma omp section   newline 
     structured_block

  #pragma omp section   newline 
     structured_block
  }

从句：

在每个SECTIONS指令的末尾都会有一个隐含的屏障，除非子句 NOWAIT/nowait 被明确指定。
从句将会在后续章节6.12 数据范围/属性从句中被详细讨论。

问题：

如果线程数和SECTION指令个数不相同怎么办？如果线程更多呢？如果SECTION指令更多呢？
答案：如果线程数更多，那么某些线程将不会执行SECTION指令；如果SECTION指令更多，那么某些线程将会执行多个SECTION指令。
哪个线程执行哪个SECTION指令？
答案：这个取决于具体实现，而且不同的执行过程分配也有可能不同。

限制：

分支（goto）进出区块是非法的；
SECTION指令必须在封闭的SECTIONS指令的作用范围内发生（无孤立的SECTION指令）。

示例：

这里给出一个简单的程序，用以说明不同的线程将会执行不同块中的工作。

#include 
#define N 1000

main(int argc, char *argv[]) {
    int i;
    float a[N], b[N], c[N], d[N];

    /* Some initializations */
    for (i=0; i < N; i++) {
        a[i] = i * 1.5;
        b[i] = i + 22.35;
    }

    #pragma omp parallel shared(a,b,c,d) private(i)
    {
        #pragma omp sections nowait
        {
            #pragma omp section
            for (i=0; i < N; i++)
                c[i] = a[i] + b[i];

            #pragma omp section
            for (i=0; i < N; i++)
                d[i] = a[i] * b[i];
        }  /* end of sections */
    }  /* end of parallel region */
}

6.6.3 SINGLE指令

目标： SINGLE指令指定所附代码仅由组内的一个线程来执行。这在处理非线程安全的代码部分（如I/O时）可能会很有用。

格式：

#pragma omp single [clause ...]  newline 
                   private (list) 
                   firstprivate (list) 
                   nowait

     structured_block

从句：

在组内不执行SINGLE指令的线程将会在代码块结束处等待，除非NOWAIT/nowait 被明确指定。
从句将会在后续章节6.12 数据范围/属性从句中被详细讨论。

限制：

分支（goto）进出SINGLE区块是非法的；

6.7 并行作业共享构建

OpenMP提供了三个只是提供便利的指令：1）PARALLEL DO / parallel for；2）PARALLEL SECTIONS；3）PARALLEL WORKSHARE (仅限于FORTRAN)。

在大多数情况下，这些指令与后面紧随着单独工作共享指令的单独PARALLEL的行为相同。

大多数适用于这两条指令的规则，从句或者限制都有效，更多详细信息可以参考OpenMP API。

使用PARALLEL DO/parallel组合指令的示例如下所示。

#include 
#define N           1000
#define CHUNKSIZE   100

main(int argc, char *argv[]) {
    int i, chunk;
    float a[N], b[N], c[N];

    /* Some initializations */
    for (i=0; i < N; i++)
        a[i] = b[i] = i * 1.0;
    chunk = CHUNKSIZE;

    #pragma omp parallel for shared(a,b,c,chunk) private(i) schedule(static,chunk)
    for (i=0; i < n; i++)
        c[i] = a[i] + b[i];
}

6.8 任务构建

目标： 1）TASK指令定义了一个显式任务，该任务可以由遇到的线程执行，或者由组内的任务其它线程延迟执行。2）任务的数据环境由数据共享属性从句确定。3）任务的执行需要进行任务调度——有关详细信息可以参考 OpenMP 3.1文档说明。4）另请参阅OpenMP 3.1文档中的taskyield指令和taskwait指令。

格式：

#pragma omp task [clause ...]  newline 
                   if (scalar expression) 
                   final (scalar expression) 
                   untied
                   default (shared | none)
                   mergeable
                   private (list) 
                   firstprivate (list) 
                   shared (list) 

     structured_block

从句和限制：

详细内容请参阅OpenMP 3.1说明文档。

6.9 OpenMP练习2

总览：

如果你还没有登录LC讲习班集群，请首先登录；
请浏览，编译和运行工作共享DO/For构建示例；
请浏览，编译和运行工作共享 SECTIONS构建示例。

点击 GO TO THE EXERCISE HERE 开始，大约需要20分钟。

6.10 同步构建

思考如下一个简单示例：两个线程或者两个不同的处理器同时试图去对变量x进行自增操作（x的初始值为0）。

线程1：

increment(x) {
    x = x + 1;
}
THREAD 1:
10  LOAD A, (x address)
20  ADD A, 1
30  STORE A, (x address)

线程2：

increment(x)
{
    x = x + 1;
}
THREAD 2:
10  LOAD A, (x address)
20  ADD A, 1
30  STORE A, (x address)

一种可能的执行序列是：1）线程1在寄存器A上加载x的值；2）线程1在寄存器上加1；3）线程2在寄存器A上加载x的值；4）线程2在寄存器上加1；5）线程1将寄存器A上的值存储回x；6）线程2将寄存器A上的值存储回x。

此时x的值为1，而不是2。为了避免类似情况的发生，对x的自增运算必须在线程之间被同步，以保证运算结果的正确性。

OpenMP提供了多种同步机制，以控制每个线程相对于其它线程如何执行。

6.10.1 MASTER指令

目标：

MASTER指令指定该区域只能被主线程执行。所有其它线程将会自动跳过这一段代码。
在该指令之后没有隐式的屏障（意味着其余线程不需要在此进行同步）。

格式：

#pragma omp master  newline

   structured_block

限制：

分支（goto）进出MASTER区块是非法的。

6.10.2 CRITICAL指令

目标：

CRITICAL指令指定该区块一次只能由一个线程执行。

格式：

#pragma omp critical [ name ]  newline

   structured_block

注意事项：

如果一个线程当前正在CRITICAL区域内执行，如果另一个线程到达CRITICAL区域并尝试执行它，那么后到的线程将被阻塞，直到第一个线程退出该CRITICAL区域。
可选名称允许多个CRITICAL区块同时存在：1）名称将被作为全局标识符。具有相同名字的不同CRITICAL区块将会被认为是同一区块；2）所有匿名的CRITICAL区块将会被认为是同一个区块。

限制：

分支进出（goto）CRITICAL区块是非法的。

示例： 组内所有的线程都试图去并行执行。但是由于CRITICAL区块的存在，任何时刻最多只能有一个线程去执行自增操作。

#include 

main(int argc, char *argv[]) {
    int x = 0;
    #pragma omp parallel shared(x) 
    {
        #pragma omp critical 
        x = x + 1;
    }  /* end of parallel region */
}

6.10.3 BARRIER指令

目标：

BARRIER指令同步组内的所哟线程；
当到达一个BARRIER指令处时，一个线程将在该处等待直到所有线程到达该处。然后所有线程开始并发执行barrier之后的代码。

格式：

#pragma omp barrier  newline

限制：

所有组内的线程必须执行BARRIER区域内的代码；
对于组内的线程，遇到工作共享区域和屏障区域的顺序必须相同。

6.10.4 TASKWAIT指令

目标：

OpenMP 3.1的新特征；
TASKWAIT指令指定在当前任务开始后生成的子任务之前需要等待（译注：这段话很拗口，也没明白在讲什么。。。）。

格式：

#pragma omp taskwait  newline

限制：

由于taskwait结构没有C语言作为其语法的一部分，因此在程序中的位置会有一些限制，taskwait指令只能放在允许基础语言语句的位置。taskwait指令可能不能被放在if，while，do，switch或者label之后的语句处，详细信息请参考OpenMP 3.1文档说明。

6.10.5 ATOMIC指令

目标：

ATOMIC指令指定特定的内存位置必须为原子更新，而不是让多个线程尝试写入它。事实上，该指令提供了一个最小单位的CRITICAL区域。

格式：

#pragma omp atomic  newline

   statement_expression

限制：

该指令仅仅适用于紧随于其后的一行执行语句；
该指令必须遵从特定的语法格式。请参考最新OpenMP标准对其定义。

6.10.6 FLUSH指令

目标：

FLUSH指令定义了一个同步点，在该同步点处，实现必须提供一致的内存视图。此时线程可见的变量将被写回内存。
关于OpenMP内的这一指令在论坛内也已经进行了大量讨论。如果你希望咨询更多信息，并且发现有些很难理解？那么依据API：如果两个不同线程执行的两个flush集合的交集不是空的，那么两个刷新必须按照所有线程看到的顺序完成。还是一头雾水？
这里引用一下openmp.org中的一个FAQ：
Q17：缓存一致系统上是否需要flush指令？
A17：是的，必须使用flush指令。请参照OpenMP规范中的例子以及它的用途。该指令将指示编译器必须将该变量写入/从存储系统读取的，即该变量不能通过代码中的flush语句保存在本地CPU寄存器中。高速缓存一致性确保如果一个CPU执行存储器的读或者写指令，则系统中的所有其它CPU在访问该存储器地址时将获得相同的值。所有缓存将显示一个连贯值。然而在OpenMP标准中，必须有一种方式来指示编译器实际执行读写机器指令，而不是延迟它。在循环中生成有效的机器语言代码时，将循环中的变量保留在寄存器中是非常常见的。

有关更详细信息，请参阅最新的OpenMP规范。

格式：

#pragma omp flush (list)  newline

注意事项：

可选列表包含将被刷新的命名变量列表，以避免刷新所有变量。对于列表中的指针，请注意是指针本身被刷新，而不是其指向的对象。
实现必须确保所有线程对线程可见变量的任何先前的修改都是可见的，即编译器必须将值从寄存器恢复到内存；硬件可能需要刷新“写入缓冲区”等。
FLUSH指令隐含在下表所示的指令中。如果存在NOWAIT从句，则不会隐含该指令。

barrier 
parallel - upon entry and exit 
critical - upon entry and exit 
ordered - upon entry and exit 
for - upon exit 
sections - upon exit 
single - upon exit

6.10.7 ORDERED指令

目标：

ORDERED指令指定封闭循环中的迭代顺序将与其对应的串行代码的执行顺序完全一样；
如果某个线程执行某个迭代时，发现其之前的迭代尚未完成，那么该线程将等待；
在DO/For循环中加入ORDERED从句来实现；
ORDERED指令提供了一种在循环中应用排序的“微调”方式；否则，该排序不是必须的。

格式：

#pragma omp for ordered [clauses...]
   (loop region)

#pragma omp ordered  newline

   structured_block

   (endo of loop region)

限制：

ORDERED指令只能出现在for（C++）的动态上下文中；
任何时刻只能顺次地有一个线程在执行；
分支（goto）进出ORDERED区块是非法的；
循环中的迭代不能多次执行相同的ORDERED指令，并且不能执行多个ORDERED指令；
包含ORDERED指令的循环必须是带有ORDERED从句的循环。

6.11 THREADPRIVATE指令

目标： THREADPRIVATE指令用于在执行并行区域时，将全局变量（C/C++）变为线程的本地变量。

格式：

#pragma omp threadprivate (list)

注意事项： 该指令必须在声明列出的变量/公共块之后出现。然后每个线程都将获得自己的变量/公共块的副本，所以一个线程写入的数据对于其它编程而言是不可见的。例如：

#include  

int  a, b, i, tid;
float x;

#pragma omp threadprivate(a, x)
main(int argc, char *argv[]) {
    /* Explicitly turn off dynamic threads */
    omp_set_dynamic(0);
    printf("1st Parallel Region:\n");
    #pragma omp parallel private(b,tid)
    {
        tid = omp_get_thread_num();
        a = tid;
        b = tid;
        x = 1.1 * tid +1.0;
        printf("Thread %d:   a,b,x= %d %d %f\n",tid,a,b,x);
    }  /* end of parallel region */

    printf("************************************\n");
    printf("Master thread doing serial work here\n");
    printf("************************************\n");

    printf("2nd Parallel Region:\n");
    #pragma omp parallel private(tid)
    {
        tid = omp_get_thread_num();
        printf("Thread %d:   a,b,x= %d %d %f\n",tid,a,b,x);
    }  /* end of parallel region */
}

 Output:

 1st Parallel Region:
 Thread 0:   a,b,x= 0 0 1.000000
 Thread 2:   a,b,x= 2 2 3.200000
 Thread 3:   a,b,x= 3 3 4.300000
 Thread 1:   a,b,x= 1 1 2.100000
 ************************************
 Master thread doing serial work here
 ************************************
 2nd Parallel Region:
 Thread 0:   a,b,x= 0 0 1.000000
 Thread 3:   a,b,x= 3 0 4.300000
 Thread 1:   a,b,x= 1 0 2.100000
 Thread 2:   a,b,x= 2 0 3.200000

在首次进入并行区域时，除非在PARALLEL指令中制定了COPYIN从句，否则THREADPRIVATE变量和公共块中的数据应该被视为未定义。

THREADPRIVATE变量与PRIVATE变量（稍后将讨论）不同，因为它们能够在代码的不同并行区域之间持续存在。

限制：

只有当动态线程机制为“关闭”且不同并行区域中的线程数保持不变时，才能保证THREADPRIVATE对象中的数据保持不变。动态线程的默认设置未定义；
THREADPRIVATE指令必须在线程私有变量/公共块的每个声明之后出现。

6.12 数据范围属性从句

也被成为数据共享属性从句。对数据范围的理解和使用是OpenMP编程的一个重要考虑因素。由于OpenMP是基于共享内存编程模型的，所以大多数变量在默认情况下都是共享的。

全局变量包括：

（C/C++）文件范围内的变量，静态变量。

私有变量包括：

循环索引变量（译注：也就是我们编程中常用的i，j等）；
从并行区域中调用的子程序的栈变量。

OpenMP数据范围属性从句用来显式定义各个变量的有效范围，它们包括：

PRIVATE
FIRSTPRIVATE
LASTPRIVATE
SHARED
DEFAULT
REDUCTION
COPYIN

数据范围属性从句和一些指令（PARALLEL, DO/for以及SECTIONS）等被一起使用，以控制封闭区域内的变量的有效范围。

这些构造提供了并行构造运行时控制数据环境的能力：

它们定义了哪些数据变量以什么方式从串行区域中被转移到并行区域中（以及转移回串行区域）；
它们定义了哪些变量将会对所有线程可见，以及哪些变量将会仅仅成为线程内的可见变量。

数据范围属性从句仅仅在其词汇/静态范围内有效。

重要提示：有关次主题的重要细节和讨论，请参阅最新的OpenMP规范。

位便于查阅，我们提供了一张表格6.13 从句/指令总结。

6.12.1 PRIVATE从句

目标：

PRIVATE从句指定列表中的变量属于每个线程的私有变量。

格式：

private (list)

注意事项：

PRIVATE变量的行为如下：
- 对组内每个线程，将会定义一个同类型的对象；
- 所有对原有对象的引用将会被新对象所替代；
- 在PRIVATE中定义的变量，在每个线程内部将会被认为是没有初始化的。
PRIVATE和THREADPRIVATE的对比如下：

类型	PRIVATE	THREADPRIVATE
数据项	变量	变量
声明处	共享任务区域的开始处	每个采用块的例程处或者全局文件处
一致性	不保证一致性	保证一致性
扩展	仅限于词汇-除非作为子程序的参数传递	动态
初始化	采用FIRSTPRIVATE	采用COPYIN

6.12.2 SHARED从句

目标：

SHARED从句指定其列表中的数据将会在所有线程中间共享。

格式：

shared (list)

注意事项：

所有被共享的数据仅仅存在于一块内存中，并且所有线程都可以对该内存地址进行读取；
编程者需要负责对共享数据的正确存取（例如采用CRITICAL指令等）。

6.12.3 DEFAULT从句

目标：

DEFAULT从句允许用户为任何并行区域的词法范围中的所有变量指定默认范围。

格式：

default (shared | none)

注意事项：

特定变量可以使用PRIVATE, FIRSTPRIVATE, LASTPRIVATE和REDUCTION子句来免除默认值；
C/C++OpenMP规范不包括private或firstprivate作为可能的默认值，然而实际实现中可以提供这个选项。
使用NONE作为默认值时，需要编程者显示地为所有变量指定范围。

限制：

在一个PARALLEL指令中只可以指定一个DEFAULT从句。

6.12.4 FIRSTPRIVATE从句

目标：

FIRSTPRIVATE子句包含了PRIVATE子句的功能以及自动为列表中的变量初始化的功能。

格式：

firstprivate (list)

注意事项：

列表中的变量在进入并行或者工作共享结构之前，将被初始化为其原始对象的值。

6.12.5 LASTPRIVATE从句

目标：

 - LASTPRIVATE从句包含了PRIVATE从句的功能以及从最后一个循环或者section中向原始对象变量赋值的功能。

格式：

lastprivate (list)

注意事项：

复制回原始变量对象的值是从封闭结构的最后（顺序）迭代或者部分获得的（译注：也就是说从串行情况下的最后一个迭代复制，而不是并行情况下最后结束的那个迭代复制）。例如，执行DO部分的最后一次迭代的线程，或者执行最后一个SECTION的线程将会执行赋值操作，将其线程内的变量值赋回原始对象。

6.12.6 COPYIN从句

目标：

COPYIN从句提供了一种方法，将所有THREADPRIVATE变量赋予相同的值。

格式：

copyin (list)

注意事项：

列表中包含了所有需要被赋值的变量；
主线程中的变量将作为复制源，组内线程在进入并行构造区域时被初始化为其值。

6.12.7 COPYPRIVATE从句

目标：

COPYPRIVATE从句用于将单个线程获取的变量值广播到其它线程的中的私有变量的所有实例；
它与SINGLE指令相关联。
有关其它讨论和示例，请参阅最新的OpenMP规范文档。

格式：

copyprivate (list)

6.12.8 REDUCTION从句

目标：

REDUCTION子句对列表中出现的变量执行规约操作。
该指令为每个线程创建并初始化每个列表变量的私有副本。在规约结束时，REDUCTION变量应用于共享变量的所有私有副本，并将最终结果写入全局共享变量中。

格式：

reduction (operator: list)

操作	操作符	初始值
加法	+	0
乘法	*	1
减法	-	0
逻辑与	&&	0
逻辑或	\|\|	0
按位与	&	1
按位或	\|	0
按位异或	^	0
相等		true
不等		false
最大值	max	最小负值
最小值	min	最大正值

REDUCTION实例：向量点乘

并行循环迭代将相同大小的块分给团队中的每个线程（SHEDULE STATIC）;
在并行循环结构的末尾，所有线程都将添加“result”的值来更新主线程的全局副本。

#include 

main(int argc, char *argv[]) {
    int i, n, chunk;
    float a[100], b[100], result;

    /* Some initializations */
    n = 100;
    chunk = 10;
    result = 0.0;
    for (i=0; i < n; i++) {
        a[i] = i * 1.0;
        b[i] = i * 2.0;
    }

    #pragma omp parallel for default(shared) private(i) \  
   schedule(static,chunk) reduction(+:result)  
   for (i=0; i < n; i++) {
       result = result + (a[i] * b[i]);
   }
   printf("Final result= %f\n",result);
}

限制条件：

列表项的类型必须对缩减运算符有效；
列表项/变量不能被声明为共享或者私有；
规约操作可能不满足实数的结合律；
有关其它限制，请参阅OpenMP API标准。

6.13 从句/指令总结

下表总结了从句与OpenMP指令之间的兼容性关系。

从句	PARALLEL	DO/For	SECTIONS	SINGLE	PARALLEL DO/For	PARALLEL SECTIONS
IF	yes				yes	yes
PRIVATE	yes	yes	yes	yes	yes	yes
SHARED	yes	yes			yes	yes
DEFAULT	yes				yes	yes
FIRSTPRIVATE	yes	yes	yes	yes	yes	yes
LASTPRIVATE		yes	yes		yes	yes
REDUCTION	yes	yes	yes		yes	yes
COPYIN	yes				yes	yes
COPYPRIVATE				yes
SCHEDULE		yes			yes
ORDERED		yes			yes
NOWAIT		yes	yes	yes

以下OpenMP指令不接受从句：
- MASTER
- CRITICAL
- BARRIER
- ATOMIC
- FLUSH
- ORDERED
- THREADPRIVATE
在不同实现中指令支持的从句可能会有所不同。

6.14 指令绑定和嵌套规则

本节可主要作为管理OpenMP指令和绑定规则的快速参考。要了解其它规则，用户可参考其实现文档以及OpenMP标准。

指令绑定：

如果存在动态封闭区域，则DO/For, SECTIONS, SINGLE, MASTER和BARRIER指令绑定到该区域。如果当前没有执行任何并行区域，则这些指令不起作用；
ORDERED指令绑定到动态封闭的DO/For中；
ATOMIC指令在所有线程中强制执行ATOMIC指令的独占访问，而不仅仅是当前组；
CRITICAL指令在所有线程中强制执行CRITICAL指令的独占访问，而不仅仅是当前组；
指令不能绑定到最接近的PARALLEL之外的任何指令。

指令嵌套：

作业共享区域可能不会紧密嵌套在作业共享、显式任务、critical，ordered，atomic或者主区域内；
屏障区域可能不会紧密嵌套在作业共享、显式任务、critical，ordered，atomic或者主区域内；
主区域可能不会紧密嵌套在作业共享、原子或者显式任务区域内；
有序区域可能不会紧密嵌套在critical，atomic或者显式任务区域内；
有序区域必须使用ordered从句紧密嵌套在循环区域（或者并行循环区域）内；
critical区域可能不会在具有相同名称的关键区域内嵌套。请注意，此限制不足以防止死锁；
parallel，flush，critical，atomic，taskyield和显式任务区域可能不会紧密嵌套在原子区域内。

7. 运行时库函数

OpenMP API的运行时库函数仍然在不断增长中。这些运行时库函数的目标各异，如下表所示：

库函数	目标
OMP_SET_NUM_THREADS	设置在下一个并行区域中使用的线程数
OMP_GET_NUM_THREADS	返回当前处于执行调用的并行区域中的线程数
OMP_GET_MAX_THREADS	返回调用OMP_GET_NUM_THREADS函数可以返回的最大值
OMP_GET_THREAD_NUM	返回组内线程的线程号（译注：不要和线程总数搞混）
OMP_GET_THREAD_LIMIT	返回可用于程序的最大OpenMP线程数
OMP_GET_NUM_PROCS	返回程序可用的处理器数
OMP_IN_PARALLEL	用于确定正在执行的代码是否是并行的
OMP_SET_DYNAMIC	启动或者禁用可执行并行区域的线程数（由运行时系统）的动态调整
OMP_GET_DYNAMIC	用于确定是否启动了动态线程调整
OMP_SET_NESTED	用于启用或者禁用嵌套并行
OMP_GET_NESTED	用于确定嵌套并行是否被弃用
OMP_SET_SCHEDULE	当“运行时”被用作OpenMP指令中的调度类型时，设置循环调度策略
OMP_GET_SCHEDULE	当“运行时”被用作OpenMP指令中的调度类型时，返回循环调度策略
OMP_SET_MAX_ACTIVE_LEVELS	设置嵌套并行区域的最大数量
OMP_GET_MAX_ACTIVE_LEVELS	返回嵌套并行区域的最大数量
OMP_GET_LEVEL	返回嵌套并行区域的当前级别
OMP_GET_ANCESTOR_THREAD_NUM	给定当前线程的嵌套级别，返回其祖先线程的线程号
OMP_GET_TEAM_SIZE	给定当前线程的嵌套级别，返回其线程组的大小
OMP_GET_ACTIVE_LEVEL	返回包含调用任务的的嵌套活动并行区域的数量
OMP_IN_FINAL	如果在最终任务区域中执行该例程，则返回true；否则返回false
OMP_INIT_LOCK	初始化与锁变量相关联的锁
OMP_DESTROY_LOCK	解除给定的锁变量与所有锁的关联
OMP_SET_LOCK	获取锁的所有权
OMP_UNSET_LOCK	释放锁
OMP_TEST_LOCK	尝试设置锁，但是如果锁不可用，则不会阻止
OMP_INIT_NEST_LOCK	初始化与锁定变量关联的嵌套锁
OMP_DESTROY_NEST_LOCK	将给定的嵌套锁变量与所有锁解除关联
OMP_SET_NEST_LOCK	获取嵌套锁的所有权
OMP_UNSET_NEST_LOCK	释放嵌套锁
OMP_TEST_NEST_LOCK	尝试设置嵌套锁，但如果锁不可用，则不会阻止
OMP_GET_WTIME	提供便携式挂钟计时程序
OMP_GET_WTICK	返回连续时钟之间的秒数（双精度浮点值）

对于C/C++而言，所有的运行时坤函数相当于子程序，例如下面的代码：

#include 
int omp_get_num_threads(void)

对于C/C++而言，你通常需要包含头文件。

对于锁运行时/函数而言：

锁变量必须通过所运行时来进行存取；
对于C/C++而言，根据所使用的函数，锁变量的类型必须为omp_lock_t 或者omp_nest_lock_t 。

实现注意事项：

实现中可能并不支持所有的OpenMP API功能。例如，如果支持嵌套并行，那么可能只是名义上的，因为嵌套的并行区域可能只有一个线程。
有关相信信息，请查阅具体实现文档——或者如果在文档中找不到时用实验检测。

关于运行时函数的更详细讨论请见：附录A：运行时库函数。

8. 环境变量

OpenMP提供了如下环境变量，以用于对并行代码的控制。所有环境变量的名称都是大写的，而赋予它们的值则是大小写不敏感的。

OMP_SCHEDULE：仅仅适用于for, parallel for指令在调度从句被设置为RUNTIME的情况。该变量的值确定了处理器中的循环迭代如何被调度。例如：

setenv OMP_SCHEDULE "guided, 4" 
setenv OMP_SCHEDULE "dynamic"

OMP_NUM_THREADS：设置在运行中可用的最大线程数，例如：

setenv OMP_NUM_THREADS 8

OMP_DYNAMIC：启用或者禁用在执行并行区域时可用线程数的动态调整。其合法的值为TRUE或者FALSE。例如：

setenv OMP_DYNAMIC TRUE

OMP_PROC_BIND：启用或者禁用与处理器绑定的线程，有效值为TRUE或者FALSE。例如：

setenv OMP_PROC_BIND TRUE

OMP_NESTED：启用或者禁用嵌套并行，其有效值为TRUE或者FALSE。例如：

setenv OMP_NESTED TRUE

OMP_STACKSIZE：用于控制所创建的线程（非主线程）的栈空间大小。例如：

setenv OMP_STACKSIZE 2000500B 
setenv OMP_STACKSIZE "3000 k " 
setenv OMP_STACKSIZE 10M 
setenv OMP_STACKSIZE " 10 M " 
setenv OMP_STACKSIZE "20 m " 
setenv OMP_STACKSIZE " 1G" 
setenv OMP_STACKSIZE 20000

OMP_WAIT_POLICY：为OpenMP的实现提供一种关于等待线程所需行为的提示。一个兼容的OpenMP实现可能会也可能不会遵循环境变量的设置。其有效值为ACTIVE或者PASSIVE。ACTIVE指定等待线程主要是活动的，即在等待时消耗处理器周期；PASSIVE指定等待线程主要是被动的，即等待时不消耗处理器周期。ACTIVE和PASSIVE行为的细节是实现定义的。例如：

setenv OMP_WAIT_POLICY ACTIVE 
setenv OMP_WAIT_POLICY active 
setenv OMP_WAIT_POLICY PASSIVE 
setenv OMP_WAIT_POLICY passive

OMP_MAX_ACTIVE_LEVELS：控制活动嵌套并行区域的最大数量。此环境变量的值必须为非负整数。如果OMP_MAX_ACTIVE_LEVELS的请求值大于实现可支持的活动嵌套并行级别的最大数量，后者该值不是非负整数，则程序的行为是实现定义的。例如：

setenv OMP_MAX_ACTIVE_LEVELS 2

OMP_THREAD_LIMIT：设置用于整个OpenMP程序的线程数。此环境变量的值必须为正整数。如果OMP_THREAD_LIMIT的请求值大于实现可以支持的线程数，或者该值不是正整数，则程序的行为是实现定义的。例如：

setenv OMP_THREAD_LIMIT 8

9. 线程栈大小和线程绑定

线程栈大小：

OpenMP标准并没有指定线程应具有多少堆栈空间。因此，默认的线程堆栈大小在各种实现中将有所不同。
默认线程堆栈大小可能会很容易耗尽，并且在编译器之间不可移植。以LC编译的以前版本为例：

编译器	栈大小估计	数组大小估计（双精度浮点数）
Linux icc, ifort	4 MB	700 x 700
Linux pgcc, pgf90	8 MB	1000 x 1000
Linux gcc, gfortran	2 MB	500 x 500

- 超过其堆栈分配的线程有可能会也有可能不会发生故障。当数据被破坏时，应用程序也有可能会继续运行。
- 静态链接代码可能会受到进一步的堆栈限制。
- 用户的登录shell也有可能会限制堆栈大小。
- 如果你的OpenMP环境支持OpenMP 3.0 OMP_STACKSIZE环境变量（上一节所述），则可以在程序执行之前使用它来设置线程堆栈大小。例如：

setenv OMP_STACKSIZE 2000500B
setenv OMP_STACKSIZE "3000 k "
setenv OMP_STACKSIZE 10M
setenv OMP_STACKSIZE " 10 M "
setenv OMP_STACKSIZE "20 m "
setenv OMP_STACKSIZE " 1G"
setenv OMP_STACKSIZE 20000

否则，在LC下，你可以使用使用下面的Linux集群方法。该示例显示将线程堆栈大小设置为12 MB，并且最为预防措施，将shell堆栈大小设置为unlimited。

// csh/tcsh：
setenv KMP_STACKSIZE 12000000
limit stacksize unlimited

// ksh/sh/bash
export KMP_STACKSIZE = 12000000
ulimit -s unlimited

线程绑定：

在某些情况下，如果程序的线程绑定到处理器/内核，程序将执行得更好。
将线程绑定到处理器意味着操作系统在调度线程时，将保证它们始终在同一个处理器上运行。否则可以将线程调度为在任何处理器上执行，并且在每个时间片之间在处理器之间“反弹”。
该机制也被成为“线程亲和性”（thread affinity）或者“处理器亲和性”（processor affinity）。
将线程绑定到处理器可以导致更好地缓存利用率，从而减少昂贵的内存访问。这是将线程绑定到处理器的主要动机。
根据你的平台，操作系统，编译器以及OpenMP实现，将线程绑定到处理器可以通过几种不同的方式完成。
OpenMP 3.1 API提供了一个环境变量来设置将处理器绑定。例如：

setenv OMP_PROC_BIND  TRUE
setenv OMP_PROC_BIND  FALSE

在更高层次上，进程也可以绑定到处理器上。
有关LC Linux集群上处理器的进程和线程绑定的更多相信信息，请访问这里。

10. OpenMP的监听，调试以及性能分析工具

线程的监听和调试：

调试器处理线程的能力各不相同。TotalView挑食其实LC推荐的并行程序调试器，它非常适合监控和调试多线程程序。

使用OpenMP代码的TotalView会话的示例屏幕截图如下所示：

主线程堆栈跟踪窗格显式原始例程；
进程/线程状态可以区分线程；
主线程推展框架窗格显式共享变量；
工作线程堆栈跟踪窗格显式例程的概要；
工作线程堆栈框架窗格；
显式所有线程的根窗口；
线程窗格显式所有线程以及选中的线程。

更详细的信息可以参见：TotalView Debugger tutorial。

Linux ps命令提供了几个用于查看线程信息的标志，一些例子如下所示。有关更详细信息，请参见：Linux User’s Manual。

% ps -Lf 
UID        PID  PPID   LWP  C NLWP STIME TTY          TIME CMD
blaise   22529 28240 22529  0    5 11:31 pts/53   00:00:00 a.out
blaise   22529 28240 22530 99    5 11:31 pts/53   00:01:24 a.out
blaise   22529 28240 22531 99    5 11:31 pts/53   00:01:24 a.out
blaise   22529 28240 22532 99    5 11:31 pts/53   00:01:24 a.out
blaise   22529 28240 22533 99    5 11:31 pts/53   00:01:24 a.out

% ps -T 
  PID  SPID TTY          TIME CMD
22529 22529 pts/53   00:00:00 a.out
22529 22530 pts/53   00:01:49 a.out
22529 22531 pts/53   00:01:49 a.out
22529 22532 pts/53   00:01:49 a.out
22529 22533 pts/53   00:01:49 a.out

% ps -Lm 
  PID   LWP TTY          TIME CMD
22529     - pts/53   00:18:56 a.out
    - 22529 -        00:00:00 -
    - 22530 -        00:04:44 -
    - 22531 -        00:04:44 -
    - 22532 -        00:04:44 -
    - 22533 -        00:04:44 -

LC的Linux集群还提供了监视结点上的进程的最高级命令。如果与-H标志一起使用，则进程中包含的线程将可见。top -H命令的示例如下所示。父进程是PID 18010，它产生三个线程，如PID 18012， 18013和18014所示。

性能分析工具：

有多种可用于OpenMP程序的性能分析工具，搜索网页会得到丰富的信息。
在LC中，支持的计算工具列表可以在以下网址中找到https://hpc.llnl.gov/software/development-environment-software。
这些工具的复杂性，功能和学习曲线差别很大，对它们的详细介绍超出了本教程的范围。
一些值得研究的工具，尤其是针对OpenMP代码而言，包括：
- Open | Speedshop
- TAU
- PAPI
- Intel VTune Amplifier
- ThreadSpotter

11. OpenMP练习

总览：

如果尚未登录LC讲习班集群，请登录；
查看，编译和运行孤立指令示例（Orphaned directive example）;
获取OpenMP实现环境信息；
混合OpenMP + MPI程序；
查看“bug”程序。

点击 GO TO THE EXERCISE HERE 开始，大约需要20分钟。

12. 参考文献和更多信息

作者：Blaise Barney；
OpenMP官方网站，包含C/C++ API的详细文档：www.openmp.org。

附录A：运行时库函数

OMP_SET_NUM_THREADS

目标：

设置将在下一个并行区域中使用的线程数，其值必须是一个正整数。

格式：

#include 
void omp_set_num_threads(int num_threads)

注意事项：

动态线程机制将会修改此例程的效果：
- 启用：指定动态线程机制可以用于并行区域的最大线程数；
- 禁用：指定在下次调用此例程之前正确使用的线程数。
该例程只能从代码的串行部分调用。
此调用优先于OMP_NUM_THREADS环境变量。

OMP_GET_NUM_THREADS

目标：

返回当前组在执行并行区域时所调用的线程数。

格式：

#include 
int omp_get_num_threads(void)

注意事项及限制条件：

如果这个调用是从程序的串行部分或者被序列化的嵌套并行区域进行的，它将返回1。
默认的线程数是依赖于具体实现的。

OMP_GET_MAX_THREADS

目标：

返回调用OMP_GET_NUM_THREADS函数可以返回的最大值。

#include 
int omp_get_max_threads(void)

注意事项及限制条件：

通常反映由OMP_NUM_THREADS环境变量或者OMP_SET_NUM_THREADS()库函数例程设置的线程数。
可以从串行和并行的代码区域调用。

OMP_GET_THREAD_NUM

目标：

返回队列中的线程的线程号。改数字将在0和OMP_GET_NUM_THREADS-1之间。组内的主线程的线程号是0。

格式：

#include 
int omp_get_thread_num(void)

注意事项及限制条件：

如果从嵌套的并行区域或者串行区域调用，则此函数将返回0。

OMP_GET_THREAD_LIMIT

目标：

返回可用于程序的最大OpenMP线程数。

格式：

#include 
int omp_get_thread_limit (void)

注意事项：

可同时参考OMP_THREAD_LIMIT环境变量。

OMP_GET_NUM_PROCS

目标：

返回程序可用的处理器个数。

格式：

#include 
int omp_get_num_procs(void)

OMP_IN_PARALLEL

目标：

可以调用以确定正在执行的代码段是否是并行的。

格式：

#include 
int omp_in_parallel(void)

注意事项及限制条件：

对于C/C++，如果并行，它将返回非零整数，否则将返回0。

OMP_SET_DYNAMIC

目标：

启用或者禁用可执行并行区域的线程数（由运行时系统）的动态调整。

格式：

#include 
void omp_set_dynamic(int dynamic_threads)

注意事项及限制条件：

对C/C++，如果dynamic_threads计算为非零值，则启用机制，否则禁用。
OMP_SET_DYNAMIC子例程优先于OMP_DYNAMIC环境变量。
默认设置取决于具体实现。
必须从程序的串行部分开始调用。

OMP_GET_DYNAMIC

目标：

用于确定是否启用了动态线程调整。

格式：

#include 
int omp_get_dynamic(void)

注意事项及限制条件：

对于C/C++，如果启用了动态线程调整，则返回非零值，否则返回0。

OMP_SET_NESTED

目标：

用于启用或者禁用嵌套并行。

格式：

#include 
void omp_set_nested(int nested)

注意事项及限制条件：

对于C/C++，如果嵌套求值为非0，嵌套并行将启用，否则禁用。
默认值为禁用嵌套并行。
此调用优先于OMP_NESTED环境变量。

OMP_GET_NESTED

目标：

用于确定嵌套并行是否启用。

格式：

#include 
int omp_get_nested (void)

注意事项及限制条件：

对于C/C++，如果启用嵌套并行性，则返回非零值，否则返回0。

OMP_SET_SCHEDULE

目标：

此例程设置用于循环指令运行时的时间调度策略。

格式：

#include 
void omp_set_schedule(omp_sched_t kind, int modifier)

OMP_GET_SCHEDULE

目标：

此例程返回在循环指令指定运行时调度时应用的调度策略。

格式：

#include 
void omp_get_schedule(omp_sched_t * kind, int * modifier )

OMP_SET_MAX_ACTIVE_LEVELS

目标：

此例程限制嵌套活动并行区域的数量。

格式：

#include 
void omp_set_max_active_levels (int max_levels)

注意事项及限制条件：

如果所请求的并行级别的数量超过实现所支持的并行级数，则该值将被设置为实现所支持的并行级别数。
该程序仅在从程序的顺序部分调用时才具有效果。当在显式并行区域内调用时，此例程的作用就是具体实现相关的。

OMP_GET_MAX_ACTIVE_LEVELS

目标：

此例程返回嵌套活动并行区域的最大数量。

格式：

#include 
int omp_get_max_active_levels(void)

OMP_GET_LEVEL

目标：

此例程返回包含该调用任务的嵌套并行区域的数量。

格式：

#include 
int omp_get_level(void)

注意事项及限制条件：

omp_get_level例程返回包含调用任务的嵌套并行区域（无论是活动的还是非活动的）中除去隐式并行区域的数量。该例程总是返回非负整数。如果从程序的串行部分调用，则返回0。

OMP_GET_ANCESTOR_THREAD_NUM

目标：

给定当前线程的嵌套级别，该例程返回祖先或者当前线程的线程号。

格式：

#include 
int omp_get_ancestor_thread_num(int level)

注意事项和限制条件：

如果所请求的嵌套级别超出范围0和由omp_get_level子程序返回的当前线程的嵌套级别，则该例程反悔-1。

OMP_GET_TEAM_SIZE

目标：

给定当前线程的给定嵌套级别，此例程返回祖先或者当前线程所属组的大小。

格式：

#include 
int omp_get_team_size(int level);

注意事项和限制条件：

如果所请求的嵌套级别在0和由omp_get_level例程返回的当前线程的嵌套级别之外，则该例程返回-1。非活动并行区域被认为像单线程执行的活动并行区域一样。

OMP_GET_ACTIVE_LEVEL

目标：

omp_get_active_level例程返回包含该调用任务的活动嵌套并行区域的数量。

格式：

#include 
int omp_get_active_level(void);

注意事项和限制条件：

该例程总是返回一个非负整数。如果从程序的串行部分调用，则返回0。

OMP_IN_FINAL

目标：

如果程序在最终任务区域中执行，则此例程反悔true；否则返回false。

格式：

#include 
int omp_in_final(void)

OMP_INIT_LOCK
OMP_INIT_NEST_LOCK

目标：

该子例程初始化与锁变量相关联的锁。

格式：

#include 
void omp_init_lock(omp_lock_t *lock)
void omp_init_nest_lock(omp_nest_lock_t *lock)

注意事项及限制条件：

初始状态是解锁状态。

OMP_DESTROY_LOCK
OMP_DESTROY_NEST_LOCK

目标：

该子程序将给定的锁变量与所有锁解除关联。

格式：

#include 
void omp_destroy_lock(omp_lock_t *lock)
void omp_destroy_nest_lock(omp_nest_lock_t *lock)

注意事项及限制条件：

使用未初始化的锁变量调用此例程是非法的。

OMP_SET_LOCK
OMP_SET_NEST_LOCK

目标：

该子程序强制执行线程等待，直到指定的锁可用。一个线程在可用时被授予锁的使用权。

格式：

#include 
void omp_set_lock(omp_lock_t *lock)
void omp_set_nest__lock(omp_nest_lock_t *lock)

注意事项和限制条件：

使用未初始化的锁变量调用此例程是非法的。

OMP_UNSET_LOCK
OMP_UNSET_NEST_LOCK

目标：

该子程序从执行子程序中释放锁。

格式：

#include 
void omp_unset_lock(omp_lock_t *lock)
void omp_unset_nest__lock(omp_nest_lock_t *lock)

注意事项和限制条件：

使用未初始化的锁变量调用此例程是非法的。

OMP_TEST_LOCK
OMP_TEST_NEST_LOCK

目标：

此子程序尝试设置锁，但如果锁定不成功，则不会阻塞。

格式：

#include 
int omp_test_lock(omp_lock_t *lock)
int omp_test_nest__lock(omp_nest_lock_t *lock)

注意事项和限制条件：

对于C/C++，如果锁设置成功，则返回非零值，否则返回0。
使用未初始化的锁变量调用此例程是非法的。

OMP_GET_WTIME

目标：

提供可移植的挂钟计时程序。
返回一个从过去某个时间点经过的秒数的双精度浮点值。通常以“pair”的形式使用，在第二次调用的值中减去第一次调用的值，就可以获得代码块的经过时间。
设计为“每个线程”一次。因此在一个组内的所有线程中可能不是全局一致的——取决于线程与其他线程相比的行为。

格式：

#include 
double omp_get_wtime(void)

OMP_GET_WTICK

目标：

提供可移植的挂钟计时程序。
返回一个表示连续时钟秒数的双精度浮点值。

格式：

#include 
double omp_get_wtick(void)

你可能感兴趣的:(数据库与大数据)

IT行业含金量高的证书有哪些？猪仔搬砖证书服务器运维
目录前言1、操作系统与运维2、项目管理3、数据库与大数据4、云计算与虚拟化5、信息安全方向6、网络和通信方向结语前言众所周知，IT行业的认证众多，我们每个人都或多或少的拥有几个证书，证书越多对我们求职帮助更大，对个人能力发展也越大，接下来我们从几个方向简单介绍下。1、操作系统与运维RHCE（RedHatCertifiedEngineer）、RHCA（RedHatCertifiedArchitect
使用Sqoop将Hive数据导出到TiDB 光于前裕于后大数据动物园 hive sqoop tidb
关系型数据库与大数据平台之间的数据传输之前写过一些使用Sqoop将数据在HDFS与MySQL互导使用Sqoop将SQLServer视图中数据导入Hive使用DataX将Hive与MySQL中的表互导使用Sqoop将Hive数据导出到TiDB虽然没写过，但网上一堆写的，那为什么我要专门写一下呢？我发现一些大家可能会忽略但很重要的地方！所以，请继续看下去，你肯定会有收获的！！！文章目录1建Hive表2
解析数据库的“四世同堂”，畅聊数据前沿技术！腾讯云开发者腾讯云TVP大咖专访数据库
引言数据库与大数据一直是技术圈的两个常青领域。PC时代诞生了最早的关系型数据库，之后数据类型越来越多，出现了各种非关系型数据库。云时代拉开序幕的同时，“大数据”一词也被广泛使用，涵盖海量数据的采集、处理、存储、分析和呈现的系列流程。大模型席卷而来的当下，许多数据库、数据分析处理引擎纷纷寻求与AI技术的结合点，试图找到更新、更切合未来发展的创新点……回顾以往围绕数据所产生的各项新技术，一方面，随着需
解析数据库的“四世同堂”，畅聊数据前沿技术！数据库
引言数据库与大数据一直是技术圈的两个常青领域。PC时代诞生了最早的关系型数据库，之后数据类型越来越多，出现了各种非关系型数据库。云时代拉开序幕的同时，“大数据”一词也被广泛使用，涵盖海量数据的采集、处理、存储、分析和呈现的系列流程。大模型席卷而来的当下，许多数据库、数据分析处理引擎纷纷寻求与AI技术的结合点，试图找到更新、更切合未来发展的创新点……回顾以往围绕数据所产生的各项新技术，一方面，随着需
DASFAA 2023｜创邻周研博士分享前沿图数据库观点创邻科技数据库大数据图数据库 galaxybase 创邻科技
4月17-20日，2023年第28届高级应用数据库系统国际会议（DASFAA2023）在天津成功举行。创邻科技CTO周研博士受邀参会，围绕Galaxybase国产高性能图数据库进行精彩分享。DASFAA2023由DASFAA指导委员会（DASFAASteeringCommittee）主办、天津大学智能与计算学部承办，是中国计算机学会推荐的CCFB类国际会议。DASFAA现场，海内外数据库与大数据领
数据库与大数据的界限是否正逐渐模糊？ Evaporator Core 大数据数据库人工智能
过去，数据库主要用于存储和管理结构化数据，而大数据则涉及处理大规模、复杂的数据，包括结构化、半结构化和非结构化数据。然而，随着数据量不断增长和数据种类不断增多，数据库和大数据之间的区别越来越模糊。现代数据库已经开始支持非常大规模的数据，并且很多数据库技术也已经开始支持半结构化和非结构化数据，如NoSQL数据库和图数据库。同时，大数据技术的发展也使得处理结构化数据的能力得到了极大提升。因此，数据库和
一文读懂数据仓库~~~ Provence°_博大数据数据仓库数据库大数据 hive
文章目录1、简介1.1、背景1.2、概念1.3、传统数据库与大数据仓库2、数据仓库、数据库、数据集市2.1、OLTP、OLAP2.2、数据仓库、数据库2.3、数据仓库、数据集市3数仓分层架构3.1、ODS（操作型数据层）3.2、DW（数据仓库层）3.2.1、DIM（公共维度层）3.2.2、DWD（细节数据层）3.2.3、DWB:（数据基础层），DWS（数据汇总层）数据服务层3.3、ADS（数据/应
医疗大数据分析的几个重点方向 SmartBrain 优秀解决方案
医疗大数据平台方案采用传统的关系型数据库与大数据平台的混合设计，整体基础数据平台构成包括联机事务库，数据整合交换，大数据平台，数据集市，探索分析，数据驱动应用这六个部分：实时事务库联机事务库是企业已构建的在线生产业务系统，例如交易系统、网站、ERP、仓储管理、生产工艺流程管理等所采用的数据库，以及互联网业务扩展将要构建的系统所采用的数据库。联机事务库主要面对的是实时事务处理，目前主要由商业或开源关
DTCC2016“最佳讲师”评选结果火热出炉！ gaokeke
2016年5月12日—5月14日，第七届中国数据库技术大会(DTCC2016)在北京国际会议中心成功举办。作为国内数据库与大数据领域最大规模的技术盛宴，DTCC2016共设2大主会场，25个技术专场，邀请了100余位行业技术大咖助阵，并吸引了近5000业内人士到会参与。在干货满满的三天会议之余，DTCC组委会特地开展了“最佳讲师”的评选活动。经过紧张的筛选工作，最终结果已火热出炉！让我们一睹为快吧
DTCC2017“最佳讲师”评选结果火热出炉！ gaokeke
DTCC2017最佳讲师评选15.0520172017年5月11日—5月13日，第八届中国数据库技术大会(DTCC2017)在北京国际会议中心成功举办。作为国内数据库与大数据领域最具价值的技术交流平台，DTCC2017共设2大主会场，21个技术专场，邀请了120余位行业技术大咖助阵，并吸引了近5000业内人士到会参与。在干货满满的三天会议之余，DTCC组委会特地开展了“最佳讲师”的评选活动。经过紧
DTCC2018 “最佳讲师” 评选结果最终出炉！ gaokeke
点击蓝色字关注"数据库技术大会"一起玩耍哦~作为国内数据库与大数据领域最大规模的技术盛宴，2018年5月10-12日，第九届中国数据库技术大会（DTCC2018）将如约而至。本届大会以“数领先机•智赢未来”为主题，设定2大主会场及21个技术专场，邀请来自国内外互联网、金融、教育等行业百余位技术专家，共同探讨Oracle、MySQL、NoSQL、大数据、机器学习、区块链、数据可视化等领域的前瞻性热点
【直击DTCC】谢军：大数据时代的智能金融服务 gaokeke
2016年5月12日-14日，第七届中国数据库技术大会(DTCC2016)在北京国际会议中心拉开帷幕。作为国内数据库与大数据领域最大规模的技术盛宴，在为期三天的会议中，大会将围绕MySQL、NoSQL、Oracle、缓存技术、云端数据库、智能数据平台、大数据安全、数据治理、大数据和开源、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术展开深入探讨，并邀请一大批国内顶尖的技术专家来进行分享，以
SAP以HANA为核心重新构想一切可能 weixin_34409822
文章讲的是SAP以HANA为核心重新构想一切可能，2016年5月12日-14日，第七届中国数据库技术大会(DTCC2016)在北京国际会议中心拉开帷幕。作为国内数据库与大数据领域最大规模的技术盛宴，在为期三天的会议中，大会将围绕MySQL、NoSQL、Oracle、缓存技术、云端数据库、智能数据平台、大数据安全、数据治理、大数据和开源、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术展开深入
数据定义未来——2016数据库技术大会总结 yzsind ORACLE MySQL
数据定义未来——2016数据库技术大会总结背景作为国内数据库与大数据领域最大规模的技术盛宴，2016第七届中国数据库技术大会（DTCC）如约于2016年5月12日-14日再度震撼来袭。大会以"数据定义未来"为主题，云集了国内外顶尖专家，共同探讨MySQL、NoSQL、Oracle、缓存技术、云端数据库、智能数据平台、大数据安全、数据治理、大数据和开源、大数据创业、大数据深度学习等领域的前瞻性热点话
网易-数据科学中心.高级总监 carrie_白糖大数据
>网易杭州研究院是网易集团设立的唯一的研究院机构，承担网易集团先进技术研究的职责，为集团业务提供技术领先的技术支撑平台，同时负责以技术为核心的商业化业务的开拓。数据科学中心是杭州研究院规划重点建设的研究中心，系整合原杭州研究院下辖多个技术部数据科学相关团队而成，负责数据库、大数据、商业智能、数据资产等方向的技术研究、产品研发与商业化，主要职责如下：>1、数据库与大数据基础设施平台的发展方向规划、产
邱似峰：网易视频云如何实现应用加速 vcould163 视频云计算网易 DTCC
2016年5月12日-14日，第七届中国数据库技术大会(DTCC2016)在北京国际会议中心正式拉开帷幕。作为国内数据库与大数据领域最大规模的技术盛宴，DTCC已经同大家携手走过七载春秋。本届是大会创办以来，规模最大，参会人次，参展合作伙伴最多的一次盛会，云集了来自五湖四海的5000余名IT精英，相聚在这里，共话数据库技术发展潮流，共赴大数据浪潮之巅。在下午的分会场，来自网易杭州研究院服务端技术专
大数据的概念 memristor 大数据 Data big
Whatisbigdata?4Vor3V?维基百科对大数据的定义：大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集http://www.nature.com/news/specials/bigdata/index.htmlhttp://www.sciencemag.org/site/special/data/数据库与大数据的区别与联系看似只是一个简单的技术演进，但细细考
DTCC专家组何春涛：国内大数据发展瓶颈灵玖lingjoin 数据库本届总监数据库技术 nets
作为国内最具影响力的IT盛会，第五届中国数据库技术大会将于2014年4月10日-12日在北京五洲皇冠国际酒店隆重举行。大会云集国内水平最高的数据库架构师、数据库管理和运维工程师、数据库开发工程师、研发总监和IT经理等技术人群，邀请近百位顶级技术专家和行业领袖分享数据库与大数据技术的最新动态，及其在行业领域里的应用部署和管理经验。本届中国数据库技术大会的主题为“大数据技术探索与价值发现”，预计参会规
apache 安装linux windows 墙头上一根草 apache inux windows
linux安装Apache 有两种方式一种是手动安装通过二进制的文件进行安装，另外一种就是通过yum 安装，此中安装方式，需要物理机联网。以下分别介绍两种的安装方式通过二进制文件安装Apache需要的软件有apr,apr-util,pcre 1，安装 apr 下载地址：htt
fill_parent、wrap_content和match_parent的区别 Cb123456 match_parent fill_parent
fill_parent、wrap_content和match_parent的区别: 1）fill_parent 设置一个构件的布局为fill_parent将强制性地使构件扩展，以填充布局单元内尽可能多的空间。这跟Windows控件的dockstyle属性大体一致。设置一个顶部布局或控件为fill_parent将强制性让它布满整个屏幕。 2） wrap_conte
网页自适应设计天子之骄 html css 响应式设计页面自适应
网页自适应设计网页对浏览器窗口的自适应支持变得越来越重要了。自适应响应设计更是异常火爆。再加上移动端的崛起，更是如日中天。以前为了适应不同屏幕分布率和浏览器窗口的扩大和缩小，需要设计几套css样式，用js脚本判断窗口大小，选择加载。结构臃肿，加载负担较大。现笔者经过一定时间的学习，有所心得，故分享于此，加强交流，共同进步。同时希望对大家有所
[sql server] 分组取最大最小常用sql 一炮送你回车库 SQL Server
--分组取最大最小常用sql--测试环境if OBJECT_ID('tb') is not null drop table tb;gocreate table tb( col1 int, col2 int, Fcount int)insert into tbselect 11,20,1 union allselect 11,22,1 union allselect 1
ImageIO写图片输出到硬盘 3213213333332132 java image
package awt; import java.awt.Color; import java.awt.Font; import java.awt.Graphics; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imagei
自己的String动态数组宝剑锋梅花香 java 动态数组数组
数组还是好说，学过一两门编程语言的就知道，需要注意的是数组声明时需要把大小给它定下来，比如声明一个字符串类型的数组：String str[]=new String[10]; 但是问题就来了，每次都是大小确定的数组，我需要数组大小不固定随时变化怎么办呢？动态数组就这样应运而生，龙哥给我们讲的是自己用代码写动态数组，并非用的ArrayList 看看字符
pinyin4j工具类 darkranger .net
pinyin4j工具类Java工具类 2010-04-24 00:47:00 阅读69 评论0 字号：大中小引入pinyin4j-2.5.0.jar包: pinyin4j是一个功能强悍的汉语拼音工具包，主要是从汉语获取各种格式和需求的拼音，功能强悍，下面看看如何使用pinyin4j。本人以前用AscII编码提取工具，效果不理想，现在用pinyin4j简单实现了一个。功能还不是很完美，
StarUML学习笔记----基本概念 aijuans UML建模
介绍StarUML的基本概念，这些都是有效运用StarUML?所需要的。包括对模型、视图、图、项目、单元、方法、框架、模型块及其差异以及UML轮廓。模型、视与图（Model, View and Diagram） &
Activiti最终总结 avords Activiti id 工作流
1、流程定义ID：ProcessDefinitionId，当定义一个流程就会产生。 2、流程实例ID：ProcessInstanceId，当开始一个具体的流程时就会产生，也就是不同的流程实例ID可能有相同的流程定义ID。 3、TaskId，每一个userTask都会有一个Id这个是存在于流程实例上的。 4、TaskDefinitionKey和（ActivityImpl activityId
从省市区多重级联想到的，react和jquery的差别 bee1314 jquery UI react
在我们的前端项目里经常会用到级联的select，比如省市区这样。通常这种级联大多是动态的。比如先加载了省，点击省加载市，点击市加载区。然后数据通常ajax返回。如果没有数据则说明到了叶子节点。针对这种场景，如果我们使用jquery来实现，要考虑很多的问题，数据部分，以及大量的dom操作。比如这个页面上显示了某个区，这时候我切换省，要把市重新初始化数据，然后区域的部分要从页面
Eclipse快捷键大全 bijian1013 java eclipse 快捷键
Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行 Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行交互位置(同上)Alt+← 前一个编辑的页面Alt+→ 下一个编辑的页面(当然是针对上面那条来说了)Alt+En
js 笔记函数征客丶 JavaScript
一、函数的使用 1.1、定义函数变量 var vName = funcation(params){ } 1.2、函数的调用函数变量的调用： vName(params); 函数定义时自发调用：(function(params){})(params); 1.3、函数中变量赋值 var a = 'a'; var ff
【Scala四】分析Spark源代码总结的Scala语法二 bit1129 scala
1. Some操作在下面的代码中，使用了Some操作：if (self.partitioner == Some(partitioner))，那么Some(partitioner)表示什么含义？首先partitioner是方法combineByKey传入的变量， Some的文档说明： /** Class `Some[A]` represents existin
java 匿名内部类 BlueSkator java匿名内部类
组合优先于继承 Java的匿名类，就是提供了一个快捷方便的手段，令继承关系可以方便地变成组合关系继承只有一个时候才能用，当你要求子类的实例可以替代父类实例的位置时才可以用继承。在Java中内部类主要分为成员内部类、局部内部类、匿名内部类、静态内部类。内部类不是很好理解，但说白了其实也就是一个类中还包含着另外一个类如同一个人是由大脑、肢体、器官等身体结果组成，而内部类相
盗版win装在MAC有害发热，苹果的东西不值得买，win应该不用 ljy325 游戏 apple windows XP OS
Mac mini 型号: MC270CH-A RMB:5,688 Apple 对windows的产品支持不好,有以下问题: 1.装完了xp,发现机身很热虽然没有运行任何程序！貌似显卡跑游戏发热一样，按照那样的发热量,那部机子损耗很大,使用寿命受到严重的影响! 2.反观安装了Mac os的展示机，发热量很小，运行了1天温度也没有那么高 &nbs
读《研磨设计模式》-代码笔记-生成器模式-Builder bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 生成器模式的意图在于将一个复杂的构建与其表示相分离，使得同样的构建过程可以创建不同的表示（GoF） * 个人理解： * 构建一个复杂的对象，对于创建者（Builder）来说，一是要有数据来源(rawData)，二是要返回构
JIRA与SVN插件安装 chenyu19891124 SVN jira
JIRA安装好后提交代码并要显示在JIRA上，这得需要用SVN的插件才能看见开发人员提交的代码。 1.下载svn与jira插件安装包，解压后在安装包(atlassian-jira-subversion-plugin-0.10.1) 2.解压出来的包里下的lib文件夹下的jar拷贝到(C:\Program Files\Atlassian\JIRA 4.3.4\atlassian-jira\WEB
常用数学思想方法 comsci 工作
对于搞工程和技术的朋友来讲，在工作中常常遇到一些实际问题，而采用常规的思维方式无法很好的解决这些问题，那么这个时候我们就需要用数学语言和数学工具，而使用数学工具的前提却是用数学思想的方法来描述问题。。下面转帖几种常用的数学思想方法，仅供学习和参考函数思想　　把某一数学问题用函数表示出来，并且利用函数探究这个问题的一般规律。这是最基本、最常用的数学方法
pl/sql集合类型 daizj oracle 集合 type pl/sql
--集合类型 /* 单行单列的数据，使用标量变量单行多列数据，使用记录单列多行数据，使用集合（。。。） *集合：类似于数组也就是。pl/sql集合类型包括索引表（pl/sql table）、嵌套表（Nested Table）、变长数组（VARRAY）等 */ /* --集合方法 &n
[Ofbiz]ofbiz初用 dinguangx 电商 ofbiz
从github下载最新的ofbiz（截止2015-7-13），从源码进行ofbiz的试用 1. 加载测试库 ofbiz内置derby，通过下面的命令初始化测试库 ./ant load-demo (与load-seed有一些区别) 2. 启动内置tomcat ./ant start 或 ./startofbiz.sh 或 java -jar ofbiz.jar &
结构体中最后一个元素是长度为0的数组 dcj3sjt126com c gcc
在Linux源代码中，有很多的结构体最后都定义了一个元素个数为0个的数组，如/usr/include/linux/if_pppox.h中有这样一个结构体： struct pppoe_tag { __u16 tag_type; __u16 tag_len; &n
Linux cp 实现强行覆盖 dcj3sjt126com linux
发现在Fedora 10 /ubutun 里面用cp -fr src dest，即使加了-f也是不能强行覆盖的，这时怎么回事的呢？一两个文件还好说，就输几个yes吧，但是要是n多文件怎么办，那还不输死人呢？下面提供三种解决办法。方法一我们输入alias命令，看看系统给cp起了一个什么别名。 [root@localhost ~]# aliasalias cp=’cp -i’a
Memcached(一)、HelloWorld frank1234 memcached
一、简介高性能的架构离不开缓存，分布式缓存中的佼佼者当属memcached，它通过客户端将不同的key hash到不同的memcached服务器中，而获取的时候也到相同的服务器中获取，由于不需要做集群同步，也就省去了集群间同步的开销和延迟，所以它相对于ehcache等缓存来说能更好的支持分布式应用，具有更强的横向伸缩能力。二、客户端选择一个memcached客户端，我这里用的是memc
Search in Rotated Sorted Array II hcx2013 search
Follow up for "Search in Rotated Sorted Array":What if duplicates are allowed? Would this affect the run-time complexity? How and why? Write a function to determine if a given ta
Spring4新特性——更好的Java泛型操作API jinnianshilongnian spring4 generic type
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装JDK liuxingguome centos
1、行卸载原来的： [root@localhost opt]# rpm -qa | grep java tzdata-java-2014g-1.el6.noarch java-1.7.0-openjdk-1.7.0.65-2.5.1.2.el6_5.x86_64 java-1.6.0-openjdk-1.6.0.0-11.1.13.4.el6.x86_64 [root@localhost
二分搜索专题2-在有序二维数组中搜索一个元素 OpenMind 二维数组算法二分搜索
1,设二维数组p的每行每列都按照下标递增的顺序递增。用数学语言描述如下：p满足 (1),对任意的x1，x2，y，如果x1<x2,则p(x1,y)<p(x2,y); (2),对任意的x，y1,y2, 如果y1<y2,则p(x,y1)<p(x,y2); 2,问题：给定满足1的数组p和一个整数k，求是否存在x0,y0使得p(x0,y0)=k? 3,算法分析： (
java 随机数 Math与Random SaraWon java Math Random
今天需要在程序中产生随机数，知道有两种方法可以使用，但是使用Math和Random的区别还不是特别清楚，看到一篇文章是关于的，觉得写的还挺不错的，原文地址是 http://www.oschina.net/question/157182_45274?sort=default&p=1#answers 产生1到10之间的随机数的两种实现方式： //Math Math.roun
oracle创建表空间 tugn oracle
create temporary tablespace TXSJ_TEMP tempfile 'E:\Oracle\oradata\TXSJ_TEMP.dbf' size 32m autoextend on next 32m maxsize 2048m extent m
使用Java8实现自己的个性化搜索引擎 yangshangchuan java superword 搜索引擎 java8 全文检索
需要对249本软件著作实现句子级别全文检索，这些著作均为PDF文件，不使用现有的框架如lucene，自己实现的方法如下： 1、从PDF文件中提取文本，这里的重点是如何最大可能地还原文本。提取之后的文本，一个句子一行保存为文本文件。 2、将所有文本文件合并为一个单一的文本文件，这样，每一个句子就有一个唯一行号。 3、对每一行文本进行分词，建立倒排表，倒排表的格式为：词=包含该词的总行数N=行号