ArimaMisaki

并行计算总结

作者：ArimaMisaki

1 并行计算概述. 2

1.1 基本概念. 2

1.2 存储器的层次结构. 3

1.3 并行计算. 3

1.4 动态互连网络. 4

1.5 并行计算机结构模型. 5

1.6 并行算法的基本设计策略. 6

1.7 并行编程风范. 6

1.8 单核多线程和并发执行. 7

1.9 拓展：并行计算机的分类. 7

1.10 并行层次和代码粒度. 10

1.11 并行程序设计模型. 10

2并行计算模型. 11

2.1 拓展：进程. 11

2.2 拓展：进程模型. 11

2.3 拓展：父子进程. 12

2.4 拓展：线程. 12

2.5 拓展：用户线程和内核线程. 12

2.6 POSIX线程. 13

2.7 并行算法. 13

2.8 并行计算模型. 14

2.9 并行算法一般设计过程. 15

2.10 程序性能评价与优化. 15

3 OpenMP并行编程模型. 16

3.1 OpenMP概述. 16

3.2 OpenMP语句模式. 16

3.3 OpenMP简单演示. 17

3.4 Schedule关于for循环的调度. 18

3.5 设置环境变量（拓展）. 19

3.6 sections制导指令. 20

3.7 single制导指令（拓展）. 20

3.8 共享任务结构. 21

3.9 OpenMP的优点和缺点. 21

3.10 常用子句的补充. 22

4 MPI并行编程模型. 22

4.1 拓展：什么是MPI 22

4.2 MPI基本函数. 22

4.3 消息传递的特点. 24

1 并行计算概述

1.1 基本概念

并行计算：并行计算机或分布式计算机（包括网络计算机）等高性能计算机系统上所做的超级计算

计算科学：用强大的计算能力去理解和解决复杂问题，是确保科学领先地位、经济竞争力和国防安全等的关键之所在。科学发现的第三支柱。

计算思维：运用计算机科学的基础概念进行问题求解、系统设计以及人类行为的理解，是21世纪中叶所有人的一种基本技能，就像现今人们掌握阅读、写作和算术技能一样，希望每个人都能像计算机科学家那样思考问题。

流水线：通常一条指令执行分为不同的阶段（如取指、译码、取数、执行等），通过重叠指令执行中的不同阶段，可以加快指令的执行速度。

超标量：如果CPU种设有多条流水线，即能同时发射多条指令，这种具有可在同一时钟周期内发射多条指令功能的处理器就成为超标量。

摩尔定律：“摩尔定律是由英特尔(Intel)创始人之一戈登·摩尔(Gordon Moore)提出来的。其内容为:当价格不变时,集成电路上可容纳的元器件的数目,约每隔18-24个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18-24个月翻一倍以上。这一定律揭示了信息技术进步的速度。”

多核处理器：AMD和Intel在2005年相继推出了各自的双核处理器Opteron和Core Duo

拓展：多核处理器

多核CPU芯片可以看做是一个大芯片里面套了好几个小芯片，每个小芯片都可以看做是一个独立的CPU，对于Intel Xeon Phi（英特尔至强融核处理器）来说，其上面甚至集成了60多个核。

虽然多核CPU很牛，但是说到多核，可能没有比GPU更牛的了，GPU指的是成千上万个微核组成的处理器，其适用于大量的并行简单计算，还有图像处理，但是其不太适应串行任务，而且对于编程及算法的实现难度过高，所以一般操作系统还是运行在CPU上比较好。

1.2 存储器的层次结构

拓展：计算机中的存储器结构

这实际上是计算机组成原理的知识。

存储器一般分为多种，如主存、缓存、辅存、寄存器等等。这里图中出现了Cache。Cache一般指的是高速缓存，在以前Cache一般位于CPU之外，而在现在大多数Cache都在CPU内部。

Cache存储器（电脑中为高速缓冲存储器），是位于CPU和主存储器DRAM（Dynamic Random Access Memory）之间，规模较小，但速度很高的存储器，通常由SRAM（Static Random Access Memory）静态存储器组成。它是位于CPU与内存间的一种容量较小但速度很高的存储器。CPU的速度远高于内存，当CPU直接从内存中存取数据时要等待一定时间周期，而Cache则可以保存CPU刚用过或循环使用的一部分数据，如果CPU需要再次使用该部分数据时可从Cache中直接调用，这样就避免了重复存取数据，减少了CPU的等待时间，因而提高了系统的效率。Cache又分为L1Cache（一级缓存）和L2Cache（二级缓存），L1Cache主要是集成在CPU内部，而L2Cache集成在主板上或是CPU上。

主存一般指的是内存、寄存器，而辅存一般指外存（如磁盘、CD-ROM也就是光盘等）。各个存储器之间用总线进行通信，确保数据能够从计算机的一个位置传输到另外一个位置。

寄存器一般处于CPU内部，用来存放数据。对于常用的数据，一般先放在存储器，放不下了就放到高速缓冲去，再放不下就转移到磁盘。

1.3 并行计算

并行计算的初衷，是为了努力仿真自然世界中一个序列中含有众多同时发生的、复杂且相关事件的事务状态。

为了利用并行计算求解一个计算问题，通常基于以下考虑：

将计算任务分解成多个子任务，有助于同时解决
在同一个时间，由不同的执行部件可同时执行多个子任务
多计算资源下解决问题的耗时要少于单个计算资源下的耗时

并行计算基本上可以分为：

计算密集型
数据密集型
网络密集型

1.4 动态互连网络

动态网络是用交换开关构成的，可按应用程序的要求动态地改变连接组态；典型的动态网络包括总线、交叉开关和多级互连网络等。

这种网络比较普遍的是总线上面挂交换器。我们知道同一时间段中，一条总线只允许两头的设备进行信息交换，而在交换完成后，交换器可以将总线的端口改变，使其连接另外一个设备。通过这种方法，可以根据我们应用的需求，动态地选择我们需要的设备。

典型的动态网络区别如下：

拓展：并行计算机系统互连

不同带宽和距离的互连技术有多种，比较常用是：广域网WAN、城域网MAN、局域网WAN、个人区域网PAN、总线。广域网一般跨国，城域网一般城市，局域网一般一栋楼，个人区域网一般几台设备。其中广域网使用了交换技术，而局域网使用的是广播技术。如果是使用总线的话，总线是最快的，你可以理解为总结传输时不需要网络，直接用一条USB连接的那种。

静态互联网络是处理单元间有着固定连接的一类网络，在程序执行期间，这种点到点的连接保持不变；典型静态网络有一维线性阵列、二维网孔、树连接、超立方网络、立方环、洗牌交换网、蝶状网络等。

换而言之，静态互连网络就是用一个链路把多个处理器连接起来，构成物理意义上的并行计算机，如果某个处理器想发信息给另外一个处理器，总是能通过这条链路来干这种事。

相对地，我们还有动态互联网络。

互联网络中还有另外一个概念叫嵌入。其做法是将网络中的各节点映射到另一个网络中去。用膨胀系数来描述嵌入的质量，它是指被嵌入网络中的一条链路在所要嵌入的网络中对应所需的最大链路数。如果该系数为1，则称为完美嵌入。

对于环网和超立方来说，两者皆可被完美嵌入到2D环绕网中。

1.5 并行计算机结构模型

PVP

PVP也叫并行向量处理机(Parallel Vector Processor)，其内部含有为数不多、功能强大的定制向量处理器，以及定制的高带宽纵横交叉开关和高速数据访问。其价格十分昂贵，因为其组件都需定制，一般适用于国家部门。

SMP

SMP也叫对称多处理机。其访存、IO都是对称的。其用的处理器大多数是商用处理器。

目前SMP需要解决的主要问题是Cache的一致性问题。多级高速缓存可以支持数据的局部性，而其一致性可由硬件来增强。大多数SMP系统都是基于总线连接的，占据了并行计算机市场中很大的份额。

MMP

MMP也叫`大规模并行处理机(Massively Parallel Processor)`，其规模大，性能好。

DSM

DSM又叫分布式共享存储器(Distributed Shared Memory,DSM)。在DSM中，每个节点都有本地内存，所有的节点都有一个共享空间。

COW

COW又叫工作站机群(Cluster of Workstation)。工作站机群的结构技术起点比较低，可以自己将一些服务器/微型机通过以太网连起来，加上相应的管理和通讯软件来搭建自己的工作站机群。

在集群中，每个节点都有本地磁盘，除了没有显示器没有鼠标没有键盘之外，基本上其他普通计算机该有的它都有。每个节点用I/O总线连向专门设计的多级高速网络。

机群也是构建并行计算机一种很廉价的方案，其被称为穷人的解决方案。使用这类并行计算机跑并行程序效率很低，但是由于它的性价比和搭建的简便性，使得近几年常被用于做并行科学计算和并行商用计算。

需要注意的是，机群不适合用于国家级的计算，因为由上述可知，实际上机群可以理解为是很多廉价的机器并在一起，而如果要运行速度跟快，能处理的数据更多，就需要并一个很大的机群。而如果机群并得很大，就会导致散热有问题。我们前面说过它们通过总线互联的，你总不能一个计算机在东一个计算机在西，然后一条总线连着吧。肯定是统一放在一个地方啊。而如果要处理大型的数据，一般机群所处的机房就要三四层楼那么高，篮球场那么宽，肯定不利于散热。

1.6 并行算法的基本设计策略

串行算法的直接并行化；如快排的自然并行化

从问题描述开始设计并行算法；如并行串匹配算法

借用已有算法求解新问题；如使用矩阵乘法算法求解所有点对间最短路径是一个很好的范例

并行算法常用设计技术

划分设计技术
分治设计技术
平衡树设计技术
倍增设计技术
流水线设计技术

注意：分治法和划分法的区别

分治法的侧重点在于子问题的归并上，而划分法的注意力则集中在原问题的划分上，分治是递归方式的划分，它将问题分成子问题后不立即求解它，而是连续地再将其分为更小的、易于求解的子问题。

1.7 并行编程风范

并行编程风范是指在并行机上编程实现并行算法的方法。如：

相并行
分治并行
流水线并行
主从并行
工作池并行

1.8 单核多线程和并发执行

并发执行是指多个线程在同一硬件资源上或单处理器核上交替地执行，在某个特定的时间点，所有活动的线程只有一个在真正执行，但在某段时间间隔内对外表现为多个线程在同时执行。

这种做法并非真正意义上的并行多线程，在单核结构上的应用程序主要靠隐藏延迟的方法来提高应用程序的性能。

影响多线程性能的常见问题有如下几点：

线程过多、数据竞争、死锁、Cache伪共享/Cache行乒乓现象。

注意：并行和并发

对于学过操作系统的都知道，比较容易混淆的就是并行的概念，我们所说的并行通常指的是：指两个或多个事件在同一时刻同时发生。

我们用一个例子来说明：有两个人一个叫小明一个叫小刚。它们每人都有两个女朋友。对于小明来说，他喜欢的是和一号、二号一起出门约会；而对于小刚来说，他喜欢8:00和一号约会，9:00和二号约会，10:00和一号约会。

这里我们发现两个人同样都是在约会，但是小明是同一时刻同时发生，属于并行；而小刚如果别人问他你怎么约会的，他会说他和两个女生同时约会，但是实际上，它是和两个女生交替约会，这就是宏观和微观的区别，其属于并发。

一个单核处理器(CPU)同一时刻只能执行一个程序，因此操作系统会负责协调多个程序交替执行，这就是操作系统的并发性。但是需要注意的是我们强调的是单核处理器，如今的电脑一般都是多核CPU，如Intel的第八代i3处理器就是4核CPU，这意味着同一时刻可以有4个程序并行执行，但是操作系统的并发性依然必不可少，因为每个人根本不可能说一台电脑只开四个应用程序吧。

1.9 拓展：并行计算机的分类

一台并行计算机可以是一台具有多个内部处理器的单计算机，也可以是多个互联的计算机构成一个一体的高性能计算平台。术语并行计算机通常是指专门设计的部件。根据不同的分类法可以分成不同类型的并行计算机。

1.9.1 费林分类法

在操作系统中我们知道，程序根据高级程序设计语言设计，程序设计语言在实现程序的功能的时候，是转换为机器指令来告诉机器该干什么。大概在50年前Flynn(1996)创造了一种计算机分类方法,中文译为费林分类法，该分类基于两个独立维度的计算机体系结构，这两个维度即数据和指令。根据以上提到这两个维度，我们可以划分为四大类，如图：

Single Instruction,Single Data(SISD)

SISD机器是一种传统的串行计算机，它的硬件不支持任何形式的并行计算，所有的指令都是串行执行。并且在某个时钟周期（时间片）内，CPU只能处理一个数据流。因此这种机器被称作单指令流单数据流计算机。早期的计算机都是SISD机器，如冯诺.依曼架构，如IBM PC机，早期的巨型机和许多8位的家用机等。

Multiple Instruction,Multiple Data(MIMD)

在一个通用的多处理机系统中，每个处理器拥有一个独立的程序，由每个程序为每个处理器生成一个指令流，不同的数据可能需要不同的处理，对应赋给不同的指令。每条指令对不同数据进行操作。Flynn将这种形式的计算机分类为多指令流多数据流计算机。

我们后面叙述的共享存储器或消息传递多处理机都属于MIMD类型。其已经经受了时间考验，至今仍然广泛地用于这种操作模式下的计算机系统中。例如多核CPU计算机。

Single Instruction,Multiple Data(SIMD)

如果对某些应用而言将计算机设计成由单一程序生成指令流，但是却有多个数据存在时，将会在性能上有很大的优势。打个比方，你输入一条指令就能够处理很多的数据，那不就是提高了性能吗。我们熟知的Hadoop就是基于SIMD的。

SIMD是采用一个指令流处理多个数据流。这类机器在数字信号处理、图像处理、以及多媒体信息处理等领域非常有效。

Intel处理器实现的MMXTM、SSE（Streaming SIMD Extensions）、SSE2及SSE3扩展指令集，都能在单个时钟周期内处理多个数据单元。也就是说我们现在用的单核计算机基本上都属于SIMD机器。

Multiple Instruction,Single Data(MISD)

MISD是采用多个指令流来处理单个数据流。由于实际情况中，采用多指令流处理多数据流才是更有效的方法，谁会去一个数据多个指令去处理呀。因此MISD只是作为理论模型出现，仅仅只在1971年CMU的实验中出现过，也就是说，实际上并不存在SISD。

1.9.2 存储器结构分类法

共享存储器多处理机

共享存储器多处理机可以理解为一个多核的计算机或者很多个单核的共用一份内存的计算机。当处理器想要处理数据，它就得跑去存储器拿数据。怎么知道数据在哪呢？通过存储器上的地址可以知道。

在操作系统中我们学过，如果这个时候两个处理器要同时在一个存储器上拿东西，那它们一定要提前沟通好，也就是说，两个处理器对共享空间的访问是互斥的。它们提前沟通的工具是互联网络。

多处理机系统由多台独立的处理机组成，每台处理机都能够独立执行自己的程序和指令流，相互之间通过专门的网络连接，实现数据的交换和通信，共同完成某项大的计算或处理任务。系统中的各台处理机由统一的操作系统进行管理，实现指令级以上并行，这种并行性一般是建立在程序段的基础上，也就是说，多处理机的并行是作业或任务级的并行。共享存储多处理机系统是指有一个可以被所有处理机访问的存储器系统。存储器系统由一个或多个存储器模块组成，所有的存储器模块使用一个统一的编址的地址空间。处理机可以用不同的地址访问不同的存储器模块。按存储器组织方式分类，共享存储多处理机系统分为集中式共享存储器系统和分布式共享存储器系统。

对共享存储器多处理机进行编程设计到在共享存储器中存有可由每个处理器执行的代码。每个程序所需的数据也将存于共享存储器中。（即程序段和数据段都在共享内存中）。因此如果有需要的话，每个程序可以访问所有的数据。

程序员要想使用并行计算机的每个处理器来处理一件问题，那原有的高级程序语言就无法使用了。所以为了解决此问题，程序员们开发了一种新的、高级并行程序设计语言，它具有特殊的并行程序设计构造和语句，以声明共享变量和并行代码段。虽然想法很好，但是这类并行程序设计语言并不是使用很广泛。

比较广泛的做法是在普通的高级程序语言的基础上生成并行代码，你可以理解为嵌入式编码（类似于嵌入式SQL）。此时使用制定好规则的编程语言，然后用预处理器命令对程序的并行部分加以说明即可；这类实践比较著名的模型就是OpenMP。它是由编译器命令和构造的一个工业标准，可融入到C/C++中。

另外，我们也可以多开几条线程，这样的话给人的感觉也像是并行计算的样子，不同线程中含有为各个处理器执行的规整的高级语言代码序列，这些代码序列可以用来访问共享单元。但是需要注意的是，实际上用线程的方法不是并行而是并发。

共享存储器多处理机是很一种很不错的并行计算机，综上所述，其方便了对数据的共享。

消息传递多计算机

多处理机系统的形式可以通过互联网络连接多台完整的计算机来构成。这实际上是使用了操作系统中的消息传递。

在消息传递多计算机中，一台计算机的处理器只能访问它对应本地的主存储器，而无法访问其他计算机上的主存储器。不同的计算机之间是用互联网来建立联系的，通常来说，多个电脑之间通过互联网传递的消息含有的可能是程序所指明的其他计算机处理器进行计算时所需的数据。这种多处理器系统我们通常称为消息传递多处理机(message-passing multiprocessor)，或简称多计算机。你可以理解为多计算机实质上是真正意义上的分布式存储计算机。

我们在操作系统常提到进程这个概念，在多计算机上，我们可以把一个问题分成多个并发进程，它们可在各台计算机上分别执行。如果有6个进程和6个计算机，则我们可在每台计算机上执行一个进程；如果进程数大于计算机数，那么其中一台计算机中如果是多核可以采用并行执行，如果是单核可以采用分时方式执行。进程间将通过发送消息的原语来联系对方。同样地，发送消息可以采用两种方式，一种是直接通信方式，一种是间接通信方式，如果感兴趣可以去操作系统方面查找资料，这里不再细讲。

消息传递多计算机比共享存储器多处理机更容易在物理上进行扩展，也就是说它可以构成较大规模。一般规模比较小的叫做机群（Cluster），规模比较大的叫做超级计算机（SuperComputer），规模很大的叫做数据中心（DataCenter）。

1.10 并行层次和代码粒度

并行度：同时执行的分进程数

并行粒度：两次并行或交互操作之间所执行的计算负载

并行度与并行粒度大小常互为倒数：增大粒度会减小并行度

增加并行度会增加系统（同步）开销

按发送者数量和接受者数量参与通信可将发送分为：

一对一：点到点
一对多：广播、播散
多对一：收集、归约
多对多：全交换、扫描、置换/移位

延伸：粒度

在并行计算执行过程中，两个通信之间每个处理器计算工作量大小的粗略描述，分为细粒度和粗粒度。

粒度在并行算法设计中必不可少，通常在进程数与效率之间选择粒度的大小，比如后面将要介绍的MPI并行程序更适合粗粒度并行，而使用CUDA并行程序就需要细粒度。

1.11 并行程序设计模型

隐式并行：让编译器和运行时支持系统自动地开拓它
数据并行：并行操作于聚合数据结构（数组）
共享变量：驻留在各处理器上的进程可以通过读写公共存储器中的共享变量相互通信
消息传递驻留在不同处理器节点上的进程可以通过网络传递消息相互通信。

2并行计算模型

2.1 拓展：进程

在只有一个用户的PC机开机的时候，实际上会秘密启动很多进程。例如，启动一个进程用来等待进入的电子邮件；或者启动另一个防病毒进程周期性地检查是否有病毒库更新。或者更好笑的是，一开机就是垃圾捆绑软件，什么2345，什么网页游戏，这些都是进程。这么多进程的活动都是需要管理的，于是有一个支持多进程的多道程序系统在这里显得就很有用了。

在任何多道程序设计系统中，CPU能够很快地切换进程，这个很快是几百毫秒哦。这也就让人产生一种并行的错觉，在一秒钟内怎么开了这么多进程？同时开的吗？不是，实际上在一瞬间只能有一个进程让CPU服务，只是进程切换地太快了，这就是伪并行。这和真正意义上的并行是有区别的，这也导致了此情形可以用来作为判别是否为多处理器系统的指标。

2.2 拓展：进程模型

在操作系统中，进程模型简称进程，但实际上和进程有所区别。在进程模型中，计算机上所有可运行的软件，通常也包括操作系统，被组织成若干顺序进程，简称进程，进程是程序的一次执行过程。

每个进程都拥有自己的虚拟CPU，当然，实际上真正的CPU在各进程之间来回切换。在操作系统中时间复用技术曾经提到过，当一个资源在时间上复用时，不同的程序或用户轮流使用它。实际上对于CPU来说也是如此，在时间上进行复用的时候，不同的进程轮流使用它。这种快速地切换是需要特定的设计的，我们称为多道程序设计。

当然在上述的思考中，我们仅仅讨论的是单核CPU，而不是多核。如果是多核CPU，根据我们之前所说，多核CPU可以看成一个大CPU里面装了多个小的CPU；甚至于有的电脑还不止一个CPU，对于一些并行计算机，多处理器的情况也是很常见的。

拓展：时分复用技术和空分复用技术

这是操作系统系统四大特征——并发、共享、虚拟、异步中虚拟特征的两大技术。

2.3 拓展：父子进程

在Unix中，通过fork函数创建的新进程是原进程的子进程，而调用fork函数的进程是fork函数创建出来的新进程的父进程。也就是说，通过fork函数创建的新进程与原进程是父子关系，fork就相当于一个凭证，有fork，就有父子关系。

在Windows则没有这些说法，所有的进程地位都是相同的。

2.4 拓展：线程

在很久以前还没有引入进程之前，系统中的各个程序只能串行执行。比如你想要边听歌边开QQ，这是不可能做到的，只能先做一件事再做一件事。

后来引入进程后，系统中的各个程序可以并发执行。也就是说，可以同时听歌和开QQ。但是，即使引入了进程，也不能在QQ中同时视频聊天和传输文件。这是因为操作系统每一次执行都是按照进程为单位来执行的。

从上面的例子来看，进程是程序的一次执行。但是这些功能显然不可能是由一个程序顺序处理就能实现的。有的进程可能需要“同时做很多事”，而传统的进程只能串行地执行一系列程序。为此，引入了线程来提高并发度。

在传统中，进程是程序执行流的最小单位，也就是说，CPU每次执行任务，最少执行一个进程。而后在现在，CPU每次执行任务，最少执行一个线程，线程是进程的子集。也就是说，引入线程后，线程成为了程序执行流的最小单位。

需要知道的是，同个进程中所有线程的内存是共享的，如果是同个进程中的线程做通信交换数据非常快，但是不同进程的线程交换数据就很慢了。

2.5 拓展：用户线程和内核线程

用户级线程由应用程序通过线程库实现。所有的线程管理工作都由应用程序负责（包括线程切换）。用户级线程中，线程切换可以在用户态下即可完成，无需操作系统干预。在用户看来，是有多个线程；但是对于操作系统内核来说，并意识不到线程的存在。即用户级线程对用户不透明，对操作系统透明。

内核级线程（Kernel-Level Thread,KTL，又称为“内核支持的线程”）。内核级线程的管理工作由操作系统内核完成。线程调度、切换等工作都由内核负责，因此内核级线程的切换必然需要在核心态下才能完成。

2.6 POSIX线程

为了实现可移植的线程程序，IEEE定义了线程的标准。它定义的线程包叫做pthread，大部分UNIX系统支持该标准。这个标准定义了超过60个函数调用。常见的几个如下所示：

一言蔽之：Posix线程是一种标准，我们可以在任何编程语言中使用这个标准，如Java如果要开多线程就实现Thread这个类，这个类中的所有方法都是按照Posix这个标准制定的。

Posix线程模型具有如下特点：

可分为用户线程、内核线程和轻量级进程（LMP）
线程共享相同的内存空间
与标准fork()相比，线程带来的开销很小。内核无需单独复制进程的内存空间或文件描述符等等。这就节省了大量的CPU时间。
和进程一样，线程将利用多CPU。如果软件是针对多处理器系统设计的，则其为计算密集型应用。
支持内存共享无需使用繁杂的IPC和其他复杂的通信机制

2.7 并行算法

串行算法：解题方法的精确描述，是一组有穷的规则，它们规定了解决某一特定类型问题的一系列运算。

并行算法：一些可同时执行的诸进程的集合，这些进程互相作用和协调动作从而达到给定问题的求解。

描述语言：采用伪代码进行描述，在程序描述语言中引入并行语句

同步：在时间上强使各执行进程在某一点必须互相等待

通信：共享存储多处理器使用读写全局变量，分布存储多计算机使用发送和接收消息。

拓展：进程通信

在操作系统中，进程通信就是进程之间的信息交换。

进程是分配系统资源的单位（包括内存地址空间），因此各进程拥有的内存地址空间相互独立。为了保证安全，一个进程不能直接访问另一个进程的地址空间，但是进程之间的信息交换又是必须实现的，为了保证进程之间的安全通信，操作系统提供了一些方法。

共享存储

使用共享存储的方式进行进程通信的话，操作系统会在内存中开辟一个共享空间，让两个进程进行通信。

需要注意的是：两个进程对共享空间的访问必须是互斥的（互斥访问通过操作系统提供的工具实现）；并且操作系统只负责提供共享空间和同步互斥工具。

管道通信

管道是指用于连接读写进程的一个共享文件，又名pipe文件。其实就是在内存中开辟一个大小固定的缓冲区。需要知道的是：

1. 管道只能采用半双工通信，某一个时间段内只能实现单向的传输。如果要实现双向同时通信，则需要设置两个管道。

2. 各进程要互斥地访问管道

3. 数据以字符流的形式写入管道，当管道写满时，写进程的write()系统调用将被阻塞，等待读进程将数据取走。当读进程将数据全部取走后，管道变空，此时读进程的read()系统调用将被阻塞。

4. 如果没写满，就不允许读；如果没读空，就不允许写。

5. 数据一旦被读出，就从管道中被抛弃，这就意味着读进程最多只能有一个，否则可能会有读错数据的情况。

消息传递

进程间的数据交换以格式化的消息为单位。进程通过操作系统提供的“发送消息/接受消息”两个原语进行数据交换。

一个格式化的消息可以分为消息头和消息体。消息头包括：发送进程ID、接受进程ID、消息类型、消息长度等格式化的信息（计算机网络中发送的“报文”其实就是一种格式化的消息）。

消息传递也分为两种方式：

通信方式	详情
直接通信方式	消息直接挂到接受进程的消息缓冲队列上
间接通信方式	消息要先发送到中间实体（信箱）中，因此也称为“信箱通信方式”。如：计网中的电子邮件系统。

2.8 并行计算模型

PRAM模型(Parallel Random Access Machine，并行随机存取机器)：也称为共享存储的SIMD模型。其有一个假定的无限大的集中的共享存储器和一个指令控制器，通过SM的R/W交换数据，隐式同步计算。其中PRAM-CRCW(同时读同时写)是最强的计算模型，其隐藏了并行机的通讯、同步等细节。
异步APRAM模型
BSP模型(Bulk Synchronous Parallel，大同步并行)：一种分布存储的多计算机模型，计算是由一系列用全部同步分开的、周期为L的超级步所组成。在各超级步中，每个处理器均执行局部计算，并通过选路器接收和发送消息。
LogP模型：一种分布存储的、点到点通信的多处理机模型。是比PRAM和BSP更一般的并行计算模型

2.9 并行算法一般设计过程

PCAM设计方法学

划分：分解成小任务，开拓并发性

通讯：确定诸任务间的数据交换，监测划分的合理性

组合：依据任务的局部性，组合成更大的任务

映射：将每个任务分配到处理器上，提高算法的性能（负载均衡）

一二阶段：考虑并发性、可扩放性，寻求具有这些特征的并行算法，即前期主要考虑如并发性等与机器无关的特性。

三四阶段：将注意力放在局部性及其它与性能有关的特性上，即后期考虑与机器有关的特性。

2.10 程序性能评价与优化

并行执行时间=计算时间+并行开销时间+相互通信时间

存储器性能：估计存储器的带宽B

并行与通信开销的测量：乒乓方法

加速比性能定律

我们用p表示处理器数，用Wp表示使用具有p个处理器的多处理机的执行所需的时间，Ws表示使用单处理器系统执行时间。

Amdahl定律：固定负载的加速公式S=Ws+wp/ws+wp/p,为了归一化可将Ws+Wp

看做f+1-f。对加速公式求极限，当p趋近与无穷时，极限为S = 1/f。这表明了随着处理器数目的无限增多，并行系统所能达到的加速之上限为1/f。

Gustafson定律：S=Ws+pWp/Ws+Wp。这表明随着处理器数目的增加，加速几乎与处理器数成比例的线性增加，串行比例f不再是程序的瓶颈。

3 OpenMP并行编程模型

3.1 OpenMP概述

OpenMP是由OpenMP Architecture Review Board牵头提出的，并已被广泛接受。其所支持的语言包括C、C++、Fortran。

OpenMP采用fork-join的执行模式，开始的时候只存在一个主线程，当需要进行并行计算的时候，派生出若干个分支线程来执行并行任务。当并行代码执行完成之后，分支线程会合，并把控制流程交给单独的主线程。

3.2 OpenMP语句模式

OpenMP通过编译指导命令来并行化，什么是编译指导命令？简单来说就是我们平常写的#开头的语句，通过程序中插入的这些编译指导命令，计算机就会完成并行计算的工作。在C/C++程序中，OpenMP的所有的编译指导命令都是以#pragma omp开始的，后面跟具体的功能指导命令，命令形式如下：

#pragma omp 指令子句，子句，子句……

注意：由于我不太会C，所以这里使用C++。如果是第一次使用C++的话，可以简单理解为C++和C在以下代码中的不同仅限于输出是使用cout，而C使用printf。C++换行采用endl。且将要输出的东西由<<流向cout。

3.3 OpenMP简单演示

我们先从最简单的一个并行程序开始。在下面的代码中，我们只用parallel制导命令开启并行域，需要注意的是，如果不指定线程数的话默认启用与CPU核心数同等的线程数。

#include

using namespace std;

int main()

{

#pragma omp parallel

{

cout << "Hello, world!" << endl;

}

可以看出，从#pragma omp parallel开始的花括号内就是并行域。parallel制导命令表示接下来由花括号括起来的区域将创建多个线程并行执行。

我们还可以使用num_threads子句来控制线程的个数，需要注意的是，一般设置的线程数不超过CPU核心数，如下：

#include

using namespace std;

int main()

{

omp_set_num_threads(2);//指定线程数为2

#pragma omp parallel

{

cout << "Hello, world!" << endl;

}

我们可以使用制导命令for来提升for循环迭代的速度。并且可以使用omp_get_thread_num()查看对应任务在并行域中使用的线程号。在下面的代码演示中，我使用了for循环来循环4次，每次循环中打印本次循环使用的线程号。我指定了两条线程，线程号从0开始，说明任务只会使用0号线程或者1号线程。

#include

using namespace std;

int main()

{

omp_set_num_threads(2);

#pragma omp parallel

{

#pragma omp for

for (int i = 0; i < 4; i++)

cout << omp_get_thread_num() << endl;

}

OpenMP实际上允许for写在parallel后面，即#pragma omp parallel for，不过这样写的坏处是会踩坑，所以平时建议不要这么写。

3.4 Schedule关于for循环的调度

在以上的演示中，我们发现任务是随机分配到各个线程上的，我们并没有做任何的调度。在下面的介绍中，我们使用schedule制导来进行for循环的调度。

schedule的基本形式是schedule(type, size)，其中type参数有四种，分别是：1.static, 2.dynamic, 3.guided, 4.runtime，而size参数时整型数据，其表示循环迭代次数划分的单位。

static参数

static表示静态调度，这时候不用size参数，分配给每个程序的都是n/t次迭代，n为迭代次数，t为并行的线程数目。在下面的代码中，我指定了两条线程，且循环8次，则实际迭代次数只有4次。

#include

using namespace std;

int main()

{

omp_set_num_threads(2);

#pragma omp parallel for schedule(static)

for (int i = 0; i < 8; i++)

cout << omp_get_thread_num() << endl;

}

dynamic参数

动态调度模式是先到先得的方式进行任务分配，不用size参数的时候，先把任务干完的线程先取下一个任务，以此类推，而不是一开始就分配固定的任务数。使用size参数的时候，分配的任务以size为单位，一次性分配size个。虽然很智能，在任务难度不均衡的时候适合用dynamic，否则会引起过多的任务动态申请的开销。

guided参数

刚开始每个线程会分配到比较大的迭代块，后来分配到的迭代块逐渐递减，没有指定size就会降到1，否则降到size。

runtime参数

基本不会用到

3.5 设置环境变量（拓展）

这里设置环境变量你可以理解为在外面设置好的规则，程序内都必须遵从这个规则。常见的环境变量有：

OMP_SCHEDULE：用于for和parallel for中，决定了循环的各个迭代如何在处理中进行分配。

OMP_NUM_THREADS：定义执行中所能使用的最大线程数。

OMP_DYNAMIC：确定是否动态设定并行域执行部分的线程数

OMP_NESTED：确定是否允许嵌套并行

3.6 sections制导指令

用sections把不同的区域交给不同的线程去执行。在下面的代码中，我开启三条线程，并且使用section制导开启三块区域，每个区域由一个线程所负责。

#include

using namespace std;

int main()

{

omp_set_num_threads(3);

#pragma omp parallel sections

{

#pragma omp section

{

cout << omp_get_thread_num();

}

#pragma omp section

{

cout << omp_get_thread_num();

}

#pragma omp section

{

cout << omp_get_thread_num();

}

3.7 single制导指令（拓展）

single制导指令所包含的代码段只有一个线程执行，别的线程跳过该代码，如果没有nowait子句，那么其他线程将会在single制导指令结束的隐式同步点等待，有nowait子句则其他线程将跳过等待往下执行。在下面的代码中，我开启四条线程，可以发现，只有一条线程服务于single制导命令下的代码段。

#include

using namespace std;

int main()

{

omp_set_num_threads(4);

#pragma omp parallel

{

#pragma omp single

{

cout << "single thread=" << omp_get_thread_num() << endl;

}

cout << omp_get_thread_num() << endl;

}

3.8 共享任务结构

共享任务结构将它所包含的代码划分给线程组的各成员执行
不产生新的线程
在共享任务结构的入口点没有路障
在其结束处有一个隐含的路障
DO/FOR是最常用的循环，并且有SCHEDULE选项，可以指定采用何种调度算法
SECTIONS可以让并行任务流水线执行（详见3.6）
SINGLE只有一个处理机执行之（详见3.7）

3.9 OpenMP的优点和缺点

优点

提供了一个可用的编程标准
可移植，简单，可扩展
灵活支持多线程，具有负载均衡的潜在能力

缺点

只适用于硬件共享存储型的机器
动态可变的线程数使得支持起来困难

3.10 常用子句的补充

private：指定每个线程都有它自己的变量私有副本

firstprivate：指定每个线程都有它自己的变量私有副本，并且变量要被继承主线程中的初值。

lastprivate：主要是用来指定将线程中的私有变量的值在并行处理结束后复制回主线程中的对应变量。

nowait：忽略指定中暗含的等待

num_threads：指定线程的个数

schedule：指定如何调度for循环迭代

shared：指定一个或多个变量为多个线程间的共享变量

ordered：用来指定for循环的执行要按顺序执行

copyprivate：用于single指令中的指定变量为多个线程的共享变量

copyin：用来指定一个threadprivate的变量的值要用主线程的值进行初始化。

default：用来指定并行处理区域内的变量的使用方式，缺省是shared。

4 MPI并行编程模型

4.1 拓展：什么是MPI

MPI是一个跨语言的通讯协议，用于编写并行计算机。支持点对点和广播。MPI的目标是高性能，大规模性，和可移植性。MPI在今天仍为高性能计算的主要模型。

主要的MPI-1模型不包括共享内存概念，MPI-2只有有限的分布共享内存概念。但是MPI程序经常在共享内存的机器上运行。在MPI模型周边设计程序比在NUMA架构下设计要好因为MPI鼓励内存本地化。

MPI是一个在平行计算中传递消息的库的标准，由实现人员和使用人员来遵守。目前的实现版本有MPICH2， Argonne National Laboratory实现，他还有好几个派生子项目。

4.2 MPI基本函数

MPI_Init(…);
MPI_Comm_size(…);
MPI_Comm_rank(…);
MPI_Send(…);
MPI_Recv(…);
MPI_Finalize();

int MPI_Init(int* argc,char** argv[])

用于并行环境初始化,其后面的代码到MPI_Finalize()函数之前的代码段都会在每个进程中（并行环境）执行一次。
除了MPI_Initialized()外，其余所有的MPI函数应该在其后才被调用
MPI系统将通过argc，argv得到命令行参数，也就是说main函数必须带参数，否则会报错。

int MPI_Finalize (void)

退出MPI系统，所有进程正常退出都必须调用。表明并行代码的结束,结束除主进程外其它进程。
串行代码仍可在主进程(rank = 0)上运行，但不能再有MPI函数（包括MPI_Init()）。

int MPI_Comm_size (MPI_Comm comm ,int* size )

获得进程个数 size。
指定一个通信子,也指定了一组共享该空间的进程, 这些进程组成该通信子的group（组）。
获得通信子comm中规定的group包含的进程的数量。

int MPI_Comm_rank (MPI_Comm comm ,int* rank)

得到本进程在通信空间中的rank值,即在组中的逻辑编号(该 rank值为0到p-1间的整数,相当于进程的ID。)

int MPI_Send( void *buff, int count, MPI_Datatype datatype, int dest, int tag, MPI_Comm comm)

void *buff：你要发送的变量。
int count：你发送的消息的个数（注意：不是长度，例如你要发送一个int整数，这里就填写1，如要是发送“hello”字符串，这里就填写6（C语言中字符串末有一个结束符，需要多一位））。
MPI_Datatype datatype：你要发送的数据类型，这里需要用MPI定义的数据类型，可在网上找到，在此不再罗列。
int dest：目的地进程号，你要发送给哪个进程，就填写目的进程的进程号。
int tag：消息标签，接收方需要有相同的消息标签才能接收该消息。
MPI_Comm comm：通讯域。表示你要向哪个组发送消息。

int MPI_Recv( void *buff, int count, MPI_Datatype datatype, int source, int tag, MPI_Comm comm, MPI_Status *status)

void *buff：你接收到的消息要保存到哪个变量里。
int count：你接收消息的消息的个数（注意：不是长度，例如你要发送一个int整数，这里就填写1，如要是发送“hello”字符串，这里就填写6（C语言中字符串末有一个结束符，需要多一位））。它是接收数据长度的上界. 具体接收到的数据长度可通过调用MPI_Get_count 函数得到。
MPI_Datatype datatype：你要接收的数据类型，这里需要用MPI定义的数据类型，可在网上找到，在此不再罗列。
int dest：接收端进程号，你要需要哪个进程接收消息就填写接收进程的进程号。
int tag：消息标签，需要与发送方的tag值相同的消息标签才能接收该消息。
MPI_Comm comm：通讯域。
MPI_Status *status：消息状态。接收函数返回时，将在这个参数指示的变量中存放实际接收消息的状态信息，包括消息的源进程标识，消息标签，包含的数据项个数等。

4.3 消息传递的特点

在消息传递模型中，一个并行应用由一组进程组成，每个进程的代码是本地的，只能访问私有数据，进程之间通过传递消息实现数据共享和进程同步。

优点：用户可以对并行性的开发、数据分布和通信实现完全控制。

缺点：

要求程序员显式地处理通信问题，如：消息传递调用的位置，数据移动，数据复制，数据操作，数据的一致性等等。
对大多数科学计算程序来说，消息传递模型的真正困难还在于显式的域分解。也就是说，将对相应数据的操作限定在指定的处理器上进行。在处理器上只能看见整个分布数据的一部分。
无法以渐进的方式、通过逐步将串行代码转换成并行代码而开发出来，大量的散布在程序各处的域分解要求整个程序由串行到并行的转换一次性实现，这是消息传递的一个明显的缺点。

你可能感兴趣的:(大数据,大数据,并行计算)

数字孪生技术为UI前端注入新活力：实现产品设计的沉浸式体验 ui设计前端开发老司机 ui
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“平面交互”到“沉浸体验”的UI革命当用户在电商APP中翻看3D家具模型却无法感知其与自家客厅的匹配度，当设计师在2D屏幕上绘制汽车内饰却难以预判实际乘坐体验——传统UI设计的“平面化、静态化、割裂感”
提升企业级数据处理效率！TDengine 四个集群优化点详解 TDengine （老段） TDengine 运维大数据数据库物联网时序数据库服务器运维 tdengine
为了帮助企业更好地进行大数据处理，我们在此前TDengine3.x系列版本中进行了几项与集群相关的优化和新功能开发，以提升集群的稳定性和在异常情况下的恢复能力。这些优化包括clusterID隔离、leaderrebalance、raftlearner和restorednode。本文将对这几项重要优化进行详细阐述，以解答企业在此领域的疑问，并帮助大家更好地应对相关挑战。clusterID隔离问题fi
中国银联豪掷1亿采购海光C86架构服务器信创新态势海光芯片 C86 国产芯片海光信息
近日，中国银联国产服务器采购大单正式敲定，基于海光C86架构的服务器产品中标，项目金额超过1亿元。接下来，C86服务器将用于支撑中国银联的虚拟化、大数据、人工智能、研发测试等技术场景，进一步提升其业务处理能力、用户服务效率和信息安全水平。作为我国重要的银行卡组织和金融基础设施，中国银联在全球183个国家和地区设有银联受理网络，境内外成员机构超过2600家，是世界三大银行卡品牌之一。此次中国银联发力
全面探索Kafka：架构、应用与流处理
Kafka：企业级消息系统与流处理平台的深度解析ApacheKafka作为分布式流处理平台，广泛应用于大数据处理和实时分析领域。本文将基于其官方文档，详细探讨Kafka的核心功能、应用场景以及如何进行有效管理。背景简介Kafka作为高吞吐量的消息系统，支持企业级的发布-订阅模式。它能够处理大量实时数据，并支持高并发读写操作。本文将依据Kafka官方文档的内容，逐层深入，从入门到高级应用，帮助读者全
Flink时间窗口详解 bxlj_jcj Flink flink 大数据
一、引言在大数据流处理的领域中，Flink的时间窗口是一项极为关键的技术，想象一下，你要统计一个电商网站每小时的订单数量。由于订单数据是持续不断产生的，这就形成了一个无界数据流。如果没有时间窗口的概念，你就需要处理无穷无尽的数据，难以进行有效的统计分析。而时间窗口的作用，就是将这无界的数据流按照时间维度切割成一个个有限的“数据块”，方便我们对这些数据进行处理和分析。比如，我们可以定义一个1小时的时
探索实时流处理的未来：Kafka Streams 深度指南秋或依
探索实时流处理的未来：KafkaStreams深度指南项目介绍欢迎进入KafkaStreams：实时流处理的世界！这不仅仅是一本书，更是一个通往流处理领域深层奥秘的门户。由PrashantPandey编著，这本书以ApacheKafka2.1中的KafkaStreams库为核心，为读者铺就了一条从理解基础概念到熟练掌握KafkaStreams编程的路径。无论是软件工程师、数据架构师，还是对大数据处
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
【Kafka专栏 13】Kafka的消息确认机制：不是所有的“收到”都叫“确认”！
作者名称：夏之以寒作者简介：专注于Java和大数据领域，致力于探索技术的边界，分享前沿的实践和洞见文章专栏：夏之以寒-kafka专栏专栏介绍：本专栏旨在以浅显易懂的方式介绍Kafka的基本概念、核心组件和使用场景，一步步构建起消息队列和流处理的知识体系，无论是对分布式系统感兴趣，还是准备在大数据领域迈出第一步，本专栏都提供所需的一切资源、指导，以及相关面试题，立刻免费订阅，开启Kafka学习之旅！
C语言学生成绩管理系统<；自创>；(功能7有小错误,但可运行） han_xue_feng java
腾讯云加速企业和个人开发创新公开直播预告直播预告：07/18(周四)15:00-16:00随着人工智能与大模型的蓬勃发展，我们正步入一个由技微信实习第一天周五入职，早上早早来到了公司，发现好多人都没上班，到十点才陆陆续续有人来，办理完入职后，mentor中联夏令营遗憾没有入选不过hr的回复真的很好，辛苦啦#提前批简历挂麻了怎么办##机械制造投递记录#大数据开发的工作有点过于简单了吧sq大数据开发的
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？架构师李肯嵌入式物联网开发进阶 c语言面试性能优化
【C语言经典面试题】memcpy函数有没有更高效的拷贝实现方法？我相信大部分初中级C程序员在面试的过程中，可能都被问过关于memcpy函数的问题，甚至需要手撕memcpy。本文从另一个角度带你领悟一下memcpy的面试题，你可以看看是否能接得住？文章目录1写在前面2源码实现2.1函数申明2.2简单的功能实现2.3满足大数据量拷贝的功能实现3源码测试4小小总结5更多分享1写在前面假如你遇到下面的面试
python基于Hadoop的NBA球员大数据分析与可视化系统
目录技术栈介绍具体实现截图系统设计研究方法：设计步骤设计流程核心代码部分展示研究方法详细视频演示试验方案论文大纲源码获取/详细视频演示技术栈介绍Django-SpringBoot-php-Node.js-flask本课题的研究方法和研究步骤基本合理，难度适中，本选题是学生所学专业知识的延续，符合学生专业发展方向，对于提高学生的基本知识和技能以及钻研能力有益。该学生能够在预定时间内完成该课题的设计。
大数据技术之集群数据迁移
dfs.namenode.rpc-address.nameservice1.namenode30hadoop104:8020dfs.namenode.rpc-address.nameservice1.namenode37hadoop106:8020dfs.namenode.http-address.nameservice1.namenode30hadoop104:9870dfs.namenode.
如何通过YashanDB优化企业大数据处理流程数据库
在当今数据驱动的商业环境中，企业面临着巨大的数据处理挑战。性能瓶颈、数据一致性问题和可扩展性需求使得大数据处理成为一项复杂任务。作为一种新兴的数据库管理系统，YashanDB以其独特的架构设计和强大的数据处理能力，在解决这些挑战方面提供了有效的手段。本文旨在探讨如何利用YashanDB优化大数据处理流程，为企业提供高效、可靠的解决方案。YashanDB的体系架构与部署形态YashanDB支持多种部
Pandas 学习教程 _pass_ Data-Alaysis pandas 信息可视化
目录定义基本操作一维数组操作二维数组操作数据选择过滤数据处理数据清洗数据转换数据分析排序分组聚合数据透视表高级操作合并数据时间序列处理自定义函数调用数据可视化集成数据导出和导入大数据分块处理定义全称：'paneldata'and'pythondataanalysis'Analy:Series(一维数据)、DataFrame(二维数据)主要应用：数据清洗：处理缺失数据、重复数据等数据转换：改变数据的
如何通过YashanDB提升客户体验数据库
如何优化查询速度？这是许多企业在使用数据库技术时常常会遇到的问题。查询速度的快慢直接影响到用户的体验，尤其是在大数据量和高并发的使用场景中。顾客期望迅速获取信息，若响应时间过长，可能导致客户流失。因此，优化数据库的性能成为提升客户体验的关键举措之一。YashanDB作为一种高性能的数据库技术架构，提供了多种优化机制，以提升系统的查询速度和整体处理能力。多种部署架构YashanDB支持多种部署架构，
如何通过YashanDB数据库实现企业级数据分区管理？数据库
在当今大数据时代，企业面临着海量数据的管理和优化访问的问题。如何有效地组织和划分庞大的数据集，以提升查询性能和运维效率，成为数据库系统设计的核心挑战。数据分区技术作为解决大规模数据处理的关键手段，能够显著减少无关数据的访问，优化资源利用率。本文聚焦于YashanDB数据库，详细解析其数据分区管理的实现机制及应用，为企业级应用提供高效、灵活的数据分区解决方案。YashanDB中的数据分区基础Yash
国产开源高性能对象存储RustFS保姆级上手指南光爷不秃对象存储 rust 国产开源软件 rust 云计算开源软件 github 开源数据仓库 database
在云计算与大数据爆发的时代，企业和开发者对存储方案的要求愈发严苛——不仅要能扛住海量数据的读写压力，还得兼顾安全性、可扩展性和兼容性。今天给大家介绍一款基于Rust语言开发的开源分布式对象存储系统——RustFS，它不仅是MinIO的国产化优秀替代方案，更是AI、大数据和云原生场景的理想之选。本文将从基础介绍到实战操作，带大家快速上手这款"优雅的存储解决方案"。一、RustFS核心特性解析Rust
显卡GPU的架构和工作原理 InnoLink_1024 芯片人工智能 AGI 架构硬件架构人工智能
显卡GPU（图形处理单元）是专为并行计算和图形处理设计的芯片，广泛应用于游戏、科学计算、人工智能和数据中心等领域。以下详细介绍GPU的架构和工作原理，涵盖核心组件、计算流程和关键技术，尽量简洁清晰。一、GPU架构概述GPU架构与CPU不同，专注于高并行计算，适合处理大量简单、重复的任务。其核心设计目标是最大化吞吐量，而非单任务的低延迟。主流GPU厂商（如NVIDIA、AMD、Intel）架构虽有差
通过YashanDB提升大数据处理能力的指南数据库
数据的急剧增长给数据库技术领域带来了诸多挑战，包括性能瓶颈、数据一致性问题及处理效率低下等。为了应对这些挑战，企业需采取有效的技术手段来提升大数据处理能力。YashanDB作为一款高性能的数据库产品，通过其先进的体系架构、优化的数据存储形式以及强大的并发控制能力，有效地提升了大数据环境下的处理性能。本文旨在为技术人员和决策者提供深入的技术分析和可操作的建议，通过YashanDB的功能特性来实现大数
Java多线程实战指南：从基础到高并发的核心技术解析添砖Java中 java python 开发语言 spring boot spring cloud spring
一、为什么必须掌握多线程？在单核CPU时代，多线程主要用于提高程序响应速度；在如今的多核处理器时代，多线程已成为榨干硬件性能的必备技能。无论是高并发Web服务器、实时数据处理系统，还是游戏引擎，都离不开多线程技术的支撑。典型案例：电商秒杀系统：1秒内处理10万+请求大数据处理：并行计算TB级数据金融交易系统：毫秒级订单撮合二、线程创建的四大核心方式1.继承Thread类（不推荐）classMyTh
3D 可视化技术开启污水治理全新发展阶段广州华锐视点 3d
3D可视化大屏展示技术在污水厂的应用，已然开启了污水处理的全新篇章。它不仅为污水厂解决了当下管理和展示的难题，更如同一座灯塔，照亮了未来污水处理领域的发展道路。随着科技的持续进步，3D可视化大屏展示技术必将迎来更加辉煌的发展。一方面，其与人工智能、大数据、物联网等前沿技术的融合将愈发紧密。借助人工智能算法，大屏系统将具备更强大的自主学习和分析能力，能够根据实时数据和历史经验，自动优化污水处理工艺参
UI前端大数据可视化实战策略：如何设计交互式数据探索界面？ UI前端开发工作室 ui 前端信息可视化
hello宝子们...我们是艾斯视觉擅长ui设计、前端开发、数字孪生、大数据、三维建模、三维动画10年+经验!希望我的分享能帮助到您!如需帮助可以评论关注私信我们一起探讨!致敬感谢感恩!一、引言：从“被动观看”到“主动探索”的可视化革命传统大数据可视化常陷入“图表堆砌”的困境：企业dashboard上布满折线图、饼图，却难以回答“销售额下降的核心区域是哪里”“用户流失与哪个行为强相关”等深度问题。
【HTML网页】智能健康监测——全方位健康管理专家（包含网页源代码）
智能健康监测分析系统智能健康监测分析系统是一种基于物联网、大数据、人工智能等技术的综合性健康管理解决方案。它具有以下六大核心功能：实时监测系统通过智能传感器和可穿戴设备，实时采集用户的生理数据，例如心率、血压、血氧饱和度、血糖水平和睡眠质量等，确保用户随时掌握自己的身体状况。健康数据分析利用人工智能和大数据分析技术，系统对采集到的数据进行处理和分析，提取有价值的健康信息，如心率变异性、呼吸频率等，
华为OD技术面试高频考点（算法篇、AI方向）
一、Transformer核心机制：自注意力(Self-Attention)公式:Attention=softmax(QK^T/√d_k)v运作原理：1.Q/K/V矩阵：输入向量通过线性变换生成Query(查询）、Key(键）、Value(值)2.注意力权重:Softmax(QKT/√d_k)→计算词与词之间的关联度3.输出：权重与Value加权求和→捕获长距离依赖-优势：并行计算、全局上下文感知
量子化学仿真软件：NWChem_（12）.并行计算技术 kkchenjj 化工仿真2 化工仿真模拟化工仿真
并行计算技术并行计算技术在量子化学仿真软件中扮演着至关重要的角色。随着计算化学任务的复杂度和数据规模的不断增长，传统的单核计算已经无法满足高性能计算的需求。并行计算通过利用多个处理器或计算节点来分担计算任务，可以在显著减少计算时间的同时提高计算效率。在NWChem中，支持多种并行计算模式，包括共享内存并行（OpenMP）、分布式内存并行（MPI）以及混合并行（OpenMP+MPI）。本节将详细介绍
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
oracle 数据库迁移expdp，impdp（数据泵导出导入）方法小张是铁粉 oracle 数据库
一.优缺点优点：1.高效性能：expdp，impdp使用并行技术，可以显著提高导出导入速度，尤其适用于大数据量的迁移。支持压缩和加密，减少导出文件的大小并提高安全性。2.灵活的对象选择：可以导出整个数据库、特定表空间、用户（Schema）或单个表。支持过滤条件，例如只导出特定表的数据或元数据。3.跨平台兼容性：支持跨平台迁移（例如从Linux到Windows），但需要注意字节序（endiannes
用Python的Chartify库，商业数据可视化效率提升13倍！忆愿 Python编程的脉动之声 python opencv 人工智能计算机视觉深度学习神经网络机器学习
文章目录为啥要用Chartify？安装那些事儿从零开始画图基础柱状图进阶折线图散点图与气泡图专业数据分析必备技能多维度分析时间序列分析高级可视化技巧自定义主题交互式特性批量图表生成性能优化技巧大数据集处理内存优化实战案例：销售数据分析系统数据可视化这事儿，搞过的都知道有多费劲。用matplotlib画个图要调半天参数，才能让图表看起来稍微顺眼一点；seaborn虽然画出来的图确实好看，但是配置项太
【大数据】FP-growth算法大雨淅淅大数据算法人工智能大数据
目录一、FP-growth算法概述二、FP-growth算法代码实现2.1FP-growth算法matlab实现2.2FP-growth算法python实现三、FP-growth算法应用四、FP-growth算法发展趋势一、FP-growth算法概述FP-growth算法是一种用于发现数据集中频繁项集的高效算法。它由JiaweiHan等人提出，旨在解决Apriori算法在大数据集上效率低下的问题。
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb