_Tiny

使用OpenMP给程序加速

最近面试总是谈到效率问题，这个问题以前一直没考虑过，就是稀里糊涂的写。之前有看到过OpenMP，也不曾深究，看到这篇博客关于OpenMP写的非常详细，就转来慢慢学习吧。

OpenMP语法简介：

你想让你的程序运行的更快吗？

你想让你的程序在改动很少代码的基础上免费的飞奔起来吗？

如果答案是肯定的，向您推荐Inter免费的OpenMP。

OpenMP是基于多核处理器的，如果你的机器不是多核的，请不要往下读了！

1，OpenMP 的概述

OpenMP 的应用程序接口（API）是在共享存储体系结构上的一个编程模型，它包含编
译指导（Compiler Directive）、运行函数库（Runtime Library）和环境变量（Environment
Variables）。OpenMP 是一个编译器指令和库函数的集合，这些编译器指令和库函数主要用
于创建共享存储器计算机的并行程序。OpenMP 组合了C、C++或Fortran，以创建一种多线
程编程语言。它的语言模型基于这样一种假设：假设执行单元是共享一个地址空间的线程。
OpenMP 是基于派生/连接（fork/join）编程模型。一个OpenMP 程序从单个线程开始执
行，在程序的某些点需要并行执行时，程序派生出额外的线程，组成一个线程组。这些线程
在一个称为并行区域的代码区中并行执行。线程到达并行区域的末尾时等待，直到整个线程
组都到达，然后它们连接在一起，只有初始或者主线程继续执行，直到下一个并行区域（或
者程序结束）。
OpenMP 具有两个特性：串行等价性和递增的并行性。当一个程序无论是使用一个线程
运行还是使用多个线程运行时，它能够产生相同的结果，则该程序具有串行等价性。在大多
数情形中，具有串行等价性的程序更易于维护和理解（因此也更容易编写）。递增的并行性
是指一种并行的编程类型，其中一个程序从一个串行程序演化为一个并行程序。处理器从一
个串行程序开始，一块接着一块的寻找值得并行执行的代码段。这样，并行性被逐渐地添加。
在这个过程的每个阶段，存在一个可以被验证的程序，这极大地增加了项目的成功机率。
OpenMP 不具有下面三条性质：不是建立在分布式存储系统上的；不是在所有的环境下
都是一样的；不能保证多数共享存储器均能有效的利用。

2，OpenMP 程序结构

基于 C/C++语言的OpenMP 程序的结构如下：

#include
main ()
{
int var1, var2, var3;
/*Serial code*/
…
/*Beginning of parallel section. Fork a team ofthreads*/
/*Specify variable scoping */
#pragma omp parallel private(var1, var2) shared(var3)
{
  /*Parallel section executed by all threads*/
  …
  /*All threads join master thread and disband*/
}
}
可以看出在C/C++中，通过# pragma omp parallel 来完成代码块的并行运行。

3，OpenMP语法概述

1）编译指导

一个 OpenMP 的编译指导语句不依赖于其他的语句。

形式如：#pragma omp directive_name…

例如：

#pragma omp parallel
{
…
#pragma omp for

for(…){
…
sub1();
…
}
…
sub2();
….
}

4，OpenMP在vs2008中的使用方法

1）在源文件中添加头文件 omp.h。

2）属性页->配置属性->c/c++->语言中OpenMP支持中选择是。

3）在需要并且可以并行的代码中按照OpenMP的语法优化代码即可。

OpenMP具体的使用方法及其注意事项。

首先声明本文主要是参考下面的网址内容进行的总结。详细信息可以参考下面的网址。

http://software.intel.com/zh-cn/articles/intel-guide-for-developing-multithreaded-applications/

对于多个嵌套式循环，选择最外层循环进行并行化最为安全。这种方法通常会生成最为粗糙的粒度。确保工作能够平均分配给每个线程。如果因最外层循环的迭代次数较低而无法实施平均分配，则最好选择具有较大迭代次数的内层循环进行线程分配。例如，考虑下面包含四个嵌套循环的代码：

void processQuadArray (int imx, int jmx, int kmx,
double**** w, double**** ws)
{
for (int nv = 0; nv < 5; nv++)
for (int k = 0; k < kmx; k++)
for (int j = 0; j < jmx; j++)
for (int i = 0; i < imx; i++)
ws[nv][k][j][i] = Process(w[nv][k][j][i]);
}

如果线程数量多余或少于五个，并行外部循环将会导致负载不平衡和闲置线程。如果阵列维数imx、jmx和kmx非常大的话，并行效率将会很低。这种情况下最好选择并行其中一个内部循环。

如果能确保安全性，应尽可能排除工作分享结构底端的隐性障碍。所有 OpenMP 工作分享结构（不论整段还是单个）均在结构块底端含有一个隐性障碍。只有所有线程都在此障碍处集合后，并行才能执行。有时，这些障碍很不必要，并且会影响性能。应使用 OpenMP nowait 子句来消除这些障碍，如下面这个示例：

void processQuadArray (int imx, int jmx, int kmx,
double**** w, double**** ws)
{
#pragma omp parallel shared(w, ws)
{
int nv, k, j, i;
for (nv = 0; nv < 5; nv++)
for (k = 0; k < kmx; k++) // kmx is usually small
#pragma omp for shared(nv, k) nowait
for (j = 0; j < jmx; j++)
for (i = 0; i < imx; i++)
ws[nv][k][j][i] = Process(w[nv][k][j][i]);
}
}

由于最内层循环的计算都是独立的，因此在进行下一次迭代之前，线程没有必要在隐性障碍处等待。如果每次迭代的工作量各不相同，nowaitnowait 子句可使线程继续处理有用工作，而非闲置在隐性障碍处。

如果一个循环带有一种可防止循环被并行执行的循环传递相关性，可以将循环体分裂成单独的循环，进而实现并行执行。一个循环体被划分为两个或两个以上的循环被称为“循环分裂”。下面的示例演示了循环分裂过程，一个具有循环传递相关性的循环体创建出新的循环，进而完成并行执行。

float *a, *b;
int i;
for (i = 1; i < N; i++) {
if (b[i] > 0.0)
a[i] = 2.0 * b[i];
else
a[i] = 2.0 * fabs(b[i]);
b[i] = a[i-1];
}

但是，若将一个循环体分裂成两个独立的操作，这两个操作均可并行执行，如下面的代码：

for (i = 1; i < N; i++) { if (b[i] > 0.0) a[i] = 2.0 * b[i]; else a[i] = 2.0 * fabs(b[i]); }for(i = 1; i 负载平衡与并行性能

[+]

在执行计算任务时拥有一枚闲置内核无异于拥有一项废弃资源，在该内核上实施有效并行操作会延长线程化应用的整体运行时间。这枚内核处于闲置状态的原因有很多种，需要从内存或 I/O 中取出便是其中一个原因。尽管完全避免内核进入闲置状态不太可能，但编程人员仍然可以采取一些措施来缩短闲置时间，如采用重叠 I/O、内存预取的方式或重新排列数据访问模式的顺序，提高高速缓存利用率。

同样，闲置线程在执行多线程任务时也相当于废弃资源。分配给各线程的工作量不一样会导致名为“负载不均衡”的状况发生。这种不均衡程度越大，保持闲置状态的线程就会越多，完成计算任务所需的时间便会越长。分配给可用线程的各部分计算任务越均衡，完成整个计算任务的时间将会越短。

例如，一项任务由十二项独立任务组成，完成这些独立任务所需要的时间分别是：{10, 6, 4, 4, 2, 2, 2, 2, 1, 1, 1, 1}。假设现有四条线程共同承担这项计算任务，最简单的任务分配法是按照上述时间排列顺序为每条线程分配三项任务，即线程 0 完成所有分配的任务需要 20 个时间单元（10+6+4），线程 1 需要 8 个时间单元（4+2+2），线程 2 需要 5 个时间单元（2+2+1），线程 3 则只需要 3 个时间单元（1+1+1）。图 1（a）展示了这一任务分配状态，由此可见，完成全部十二项任务总共需要 20 个时间单元（完成整个任务所需时间应以最后完成的子任务用时为准）。

图 1：四条线程之间的任务分配示例。

您也可以采用一种更合理的任务分配法，即线程 0 完成一项任务所需时间是 {10}，线程 1 完成四项任务所需时间是 {4, 2, 1, 1}，线程 2 完成三项任务所需时间是 {6, 1, 1}，而线程 3 完成四项任务所需时间是 {4, 2, 2, 2}（如图 1（b）所示）。这样安排时间的优势是完成整个任务只需 10 个时间单元，四条线程中只有两条线程分别闲置了 2 个时间单元。

建议

如果完成所有任务所需时间长度相同，则在可用线程之间实施静态任务分配（即将整个任务划分为相同数量的子任务组并将每个子任务组分配给每条线程）是一种简单且合理的解决方案。但实际上就算事先已知道所有任务的执行时间长度，要找到一个在线程间实施最佳任务分配的方法仍然十分困难。如果各项子任务的执行时间长度不同，则可能需要采用一种更加动态的任务分配法来分配线程任务。

在默认情况下，OpenMP* 向线程调度迭代的策略是静态调度（如果不是静态调度则会另外注明）。当迭代之间的工作负载不同以及负载模式不可预知时，采用动态调度迭代的方法可以更好地平衡负载。动态调度和指数调度这两种静态调度替代方案都会通过 schedule 子句指定。在动态调度下，迭代数据块分配给线程；一旦分配完成，线程会申请获得一个新的迭代数据块。Schedule 子句的可选数据块参数会指明用于动态调度的迭代数据块固定尺寸。

       - collapse source view plain copy to clipboard print ? 
     
 #pragma omp parallel for schedule(dynamic, 5) 
   for (i = 0; i < n; i++) 
   { 
     unknown_amount_of_work(i); 
   } 
   

[cpp]  view plain copy 
       
      
 #pragma omp parallel for schedule(dynamic, 5)
  for (i = 0; i < n; i++)
  {
    unknown_amount_of_work(i);
  }
  

指数调度最初会向线程分配大型迭代数据块；分配给所需线程的迭代数量会随着未分配迭代集的减少而减少。由于分配模式不同，指数调度的开销往往少于动态调度。Schedule 子句的可选数据块参数会指明在指数调度下一个数据块中所分配的迭代最低数量。

       - collapse source view plain copy to clipboard print ? 
     
 #pragma omp parallel for schedule(guided, 8) 
   for (i = 0; i < n; i++) 
   { 
     uneven_amount_of_work(i); 
   } 
   

[cpp]  view plain copy 
       
      
 #pragma omp parallel for schedule(guided, 8)
  for (i = 0; i < n; i++)
  {
    uneven_amount_of_work(i);
  }
  

其中一个特例是迭代之间的工作负载单调递增或递减。例如，下三角形矩阵中每行元素数量会以正则表达式的形式增加。在此类情况下，通过静态调度设置一个相对较低的数据块尺寸（创建大量数据块/任务）可能有助于实现良好的负载平衡，同时还不会产生采用动态调度或指数调度所导致的开销。

       - collapse source view plain copy to clipboard print ? 
     
 #pragma omp parallel for schedule(static, 4) 
   for (i = 0; i < n; i++) 
   { 
     process_lower_triangular_row(i); 
   } 
   

[cpp]  view plain copy 
       
      
 #pragma omp parallel for schedule(static, 4)
  for (i = 0; i < n; i++)
  {
    process_lower_triangular_row(i);
  }
  

如果调度策略不明显，采用运行时调度可以随意改变数据块尺寸和调度类型，而无需对程序进行重新编译。

在使用英特尔® 线程构建模块（英特尔® TBB）的 parallel_for 算法时，调度程序会将迭代空间划分为可分配给线程的小型任务。一旦某些迭代的计算用时比其它迭代长，英特尔® TBB 调度程序能够从线程中动态“盗取”任务，以便更好地实现线程间的工作负载平衡。

显式线程模式（如 Windows* 线程、Pthreads* 和 Java* 线程）无法自动为线程调度一系列独立任务。编程人员必须根据需要将这种能力编入应用程序中。静态调度任务是一种十分简单、直接的调度方法，而动态调度任务则可通过两种相关的方法轻松予以实施：生产者/消费者（Producer/Consumer）模式和老板/工人（Boss/Worker）模式。在前一个模式下，一条线程（生产者）会将任务置入共享队列结构中，而消费者线程会根据需要清除要处理的任务。生产者/消费者模式通常适用于在任务分配给消费者线程之前需要进行预处理之时（但也并非一定得采用这种模式）。

在老板/工人模式下，工人线程与老板线程会在需要直接分配的工作任务增多时会合。在划分任务十分简单的情况下（如将各类指数分配给数组进行处理），可以采用具备适宜同步化程度的全局计数器来取代单独的老板线程，即工人线程访问当前数值并针对下一条需要承担更多工作任务的线程调整（可能增加）计数器。

无论采用哪种任务调度模式，您都必须使用适量的线程和正确的线程组合，以确保这些肩负工作任务的线程执行所需计算任务，而不是进入闲置状态。例如，如果消费者线程有时处于闲置状态，则您需要减少消费者线程数量或可能需要再配备一条生产者线程。采用何种解决方案主要取决于算法以及需要分配的任务数量与执行时间长度。

使用指南

所有动态任务调度方法都将因分配任务而产生一定的开销。将独立的小型任务整合成为一项可分配的工作任务有助于减少上述开销；相应地，如果采用 OpenMP schedule 子句，您需要在任务内设置代表最少迭代次数的非默认数据块尺寸。将一项任务划分成多项计算任务的最佳方法取决于需要完成的计算量、线程的数量以及执行计算任务时可以使用的其它资源。

通过避免或消除人工依赖性实现并行性

使用OpenMP优化for循环进行并行处理需要for的每次训话是彼此独立的。看下面的实例伪代码：

用相邻图像中的加权平均像素（包括该图像）来替换每个图像像素，便可通过模糊的方式来弱化图像。以下伪代码介绍了 3x3 模糊模板：
1）-for each pixel in (imageIn)

 
      sum = value of pixel 
   // compute the average of 9 pixels from imageIn 
   for each neighbor of (pixel) 
     sum += value of neighbor 
   // store the resulting value in imageOut 
   pixelOut = sum / 9 
 
  

2）另一个常见的例子是循环内部的指针发生偏移：

ptr = &someArray[0]

 
    for (i = 0; i < N; i++) 
 { 
   Compute (ptr);   
   ptr++; 
 } 
 
  

3）下面是用OpenCV编写的横向合并两张图片的测试源代码：

IplImage *pImgOne = cvLoadImage("Result45678.jpg");

IplImage *pImgTwo = cvLoadImage("R009_9.jpg");

if (pImgOne==NULL || pImgTwo==NULL)
{
printf("Load Pic failed!/r/n");
return;
}

int iWidthResult = pImgOne->width + pImgTwo->width;
int iHightResult = pImgOne->height;
IplImage *pImgResult = cvCreateImage(cvSize(iWidthResult,iHightResult), pImgOne->depth, pImgOne->nChannels);

char *pResult = pImgResult->imageData;
char *pOne = pImgOne->imageData;
char *pTwo = pImgTwo->imageData;

这个三个例子都不能简单的利用OpenMP进行for并行优化。但我们可以人工消除并行依赖。

对于1）和3）我们可以采用分块处理，充分机器的多核优势！使每个处理器单独的处理每个数据块。

为了有效地实现模糊运算线程化，可以考虑将图像细分为子图像，或固定大小的数据块。模糊算法支持独立地对数据块进行计算。以下伪代码阐释了图像模块化的使用方法：
// Decompose the image into non-overlapping blocks.

blockList = Decompose (image, xRes, yRes)
foreach (block in blockList)
{
BlurBlock (block, imageIn, imageOut)
}

同理，横向复制每行图像的程序3）也可以采用分块处理。

int iBlockSize = 512;//分块的大小与机器的处理器个数有关，笔者本机4核处理器，图像的总高度为2048，512=2048/4呵呵！
int iEveryBlockH = iHightResult/iBlockSize;

   #pragma omp parallel for
   for (int i=0; i    {
    JointPicForMP(pImgOne, pImgTwo, pImgResult, i, iEveryBlockH);
   }

void JointPicForMP(IplImage *pImgOne, IplImage *pImgTwo, IplImage *pImgResult, int iIndex, int iHight)
{
char *pResult = pImgResult->imageData + iIndex * pImgResult->widthStep * iHight;
char *pOne = pImgOne->imageData + iIndex * pImgOne->widthStep * iHight;
char *pTwo = pImgTwo->imageData + iIndex * pImgTwo->widthStep * iHight;

对于程序2）可以这样修改即可应用并行处理。

ptr = &someArray[0]
for (i = 0; i < N; i++)
{
Compute (ptr[i]);
}

实验一：

利用蒙特卡罗算法计算半径为 1 单元的球体体积：

#include "stdafx.h"
#include
#include
#include "Windows.h"

#include

#include
using namespace std;

int main()
{
long int max=10000000;
long int i,count=0;
double x,y,z,bulk,start_time,end_time;
start_time=clock();
time_t t;
srand((unsigned) time(&t));//函数产生一个以当前时间开始的随机种子
for(i=0;i {
  x=rand();
  x=x/32767;
  y=rand();
  y=y/32767;
  z=rand();
  z=z/32767;
  if((x*x+y*y+z*z)<=1)
   count++;
}
bulk=8*(double(count)/max);
end_time=clock();
cout<<"球体的体积为"< cout<<"运算时间为"<<(end_time-start_time)< Sleep(10000);
return 0;
}

使用OpenMP的运行程序及其结果：

long long max=10000000;
long long i,count=0;
double x,y,z,bulk,start_time,end_time;
start_time=clock();
time_t t;
srand((unsigned) time(&t));//函数产生一个以当前时间开始的随机种子
//omp_set_num_threads( 4 );
#pragma omp parallel for private(x,y,z) reduction(+:count)
for(i=0;i {
  x=rand();
  x=x/32767;
  y=rand();
  y=y/32767;
  z=rand();
  z=z/32767;
  if((x*x+y*y+z*z)<=1)
   count++;
}

bulk=8*(double(count)/max);
end_time=clock();
cout<<"球体的体积为"< cout<<"运算时间为"<<(end_time-start_time)< Sleep(INFINITE);

}

实验二：

横向拼接两张图片（把第二张图片连接到第一张图片的右边），利用OpenCV。

普通程序，未用OpenMP优化。

IplImage *pImgOne = cvLoadImage("Result45678.jpg");
IplImage *pImgTwo = cvLoadImage("R009_9.jpg");

if (pImgOne==NULL || pImgTwo==NULL)
{
printf("Load Pic failed!/r/n");
return;
}

int iWidthResult = pImgOne->width + pImgTwo->width;
int iHightResult = pImgOne->height;
IplImage *pImgResult = cvCreateImage(cvSize(iWidthResult,iHightResult), pImgOne->depth, pImgOne->nChannels);

DWORD dwStart = ::GetTickCount();
   char *pResult = pImgResult->imageData;
   char *pOne = pImgOne->imageData;
   char *pTwo = pImgTwo->imageData;

   for(int i=0; i    {
    memcpy(pResult, pOne, pImgOne->widthStep);
    pResult += pImgOne->widthStep;
    pOne += pImgOne->widthStep;
    memcpy(pResult, pTwo, pImgTwo->widthStep);
    pResult += pImgTwo->widthStep;
    pTwo += pImgTwo->widthStep;
   }
   DWORD dwEnd = ::GetTickCount();
   printf("...JointPic process not using MP cost %dms.../n",(dwEnd-dwStart));

循环上述代码100次得到的实验结果：

4核处理器的使用情况为：

从上图我们可以发现，四核使用不均衡，cpu最高使用率不会超过30%。

经过OpenMP优化的图片拼接程序，（分块处理）。

//iBlockSize 的大小根据目标机器的cpu个数及其优化任务所定，iBlockSize = task/NumberCpu->512=2048/4(2048为图像的高度)

int iBlockSize = 512;
   int iEveryBlockH = iHightResult/iBlockSize;
   DWORD dwStart = ::GetTickCount();
#pragma omp parallel for
   for (int i=0; i    {
    JointPicForMP(pImgOne, pImgTwo, pImgResult, i, iEveryBlockH);
   }
   DWORD dwEnd = ::GetTickCount();
   printf("...JointPic process using MP cost %dms.../n",(dwEnd-dwStart));

循环上述代码100次得到的实验结果：

4核处理器的使用情况为：

从上图我们可以发现，四核几乎被同时使用，cpu最高使用率可以达到100%。

结论（仅限于上述实验）：

1）在四核机器上，使用OpenMP优化的程序可以使程序运行速率提高30%。

2）在四核机器上，使用OpenMP优化的程序，CPU的使用率会由30%提高到90%~100%。

3）使用OpenMP优化，属于编译语句级优化，使用简单，但有时需要对循环进行优化和重构。

4）当然，你可以使用Inter IPP(我不是给做广告哦！)，但是，你得花钱，并且要遵循IPP的规范；如果不想花钱，所有的自己的代码都可控的情况下，不妨学习使用下OpenMP吧！

你可能感兴趣的:(OpenMP)

Visual Studio（VS）中使用OpenMP 我叫柳云烟 c++visual studio 算法
一、OpenMP简介OpenMP是由OpenMPArchitectureReviewBoard牵头提出的，并已被广泛接受，用于共享内存并行系统的多处理器程序设计的一套指导性编译处理方案。它支持的编程语言包括C、C++和Fortran，支持的编译器包括SunCompiler、GNUCompiler和IntelCompiler等。二、VS中启用OpenMP项目配置：打开你的VS项目，找到“项目属性”。
windows C++-并行编程-将使用缩减变量的 OpenMP 循环转换为使用并发运行时 sului c++开发语言
此示例介绍如何将使用reduction子句的OpenMPparallelforloop转换为使用并发运行时。OpenMPreduction子句允许指定一个或多个线程专用变量，这些变量受并行区域末尾的缩减操作的约束。OpenMP预定义一组缩减运算符。每个减量变量必须是标量（例如int、long和float）。OpenMP还定义了一些限制，说明如何在并行区域中使用缩减变量。并行模式库(PPL)提供co
Python，pip安装模块提示模块无法卸载导致安装失败，which files belong to it which would lead to only a partial uninstall. 飞天小女警出击 python pip 开发语言
问题描述：pip安装模块的时候，模块无法安装成功，提示有模块无法卸载这次是tbb模块无法卸载，之前遇到过wrapt、setuptools、request、反正同样的报错无论什么报错，都可以通过这个方案解决Installingcollectedpackages:tbb,intel-openmp,typing-extensions,mkl,torchAttemptinguninstall:tbbFou
OMP: Error #15问题解决方法 WD-ss python
报错信息OMP:Error#15:Initializinglibomp140.x86_64.dll,butfoundlibiomp5md.dllalreadyinitialized.OMP:HintThismeansthatmultiplecopiesoftheOpenMPruntimehavebeenlinkedintotheprogram.Thatisdangerous,sinceitcand
多机多卡运行nccl-tests和channel获取 Pretend ^^ #NCCL NCCL 分布式 mpi 深度学习 ubuntu 网络大模型
nccl-tests环境1.安装nccl2.安装openmpi3.单机测试4.多机测试mpirun多机多进程多节点运行nccl-testschannel获取环境Ubuntu22.04.3LTS(GNU/Linux5.15.0-91-genericx86_64)cuda11.8+cudnn8nccl2.15.1NVIDIAGeForceRTX4090*21.安装nccl#查看cuda版本nvcc-V
并行计算工具 MPI 简单教程疯狂的泰码君 MPI 并行计算 MPI
UsingMPIwithC并行程序使用户能够充分利用超级计算集群的多节点结构。消息传递接口(MPI)是一种标准，用于允许集群上的多个不同处理器相互通信。在本教程中，我们将使用英特尔C++编译器、GCC、IntelMPI和OpenMPI用C++创建多处理器“helloworld”程序。本教程假设用户具有Linux终端和C++经验。Setupand“Hello,World”这应该为您的环境准备好编译和
国外现代并行计算课程CMU-15-418/15-618: Parallel Computer Architecture and Programming wwxy261 算法
这是与计算物理最相关的CS课程，计算物理方向很容易吃透作为项目写到简历上这部分主要包括多核计算OpenMPSIMD集群计算MPIGPU计算CUDA分布式计算MapReduceSpark互联网主要重视分布式计算，科学研究主要在多核和MPI，但是科学研究很少研究底层，只管应用。GPU在算法工程师领域用得比较多。18645(15spring)HowtoWriteFastCodeECE版的parallel
openmpi运行时出现error while loading shared libraries: libimf.so: cannot open shared object file: odin_linux
使用openmpi，通过intel编译器编译，使用mpirun时出现这个问题：errorwhileloadingsharedlibraries:libimf.so:cannotopensharedobjectfile:出现这个问题说明intel的库文件路径没有配置好，所以考虑在~/.bashrc文件中添加：exportLD_LIBRARY_PATH="/opt/intel/compilers_an
CUDA Cpp正电子发射断层扫描仪校准和图像重建—蒙特卡洛3D伊辛模型亚图跨际数学 C/C++计算 CUDA c++蒙特卡洛并行计算
要点GPU对比CPU计算正弦和：使用单CPU、使用OpenMP库和CUDACUDA并行计算：3D网格运行内核：线程块，线程线性处理3D数组，并行归约，共享内存，矩阵乘法/平铺矩阵乘法，基本线性代数子程序平铺分区，矢量加载，warp级内在函数和子warp，线程发散和同步，联合组使用2D和3D模板，迭代求解偏微分方程和图像处理使用GPU纹理硬件执行快速插值，图像配准蒙特卡洛模拟3D伊辛模型CUDA流C
Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践(三) 沉木渡香 OpenCV学习笔记 opencv c++学习 arm开发
接上文，本章尝试在RV1106上使用TBB。依然是一言难尽，此文依然只是记录实践过程。源码下载，编译TBB下载地址:https://github.com/oneapi-src/oneTBB版本使用oneTBB-2021.11.0，这个版本可以使用cmake编译。cmake配置完后，进入build目录，使用make指令，正常情况下应该一切正常，遗憾的是编译过程会报如下错误：/media/oneTBB
Qt扩展-muParser数学公式解析太阳风暴 #▶Qt扫盲数学表达式计算数学表达式 muparser eval cpp
muParser数学公式解析一、概述1.针对速度进行了优化2.支持的运算符3.支持的函数4.用户定义的常量5.用户定义的变量6.自定义值识别回调7.其他功能二、内置函数三、内置二元运算符四、三元运算符五、内置常量六、源码引入1.源码文件2.编译器开关1.MUP_BASETYPE2.MUP_USE_OPENMP3.MUP_STRING_TYPE七、实例一、概述muparser-FastMathPar
Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践(二) 沉木渡香 OpenCV学习笔记 opencv c++学习
在上一篇文章中，我们成功验证了IntelThreadingBuildingBlocks(TBB)与OpenMP在多线程并行处理方面的加速潜力。为了更深入地理解这些技术在实际应用场景中的效能提升，接下来我们将目光转向目标开发板环境，进一步探究这两种框架在嵌入式系统上的实际加速效果。一、OPENMP加速效果测试在探讨OPENMP对性能提升的影响时，我们首先遇到了一个有趣的插曲。通常情况下，OpenMP
CMakeLists 增加 OpenMP 的支持 comedate C++实用源码三方库技术分享 c++visual studio OpenMP CMakeLists
1.CMakeLists增加如下：find_package(OpenMPREQUIRED)if(OpenMP_FOUND)message(STATUS"foundopenmp")set(CMAKE_C_FLAGS${CMAKE_C_FLAGS},${OPENMP_C_FLAGS})set(CMAKE_CXX_FLAGS${CMAKE_CXX_FLAGS},${OPENMP_CXX_FLAGS})e
并行化K-means聚类算法的实现与分析 OverlordDuke 聚类算法算法 kmeans 聚类并行聚类算法
并行化K-means聚类算法并行化K-means聚类算法的实现与分析项目背景与意义算法原理与串行实现分析并行化策略与关键细节实验结果与讨论未来改进方向结语并行化K-means聚类算法的实现与分析在大数据时代，对数据进行高效的聚类是数据分析与挖掘的重要工具之一。本文将介绍并讨论使用OpenMP在C++中实现的并行化K-means聚类算法。我们将深入探讨算法的原理、并行化策略以及实验结果，以期为相关领
openmp编程在linux下编译命令,OpenMP在ARM-Linux以及NDK中的编译和使用半生瓜Cc
以前对OpenCV在ARM-Linux，ARM-Android上的优化做了很多编译方面的努力，例如添加TBB支持，添加CUDA支持(NvidiaK1平台上)。这次突然听同事说增加了OpenMP选项后，在Windows+X86上有极大的优势，adaboost速度提高3倍。所以赶快在ARM-Android-NDK上测试一下。0.OpenMP基础：OpenMP(OpenMulti-Processing)
Opencv(C++)学习 TBB与OPENMP的加速效果实验与ARM上的实践沉木渡香 OpenCV学习笔记 opencv c++学习
背景：在某个嵌入式上的图像处理项目功能开发告一段落，进入性能优化阶段。尝试从多线程上对图像处理过程进行加速。经过初步调研后，可以从OPENMP，TBB这两块进行加速，当前项目中有些算法已采用多线程加速，这次主要是对比以上两个加速模块与多线程加速效果的对比。现在PC上实验，然后再移植相关库。环境准备：WIN11,VS2022,Debug641、编译OPENCV。经测试，编译过程是否选择TBB,MP相
如何使用 OpenCV parallel_for_并行化代码人工智能小豪 opencv 人工智能计算机视觉
目标本教程的目的是演示如何使用OpenCV框架轻松并行化代码。为了说明这个概念，我们将编写一个程序来对图像执行卷积运算。完整的教程代码在这里。parallel_for_前提并行框架第一个前提条件是使用并行框架构建OpenCV。在OpenCV4.5中，以下并行框架按此顺序提供：英特尔线程构建模块（第三方库，应显式启用）OpenMP（集成到编译器，应显式启用）APPLEGCD（系统范围，自动使用（仅限
需要安装cmake 3.13或更高版本的Ubuntu PIP。您运行的是xgboost的3.10.2版本,ubuntupip,CMake313orhigherisrequiredYouarerunni 冠切云之崔嵬 linux
今天在装xgboost的时候出现了下面的错误：INFO:XGBoostbuild_ext:Buildingfromsource./tmp/pip-install-elc4qdig/lib/libxgboost.soINFO:XGBoostbuild_ext:RunCMakecommand:['cmake','xgboost','-GUnixMakefiles','-DUSE_OPENMP=1','
Parallel Computing 并行计算相关学习御风@户外算法并行计算
参考资料https://hpc.llnl.gov/documentation/tutorialshttps://hpc.llnl.gov/documentation/tutorials/introduction-parallel-computing-tutorialhttps://hpc-tutorials.llnl.gov/openmp/https://www.openmp.org/Parall
openmp matlab,matlab – 为什么在mex文件中的OpenMP只产生1个线程？立夏之光 openmp matlab
我是OpenMP的新手.我有以下代码使用配置了MSVS2010的Matlabmex进行编译.计算机有8个处理器(我也使用matlabpool检查过).#include"mex.h"#includetypedefunsignedcharuchar;typedefunsignedintuint;//Takesauint8inputarrayanduint32indexarrayandprealloca
性能优化-OpenMP基础教程（四）-Android上运行OpenMP 发狂的小花高性能（HPC）开发基础教程 #OpenMP入门教程 android OpenMP 并行 C c++NDK
本文主要介绍如何在一个常规的Android手机上调试OpenMP程序，包括AndroidNDK的环境配置和使用JNI编写一个OpenMP程序运行在Android手机中。个人简介：一个全栈工程师的升级之路！个人专栏：高性能（HPC）开发基础教程CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录一、前言1AndroidNDK2AndroidNDK环境配置2.1AndroidNDK下载2.2A
北京交通大学高性能作业——多类积分函数华为鲲鹏 CPU 与 CPU + GPU 对比 Apylee 后继高性能 c++算法性能优化大作业 gpu算力华为云
多类积分函数华为鲲鹏CPU与CPU+GPU对比1.descriptionoftheproblemyouhavechosen2.descriptionoftheHUAWEIplatformyouuse(includingbothsoftwareandhardware)3.youralgorithmflowchart直接计算流程图OpenMP计算流程图CUDA计算流程图4.analysisofthek
学习OpenMP的第一个程序(解决：undefined reference to `omp_get_thread_num‘）南七行者 OpenMP c++
一、问题1.源代码#include#include"omp.h"//#incluce""格式：引用非标准库的头文件，编译器从用户的工作目录开始搜索intmain(intargc,char*argv[]){intnthreads,tid;#pragmaompparallelprivate(nthreads,tid)//{花括号写在这会报错{tid=omp_get_thread_num();print
性能优化-OpenMP基础教程（三）发狂的小花高性能（HPC）开发基础教程 #OpenMP入门教程 linux OpenMP 并行编程嵌套并行 c++
本文主要介绍OpenMP并行编程的环境变量和实战、主要对比理解嵌套并行的效果。个人简介：一个全栈工程师的升级之路！个人专栏：高性能（HPC）开发基础教程CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录一、OpenMP是什么？1OpenMP的主要特点2Linux下OpenMP版本查看3OpenMP环境变量二、OPenMP实战1parallel2parallelfor3最大线程数获取（核数
tensorflow环境安装配置 weixin_43870390 网络
下载匹配cuda的kaldi镜像Ubuntu20.04includingPython3.8NVIDIACUDA11.6.0cuBLAS11.8.1.74NVIDIAcuDNN8.3.2.44NVIDIANCCL2.11.4(optimizedforNVLink™)rdma-core36.0NVIDIAHPC-X2.10OpenMPI4.1.2rc4+OpenUCX1.12.0GDRCopy2.3N
性能优化-OpenMP基础教程（五）-全面讲解OpenMP基本编程方法发狂的小花 #OpenMP入门教程高性能（HPC）开发基础教程性能优化 OpenMP C 并行 fork
本文主要介绍OpenMP编程的编程要素和实战，包括并行域管理详细实战、任务分担详细实战。个人简介：一个全栈工程师的升级之路！个人专栏：高性能（HPC）开发基础教程CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录一、前言1OpenMP执行模式2OpenMP编程要素二、OpenMP编程实战1并行域管理1.1parallel并行域使用1.2并行域线程数量控制方式1.3并行域动态调整线程数量2
性能优化-OpenMP概述（一）-宏观全面理解OpenMP 发狂的小花高性能（HPC）开发基础教程 #OpenMP入门教程性能优化 OpenMP 并行 CUDA c++c
本文旨在从宏观角度来介绍OpenMP的原理、编程模型、以及在各个领域的应用、使用、希望读者能够从本文整体上了解OpenMP。个人简介：一个全栈工程师的升级之路！个人专栏：高性能（HPC）开发基础教程CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录1OpenMP概述1.1定义和背景1.2历史和发展1.3OpenMP的应用领域2OpenMP编程模型2.1并行计算基本概念2.2OpenMP编
并行计算工具OpenMP 二伊亚玎
如果你想要变量是每个线程拥有自己的单独的变量，那么就在并行块里面定义变量，对于在进入并行块前已经定义了的变量，是在多个线程之间共享的，需要小心处理，否则程序不会按照我们想要的方式执行。并行块前定义变量在上面这个程序中，试图用sum来累加变量和。#pragmaompparallelfor告诉编译器要把这个for语句拆开来并行执行。注意sum定义在并行块外面，所以在并行块中会共享这个变量。也就是说在四
性能优化-OpenMP基础教程（一）发狂的小花高性能（HPC）开发基础教程性能优化开发语言 OpenMP 并行编程 c++c语言
本文主要介绍OpenMP并行编程技术，编程模型、指令和函数的介绍、以及OpenMP实战的几个例子。希望给OpenMP并行编程者提供指导。个人简介：一个全栈工程师的升级之路！个人专栏：高性能（HPC）开发基础教程CSDN主页发狂的小花人生秘诀：学习的本质就是极致重复!目录一、OpenMP简介二、OpenMP编程模型1.指令与库函数1.1OpenMP指令格式1.1.1并行区域（ParallelRegi
TMS320多核 DSP 实时算法实现亚图跨际嵌入式算法 TMS320 dsp
特点学习如何使用开发工具，利用该处理器的最大性能和功能了解从架构、开发工具和编程模型（如OpenCL和OpenMP）到调试工具的丰富内容详细介绍了各种多核音频和图像应用一套丰富的经过测试的实验室练习和解决方案音频和图像处理应用程序源代码内容DSP介绍TMS320架构软件开发工具和TMS320EVM数值问题软件优化TMS320中断实时操作系统：TI-RTOS增强型直接内存访问(EDMA3)控制器处理
Spring的注解积累 yijiesuifeng spring 注解
用注解来向Spring容器注册Bean。需要在applicationContext.xml中注册： <context:component-scan base-package=”pagkage1[,pagkage2,…,pagkageN]”/>。如：在base-package指明一个包 <context:component-sc
传感器百合不是茶 android 传感器
android传感器的作用主要就是来获取数据,根据得到的数据来触发某种事件下面就以重力传感器为例; 1,在onCreate中获得传感器服务 private SensorManager sm;// 获得系统的服务 private Sensor sensor;// 创建传感器实例 @Override protected void
[光磁与探测]金吕玉衣的意义 comsci
这是一个古代人的秘密:现在告诉大家信不信由你们: 穿上金律玉衣的人,如果处于灵魂出窍的状态,可以飞到宇宙中去看星星这就是为什么古代
精简的反序打印某个数沐刃青蛟打印
以前看到一些让求反序打印某个数的程序。比如：输入123，输出321。记得以前是告诉你是几位数的，当时就抓耳挠腮，完全没有思路。似乎最后是用到%和/方法解决的。而今突然想到一个简短的方法，就可以实现任意位数的反序打印（但是如果是首位数或者尾位数为0时就没有打印出来了）代码如下： long num, num1=0;
PHP：6种方法获取文件的扩展名 IT独行者 PHP 扩展名
PHP：6种方法获取文件的扩展名 1、字符串查找和截取的方法 1 $extension = substr ( strrchr ( $file , '.' ), 1); 2、字符串查找和截取的方法二 1 $extension = substr
面试111 文强chu 面试
1事务隔离级别有那些，事务特性是什么（问到一次） 2 spring aop 如何管理事务的，如何实现的。动态代理如何实现，jdk怎么实现动态代理的，ioc是怎么实现的，spring是单例还是多例，有那些初始化bean的方式，各有什么区别（经常问） 3 struts默认提供了那些拦截器（一次） 4 过滤器和拦截器的区别（频率也挺高） 5 final，finally final
XML的四种解析方式小桔子 dom jdom dom4j sax
在平时工作中，难免会遇到把 XML 作为数据存储格式。面对目前种类繁多的解决方案，哪个最适合我们呢？在这篇文章中，我对这四种主流方案做一个不完全评测，仅仅针对遍历 XML 这块来测试，因为遍历 XML 是工作中使用最多的（至少我认为）。　　预备　　测试环境：　　AMD 毒龙1.4G OC 1.5G、256M DDR333、Windows2000 Server
wordpress中常见的操作 aichenglong 中文注册 wordpress 移除菜单
1 wordpress中使用中文名注册解决办法 1)使用插件 2)修改wp源代码进入到wp-include/formatting.php文件中找到 function sanitize_user( $username, $strict = false
小飞飞学管理-1 alafqq 管理
项目管理的下午题，其实就在提出问题（挑刺），分析问题，解决问题。今天我随意看下10年上半年的第一题。主要就是项目经理的提拨和培养。结合我自己经历写下心得对于公司选拔和培养项目经理的制度有什么毛病呢？ 1，公司考察，选拔项目经理，只关注技术能力，而很少或没有关注管理方面的经验，能力。 2，公司对项目经理缺乏必要的项目管理知识和技能方面的培训。 3，公司对项目经理的工作缺乏进行指
IO输入输出部分探讨百合不是茶 IO
//文件处理在处理文件输入输出时要引入java.IO这个包； /* 1，运用File类对文件目录和属性进行操作 2，理解流，理解输入输出流的概念 3，使用字节/符流对文件进行读/写操作 4，了解标准的I/O 5，了解对象序列化 */ //1，运用File类对文件目录和属性进行操作 //在工程中线创建一个text.txt
getElementById的用法 bijian1013 element
getElementById是通过Id来设置/返回HTML标签的属性及调用其事件与方法。用这个方法基本上可以控制页面所有标签，条件很简单，就是给每个标签分配一个ID号。返回具有指定ID属性值的第一个对象的一个引用。语法： &n
励志经典语录 bijian1013 励志人生
经典语录1: 哈佛有一个著名的理论：人的差别在于业余时间，而一个人的命运决定于晚上8点到10点之间。每晚抽出2个小时的时间用来阅读、进修、思考或参加有意的演讲、讨论，你会发现，你的人生正在发生改变，坚持数年之后，成功会向你招手。不要每天抱着QQ/MSN/游戏/电影/肥皂剧……奋斗到12点都舍不得休息，看就看一些励志的影视或者文章，不要当作消遣；学会思考人生，学会感悟人生
[MongoDB学习笔记三]MongoDB分片 bit1129 mongodb
MongoDB的副本集(Replica Set)一方面解决了数据的备份和数据的可靠性问题，另一方面也提升了数据的读写性能。MongoDB分片(Sharding)则解决了数据的扩容问题，MongoDB作为云计算时代的分布式数据库，大容量数据存储，高效并发的数据存取，自动容错等是MongoDB的关键指标。本篇介绍MongoDB的切片(Sharding) 1.何时需要分片 &nbs
【Spark八十三】BlockManager在Spark中的使用场景 bit1129 manager
1. Broadcast变量的存储，在HttpBroadcast类中可以知道 2. RDD通过CacheManager存储RDD中的数据，CacheManager也是通过BlockManager进行存储的 3. ShuffleMapTask得到的结果数据，是通过FileShuffleBlockManager进行管理的，而FileShuffleBlockManager最终也是使用BlockMan
yum方式部署zabbix ronin47 yum方式部署zabbix
安装网络yum库#rpm -ivh http://repo.zabbix.com/zabbix/2.4/rhel/6/x86_64/zabbix-release-2.4-1.el6.noarch.rpm 通过yum装mysql和zabbix调用的插件还有agent代理#yum install zabbix-server-mysql zabbix-web-mysql mysql-
Hibernate4和MySQL5.5自动创建表失败问题解决方法 byalias J2EE Hibernate4
今天初学Hibernate4，了解了使用Hibernate的过程。大体分为4个步骤： ①创建hibernate.cfg.xml文件 ②创建持久化对象 ③创建*.hbm.xml映射文件 ④编写hibernate相应代码在第四步中，进行了单元测试，测试预期结果是hibernate自动帮助在数据库中创建数据表，结果JUnit单元测试没有问题，在控制台打印了创建数据表的SQL语句，但在数据库中
Netty源码学习-FrameDecoder bylijinnan java netty
Netty 3.x的user guide里FrameDecoder的例子，有几个疑问： 1.文档说：FrameDecoder calls decode method with an internally maintained cumulative buffer whenever new data is received. 为什么每次有新数据到达时，都会调用decode方法？ 2.Dec
SQL行列转换方法 chicony 行列转换
create table tb(终端名称 varchar(10) , CEI分值 varchar(10) , 终端数量 int) insert into tb values('三星' , '0-5' , 74) insert into tb values('三星' , '10-15' , 83) insert into tb values('苹果' , '0-5' , 93)
中文编码测试 ctrain 编码
循环打印转换编码 String[] codes = { "iso-8859-1", "utf-8", "gbk", "unicode" }; for (int i = 0; i < codes.length; i++) { for (int j
hive 客户端查询报堆内存溢出解决方法 daizj hive 堆内存溢出
hive> select * from t_test where ds=20150323 limit 2; OK Exception in thread "main" java.lang.OutOfMemoryError: Java heap space 问题原因： hive堆内存默认为256M 这个问题的解决方法为：修改/us
人有多大懒，才有多大闲 (评论『卓有成效的程序员』) dcj3sjt126com 程序员
卓有成效的程序员给我的震撼很大，程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可以那么勤奋，每天都孜孜不倦得做着重复单调的工作。在看这本书之前，我属于勤奋的人，而看完这本书以后，我要努力变成懒惰的人。不要在去庞大的开始菜单里面一项一项搜索自己的应用程序，也不要在自己的桌面上放置眼花缭乱的快捷图标
Eclipse简单有用的配置 dcj3sjt126com eclipse
1、显示行号 Window -- Prefences -- General -- Editors -- Text Editors -- show line numbers 2、代码提示字符 Window ->Perferences，并依次展开 Java -> Editor -> Content Assist，最下面一栏 auto-Activation
在tomcat上面安装solr4.8.0全过程 eksliang Solr solr4.0后的版本安装 solr4.8.0安装
转载请出自出处： http://eksliang.iteye.com/blog/2096478 首先solr是一个基于java的web的应用，所以安装solr之前必须先安装JDK和tomcat，我这里就先省略安装tomcat和jdk了第一步：当然是下载去官网上下载最新的solr版本，下载地址
Android APP通用型拒绝服务、漏洞分析报告 gg163 漏洞 android APP 分析
点评：记得曾经有段时间很多SRC平台被刷了大量APP本地拒绝服务漏洞，移动安全团队爱内测（ineice.com）发现了一个安卓客户端的通用型拒绝服务漏洞，来看看他们的详细分析吧。 0xr0ot和Xbalien交流所有可能导致应用拒绝服务的异常类型时，发现了一处通用的本地拒绝服务漏洞。该通用型本地拒绝服务可以造成大面积的app拒绝服务。针对序列化对象而出现的拒绝服务主要
HoverTree项目已经实现分层 hvt 编程 .net Web C#ASP.ENT
HoverTree项目已经初步实现分层，源代码已经上传到 http://hovertree.codeplex.com请到SOURCE CODE查看。在本地用SQL Server 2008 数据库测试成功。数据库和表请参考：http://keleyi.com/a/bjae/ue6stb42.htmHoverTree是一个ASP.NET 开源项目，希望对你学习ASP.NET或者C#语言有帮助，如果你对
Google Maps API v3: Remove Markers 移除标记天梯梦 google maps api
Simply do the following: I. Declare a global variable: var markersArray = []; II. Define a function: function clearOverlays() { for (var i = 0; i < markersArray.length; i++ )
jQuery选择器总结 lq38366 jquery 选择器
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
基础数据结构和算法六：Quick sort sunwinner Algorithm Quicksort
Quick sort is probably used more widely than any other. It is popular because it is not difficult to implement, works well for a variety of different kinds of input data, and is substantially faster t
如何让Flash不遮挡HTML div元素的技巧_HTML/Xhtml_网页制作刘星宇 html Web
今天在写一个flash广告代码的时候，因为flash自带的链接，容易被当成弹出广告，所以做了一个div层放到flash上面，这样链接都是a触发的不会被拦截，但发现flash一直处于div层上面，原来flash需要加个参数才可以。让flash置于DIV层之下的方法，让flash不挡住飘浮层或下拉菜单，让Flash不档住浮动对象或层的关键参数：wmode=opaque。方法如下：
Mybatis实用Mapper SQL汇总示例 wdmcygah sql mysql mybatis 实用
Mybatis作为一个非常好用的持久层框架，相关资料真的是少得可怜，所幸的是官方文档还算详细。本博文主要列举一些个人感觉比较常用的场景及相应的Mapper SQL写法，希望能够对大家有所帮助。不少持久层框架对动态SQL的支持不足，在SQL需要动态拼接时非常苦恼，而Mybatis很好地解决了这个问题，算是框架的一大亮点。对于常见的场景，例如：批量插入/更新/删除，模糊查询，多条件查询，联表查询，

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他