需求说明:深度学习FPGA实现知识储备
来自:http://www.2cto.com/kf/201411/355943.html
整理来自:时间的诗
卷积其实是图像处理中最基本的操作,我们常见的一些算法比如:均值模糊、高斯模糊、锐化、Sobel、拉普拉斯、prewitt边缘检测等等一些和领域相关的算法,都可以通过卷积算法实现。只不过由于这些算法的卷积矩阵的特殊性,一般不会直接实现它,而是通过一些优化的手段让计算量变小。但是有些情况下卷积矩阵的元素值无甚规律或者有特殊要求,无法通过常规手段优化,这个时候只能通过原始的方式实现。因此,如何快速的实现图像的任意卷积矩阵操作也有必要做适当的研究。
目前,通过友人共享或自己搜索找到的一片关于任意核算法优化的文章有: Reshuf?ing: A Fast Algorithm for Filtering with Arbitrary Kernels,改文章称能够提高原始程序速度的40%左右,但是原始的程序是如何写的也还不明白。
在matlab中有几个函数都与图像卷积有关,比如imfilter就可以实现卷积,或者 conv2也行,他们的速度都是相当快的,比如3000*3000的灰度图,卷积矩阵大小为15*15,在I5的CPU上运行时间只要170ms左右,相当的给力。
在Celery的博客中,也提到了他的优化后的conv2和matlab相当甚至快于matlab,详见http://blog.csdn.net/celerychen2009/article/details/38852105。
由于matlab的代码中使用到了IPL库进行加速,目前我写的Conv2函数还无法做到和其相当,对于任何核速度约为matlab的一半。
简单的记录下我在做卷积过程中用到的优化吧。
原始的卷积的实现需要四重循环,简单的表达如下:
for (Y = 0; Y < Height; Y++) { for (X = 0; X < Width; X++) { Index = .....; Sum = 0; for (XX = 0; XX < ConvW; XX++) { for (YY = 0; YY < ConvH; YY++) { Index1 = ..... ; Index2 = ..... ; Sum += Conv[Index1] * Pixel[Index2]; } } Dest[Index] = Sum / Weight; } }
float *Conv16 = (float *)_mm_malloc(PadConvLine * ConvH * sizeof(float), 16); // 保存16字节对齐的卷积矩阵,以方便使用SSE for(Y = 0; Y < ConvH; Y++) { memcpy (Conv16 + Y * PadConvLine, Conv->Data.F + Y * ConvW , ConvW * sizeof(float)); // 复制卷积矩阵的数据 memset(Conv16 + Y * PadConvLine + ConvW, 0, (PadConvLine - ConvW) * sizeof(float)); // 把冗余部分的卷积数据设置为0 }
float MultiplySSE(float *Kernel, float *Conv, int Length) { int Block; const float *Data; // 将SSE变量上的多个数值合并时所用指针. float Sum = 0; if (Length > 16) // 可以进行四次SSE计算,测试表明,这个还是快些的 { const int BlockWidth = 4 * 4; // 块宽. SSE寄存器能一次处理4个float,然后循环展开4次. Block = Length / BlockWidth; // 块数. float *KernelP = Kernel, *ConvP = Conv; // SSE批量处理时所用的指针. __m128 Sum0 = _mm_setzero_ps(); // 求和变量。SSE赋初值0 __m128 Sum1 = _mm_setzero_ps(); __m128 Sum2 = _mm_setzero_ps(); __m128 Sum3 = _mm_setzero_ps(); for(int I = 0; I < Block; I++) { Sum0 = _mm_add_ps(Sum0, _mm_mul_ps(_mm_load_ps(KernelP), _mm_load_ps(ConvP))); // SSE单精浮点紧缩加法 Sum1 = _mm_add_ps(Sum1, _mm_mul_ps(_mm_load_ps(KernelP + 4), _mm_load_ps(ConvP + 4))); Sum2 = _mm_add_ps(Sum2, _mm_mul_ps(_mm_load_ps(KernelP + 8), _mm_load_ps(ConvP + 8))); Sum3 = _mm_add_ps(Sum3, _mm_mul_ps(_mm_load_ps(KernelP + 12), _mm_load_ps(ConvP + 12))); KernelP += BlockWidth; ConvP += BlockWidth; } Sum0 = _mm_add_ps(Sum0, Sum1); // 两两合并(0~1). Sum2 = _mm_add_ps(Sum2, Sum3); // 两两合并(2~3). Sum0 = _mm_add_ps(Sum0, Sum2); // 两两合并(0~2). Data = (const float *)&Sum0; Sum = Data[0] + Data[1] + Data[2] + Data[3]; Length = Length - Block * BlockWidth; // 剩余数量. } if (Length != 0) { const int BlockWidth = 4; // 程序已经保证了数量必然是4的倍数 Block = Length / BlockWidth; float *KernelP = Kernel, *ConvP = Conv; __m128 Sum0 = _mm_setzero_ps(); for(int I = 0; I < Block; I++) { Sum0 = _mm_add_ps(Sum0, _mm_mul_ps(_mm_load_ps(KernelP), _mm_load_ps(ConvP))); KernelP += BlockWidth; ConvP += BlockWidth; } Data = (const float *)&Sum0; Sum += Data[0] + Data[1] + Data[2] + Data[3]; } return Sum; }
IS_RET __stdcall Conv2(TImage *Src, TMatrix *Conv, TImage *Dest, EdgeMode Edge) { if (Src == NULL || Dest == NULL || Conv == NULL) return IS_RET_ERR_PARA; if (Src->Width != Dest->Width || Src->Height != Dest->Height || Src->BitCount != Dest->BitCount || Src->Stride != Dest->Stride) return IS_RET_ERR_PARA; if (Src->Scan0 == NULL || Dest->Scan0 == NULL || Conv->Data.F == NULL) return IS_RET_ERR_MEM; if (Conv->Width < 1 || Conv->Height < 1) return IS_RET_ERR_PARA; int Width = Src->Width, Height = Src->Height, Stride = Src->Stride; int ConvW = Conv->Width, ConvH = Conv->Height; unsigned char *PtSrc = Src->Scan0, *PtDest = Dest->Scan0; if (Src->BitCount == 24) { } else { int Left = ConvW / 2, Top = ConvH / 2, Right = ConvW - Left - 1, Bottom = ConvH - Top - 1, ExpHeight = Height + ConvH - 1; // 注意核中心那个元素不用扩展,比如核的宽度为3,则只要左右各扩展一个像素就可以了 int PadConvLine = Pad4(ConvW), Length = PadConvLine * ConvH; int X, Y, IndexD, IndexE, IndexK, ExpStride; float *CurKer, Inv, Sum = 0; unsigned char *PtExp, *PtDest; TImage *Expand; IS_RET Ret = GetPadImage(Src, &Expand, Left, Right, Top, Bottom, Edge); // 得到扩展后的数据,可以提速和方便编程,但是多占用一份内存 if (Ret != IS_RET_OK) return Ret; PtExp = Expand->Scan0; PtDest = Dest->Scan0; ExpStride = Expand->Stride; for (X = 0; X < ConvH * ConvW; X ++) Sum += Conv->Data.F[X]; Inv = (Sum == 0 ? 1: 1 / Sum); // 如果卷积举证的和为0,则设置为1 float *Conv16 = (float *)_mm_malloc(PadConvLine * ConvH * sizeof(float), 16); // 保存16字节对齐的卷积矩阵,以方便使用SSE float *Kernel = (float *)_mm_malloc(PadConvLine * ExpHeight * sizeof(float), 16); // 保存16字节对齐的卷积核矩阵,以方便使用SSE for(Y = 0; Y < ConvH; Y++) { memcpy (Conv16 + Y * PadConvLine, Conv->Data.F + Y * ConvW , ConvW * sizeof(float)); // 复制卷积矩阵的数据 memset(Conv16 + Y * PadConvLine + ConvW, 0, (PadConvLine - ConvW) * sizeof(float)); // 把冗余部分的卷积数据设置为0 } for (Y = 0; Y < ExpHeight; Y++) { IndexE = Y * ExpStride; CurKer = Kernel + Y * PadConvLine; // 计算第一列所有像素将要取样的卷积核数据 for (X = 0; X < ConvW; X++) { CurKer[X] = PtExp[IndexE++]; } } for (X = 0 ; X < Width ; X ++) { if (X != 0) // 如果不是第一列,需要更新卷积核的数据 { memcpy(Kernel, Kernel + 1, (PadConvLine * ExpHeight - 1) * sizeof(float)); // 往前移动一个数据 IndexK = ConvW - 1 ; IndexE = IndexK + X; for (Y = 0; Y < ExpHeight; Y++) { Kernel[IndexK] = PtExp[IndexE]; // 只要刷新下一个元素 IndexK += PadConvLine; IndexE += ExpStride; } } CurKer = Kernel; IndexD = X; for (Y = 0; Y < Height; Y ++) // 沿列的方向进行更新 { PtDest[IndexD] = Clamp((int)( MultiplySSE(Conv16, CurKer, Length) * Inv + 0.5)); // 直接把函数放在这里也没有啥提速的,注意改函数不会被内联的 CurKer += PadConvLine; IndexD += Stride; } } _mm_free(Conv16); _mm_free(Kernel); FreeImage(Expand); return IS_RET_OK; } }
对于第一个问题,解决的方式很简答,即用空间换时间,新建一副(Width + ConvW - 1, Height + ConvH -1)大小的图像,然后四周的ConvW及ConvH的像素用边缘的值或者边缘镜像的值填充,正中间的则用原来的图复制过来,这样操作后进行取样时不再原图取样,而在这福扩展的图中取样,就避免了坐标判断等if语句的跳转耗时了,上GetPadImage即实现了改功能。
第二个问题则需要有一定的实现技巧,我们分配一块PadConvLine * (Height + ConvH - 1) 大小的内存,然后计算原图第一列像素串联起来的需要卷积的部分的数据,这一部分代码如上述44-52行所示。有了这样的数据,如果需要计算第一列的卷积结果,则很简单了,每跳过一列则把被卷积的数据起点增加PadConvLine个元素,在调用上述MultiplySSE函数获得卷积结果。接着则计算第二列像素的卷积值,此时需要整体更新这一列像素串联起来的需要被卷积的数据,更新也很简单,就是把原来的数据整体向左移动一个像素,这个可以用memcpy快速实现,然后在填充入新进来的那个元素,就ok了,接着就是再次调用MultiplySSE函数,如此重复下去。
经过编码测试,对于3000*3000的灰度图,15*15的核在I5的CPU上的测试平均结果为360ms,比matlab的慢了一半。
最后说明一点,很多人都说用FFT可以快速的实现卷积,并且是O(1)的,我比较同意后半句,但是前面半句是绝对的有问题的,至少在核小于50*50时,FFT实现的卷积不会比直接实现块。要知道FFT的计算量其实是很大的。