NEON优化——OpenCV WarpAffine最近邻

warpAffine一种典型的应用场景是将camera拍到的图像中人脸抠出来,通过变换输出一张正脸,然后再做一些人脸识别,关键点检测之类的运算。所以通常是输入尺寸固定,输出尺寸也固定,变的是转换矩阵。

最近邻的优势是计算量小,速度较快,问题是放大的情况下锯齿较明显,对于通常是缩小的应用场景最近邻是比较合适的,如果希望在所有的场景下有相对更好的效果,可以考虑双线性。

算法要点

warpAffine和resize其实比较类似,都是从源图像映射到目标图像,只不过resize只是单纯的缩放,而warpAffine还另外涉及到旋转,平移,映射关系更复杂一点。总体流程上还是大同小异,都是依次扫描目标图像,对于目标图像的每个点,都找到原始图像的对应点,然后拷贝像素即可。为了描述这种对应关系,resize只是单纯的乘以一个缩放系数,x和y是相互独立的,而warpAffine需要一个变换矩阵,目标图像的x和y对于原始图像的xy都有影响。

A0X + B0Y + C0 = X0
A1X + B1Y + C1 = Y0 

(X,Y)是目标图像的坐标,(X0,Y0)是原始图像的坐标,可见对于X0 ,目标图像的XY都会参与计算。

对于最近邻,这里算出来的(X0,Y0)如果不是整数,则向下取整。

由于是对目标图像逐行扫描,在y一定的情况下,x不断变化,因此上述矩阵运算中可以将与Y无关的部分单独抽出来,每一行都可以复用。

先给出原始的C实现,再来讨论怎么优化,以下代码只处理8UC4,adelta和bdelta分别是目标图像的x在原始图像对应坐标的x和y上的分量。offsets则是目标图像的y在原始图像对应坐标的x和y上的分量。

class Warpaffine_8UC4 : public ParallelLoopBody {
public:
    Warpaffine_8UC4(Mat src, Mat dst, int *adelta, int *bdelta, int *offsets) {
        mSrc = src;
        mDst = dst;
        mAdelta = adelta;
        mBdelta = bdelta;
        mOffsets = offsets;
    }

    virtual void operator()(const Range &range) const {
        int cols = mDst.cols;
        for (int iy = range.start; iy < range.end; ++iy) {
            int *pDstData = (int *) mDst.ptr(iy);
            int x0 = mOffsets[2 * iy];
            int y0 = mOffsets[2 * iy + 1];
            for (int jx = 0; jx < cols; ++jx) {
                int x = (mAdelta[jx] + x0) >> AB_BITS;
                if (((uint32_t) x < mSrc.cols)) {
                    int y = (mBdelta[jx] + y0) >> AB_BITS;
                    if ((uint32_t) y < mSrc.rows) {
                        int *pSrcData = (int *) (mSrc.ptr(y));
                        *(pDstData + jx) = *(pSrcData + x);
                    }
                }
            }
        }
    }

private:
    Mat mSrc;
    Mat mDst;
    int *mAdelta;
    int *mBdelta;
    int *mOffsets;
};

优化要点

接下来讨论怎么优化上述的C代码,主要围绕两点,

  • 怎么去掉for循环中的if
  • 怎么加速for循环

关于第一点,思路是计算好偏移,非法情况时指向某个常量即可。关于第二点,当if去掉之后,剩下的逻辑就只是拷贝像素点了,用neon加速很容易。

要注意的问题:

  1. 非法情况指向什么样的常量,可以自己创建一块buffer,非法时指向该buffer。但是计算偏移时要注意,偏移是该buffer的地址减去图像内存的地址,要考虑32位还是64位的问题。
  2. 加载像素数据时可能越界,可以将图像最后两个点的数据拷贝到buffer,算偏移时如果发现对应到原始图像的最后两个点,则重定向到buffer。
  3. 这种偏移的思路只适合非ROI的情况

测试结果

8UC4

D: warpAffine H/W 1280/960 -> 128/128: opencv takes 0.280ms, neon takes 0.104ms, time reduce 62%
D: warpAffine H/W 1280/960 -> 256/256: opencv takes 0.847ms, neon takes 0.461ms, time reduce 45%
D: warpAffine H/W 1440/1080 -> 128/128: opencv takes 0.419ms, neon takes 0.132ms, time reduce 68%
D: warpAffine H/W 1440/1080 -> 256/256: opencv takes 1.357ms, neon takes 0.514ms, time reduce 62%

8UC3

D: warpAffine H/W 1280/960 -> 128/128: opencv takes 0.205ms, neon takes 0.096ms, time reduce 52%
D: warpAffine H/W 1280/960 -> 256/256: opencv takes 0.652ms, neon takes 0.401ms, time reduce 38%
D: warpAffine H/W 1440/1080 -> 128/128: opencv takes 0.269ms, neon takes 0.139ms, time reduce 48%
D: warpAffine H/W 1440/1080 -> 256/256: opencv takes 0.775ms, neon takes 0.474ms, time reduce 38%

你可能感兴趣的:(Android,性能优化)