warpAffine一种典型的应用场景是将camera拍到的图像中人脸抠出来,通过变换输出一张正脸,然后再做一些人脸识别,关键点检测之类的运算。所以通常是输入尺寸固定,输出尺寸也固定,变的是转换矩阵。
最近邻的优势是计算量小,速度较快,问题是放大的情况下锯齿较明显,对于通常是缩小的应用场景最近邻是比较合适的,如果希望在所有的场景下有相对更好的效果,可以考虑双线性。
warpAffine和resize其实比较类似,都是从源图像映射到目标图像,只不过resize只是单纯的缩放,而warpAffine还另外涉及到旋转,平移,映射关系更复杂一点。总体流程上还是大同小异,都是依次扫描目标图像,对于目标图像的每个点,都找到原始图像的对应点,然后拷贝像素即可。为了描述这种对应关系,resize只是单纯的乘以一个缩放系数,x和y是相互独立的,而warpAffine需要一个变换矩阵,目标图像的x和y对于原始图像的xy都有影响。
A0X + B0Y + C0 = X0
A1X + B1Y + C1 = Y0
(X,Y)是目标图像的坐标,(X0,Y0)是原始图像的坐标,可见对于X0 ,目标图像的XY都会参与计算。
对于最近邻,这里算出来的(X0,Y0)如果不是整数,则向下取整。
由于是对目标图像逐行扫描,在y一定的情况下,x不断变化,因此上述矩阵运算中可以将与Y无关的部分单独抽出来,每一行都可以复用。
先给出原始的C实现,再来讨论怎么优化,以下代码只处理8UC4,adelta和bdelta分别是目标图像的x在原始图像对应坐标的x和y上的分量。offsets则是目标图像的y在原始图像对应坐标的x和y上的分量。
class Warpaffine_8UC4 : public ParallelLoopBody {
public:
Warpaffine_8UC4(Mat src, Mat dst, int *adelta, int *bdelta, int *offsets) {
mSrc = src;
mDst = dst;
mAdelta = adelta;
mBdelta = bdelta;
mOffsets = offsets;
}
virtual void operator()(const Range &range) const {
int cols = mDst.cols;
for (int iy = range.start; iy < range.end; ++iy) {
int *pDstData = (int *) mDst.ptr(iy);
int x0 = mOffsets[2 * iy];
int y0 = mOffsets[2 * iy + 1];
for (int jx = 0; jx < cols; ++jx) {
int x = (mAdelta[jx] + x0) >> AB_BITS;
if (((uint32_t) x < mSrc.cols)) {
int y = (mBdelta[jx] + y0) >> AB_BITS;
if ((uint32_t) y < mSrc.rows) {
int *pSrcData = (int *) (mSrc.ptr(y));
*(pDstData + jx) = *(pSrcData + x);
}
}
}
}
}
private:
Mat mSrc;
Mat mDst;
int *mAdelta;
int *mBdelta;
int *mOffsets;
};
接下来讨论怎么优化上述的C代码,主要围绕两点,
关于第一点,思路是计算好偏移,非法情况时指向某个常量即可。关于第二点,当if去掉之后,剩下的逻辑就只是拷贝像素点了,用neon加速很容易。
要注意的问题:
8UC4
D: warpAffine H/W 1280/960 -> 128/128: opencv takes 0.280ms, neon takes 0.104ms, time reduce 62%
D: warpAffine H/W 1280/960 -> 256/256: opencv takes 0.847ms, neon takes 0.461ms, time reduce 45%
D: warpAffine H/W 1440/1080 -> 128/128: opencv takes 0.419ms, neon takes 0.132ms, time reduce 68%
D: warpAffine H/W 1440/1080 -> 256/256: opencv takes 1.357ms, neon takes 0.514ms, time reduce 62%
8UC3
D: warpAffine H/W 1280/960 -> 128/128: opencv takes 0.205ms, neon takes 0.096ms, time reduce 52%
D: warpAffine H/W 1280/960 -> 256/256: opencv takes 0.652ms, neon takes 0.401ms, time reduce 38%
D: warpAffine H/W 1440/1080 -> 128/128: opencv takes 0.269ms, neon takes 0.139ms, time reduce 48%
D: warpAffine H/W 1440/1080 -> 256/256: opencv takes 0.775ms, neon takes 0.474ms, time reduce 38%