NEON优化——OpenCV WarpAffine双线性插值

算法要点

warpAffine双线性插值和最近邻的区别

  • 根据目标图像的某点坐标算出原始图像对应的点坐标后,最近邻是向下取整,双线性插值需要获得相邻的四个点坐标以及纵横方向的权重
  • 最近邻直接拷贝原始图像点即可,双线性插值需要横竖加权

很显然计算量要比最近邻大一些,但是效果会更好,对于放大的情况没有明显的锯齿。

优化要点

  • 在计算偏移时基本和最近邻相同,同样要考虑异常情况和越界读的问题,另外要注意32位和64位的区别。
  • 关于线性插值部分和resize的类似,可以参考resize的实现,同样涉及定点计算等。
  • 这里对于边界的处理做了一些简化,如果加权的4个点部分越界了,就都不参与运算了。而opencv的实现是未越界的部分继续参与运算。对于不怎么涉及边界的场景下这样简化是可以接受的。这样的简化就不会存在越界读的问题了。

代码实现

相对复杂的是线性插值计算部分,resize中8UC4可以当成uint来计算,但是这里行不通,像素的每个通道都要参与计算。

测试结果

8UC4

D: warpAffine H/W 1280/960 -> 128/128: opencv takes 1.168ms, neon takes 0.276ms, time reduce 76%
D: warpAffine H/W 1280/960 -> 256/256: opencv takes 3.883ms, neon takes 1.051ms, time reduce 72%
D: warpAffine H/W 1440/1080 -> 128/128: opencv takes 1.894ms, neon takes 0.546ms, time reduce 71%
D: warpAffine H/W 1440/1080 -> 256/256: opencv takes 4.357ms, neon takes 1.570ms, time reduce 63%

8UC3

D: warpAffine H/W 1280/960 -> 128/128: opencv takes 0.986ms, neon takes 0.191ms, time reduce 80%
D: warpAffine H/W 1280/960 -> 256/256: opencv takes 3.115ms, neon takes 0.671ms, time reduce 78%
D: warpAffine H/W 1440/1080 -> 128/128: opencv takes 1.437ms, neon takes 0.339ms, time reduce 76%
D: warpAffine H/W 1440/1080 -> 256/256: opencv takes 3.530ms, neon takes 0.900ms, time reduce 74%

你可能感兴趣的:(Android,性能优化)