通过GPU计算直方图

在OpenGL的绘制过程中,如果某一时候需要计算图片的直方图信息,
直接方案就是把图片信息glReadPixels到CPU,然后计算结果回传到GPU.
不过因为CPU与GPU的大量数据传输会比较耗时,所以这不是太好的方案。(此方案的一个优化点是可以缩小纹理尺寸下采样后再glReadPixels)

GPU方案的话

  • OpenGL ES 3.x方案
  1. 使用Computer Shader。
    参考:Metal图像处理——直方图均衡化

  2. 结合occlusion queries和depth-buffer来计算直方图
    occlusion queries其实也是把查询结果从GPU传到CPU, 也有一点耗时,不过只需要传一个结果值,比glReadPixels这样的大量数据传输快多了。参考:
    Efficient Computation of Histograms on the GPU

  • OpenGL ES 2.x方案
  1. 利用点精灵和Vertex Texture Fetch:
    包含n个像素的图片,可以利用n个点精灵在顶点着色器获取像素的颜色和灰度值(vertex texture fetch ),
    然后绘制到代表对应灰度值的位置上,然后就可以利用高精度的gl_Blend操作,根据此位置最终的像素值,获取此灰度值的频率:

a. Efficient Histogram Generation Using Scattering on GPUs
b. Image Processing Units on Ultra-low-cost Embedded Hardware: Algorithmic Optimizations for Real-time Performance
c. Vertex Texture Fetch 顶点纹理拾取

  1. 把图像分片处理,获取每一片区的直方图(并行运算),得到各个Tile. 然后使用二分迭代的方案把各个Tile的直方图信息整合。每次迭代,Tile集合对应的Texture的长宽都为原来的0.5。所以整合直方图信息需Log N次迭代,N为Tile的数目。有一定的计算量,只适用于图片小的情况,并且原图要先转化为2次幂纹理。
    GPU histogram computation
    整合数据迭代的方法(Texture Reduce):
    Linear Algebra Operators
    for GPU Implementation of Numerical Algorithms
    备注:感觉此方法在大多数场景比方法1更耗性能。还要求使用2次幂纹理。
    最后直方图信息整合的时候,论文里是迭代LogN次的RenderPass, 也就是 texture reduction
    pass。感觉直接一次性相加也是可以的~

OpenGL ES 2.x方案的方案1的第一步,因为怕某个灰度值的累加超过255导致数值溢出,
也不能把1024 * 1024这样的大图缩放到16*16的尺寸.而用多个通道表示累加值也比较麻烦,并且用几个通道对应一个灰度值会需要动态计算。最后选择分片处理计算直方图信息(Local Histogram Bin)。
后续因为感觉不是很适合项目,项目里会需要把直方图的某几个特征作为uniform信息传到后面渲染流程的shader里,也就是最后还是会需要ReadPixel, 这样和第一步就ReadPixel的方案,效率差别不大了,就没有继续研究。

备注:
上述各种方法,如需要遍历纹理像素,可以选择合适的遍历顺序来提高GPU缓存命中率:如何打造一个高性能的前端智能推理引擎

你可能感兴趣的:(通过GPU计算直方图)