GPU Framebuffer Memory : Unterstanding Tiling 笔记 2019-11-24

https://developer.samsung.com/game/gpu-framebuffer

render需要大量的memory bandwidth,他的空间和功率开销很大。所以移动设备会使用tile-based rending。

Immediate mode rasterizers

传统的graphics API接口是按顺序submit triangles,也就是GPU依次render每个triangle,所以rasterization是这样的:

corlor frambuffer and corresponding depth buffer 01
corlor frambuffer and corresponding depth buffer 02

如图,triangles被sumitted时立即被hw处理,也就是immediate-mode renderer,IMR。

pipeline of IMR

Memory use in IMR

IMR很耗memory bandwidth,即使是对framebuffer pixels和depth values的很小的cache,在光栅化时都会transfer大量memory。IMR下的内存访问顺序不可预知,由submit triangles的方式决定。

如图,render image上方显示了4个连续image memory的cache lines,cache line是一个小矩形,表示cache line对应的pixel在哪里fall in到fambuffer:

  • 红色代表dirtry cache lines,已经被写入,
  • 绿色代表 clean cache lines,仍然match memory,
  • 亮色代表最近已被访问
    dirty cache lines相对应的frambuffer pixels 显示为粉色(framebuffer)和白色(在depth buffer里):
render in linear cache line 01
render in linear cache line 02

dirty的地方还没有画好,全变绿色就画好了。
这个动图要表达的是,每个cache line需要重新做好几次,因为每行都要画多个三角形(很多个spike尖角)。

Tiled memory

节省带宽的第一步是,把每个cache line当做是覆盖内存的two-dimensional rectangular,也就是tile。因为空间接近的triangles一般submitted的时间也接近。所以这样对cache area分组会提高cache hits命中率。
大小相同的linear cache与square cache,square cache发生的render更多,transfers to memory的频率更小,从而降低的带宽。同样的技术也用在texture storage,因为texture的读取也具有引用的空间局部性(spatial locality of reference)

这里说的很简单,实际的硬件会在pixels 和 memory之间做更复杂的映射,来提高locality of reference,引用的局部性。

render with square cache tiles 01
render with square cache tiles 02

Rasterizing within tiles

实际场景,framebuffer会被cached tiles更大。
一个问题就是如果简单的top-to-bottom order来画,那一个很大的triangle可能会thrash破坏cache。
因为屏幕的每个horizontal line水平线可能覆盖了比 fit in cache 更多的tiles,
所以需要改变triangle内pixels的rasterized 顺序:先画一个tile里的triangle覆盖的所有pixels,再移动到下一个tile。
这里的意思是,相比于cache,framebuffer里面一行含有更多的tile,

未完

你可能感兴趣的:(GPU Framebuffer Memory : Unterstanding Tiling 笔记 2019-11-24)