Cell SPU确实很快

最近尝试着把一个最简单的raytracer放到ps3 linux box上跑。6个SPU的向量计算使用了bullet带的vectormath库,跑同样的raytrace kernel,计算800x600的画面,2个点光源和2个procedural balls,渲染一帧能在10ms以下。这还是没优化过DMA(没有double buffered DMA)、没有使用主CPU的向量计算能力、也没有任何动态调度的情况下。我想如果DMA速度能上去,应该会更快。就以目前的速度来看,已经比使用TBB调度的4核Intel Xeon 2.6GHz的机器快3-4倍了(或许Xeon上的代码使用SSE优化也会快不少(<4))。

不过local store的256k限制肯定会对更大更普适的场景带来更多开销,也会影响很多设计。

你可能感兴趣的:(cell)