游戏引擎的cpu/gpu粒子系统设计思想

开篇

网上有很多篇粒子系统源码解析,但是只是简单的接口罗列,没有从最原理出发去讲清楚粒子系统的来龙去脉,我将从粒子系统的本质去讲清楚它的设计理念,当理解了它的理念以后,很多粒子遇到的问题就会迎刃解决了,这篇文章主讲粒子的实现和一些框架级的优化方式,其实有很多优化细节就不赘述

粒子系统的设计思想

在早期游戏发展的时候,有一些粒子效果是实现一些鼠标特效的,比如《刀剑封魔录》中滑动鼠标后,鼠标本身就会作为一个粒子发射器,在鼠标拖动后,会产生很多粒子并随着时间消亡,这就是最早的粒子系统模型

 在早期的桌面系统中实现的粒子全是用cpu在屏幕上渲染的,如果需要世界中的3D粒子,则会将世界坐标转换为屏幕坐标,在屏幕指定位置渲染个粒子,而且这个粒子是每一帧去更新的

我给一个imgui类型渲染系统的粒子伪代码方便大家去理解,每一帧都去更新所有粒子的信息,当然现代游戏引擎粒子实现也类似于此

//定义粒子结构
struct particle

{
	float x;
	float y;
	image  img;
}

//定义粒子集合
vector particles

//设置粒子位置
void setparticlepositon(particle &p)
{
	p.x++;
	p.y++;
}

tick::update()  //每一帧更行所有需要渲染的信息
{
	for(auto i : particles)
	{    
		setparticlepositon(i);//循环更新粒子位置
		draw(i);//循环更新粒子绘制
	}
}

更复杂的话就是定义每个粒子的周期,并定义粒子发射器,另外可以在setparticlepositon中设置更复杂的更新条件

class ParticleEmitter{
protected:
    void Tick() {
        Spawn();                //生成阶段:创建新粒子
        UpdateAndRecycle();     //更新阶段:更新每个粒子的状态数据并回收已死亡的粒子
        Render();               //渲染阶段:使用粒子渲染器将粒子效果渲染出来
    }
private:
    vector Particles;

};

万变不离其宗,都是源于这个思想

既然有大量相同的粒子,那么结合现代游戏引擎的特性,可以用到实例化(Instancing),将相同的mesh和材质用一套,大大减少了数据量,另外也可以用GPU粒子优化

使用几何着色器优化

Nvidia在2006年的GeForce 8系列中出了DirectX 10.0,并推出了几何着色器

简单说,就是几何着色器可以把单个顶点扩充成多个顶点,如果粒子的mesh都一样的话,只需要从顶点着色器中传入的单个顶点和扩展规则,就可以生成想渲染的粒子mesh,而并不需要每回传入大量的顶点了

使用之前:

游戏引擎的cpu/gpu粒子系统设计思想_第1张图片

可见每个粒子需要传入五个位置然后生成五角星 

使用之后:

游戏引擎的cpu/gpu粒子系统设计思想_第2张图片

 想渲染一个五角星只要传入一个顶点,就可以用几何着色器扩充为五角星,大大减少了draw所占的带宽

使用SMID优化

关于smid的介绍我前面有篇文章可以看看,这里就不赘述它的原理了

(1条消息) 使用SIMD指令加速计算_星空_MAX的博客-CSDN博客

这种情况试用语cpu对大量粒子计算和更新的情况

unreal引擎的nigara和chaos就是用这种缓存友好的内存布局,和unity的ECS架构原理一样

游戏引擎的cpu/gpu粒子系统设计思想_第3张图片

 写个大概的数据结构参考一下:


//定义粒子的组件集合
vector particlesx;
vector particlesy;


//设置粒子x位置
void setparticlepositonx(particlex &px)
{
	px++;
}
//设置粒子y位置
void setparticlepositonx(particley &py)
{
	py++;
}

//定义粒子和组件集合
class particle
{
	vector *particlesx = particlesx;
	vector *particlesx = particlesy;
}

//定义粒子集合
vector particles;

tick::update()  //每一帧更行所有需要渲染的信息
{
	for(auto i : particlesx)
	{    
		setparticlepositonx(i);//循环更新粒子位置	
	}
	
	for(auto i : particlesy)
	{    
		setparticlepositony(i);//循环更新粒子位置	
	}
	
	for(auto i : particles)
	{    
	 	draw(i);//循环更新粒子绘制
	}
}

使用GPU粒子优化

CPU粒子设计上和我上一节提到的东西大同小异,不过原来的draw是CPU去绘制,现代会把这个内容送到GPU,会调用一次drawcall,但是粒子的消耗消耗会非常大,粒子渲染的数量非常有限

这时候能不能把把粒子更新的逻辑放在gpu里面呢,当然可以了

同样是DirectX 10.0引用了Stream Output的新特性,在OpenGL3.0中也加入了这种特性,不过在OpenGL称为Transform Feedback,在顶点着色器或者几何着色器之后,可以把顶点数据缓存到这个结构中,而这个结构在gpu中,这样每回就可以根据这个信息去更新顶点信息,重新传入顶点着色器中去做渲染

整体流程如下:

游戏引擎的cpu/gpu粒子系统设计思想_第4张图片

 这时候就会发现GPU和cpu可以不进行数据传输了,粒子完成自我更新,大大减少了传输量和cpu的计算负担

带来的问题

如果用gpu粒子的话无法实时计算出剔除范围了,因为剔除步骤在传入顶点着色器之前,所以一开始就需要传入效果的bounds,并预估出粒子的最大范围,否则可能出现特效消失的问题

游戏引擎的cpu/gpu粒子系统设计思想_第5张图片

结尾

粒子系统还有其他很多部分,可做优化的部分非常多,我这里只介绍了一些粒子系统设计的基础思想,其他更全面的内容网上很多,就不赘述了

你可能感兴趣的:(游戏引擎,unity,ue4,图形渲染)