AI芯片的性能评价

近年来,产业界和学术界涌现出了大量不同架构的AI芯片,那么,该如何衡量和评价这些芯片的性能呢?具体可以应用哪些指标?

一. 性能评价指标

我们在谈AI芯片性能的时候,首先想到的一个指标就是算力,也就是每秒操作数,通常用TOPS(Tera Operations Per Second)来表示,例如NVIDIA的Orin芯片可以达到200TOPS的算力。

但单纯看算力,并不能了解芯片的能效,尤其是对于边缘端芯片,低功耗是一个刚需指标。因此,通常使用单位功率下的每秒操作数来衡量芯片的能效,常用单位为TOPS/W。仍然拿Orin举例,200 TOPS算力下,功耗45W的话,能效为200TOPS/45W=4.44TOPS/W。

下图给出了各种不同AI芯片的能效,箭头表示高能效是未来的发展方向。

AI芯片的性能评价_第1张图片 

除了每秒操作数和能效,AI芯片的性能衡量还应包含以下几个指标:

1. 时延 

时延通常与AI神经网络处理的数据大小(包括Batch size)有关。

2. 功耗

除了芯片中计算单元的功率消耗,也包括片上存储和片外存储的功率消耗。

3. 芯片成本/面积

裸片面积对成本有直接影响,取决于所使用的工艺节点以及片上存储的大小。该指标在边缘侧应用中非常重要。

4. 精度

 推理精度,体现了该AI芯片的输出质量。

5. 吞吐量

单位时间内能够处理的数据量。对于视频应用来说,通常用分辨率和FPS(Frames Per Second,也就是帧率)来表示,大的吞吐量能够保证视频画面的连续性。提高吞吐量的方法包括:提高时钟频率、增加处理单元数量、提高处理单元的利用率等。

6. 可扩展性

可扩展性表示是否可以通过扩展处理单元及存储器来提高计算性能,例如据说4个Orin芯片级联可以达到1000 TOPS的性能。

7. 灵活性和适用性

灵活性和适用性决定了相同的设计是否可以应用在不同的领域,以及芯片是否可以运行不同的深度学习模型。

8. 热管理

随着单位面积中的晶体管数量不断增加,芯片工作时的问题急剧升高,需要有较好的热管理方案。常见的散热方法为风扇散热,谷歌的TPUv3则用到了最新的液体冷却技术。

从AI芯片设计的角度来说,要达到较好的性能和能效,最好是对架构级、算法级和电路级三个层面进行跨层设计,以实现对各种指标的总体权衡。

当然,使用领先的工艺节点(当前是5nm或3nm)对于达到以上指标非常重要,它是AI芯片保持领先的关键条件。

二. 性能评价工具

目前,还没有特别成熟的通用评估系统来评价AI芯片的性能,但已经有几款工具开发了出来,起到了领先作用。

1. Accelergy

Accelergy主要用于评估架构级的能耗,对处理单元数量、存储器容量、片上连接网络的连接数量及长度等参数进行评估。

2. Timeloop

Timeloop是一个DNN的映射工具和性能仿真器,根据输入的架构描述,评估出这个AI芯片的运算执行情况。

3. MLPerf

MLPerf是由谷歌、英伟达、英特尔、AMD、哈佛大学、斯坦福大学等产业界和学术界共同组成的一个基准测试联盟,它提供了内容广泛的基准套件,用于衡量深度学习框架、AI芯片以及云平台的性能。MLPerf在2019年11月之后的版本包含训练基准和推理基准,这些基准提供了各领域工作负载的实施参考,包括视觉、语音、自然语言处理、推荐系统等。

MLPer每年定期发布基准测试数据,其结果被国际社会广泛认可。

参考资料:

1.《AI芯片:前沿技术与创新未来》

2. MLPerf 人工智慧基準 | NVIDIA

你可能感兴趣的:(AI芯片,人工智能)