高通HTA简介

一、简介

Qualcomm®Hexagon™处理器是数字信号处理器(DSP),可用于加速不同类型的操作,包括神经网络所需的操作。神经网络的关键组成部分是“张量”,它是数字和相关维数(例如矩阵(2D),矢量(1D)甚至标量(0D))的集合的广义术语。
Snapdragon 845移动平台中的Hexagon 685 DSP为标量和矢量提供了加速,而Snapdragon 855移动平台中的Hexagon 690处理器包括新的Qualcomm®Hexagon™Tensor Accelerator(HTA),可处理n个维度的集合。与新的Qualcomm®Hexagon™向量扩展(HVX)结合使用,可以提高张量计算的性能(例如,高达处理向量性能的两倍)。
开发人员可以通过获取最新的Qualcomm®神经处理SDK来利用这一优势。该SDK包含支持在HTA上运行模型的工具。基本过程涉及将模型转换为DLC格式,该格式已优化为可在Snapdragon移动平台上运行。在此过程中,可以将模型划分为将在HTA上运行的部分,而其他部分可以有选择地在GPU或CPU上运行。请注意,必须对模型进行量化才能在HTA上运行。

二、HTA功能介绍

Hexagon 690:
Hexagon 690里面的一个重要创新,在于一个全新设计的Hexagon张量加速器(Hexagon Tensor Accelerator,HTA)的加入,在业界可能会被称之为NPU、DLA、神经网络引擎等等,这也是张量加速单元首次出现在移动平台芯片当中。对于Hexagon 690处理器以及整个骁龙855移动芯片平台来说,HTA将作为硬件级别的加速器,专门针对高开销等级的矩阵乘法运算,以及在硬件层级作为非线性功能的加速器。
Hexagon 690如今已经成为了在骁龙855移动平台中一个支持声音/图像处理、AI运算、机器学习、语音识别的重要部分。在整个高通人工智能引擎的架构中,它不仅肩负着低功耗快速处理相对较低精度人工智能运算需求的重任。还会智能地根据实际需要,以“上帝视角”在高通人工智能引擎内部分配计算任务——至于开发者所需要做的,只是将人工智能算法丢给骁龙855而已。
高通HTA简介_第1张图片
对于计算机,尤其是智能手机这样的强调移动性的计算平台来说,进行张量计算,比如大规模乘法运算的代价非常高昂。单纯通过CPU或是GPU去进行运算不仅效率偏低,并且所需要的功耗也会直线上升。通过加入HTA张量加速器单元,移动平台就可以在运算效率和所消耗的电能之间取得平衡。
此外,在正式介绍Hexagon 690处理器的同时,高通表示还会在将来升级这个HTA模块,以便它支持更大规模的张量计算。这一模块作为Hexagon 690里面的重要组成部分,会和Hexagon中的标量以及向量运算模块共同完成所面对的人工智能运算。
简单点说,得益于新加入的HTA单元,Hexagon 690拥有更强的语音识别能力、机器学习能力以及图像识别能力。这一能力将帮助搭载骁龙855移动平台的设备更准确地识别唤醒热词、直接在本地进行语音指令分析以及基于人工智能的通话背景环境音消除;或者是对摄像头所拍摄到的画面进行更深度的优化,大幅度提升成片品质。
通过Snapdragon上的Qualcomm人工智能(AI)引擎加速设备上的AI。借助最新的处理器Qualcomm®Snapdragon™855移动平台,可以直接在Qualcomm®人工智能(AI)引擎上运行推理工作负载,该引擎是专用于加速设备上AI的专用硬件和软件。用于AI的Qualcomm®神经处理SDK是用于深层神经网络执行的软件加速运行时,可让对Qualcomm AI引擎进行编程。引擎和SDK一起可以从Snapdragon 855中挤出多达7 teraOPS(每秒7万亿次计算)的AI处理能力,从而极大地加速了设备上的AI应用程序。
设备上的AI处理能力:
这就是为什么我们在Snapdragon 855中设计了Qualcomm AI引擎,使其能够在机器学习模型上实现惊人的性能。 该引擎可在Qualcomm®Hexagon™矢量扩展(HVX)和六边形张量加速器(HTA)上提供强大的矩阵乘法功能。 借助足够的设备上处理能力,可以在Inception-v3神经网络上每秒运行140多个推理,应用程序可以在几毫秒内以高置信度对数十个对象进行分类或检测。

三、总结

在骁龙855上我们看到了HTA的优异表现,相信在此大家对其都有了一定的了解了,下面我们将继续探索高通智能模块。

你可能感兴趣的:(sdk)