来自 「发表于知乎专栏《移动端算法优化》」
本文主要介绍Hexagon DSP的HVX技术,旨在通过简单的语言讲清HVX技术。
个人简介:一个全栈工程师的升级之路!
个人专栏:高性能(HPC)开发基础教程
CSDN主页 发狂的小花
人生秘诀:学习的本质就是极致重复!
目录
一、Hexagon DSP
A. 高通 SOC 架构图
B. HVX 有哪些优势?
C. HVX 可以用来做什么?
二、DSP 硬件架构
A. HVX 架构 - 线程模型
B. HVX 架构 - 内存
C. HVX 架构 - SIMD 扩展
三、HVX软件架构
A. 远程过程调用(RPC)
B. FastRPC
四、总结
Hexagon 是高通公司数字信号处理器 (DSP) 产品系列的品牌名称。
Hexagon 也称为 QDSP6,代表“第六代数字信号处理器”。 第一代 QDSP6 V1 在 2006 年便已经推向市场,距现在已经过去十几年。据高通称,Hexagon 架构旨在为各种应用提供低功耗的性能,用于高通骁龙芯片,面向智能手机、汽车、可穿戴设备和其他移动设备,也用于蜂窝电话网络的组件。
高通骁龙 SOC 架构图
本篇中主要以 COMPUTE DSP 为核心展开讲述。
高通几款主流芯片的 DSP 参数
Single DSP/HVX 680 (725MHz) VS Quad Krait CPU (2.65GHz)
HVX 以其优越的特性,能完美支持多个领域,比如虚拟现实、增强现实、图像处理、视频处理、计算视觉等等等。
如上图所示,我们所开发的主要涉及三个硬件资源:
可以有效降低大块图像内存在 L1 上的平铺开销
提供单指令周期数据加载使用
可以支持全带宽
简化编程难度
非对齐方式读写
基于字节的条件状态判断
支持 vscatter/vgather 指令。
相对于 L2 cache,数据可以常驻,不存在数据刷出缓冲的问题。
支持 vmem 和 vmemu 指令直接访问。
支持 1024b SIMD * 4 Vector-slot VLIW
4096 result bits/cycle
滑窗滤波指令
LUT 指令
直方图指令等
上图为 HVX 软件架构,主要分以下几个部分:
在介绍 HVX 动态加载过程之前先简单介绍远程调用的过程。远程调用,简单的理解就是一个节点请求另一个节点提供的服务。一个节点调用另一个节点的函数。
不在同一地址空间中,不能像本地调用一样直接调用函数,本地调用参数传递直接给到寄存器或者是压栈,传给被调用函数。但是远程调用不能这样直接调用。
远程调用时,首先客户端需要告诉服务器,需要调用函数,这里函数和进程 ID 存在一个映射,客户端远程调用的时候,需要查一下函数,找到对应的 ID,然后执行函数的代码。
客户端需要把本地参数传给远程函数,本地调用的过程中,直接压栈即可,但是在远程调用过程中不在同一个内存里,无法直接传递函数的参数,因此需要客户端将要调用的函数名以及参数打包,然后通过网络发送到服务器。
服务器解包数据,得到调用的函数以及参数,运行函数,并将结果打包,通过网络发送到客户端。
客户端解包数据,得到函数结果。
跟 RPC 的调用类似,通常算法会编译成两个库,一个在 host 端运行的 Stub 库,一个在 device 端运行的 Skel 库。两个库都会存放在设备的 host 文件系统中,在每个 host 端的线程中,host端第一次调用 device 端应用时, FastRPC 会将 device 端的 Skel 库动态加载到 device 端(这个操作会有额外耗时,所以初始化操作可异步进行)。然后,device 端的会根据 domain 信息进行应用匹配,并调用相应的算法,host 端会阻塞等待 FastRPC 调用结束。FastRPC 函数及结构体接口由 IDL 文件来映射(关于IDL 文件,将在后续内容进行讨论)。
host 端与 device 端数据零拷贝操作由高通基于 ION/DMA_BUF 实现,虚实转换由 SMMU 来进行映射完成,降低了开发者的使用难度。
FastRPC架构
FastRPC 用来作为两个处理器 host 和 device 的通信,每次触发 FastRPC 需要 0.5~2ms 的额外开销,尽量少触发 FastRPC 调用,函数调用尽量合并在 device 端去调用。
通过前面的介绍我们了解到了高通 HVX 硬件架构、软件架构以及整个程序运行时的动态加载过程,这些都是常用异构调用的流程,需要仔细理清其中的调用逻辑及过程。
期望大家都能有所收获。
我的分享也就到此结束啦
如果我的分享也能对你有帮助,那就太好了!
若有不足,还请大家多多指正,我们一起学习交流!
未来的富豪们:点赞→收藏⭐→关注,如果能评论下就太惊喜了!
感谢大家的观看和支持!最后,☺祝愿大家每天有钱赚!!!欢迎关注、关注!