【寒武纪(7)】MLU的cntoolkit:Cambricon-BANG架构和使用分析,MLU并行计算的硬件抽象、编程模型以及调优思路
文章目录硬件抽象1存储1.1.1存储层次访存一致计算模型1Core核内同步和并行2核间并行和同步编程模型1、Kernel计算规模任务类型执行示例性能调优性能调优实践参考cambriconBANG架构是基础的,高度抽象的,向用户暴露统一编程模型和编程接口,并提供调试和分析工具。硬件抽象1存储1.1.1存储层次访存一致计算模型1Core核内同步和并行2核间并行和同步编程模型1、Kernel在MLU上执