AI芯片和编译器

文章目录

  • 前言
  • 一、深度学习
    • 深度学习发展
    • 深度学习应用
      • 目标识别
      • 目标检测
      • 自然语言处理
    • 机器学习框架
    • 常用深度学习算子
      • Convolution
      • Pooling
      • Activiation
  • 二、模型量化
    • 量化
      • 量化标准
    • 卷积中的量化
  • 三、AI芯片
    • PCIe模式
    • SoC模式
    • TPU模块
      • 编程模型
  • 四、工具链
      • TVM
  • 总结


前言

b站讲解


一、深度学习

深度学习发展

AI芯片和编译器_第1张图片
AI芯片的发展与深度学习网络的发展相互促进!

深度学习应用

目标识别

AI芯片和编译器_第2张图片

目标检测

AI芯片和编译器_第3张图片

自然语言处理

AI芯片和编译器_第4张图片

机器学习框架

AI芯片和编译器_第5张图片
目前使用较多的是Tensorflow与Pytorch。

常用深度学习算子

Convolution

AI芯片和编译器_第6张图片
Convolution是深度学习算子中计算量较大较为复杂的一个算子。

Pooling

AI芯片和编译器_第7张图片

Activiation

AI芯片和编译器_第8张图片


二、模型量化

量化

AI芯片和编译器_第9张图片
量化运算就是要把FP32的运算转为INT8的运算,定点运算相对于浮点运算来说计算量会小很多,所以计算速度会更快。

AI芯片和编译器_第10张图片

量化标准

AI芯片和编译器_第11张图片
量化过程中会有一定的精度损失,即量化精度误差;(图左)
有的时候会舍弃一定的数据,也就是截断误差或舍弃误差。(图右)T的选择可以从熵的角度来考虑。

卷积中的量化

AI芯片和编译器_第12张图片

从表中可以看出经过量化之后,模型的准确率其实是没有太大区别,只是在很小范围内有浮动。

三、AI芯片

PCIe模式

AI芯片和编译器_第13张图片
Host主机;
TPU是深度学习的主要模块;
VPU主要是与视频编码相关的;
VPP主要与图像出力相关;

SoC模式

AI芯片和编译器_第14张图片

TPU模块

AI芯片和编译器_第15张图片
TPU就是一个经典的CMD架构,一共有64个NPU,所有的NPU都执行同一个指令,一条指令会分给所有的NPU,所有的NPU执行同一条指令。

编程模型

AI芯片和编译器_第16张图片
stride指的就是在某个2维度上两个元素的距离。
AI芯片和编译器_第17张图片

四、工具链

将深度学习模型编译为芯片上可以执行的内容。

TVM



总结

这部分简单对AI深度学习和编译器进行简单介绍。

你可能感兴趣的:(AI编译器,深度学习,ai,编辑器)