文献阅读(6):AI Deep Learning Accelerator

目录

一、简介

1.题目:

2.时间:

3.来源:

4.简介:

5.论文主要贡献:

二、相关名词

三、 相关背景知识

1.目标检测

2.Tiny-YOLO V2

四、处理流程概述

1.系统架构图

2.两种不同情况降低带宽利用率

3.实验结果与总结


一、简介

1.题目:

Reconfigurable Hardware Architecture Design and Implementation for AI Deep Learning Accelerator

2.时间:

2020.10

3.来源:

Global Conference on Consumer Electronics (GCCE)

4.简介:

 深度学习在数据分类以及目标检测领域相较于传统机器学习而言具有很大优势,但具有很高的计算复杂度。论文中提出的CNN硬件加速器是一种基于层的体系结构,可以通过重新配置层参数以适应不同的CNN体系结构。

5.论文主要贡献:

①提出了基于层的操作

②将卷积和最大池化相结合同时执行,提高数据重用性

③最大池化操作直接在全局缓冲中进行计算,减少数据传输量


二、相关名词

1.YOLO,(You only look once),一个实时的目标检测系统

2.R-CNN,Region-CNN,第一个成功将深度学习应用到目标检测上的算法

3.DRAM,Dynamic Random Access Memory,动态随机存取存储器

4.SRAM,Static Random-Access Memory,静态随机存取存储器


三、 相关背景知识

1.目标检测

目标检测属于深度学习的一个应用领域,在图片或者视频中找出感兴趣的物体并检测出该物体的位置和大小。检测方法分为一阶段(one-stage)和二阶段(two-stage)。

目标检测一阶段(one-stage)和二阶段(two-stage)的区别:

(1)one-stage

检测过程为直接在网络中提取特征来预测物体分类、位置以及大小,仅仅需要送入网络一次就可以预测出物体边界框,速度较快。比较经典的网络有YOLOv1~v7、SSD等。

(2)two-stage

分为两个阶段,相较于一阶段方法更加准确,但是速度更慢。比较经典的网络有R-CNN、Faster R-CNN等。

①通过专门的模块生成候选框(region proposals,可能包含物体的区域)

②对生成的候选框进行分类

2.Tiny-YOLO V2

一个用于物体检测的实时神经网络,可检测 20 个不同的类别。它由 9 个卷积层和 6 个最大池化层组成,是YOLOv2 的较小版本。输入特征映射为416x416x3,产生13x13x125的输出特征映射。

文献阅读(6):AI Deep Learning Accelerator_第1张图片


 

四、处理流程概述

1.系统架构图

文献阅读(6):AI Deep Learning Accelerator_第2张图片

2.两种不同情况降低带宽利用率

当输入图像以及权重经过DRAM、系统控件、全局缓冲以及PE一系列运算操作后,有两种不同情况降低带宽利用率。

(1)下一层是卷积层。将输出特征映射写回到DRAM

文献阅读(6):AI Deep Learning Accelerator_第3张图片

 

(2)下一层是最大池化层。

文献阅读(6):AI Deep Learning Accelerator_第4张图片

 

3.实验结果与总结

提出的可重构人工智能加速器硬件架构,有效地加速了CNN的运行,对于实验选取的神经网络Tiny-Yolo V2,带宽利用率可降低24%。

你可能感兴趣的:(文献阅读,论文阅读)