嵌入式C语言自我修养分享课件

一.异构计算

1.背景
随着物联网、大数据、人工智能时代的到来,海量的数据分析和大量复杂的运算对CPU 的算力要求越来越高,CPU 的大部分资源用于缓存逻辑控制,适合运行各种复杂的串行程序,但是单核或者多核CPU处理性能的提升空间已经达到极限了(也就是说,单靠CPU很难满足现代科技发展的需求)。

2.异构计算简介
异构计算就是在SoC 芯片内部集成不同架构的Core,比如DSP、GPU、NPU、TPU、BPU等不同架构的处理单元,各个核心协同运算,等于CPU找来了一系列的伙伴来共同协助自己的工作。

CPU适合处理分支、跳转等复杂逻辑的程序。
GPU擅长处理图片、视频数据
NPU 和FPGA以及BPU负责人工智能领域

soc芯片介绍:
一般说来, SoC称为系统级芯片,也有称片上系统,意指它是一个产品,是一个有专用目标的集成电路,其中包含完整系统并有嵌入软件的全部内容。
core介绍:
Intel旗下的酷睿处理器
Core(酷睿)微体系架构,其针对桌面、笔记本和服务器推出的产品代号分别是,Conroe、Merom和Woodcrest,都拥有64位处理能力,并且是双核产品

3.部分处理器介绍:
GPU (Graphic Process Unit,图形处理单元)
嵌入式C语言自我修养分享课件_第1张图片
GPU通俗的讲就是我们所说的显卡英伟达是其发明者,它主要用来处理图像数据。显卡将数字图像信号转换为模拟信号,并输出到屏幕上,早期的显卡都是直接集成到主板 上,只充当适配器的角色。处理一些简单的图像,CPU能够轻松应对,不需要显卡的参与,随着大型3D游戏、制图和视频渲染软件的流行,数据运算量成倍增加,CPU 已经越来越力不从心,独立显卡开始承担图像处理和视频渲染的工作。GPU 天然多线程,特别适合大数据并行处理,在现在的计算机中被广泛使用,目前最火的就是NVIDIA(英伟达)

DSP (Digital Signal Processing,数字信号处理器)
嵌入式C语言自我修养分享课件_第2张图片
世界上第一个单片DSP芯片应当是1978年AMI公司发布的S2811,1979年美国Intel公司发布的商用可编程器件2920是DSP芯片的一个主要里程碑。

DSP主要用在音频信号处理和通信领域,相
比CPU, DSP 有三个优势:

1.DSP 采用哈弗架构指令和数据独立存储并行存取,执行效率更高。
2.对指令进行优化,提高了对信号的处理效率 , DSP 有专门的硬件乘法器,可以在一个时钟周期内完成乘法运算。
3.没有冗余的逻辑电路,功耗可以做得更小。

劣势:
DSP 的缺陷是只适合做大量重复运算,无法像CPU 那样提供一个通用的平台,DSP 处理器虽然有自己的指令集和C 语言编译器,但对操作系统的支持一般。目前DSP 市场被严重蚕食,在高速信号采集处理领域被FPGA 抢去一部分市场, 目前大多数以协处理器的形式与ARM 协同工作。

FPGA (Field Programmable Gate Array,现场可编程门阵列)

嵌入式C语言自我修养分享课件_第3张图片
Xilinx (赛灵思)于 1984 年发明了世界首款 FPGA,主要用于数据处理,在专用集成电路领域中是以一种半定制电路的形式出现。

FPGA 芯片内部集成了大量的逻辑门电路和存储器,用户可以通过VHDL, Verilog 甚至高级语言编写代码来描述它们之间的连线,将这些连线配置文件写入芯片内部,就可以构成具有特定功能的电路。

FPGA直接将硬件描述语言翻译为晶体管门电路的组合,实现特定的算法和给能,可编程逻辑器件通过配套的集成开发工具,可以随时修改代码,下载到芯片内部,重新连线生成新的功能。

工作原理:
CPU 负责采集模拟信号,通过A/D 转换,将模拟信号转换成数字信号;然后将数字信号送到FPGA 进行处理;FPGA 依靠自身硬件电路的性能优势,对数字信号进行快速处理;最后将处理结果发送回CPU 处理器,以便CPU 做进一步的后续处理。
嵌入式C语言自我修养分享课件_第4张图片

简而言之:FPGA是一个很灵活,并且能够跟其它芯片更好适配的一个处理器,在数字芯片验证、 ASIC 设计的前期验证、人工智能领域广受欢迎。

BPU(Brain Processor Unit,大脑处理器单元)

嵌入式C语言自我修养分享课件_第5张图片

地平线科技提出的嵌入式人工智能处理器架构,第一代是高斯架构,第二代是伯努利架构,第三代是贝叶斯架构。

BPU是一款典型的异构多指令多数据的系统,架构中心处理器是完整的系统,存储器架构设计进行了特别优化,能使数据自由传递,进行多种计算,让不同部件同时运转起来,提高AI运算的效率

BPU要做的不仅仅包括图像和视频感知,还包括语音、语义处理以及决策、规划等比较复杂比较高阶的人工智能程序

BPU架构能够在像素级别进行感知,能够更精确地分辨出路面、人体、汽车、建筑、树木等物体,进行图像分割。此外,更精准、更多路的感知结果将最终为环境的建模服务,可以从各个角度进行观测。

目前征程5芯片主要解决的三个痛点是算力浪费生态缺失数据风险

征程5芯片采用8核心ARM Cortex A55核心、两个贝叶斯架构BPU实现AI运算,还有安全岛设计,支持丰富的接口。在视频输入方面,单颗征程5芯片就能够实现16路视频输入,并且支持毫米波雷达、激光雷达、超声波雷达等多种传感器。

总结:
对于一颗自动驾驶芯片来说,最重要的就是AI计算,地平线征程5采用双核心贝叶斯架构BPU,能够实现大规模异构近存计算,以实现高效率计算;同时拥有高灵活大并发数据桥,片上带宽非常大;此外,还有脉动张量计算核心,得以实现高算力。

名称 简介
APU 加速处理器,AMD 推出的加速图像处理芯片
DPU 深鉴科技设计的深度学习处理器
EPU 情绪处理单元,通过情绪合成引擎让机器人具有情绪
FPU 浮点计算单元,通用处理器中的浮点运算模块
HPU 全息图像处理器,微软出品的全息计算芯片与设备
IPU Graphcore 公司 设计 的 AI 处理器
KPU 杭州嘉楠耘智推出的人工智能边缘计算芯片
MPU 微处理器
NPU 神经网络处理器
OPU 光流处理器
TPU 张量处理器,Google 公司推出的人工智能专用处理器
VPU 视频处理单元,主要用于视频硬解码
WPU 可穿戴处理片上系统芯片
XPU 百度与Xihnx 公司 在 2017 年Hotchips 大会上发布的FPGA 智能云加速
ZPU 由挪威Zylin 公司 推 出的一款 32 位开源处理器

二.总线和地址

CPU 与内存 、 各种外部设备等IP 之间都是通过总线相连,CPU 如果想访问内存,或控制外部设备的运行是通过地址访问。

1.地址简介
地址的本质就是由CPU 管脚发出的一组地址控制信号,这些信号是由CPU 管脚直接发出的,因此也被称为物理地址

在带有MMU的CPU 平台下,程序运行一般使用的是虚拟地址, MMU 会把虚拟地址转换为物理地址,然后通过CPU 管脚发送出去,地址信号通过译码,选中指定的内存存储单元,再进行读写操作。

MMU:
MMU是内存管理单元,它是一种负责处理CPU的内存访问请求的计算机硬件。它的功能包括虚拟地址到物理地址的转换(即虚拟内存管理)、内存保护、CPU高速缓存的控制,在较为简单的计算机体系结构中,负责总线的仲裁以及存储体切换。

译码器
一组输入信号,通过译码转换,会选中一个输出信号,输出信号可以是高电平、低电平,甚至是一个脉冲。计算机的内存简单点理解,其实就是将一系列存储单元和译码器组装在一起。内存中包含很多存储单元,为了方便管理,我们需要将这些存储单元进行编号管理,每一个存储单元对应一个编号。当CPU 想访问其中一个存储单元时,可通过CPU 管脚发出一组信号,经过译码器译码,选中与这个信号对应的存储单元,然后就可以直接读写这块内存了。CPU 管脚发出的这组信号,也就是存储单元对应的编号,即地址

2.总线简介
如果CPU 和内存RAM 直接相连,那么内存RAM 中的每一个存储单元的地址也就确定了。

现在的CPU一般通过总线与内容RAM、外部设备想连。CPU 和各个设备之间可以通过共享总线的方式进行通信。

总线其实就是各种数字信号的集合,包括地址信号、数据信号、控制信号等,由于遵循相同的总线协议和通信标准,不同厂家生产的显卡、CPU、鼠标、键盘等外设都能够即插即用。

也就是说CPU通过一些信号来和内存或者设备进行联系

3.总线编址方式
内存RAM 和外部设备都挂到同一个总线上,计算机一般采用两种编址 方式:统一编址和独立编址

统一编址:内存 RAM 和外部设备共享CPU 的寻址空间。
在统一编址模式下,CPU 可以像操作内存一样去读写外部
设备的寄存器和内部RAM。

独立编址:内存RAM 和外部设备的寄存器独立编址,分别占用不同的地址空间。

三.指令集与微架构

1).什么是指令集?
图灵原型机的基本思想是:任何复杂的运算都可以分解为有限个基本指令的组合来完成。 CPU的设计是只支持有限个基本的运算指令,如加、减、乘、与、或、 非、移位、跳转等。这些指令通过不同的组合,可以构成不同的指令序列(程序) ,实现不同的逻辑功能。

不同架构的处理器支持的指令类型是不同。

ARM 架构的处理器只支持ARM 指令,X86架构的处理器只支持X86 指令。如果你在ARM 架构的处理器上运行X86 指令,就无法运行,报未定义指令的错误,因为ARM 架构的处理器只支持ARM 指令集中定义的指令。

指令集作为CPU 和编译器的设计规范和参考标准,主要用来定义指令的格式、操作数的类型、 寄存器的分配、地址的格式等

CPU 支持的有限个指令的集合,我们称之为指令集。
指令集是芯片设计者制定的一种规范标准

2).指令集的基本构成
嵌入式C语言自我修养分享课件_第6张图片
指令集不是一成不变的,随着迭代更新会不断扩充新的指令。
例如ARM指令集,已经从ARM V1发展到目前的ARM V8。

名称 介绍
ARM V1 初版本, 26 位寻址空间,无乘法指令,没有商业化。
ARM V2 加了乘法指令,支持协处理器。
ARM V3 址范围从26 位扩展到32 位。
ARM V4 次增加Thumb 指令集。
ARM V5 加了增强型DSP 指令、 Java 指令 。
ARM V6 首次增加60 多条SIMD 指令。
ARM V7 增加长乘法指令、NEON 指令。
ARM V8 首次增加64 位指令集、寄存器数量增加到31 个。

什么是微架构?
微架构,也就是处理器架构指令集在CPU处理器内部的具体硬件电路的实现,我们就称为微架构

设计微架构需要考虑的问题:
1.处理器是否支 持分支预测?
2.单发射还是多发射?
3.顺序执行还是乱序执行
4.流水线需要多少级?
5.主频需要多高?
6.Cache 需要多大?
7.需要几级Cache?

根据不同的配置选项,我们可以基于一套指令集设计出不同的微架构。

在X86 处理器领域, 目前能获得X86 指令集授权,并基于该指令集设计微架构和处理器的厂商有三家: Intel、AMD 和上海的兆芯

这三家厂商一般会根据新版本的X86 指令集设计出各自的
微架构,然后基于各自的微架构设计出不同的CPU。

X86微架构的缺点:
除了上述三家公司,其他公司一般无法获得授权去设计和生产自己的X86 处理器。

ARM 则不同,通过开放ARM 指令集授权,其他公司可以基于授权的指令集去设计自己的微架构和SoC芯片,或者基于 ARM 官方的微架构直接去设计自己的SoC处理器。

所以微架构一般也称为CPU内核。

题目:
选择题:
1.以下哪个是图形处理单元( )
a. IPU     b.VPU    c.GPU    d.APU

2.目前地平线使用的微架构是( )
a.X86
b.SoC
c.Cortex-A8 
d.ARM V8

填空题
1.目前的微架构领域主要包括( )和( )。
2.计算机一般采用( )和( )编址方式。
3.地平线自研处理器叫( )。
4.目前公司采用的显卡名称叫( )。

嵌入式C语言自我修养分享课件_第7张图片

你可能感兴趣的:(嵌入式,c语言,linux,嵌入式硬件)