主流CPU、GPU、VPU、SOC简介

1.Intel

产品规格

Intel典型案例分析

1)VPU(Vision Processing Unit)

  • Movidius Myriad 2(MA2450)芯片

    • Q2'16发布,2016年Intel芯片收购计算机视觉公司Movidius, Movidius Myriad MA2485 是Intel第一个用于深度神经网络推理的视觉处理单元芯片。
    • 性能
      • 处理器主频:600 MHz
      • 内存:1 Gb LP-DDR2 DRAM with 32-bit interface, clocked at up to 533
      • 算力:1 TOPS
      • 操作温度范围:-40°C to 105°C
  • Movidius Myraid X(MA2485)芯片

    • Q1'20发布
    • 性能
      • 处理器主频:700 MHz
      • 算力:4 TOPS
      • 操作温度范围:-40°C to 105°C
    • 行业组合
      • 海思Hi3516/9 + Myraid X/Myriad 2,example
      • 树莓派 + Myraid X/Myriad 2
      • 大疆晓Spark无人机:联芯LC1860 + Myriad 2
      • intel工控机: Aaeon AI Core XM 2280 M.2 + Myraid X/Myriad 2
      • Azure Percept DK:i.MX8M + Myraid X
  • Neural Compute Stick 2 计算棒

    • 硬件
      • 处理器:Movidius Myriad X 视觉处理单元 (VPU)
      • 支持的框架:TensorFlow、Caffe、Apache MXNet、开放神经网络交换 (ONNX)、PyTorch* 和 PaddlePaddle*,通过 ONNX 转换
    • 软件
      • ntel Distribution of OpenVINO toolkit
      • 支持的操作系统:
        • Ubuntu 16.04.3 LTS(64 位)
        • CentOS* 7.4(64 位)
        • Windows 10(64 位)
        • macOS 10.14.4(或更高版本)
        • Raspbian(仅限目标)
  • VEGA-340 Edge AI加速卡

  • 2020年研华发布,板载4或8颗Intel®Movidius™Myriad™X VPU,PCIe x4接口,4x / 8x VPU,16 / 32 TOPS算力。

  • VEGA-330 Edge AI加速卡

    • 研华发布,Intel Movidius Myriad X,AI加速模块,miniPCIe接口,1x / 2x VPU,4 / 8 TOPS算力。
  • VEGA-320 Edge AI加速卡

    • 研华发布,Intel Movidius Myriad X,AI加速模块,M.2接口,1 x VPU,4 TOPS算力。

2)GPU(Graphics Processing Units)

  • Intel® Iris® Xe MAX
  • Intel® Server GPU

3)CPU

  • Intel® Xeon® Processors (至强)
    • 适用于要求苛刻的应用程序的性能,具有大内存空间和 I/O 容量。
  • Intel® Core™ Processors(酷睿)
    • 提供 CPU/GPU 性能、功率和价格的平衡(LGA 和 BGA 选项)。
  • Intel® Pentium® Processors(奔腾)
    • 适用于 PC 客户端和嵌入式用例的物联网单一平台解决方案。
  • Intel® Celeron® Processors(赛扬)
    • 适用于一般嵌入式应用程序或 PC 客户端用例的功能。包括英特尔® 超高清显卡。
  • Intel Atom® Processors(凌动)
    • 低功耗计算和图形性能非常适合小尺寸设计和应用。

2.Nvidia

1)Embedded Module

image
  • Jetson Nano

    • 一款小型 AI 计算机,具有运行现代 AI 工作负载、并行多个神经网络和同时处理来自多个高分辨率传感器的数据所需的性能和能效。这使其成为向嵌入式产品添加高级 AI 的完美入门级选项。
  • Jetson TX2 Series

    • NVIDIA Pascal™ GPU 架构拥有 256 个 NVIDIA® CUDA® 内核和高达 8 GB 的内存,可实现快速计算和推理。
    • 提供高达 Jetson Nano 的 2.5 倍性能。Jetson TX2 NX 提供与 Jetson Nano 的引脚和外形兼容,而 Jetson TX2、TX2 4GB 和 TX2i 都共享原始 Jetson TX2 外形尺寸。坚固耐用的 Jetson TX2i 非常适合工业机器人和医疗设备等环境。
  • Jetson Xavier NX

    • 提供算力高达 21 TOPS,使其成为嵌入式和边缘系统中高性能计算和 AI 的理想选择。可以获得 384 个 NVIDIA CUDA ®内核、48 个 Tensor 内核、6 个 Carmel ARM CPU 和两个 NVIDIA 深度学习加速器 (NVDLA) 引擎的性能。结合超过 59.7GB/s 的内存带宽、视频编码和解码,这些功能使 Jetson Xavier NX 成为并行运行多个现代神经网络并同时处理来自多个传感器的高分辨率数据的首选平台。

    • 非常适合高性能人工智能系统,如商用机器人、医疗器械、智能相机、高分辨率传感器、自动光学检测、智能工厂和其他 AIoT 嵌入式系统。

  • Jetson AGX Xavier Series

    • 具有处理对下一代机器人至关重要的视觉里程计、传感器融合、定位和映射、障碍物检测和路径规划算法的性能。在紧凑的外形中获得高达 32 TOPS 的峰值计算和 750 Gbps 的高速 I/O 的 GPU 工作站级性能。

2)GPU

  • RTX Series
名称 RTX 30 系列 RTX 20 系列 GTX 10 系列 GTX 9 系列
架构名称 Ampere安培 Turing图灵 Pascal帕斯卡 Maxwell麦克斯韦
流式多处理器 2x FP32 1x FP32 1x FP32 1x FP32
光线追踪核心 第 2 代 第一代 —— ——
张量核心 (AI) 第 3 代 第 2 代 —— ——
记忆 高达 24 GB GDDR6X 高达 11 GB GDDR6 高达 11 GB GDDR5X 高达 6 GB GDDR5
英伟达 DLSS 是的 是的 —— ——
  • GeForce RTX 30 Series
名称 G EFORCE RTX 3090** G EFORCE RTX 3080 Ti G EFORCE RTX 3080 G EFORCE RTX 3070 Ti G EFORCE RTX 3070 G EFORCE RTX 3060 Ti G EFORCE RTX 3060
NVIDIA CUDA 核心 10496 10240 8704 6144 5888 4864 3584
升压时钟 (GHz) 1.70 1.67 1.71 1.77 1.73 1.67 1.78
内存大小 24GB 12GB 10 GB 8 GB 8 GB 8 GB 12GB
内存类型 GDDR6X GDDR6X GDDR6X GDDR6X GDDR6 GDDR6 GDDR6
  • TITAN RTX
    • NVIDIA ® TITAN RTX ™专为研究人员、开发人员和创作者而设计。它由 Turing ™架构提供支持,为PC 带来 130 Tensor TFLOP 的性能、576 个张量内核和 24 GB 的超快 GDDR6 内存。

3.寒武纪

1)AI芯片

  • 思元290

    • 寒武纪首颗AI训练芯片,采用创新性的MLUv02扩展架构,使用台积电7nm先进制程工艺制造,在一颗芯片上集成了高达460亿的晶体管。
    • 性能
      • 算力:512 TOPS (INT8)
      • 视频解码:128 Streams 全高清视频
      • 图片解码:3200 Frames/s 全高清图片
  • 思元270

    • 面向高能效比云端AI推理,采用寒武纪MLUv02架构,可支持视觉、语音、自然语言处理以及传统机器学习等多样化的人工智能应用,更为视觉应用集成了充裕的视频和图像编解码硬件单元。
    • 性能
      • 算力:128 TOPS (INT8)
  • 思元220

    • MLU220是一款专门用于边缘计算应用场景的AI加速产品(边缘人工智能加速卡)。采用寒武纪MLUv02架构,产品集成4核ARM CORTEX A55,LPDDR4x内存及丰富的外围接口。
    • 性能
      • 算力:8 TOPS (INT8)
      • 编解码能力: H.264 ,HEVC (H.265) ,VP8,VP9。
      • 图片解码:JPEG, 最大图片分辨率8192 × 8192

4.华为

[图片上传失败...(image-baaac-1628837556428)]

1)AI芯片

  • 昇腾310

    • 昇腾310芯片采用华为自研的达芬奇架构,集成了丰富的计算单元,在各个领域得到广泛应用。随着全AI业务流程的加速,昇腾310芯片能够使智能系统的性能大幅提升,部署成本大幅降低。
    • 性能:
      • 算力:22 TOPS (INT8)
  • 昇腾910

    • 昇腾910是一款具有超高算力的AI处理器,其最大功耗为310W,采用华为自研的达芬奇架构,还集成了多个CPU、DVPP和任务调度器(Task Scheduler),因而具有自我管理能力,可以充分发挥其高算力的优势。
    • 昇腾910集成了HCCS、PCIe 4.0和RoCE v2接口,为构建横向扩展(Scale Out)和纵向扩展(Scale Up)系统提供了灵活高效的方法。HCCS是华为自研的高速互联接口,片内RoCE可用于节点间直接互联。
    • 性能:
      • 算力:640 TOPS (INT8)
  • 达芬奇架构

    包括了三种基础计算资源: 矩阵计算单元(Cube Unit)、向量计算单元(Vector Unit)和标量计算单元(Scalar Unit)。这三种计算单元各司其职,形成了三条独立的执行流水线,在系统软件的统一调度下互相配合达到优化的计算效率。

    image
    • 计算单元

      AI Core中的执行单元主要包括:Cube,Vector和Scalar,完成AI Core中不同类型的数据计算。

    • 存储单元

      AI Core中存在内部存储,AI Core需要把外部存储中的数据加载到内部存储中,才能完成相应的计算。AI Core的内部存储包括:L1 Buffer,L0 Buffer,Unified Buffer,GPR(General-Purpose Register:通用寄存器),SPR(Special-Purpose Register:专用寄存器)和Scalar Buffer。

      为了配合AI Core中的数据传输和搬运,AI Core中还包含BIU(Bus Interface Unit),MTE1(Memory Transfer Engine,内存传输引擎),MTE2,MTE3。其中BIU为AI Core与总线交互的接口;MTE为数据搬运单元,完成不同Buffer之间的数据搬运。

    • 控制单元

      AI Core中的控制单元主要包括:系统控制模块(System Control),指令发射模块(Instr. Dispatch),矩阵运算队列(Cube Queue),向量运算队列(Vector Queue),存储转换队列(MTE Queue)等。系统控制模块负责指挥和协调AI Core的整体运行模式,配置参数和实现功耗控制等。当指令通过指令发射模块顺次发射出去后,根据指令的不同类型,将会分别被发送到矩阵运算队列、向量运算队列和存储转换队列。

2)Camera SOC

  • IPC

    • Hi3516EV200
      行业专用2M/3M IP摄像机SOC
    • Hi3516EV300
      行业专用3M/5M IP摄像机SOC
    • Hi3516DV200
      行业专用4M IP摄像机SoC
  • AI-IPC

    • Hi3516CV500
      行业专用AI 2M IP摄像机SOC
    • Hi3516DV300
      行业专用AI 4M/5M IP摄像机SOC
    • Hi3516AV300
      行业专用AI 5M/4K IP摄像机SOC
    • Hi3519AV100
      行业专用AI 4K IP摄像机SOC
    • Hi3559AV100
      行业专用AI 8K IP摄像机SOC
  • NVR

    • Hi3536DV100
      专业4路1080P25 NVR SoC芯片

    • Hi3536CV100

      专业8M/4M1080P25 NVR SoC芯片

    • Hi3535AV100

      专业6路1080P30 智能NVR SoC芯片

  • DVR

    • Hi3520DV500
      专业4路1080p AI DVR SoC芯片
    • Hi3521DV200
      专业8路1080p AI DVR SoC芯片
    • Hi3531DV200
      专业16路1080p AI DVR SoC芯片

5.Rockchip

1)Embedded SOC

产品列表

image
系列 消费级 0~80°C 商业级 -20~85°C 汽车级 -40~85°C 工业级 -40~85°C
RK3399系列 RK3399 RK3399K
RK3288系列 RK3288/W RK3288K
RK3368系列 RK3368 PX5
PX30系列 PX30 PX30K RK3358M RK3358J
RK3308系列 RK3308/G/B/H RK3308GK/RK3308K
RV1108系列 RV1108A/G RV1108K1
RK1808系列 RK1808 RK1808K
  • RK3568

    • CPU:四核ARM Cortex-A55,高达2.0GHz
    • GPU
      • ARM G52 2EE
      • 支持OpenGL ES 1.1/2.0/3.2,OpenCL 2.0,Vulkan 1.1
      • 高性能专用 2D 处理器
    • 编解码器
      • 支持 4K 60fps H.265/H.264/VP9 解码器
      • 支持 1080P 100fps H.265/H.264 编码器
      • 支持 8M ISP with HDR
  • RK3399

    • CPU:双核 Cortex-A72 + 四核 Cortex-A53,64 位 CPU,频率高达 1.8GHz
    • GPU
      • Mali-T860 GPU、OpenGL ES1.1/2.0/3.0/3.1、OpenCL
      • 支持AFBC(ARM 帧缓冲压缩)
    • 编解码器
      • 4K VP9 和 4K 10 位 H265/H264 视频解码器,最高 60fps
      • 1080P 其他视频解码器(VC-1、MPEG-1/2/4、VP8)
      • 用于 H.264 和 VP8 的 1080P 视频编码器
  • RK1808

    • CPU:高达 1.6GHz 的双 Cortex-A35
    • NPU
      • INT8 3 TOP / INT16 300 GOP / FP16 100 GFLOP
      • 支持 OpenCL/VX
      • 支持INT8、INT16
      • 支持 TensorFlow、Caffe、ONNX、Darknet 模型
    • 编解码器
      • 1080p@60FPS H.264 解码器
      • 1080p@30FPS H.264 编码器
  • RV1126

    • CPU
      • 四核ARM Cortex-A7
      • RISC-V 微控制器
    • NPU
      • 2.0Tops,支持INT8/INT16
    • 2D Graphics Engine
      • 支持旋转、x-mirror、y-mirror
      • 支持阿尔法混合
      • 支持按比例缩小/放大
    • 编解码器
      • 4K H.264/H.265 30fps 视频编码
        • 3840 x 2160@30 fps+720p@30 fps 编码
      • 4K H.264/H.265 30fps 视频解码器
        • 3840 x 2160@30 编码 + 3840 x 2160@30 fps 解码

6.Silicon芯原

1)VPU(NPU)

  • Vivante VIP9400

    • 性能
      • 算力:49.16 TPOS INT8
      • PPU核数:32
      • 时钟速度:1 GHz
    • 框架支持
      • OpenCL、OpenVX
      • 具有优先级设置的 PPU 和 NN 硬件加速器之间的并行处理
      • 支持流行的视觉和深度学习框架:OpenCV、Caffe、Caffe2、TensorFlow、TensorFlowLite、ONNX、PyTorch、MXnet、Cognitive Toolkit、PaddlePaddle、Keras
  • VIP9400-MP4

    • 性能
      • 算力:196.64 TPOS INT8
      • PPU核数:32
      • 时钟速度:1 GHz
    • 框架支持
      • OpenCL、OpenVX
      • 具有优先级设置的 PPU 和 NN 硬件加速器之间的并行处理
      • 支持流行的视觉和深度学习框架:OpenCV、Caffe、Caffe2、TensorFlow、TensorFlowLite、ONNX、PyTorch、MXnet、Cognitive Toolkit、PaddlePaddle、Keras

7.联发科

1)AIOT芯片

聯發科技 AIoT 晶片組平台

  • i300 (MT8362)

    • 专为音频/视频、信息亭、数字标牌和健身控制台应用而设计。
  • i500 (MT8385)

    专为 AI/AR/VR 应用而设计

    • CPU:4 x Arm Cortex-A53, 4 x Arm Cortex-A73
    • GPU:Arm Mali-G72 MP3,800MHz
      • 编码:H.264
      • 解码:H.264, H.265 / HEVC, MPEG-1/2/4
    • ISP:16MP+16MP或25MP,30FPS
    • Wi-Fi:Wi-Fi 5 (a/b/g/n/ac)
    • BT:4.2
    image
  • i700

    具有高速边缘 AI 计算功能,可实现快速图像识别。

    • CPU:6xArm Cortex-A55, 2xArm Cortex-A75
    • GPU:IMG PowerVR GM 9446,970MHz
    • ISP:24MP+16MP或32MP,30FPS
    • APU:
      • 内置双核 AI 专核,还加入了 AI 加速器(AI Accelerator)和 AI 人脸检测引擎(AI face detection engine)
      • 支持联发科技 NeuroPilot SDK,可以完全兼容谷歌的 Android Neural Networks API(Android NNAPI)
      • 支持TensorFlow、TF Lite、Caffe 和 Caffe2 等常用框架
    • 基带:最高支持Cat.12
    • Wi-Fi:Wi-Fi 5 (a/b/g/n/ac)
    • BT:5.0

8.NXP

1)Embedded SOC

  • i.MX8M
    • CPU
      • 4x Cortex-A53 @ 1.6GHz
      • Cortex-M4F @ 400MHz
    • 编解码器
      • 1080p60 H.264、VP8/1080p60 H.265、H.264、VP8、VP9视频
    • TPM
      • Trusted Platform Module (TPM) version 2.0

你可能感兴趣的:(主流CPU、GPU、VPU、SOC简介)