鲁哇客:超低功耗边缘计算人脸检测方案对比调研

鲁哇客,持续关注超低功耗,在各种领域的发展。

前言

最近对AI(人工智能)的最常见领域:人脸检测,做了一个比较深入的市场调查研究,把调查结果记录如下,可以给有需求的朋友节约一点时间。有其它发现的朋友欢迎留言讨论。

人脸检测是人脸识别的前端,比人脸识别的运算要简单些,也可以更快的得到结果,往往用在需要超低功耗的场景。一般的,系统在识别到人脸后,再进行功耗比较高的人脸识别,识别人的身份后,最后进入全功耗的工作状态,以达到最高效的能耗效果。

方案对比

这里对比的,是最前端,对功耗要求最为苛刻的人脸检测方案。

低功耗边缘计算的方式大致有三种:MCU+CNN、FPGA和多核MCU。他们的平均功耗可以做到10mW以下,下面一一列举具有代表性芯片方案。

1.MCU+CNN

Maxim与Xailient联手打造的低功耗的IoT人脸检测方案:MAX78000。 MAX78000 AI MCU(带神经网络加速器)用于需要极端计算能力的人工智能 (AI) 应用。MAX78000支持神经网络,将高能效AI处理与超低功耗微控制器结合在一起。基于硬件的卷积神经网络 (CNN) 加速器使电池供电应用能够执行AI推理,同时仅消耗微焦耳能量,只需12ms即可检测并锁定视频、图像中的人脸。

芯片特性

  • 双核超低功耗微控制器
  1. Arm Cortex-M4处理器(采用FPU,频率高达100MHz)
  2. 512KB闪存和128KB SRAM
  3. 性能经过优化,具有16KB指令缓存
  4. 可选纠错码 (ECC-SEC-DED) ,用于SRAM
  5. 32位RISC-V协处理器,频率高达60MHz
  6. 多达52个通用I/O引脚
  7. 12位并行相机接口
  8. 一个I2S主/从接口,用于数字音频接口
  • 神经网络加速器
  1. 高度优化,用于深度卷积神经网络
  2. 重量容量:442k 8位(1、2、4、8位重量)
  3. 可编程输入图像大小:高达1024 x 1024像素
  4. 可编程网络深度:高达64层
  5. 可编程每层网络通道宽度:高达1024通道
  6. 1维和2维尺寸处理
  7. 流式模式
  8. 灵活支持其他网络类型,包括MLP和循环神经网络

优势

  • 最长电池寿命/最高能源效率:Xailient的神经网络技术大大优化了计算效率,Maxim Integrated的超低功耗MAX78000微控制器则提供更加灵活的低功耗休眠模式。两者结合,使得采用纽扣电池供电的边缘计算/云计算平台的工作时间能够延长数年。
  • 快速运算提升检测精度:速度是AI的一项关键指标,凭借更快的推理运算就能够实时响应系统请求;也可以对多次快速推理运算进行综合,以提高识别精度。只需短短12ms即可完成一次图像中的人脸检测,为用户在响应时间和检测精度之间的平衡提供了灵活性。

2.FPGA

Lattice的iCE40 UltraPlus,检测人脸的功耗低至1mW以下。 iCE40 UltraPlus FPGA具有并行数据处理能力,执行这些任务时比微处理器更具能效。实时在线的本地智能提高安全性——将AI引入网络边缘极具挑战,但也充满机遇。通过iCE40 UltraPlus FPGA而非基于云端的资源实现AI,不仅极大降低功耗,还能缩短响应时间。与此同时,本地处理可提升安全性。此外,即便是出于节能考虑关闭网络,也能获得实时在线的智能。

芯片特性

  • 灵活的逻辑架构,拥有2800或5280个4输入LUT、自定义I/O、多达80 Kb和1Mb的嵌入式存储器
  • 超低功耗的先进工艺,睡眠电流低至75 uA,工作电流仅为1-10mA
  • 使用DSP模块实现高性能信号处理,支持乘法和累加功能
  • 神经网络软IP和编译器实现灵活的机器学习/人工智能应用
  • FPGA设计工具、演示示例和参考设助力您的设计

优势

  • 提供Lattice sensAI 加速产品研发,缩短产品上市时间
  • 网络边缘智能FPGA —— 拥有5K LUT的iCE40 UltraPlus FPGA可实现网络边缘实时在线的智能应用所需的神经网络模式匹配。其功耗优化遥遥领先,并且设计人员消除了云端智能应用带来的延迟,降低了整个系统解决方案的成本。
  • 灵活的封装选择 —— 为满足各类应用的需求,可提供多种封装选项,从专为电子消费品和IoT设备优化的超小尺寸2.15 mm x 2.50 mm x 0.45 mm WLCSP封装到低成本应用的0.5mm间距7x7mm QFN封装

3.多核MCU

GAP8是一个物联网应用处理器,能够大规模部署低成本、电池供电的智能设备,对丰富的数据源(如图像、声音、雷达信号和振动)进行采集、分析、分类和行动。GAP8经过独特的优化,可以执行大量的图像和音频算法,包括卷积神经网络推理和信号处理,具有极高的能源效率。通过实现自主操作,GAP8可以极大地降低了各种智能边缘设备的部署和运营成本。

芯片特性

  • Up to 250 MHz (FC) 175 MHz (Cluster) internal clock
  • ~8 GOPS at a few tens of mWs
  • 5x5 convolution 16 bit-fixed point in one cycle
  • FC delivers 200 MOPS at
  1. 10mW @1.2V/250MHz
  2. 4mW @1.0/150MHz
  • 2µA deep sleep current
  • 8 µA to retain each of the four 128kB banks of L2 memory
  • 1.2 V down to 1V core VDD supply
  • 1.8 V to 3.3 V for I/Os
  • 0.5 ms cold boot time
  • 200µs to start 10µs to stop cluster

优势

  • 边缘计算实现人工智能和信号处理
  • 实现电池供电的传感器内的图像、声音和振动分析
  • 大幅降低传感器的安装和运行成本
  • 通过本地分析消除数据隐私问题
  • 高度集成的设计带来低的系统总成本
  • 完全可编程的多核架构与快速变化的DNN模型保持同步

总结

边缘计算的人工智能属于比较新的应用领域,物联网的发展离不开AIoT的进步。AIoT在功耗和运算规模的平衡上,要求比较苛刻。芯片技术和成本上都有很大的提升空间。先用上这个技术的领域必然走在前端,给用户体验带来极大的提升。

Maxim MAX78000 AIhttps://datasheets.maximintegrated.com/en/ds/MAX78000.pdficon-default.png?t=LA92https://datasheets.maximintegrated.com/en/ds/MAX78000.pdf

Lattice ICE40 UltraPlushttps://www.latticesemi.com/zh-CN/Products/DesignSoftwareAndIP/IntellectualProperty/Demos/HumanFaceDetectionicon-default.png?t=LA92https://www.latticesemi.com/zh-CN/Products/DesignSoftwareAndIP/IntellectualProperty/Demos/HumanFaceDetection

 GreenWaves GAP8https://greenwaves-technologies.com/gap8_mcu_ai/icon-default.png?t=LA92https://greenwaves-technologies.com/gap8_mcu_ai/

你可能感兴趣的:(技术拓展,产品设计,智能传感器,语音识别)