《中智观察》第1672篇推送
作者:赵满满
编辑:小宏
编审:杨小天
头图来源:搜狐新闻
本文是《中智观察》“企业数字服务供需市场”行业洞察之人工智能篇。大模型已成为AI领域的新高地,实现“让人工智能像供水供电一样流向终端,流向用户、流向企业”,但AI越来越“笨拙”、越来越奢侈。改变这一格局的轻量化人工智能(Tiny AI)异军突起,通过对人工智能模型及其计算载体的“瘦身”,提升效率,降低能耗,部署到越来越多移动端和边缘设备上,让人工智能越来越精彩。
——海比研究院
2022年5月30日
阿里达摩院在研发L4级无人车“小蛮驴”时,其技术路线演变足可以说明AI轻量化的重要性。L4级别自动驾驶是指能在限定的道路及环境中,车辆可完全不需人为干预,自行完成驾驶。
早期Demo阶段的“小蛮驴”无人车使用工控机执行所有的自动驾驶计算任务。2020年亮相的小蛮驴则改用自研的嵌入式异构计算单元,仅以原有1/3算力就实现了工控机级别的智能水平。2021年,一种高性能网络轻量化方法模型,应用于“小蛮驴”,解决了以往算法硬件效率低下的问题,超越业界当时的最优方法。
我们正在走向一个嵌入式人工智能的世界。如在输电线路维护上,具备多种智能识别、检测和分析功能的自主巡检无人机、缺陷识别分析便携终端、通道可视化智能感知摄像头等,可有效保障输配电线路的安全和电力系统稳定。
轻量化的算法及轻量化神经网络计算架构,可有效实现暗光增强、超分辨率等,为手机终端、安防终端提供了影像增强效果。
人工智能特别是深度学习虽好,但却很难部署到移动端设备和嵌入式设备上。同时深度学习模型对硬件的算力和内存也有很高要求,而移动端设备或者嵌入式设备往往算力有限,因此,模型轻量化成为行业发展的一个重要方向。
AI轻量化的发展势头正越来越强劲。
1.大模型与轻量化,机器学习的不同发展道路
深度学习近年来发展迅猛,在人工智能领域显现出了强大的威力。其两大方向,尤其引人注目。
一个是解决通用性问题的AI大模型迅速发展,AI产业步入大模型时代。
人工智能的需求呈现出碎片化、多样化的特点,致使人工智能模型面临众多挑战,通用性低是首要问题。也就是说,A模型往往专用于特定A领域,应用到B领域便差强人意。
布局被简称为“大模型”的“超大规模预训练模型”已成为一项世界性趋势,从国外的谷歌、OpenAI,到国内的浪潮、百度、智源、华为、阿里云等,都纷纷推出自己的超大模型系统。
作为当前人工智能发展的重要方向,预训练大模型已成为AI领域的技术新高地。大模型从大规模知识和海量数据中融合学习,效率更高,效果更好,包含基础通用的大模型,也包含面向重点领域、重点任务的大模型,以及丰富的工具与平台,“让人工智能像供水供电一样流向终端,流向用户、流向企业”,有助于促进技术创新和产业发展。
专家预言,超大规模预训练模型的出现,很可能改变信息产业格局,从基于数据的互联网时代、基于算力的云计算时代,将进入基于大模型的AI时代。
另一个方向就是轻量化人工智能(Tiny AI),发展潜力惊人。
为了完成日益复杂的AI任务,神经网络模型体量暴增,对服务器的储存和算力要求也水涨船高,由此产生的经济成本、耗费的电量、对环境的污染等都困扰着整个行业。
大模型的人工智能这场游戏正变得越来越“笨拙”,也越来越奢侈。于是,轻量化人工智能(Tiny AI)被寄予厚望,通过对人工智能模型及其计算载体的“瘦身”,提升效率,降低能耗。
专家认为,轻量化人工智能是以一系列轻量化技术为驱动,提高算法、平台和芯片的效率,在更紧密的物理空间上实现低功耗的人工智能训练和应用部署,不依赖与云端交互就能实现智能化操作,被视为人工智能的另一个重要应用方向。
2020年,《麻省理工科技评论》将“Tiny AI”列为“全球十大突破性技术”。在技术革新的浪潮下,智能硬件结合人工智能越来越广泛地进入到我们的生活,小到智能手机、手表,大到智能交通系统、工业自动检测平台等,无不渗透了人工智能的威力。
同时,为人工智能深度学习定制的硬件,包括处理器等,近年来也有井喷之势。在多种服务平台、多种硬件下,深度学习模型在实际场景中的推理计算应用越来越多。
虽然硬件的快速发展带来了计算性能的提升,但多样化的硬件平台也给应用开发带来了挑战。同时,对深度学习任务而言,实际应用中的算力和内存的限制仍然显得非常苛刻。
因此,我们需要轻量级人工智能:在保持性能的同时使神经网络更小。我们正在走向一个嵌入式人工智能的世界,智能冰箱可以自动订购食品杂货,无人机可以自行导航飞遍整个城市,强大的机器学习方法应该能够下载到个人电脑、手机和小型芯片上。
2.持续探索技术,计算效率提升,轻量化AI前景诱人
轻量化AI的发展既紧迫,又亟需。
这几年深度学习发展迅猛,在图像、文本、语音、推荐等多个领域都取得了显著成果,并将深度学习模型应用于更广泛到的实际业务中,取得了不错的效果。
但是深度学习应用或多或少都会面临一个问题:业务数据量大,计算资源紧缺,导致模型训练慢,延时高,上线难。
因此在实际应用中,模型除了效果好,还需用得起,跑得快,才能在更多的场景下得到推广应用。
人工智能在行业应用中,大多依赖海量的训练数据和大规模服务器的算力支持,存储暴涨、数据堰塞、隐私泄露、能耗高企等问题也随之而来。随着近5年来摩尔定律的逐步放缓,IT硬件的发展愈发难以满足当前人工智能模型动辄万亿级规模的存储和算力需求。
因此,当前对人工智能设备和应用的快速响应、隐私保护以及节能减排的需求越发凸显。如何将人工智能模型及其计算载体前端化、轻量化,成为亟待解决的问题。
轻量化人工智能所带来的突破是显而易见的。
信通院发布的《人工智能白皮书(2022)》中表明,轻量化深度学习技术不断探索,计算效率显著提升。
目前来看,轻量化AI的优势包括:
轻量化人工智能使现有的服务比如语音助手、手机拍照等变得更好、更快,不必每次都需要连接云端才能运行深度学习模型。
此外,轻量化人工智能也将使新的应用成为可能,比如基于移动端的医学检测分析、对反应时间要求更快的自动驾驶汽车等。
最后,本地化的人工智能更利于隐私保护,用户的数据不再需要离开设备,就能实现服务功能的进化。
更重要的是,将人工智能推向更主流,大大降低AI系统的部署难度和成本,把AI从一场高门槛的竞赛,变成普惠民生的智能生态。
在人工智能领域的角逐中,以“轻量化”为赛点的下半场已经来临。
剪枝、量化、知识蒸馏等,成为AI轻量化的主要技术手段。
剖析智能化应用,可以发现,人工智能使能架构是由芯片(硬件)、AI操作系统(深度学习框架平台)和算法三个部分组成。
而Tiny AI就是以一系列轻量化技术为驱动提高芯片、平台和算法的效率,在更紧密的物理空间上实现低功耗的人工智能训练和应用部署,不需要依赖于与云端交互,就能实现智能化操作。
信通院发布的《人工智能白皮书(2022)》报告认为,复杂的深度学习模型往往需要消耗大量的存储空间和计算资源,难以在端、边等资源受限情形下应用,具备低内存和低计算量优势的技术成为业界需求。
轻量化深度学习成为解决这一挑战的重要技术,包括设计更加紧凑和高效的神经网络结构、对大模型进行剪枝(即“裁剪”掉部分模型结构),以及对网络参数进行量化,从而减少计算量等方向。
深度学习模型加速技术就是以“多快好省”为目标,试图从计算优化、系统优化以及硬件优化等多方面提升深度学习模型在训练和推理阶段的速度,如下表所示。
3.开源、轻量化,深度学习框架的世界异常精彩
前几年,开源深度学习框架的 “山头” 主要由国外科技巨头和高校所“盘踞”,如TensorFlow、PyTorch两大“双子星”,基本占领90%的开发者份额。
但目前这个局面正在发生细微变化。国产深度学习开源框架开始不断涌现,如百度推出Paddle Paddle,华为推出 MindSpore深度学习框架,旷视也开源了其深度学习框架 “MegEngine等。
在开源深度学习框架轻量化的大潮中,国内外企业的开源框架发展都非常迅速,竞争异常激烈。
PyTorch Lightning是PyTorch轻量级的包装。一直以来,PyTorch就以简单又好用的特点,广受AI研究者的喜爱。但是,一旦任务复杂化,就可能会发生一系列错误,花费的时间更长。于是, 2020年10月,一个“友好”的PyTorch Lightning就诞生了。
PyTorch是对初学者友好的深度学习框架,直接在GitHub上斩获6.6k星。它把研究代码与工程代码相分离,将PyTorch代码结构化,更加直观的展现数据操作过程。
PyTorch Lightning是PyTorch轻量级的包装,研究者只需要编写最核心的训练和验证逻辑,其它过程都会自动完成,隐藏了绝大多数细节,只保留了最通俗易懂的接口,确保自动完成部分的正确性,对于核心训练逻辑的提炼有优势。
TensorFlow Lite是TensorFlow的一个轻量化版本。谷歌于2017年11月发布TensorFlow Lite,主要用于移动端和嵌入式设备。TensorFlow Lite开发框架专门为机器学习模型的低延迟推理进行了优化,专注于更少的内存占用以及更快的运行速度。
TensorFlow Lite拥有三大优势,包括轻量级,支持机器学习模型的推理在较小二进制数下进行,能快速初始化/启动;跨平台,可以在许多不同的平台上运行,现在支持Android和iOS;快速,针对移动设备进行了优化,包括减少了模型加载时间、支持硬件加速等。
苹果Core ML在离线状态下隐私与 AI 可兼得。苹果在2017WWDC大会更新iOS 11时推出了面向开发者的全新机器学习框架——Core ML,能让本地数据处理愈加方便快捷。Core ML 提供支持人脸追踪、人脸检测、地标、文本检测、条码识别、物体追踪、图像匹配等任务的API。
Core ML是一个基础机器学习框架,能用于众多苹果的产品,包括Siri、相机和QuickType。Core ML的优势是实现了极速的性能提升和机器学习模型的轻松整合,能将众多机器学习模型集成到APP中,不但有30多种卷积神经网络层来支持广泛的深度学习,而且还支持诸如树集成、SVM和广义线性模型等标准模型。
同时Core ML在设备上严格运行,确保了用户隐私数据,在无网络连接的情况下依然能够响应用户操作。
AWS 深度学习框架MXNet支持移动端开发。MXNet是一款开源的、轻量级、可移植的、灵活的深度学习库,它让用户可以混合使用符号编程模式和指令式编程模式,最大化效率和灵活性,目前已经是AWS官方推荐的深度学习框架。
MXNet支持在移动设备(Android、iOS)上运行基于深度学习的图像识别等任务,依赖少,内存要求少,对于 Android 性能变化大的手机,通用性更高。此外,MXNet 支持多语言封装,比如 C++、Python、R、Julia、Scala、Go、MATLAB 和 JavaScript等。
在国内,腾讯推出了开源的NCNN模型框架。NCNN是一个为手机端极致优化的高性能神经网络前向计算框架,从设计之初就充分考虑手机端的部署和使用,无第三方依赖,跨平台,手机端CPU的速度快于目前已知的大部分开源框架。
基于NCNN,开发者能够将深度学习算法轻松移植到手机端高效执行,开发出人工智能 APP。目前已在腾讯多款应用如 QQ、Qzone、微信、天天P图等中使用。
阿里巴巴MNN(Mobile Nrural Network)是一个高效、轻量的深度学习框架。支持深度模型推理与训练,尤其在端侧的推理与训练性能出众。
目前,MNN已经在阿里巴巴的手机淘宝、手机天猫、优酷、钉钉、闲鱼等20多个App中使用,覆盖直播、短视频、搜索推荐、商品图像搜索、互动营销、权益发放、安全风控等70多个场景。此外,IoT等场景下也有若干应用。
百度的Paddle Lite为Paddle-Mobile的升级版。Paddle Lite定位支持包括手机移动端在内更多场景的轻量化高效预测,支持更广泛的硬件和平台,是一个高性能、轻量级的深度学习预测引擎。
在保持和PaddlePaddle无缝对接外,Paddle Lite也兼容支持其他训练框架产出的模型。支持ARM CPU、Mali GPU、Adreno GPU,还特别支持了华为 NPU,以及FPGA等边缘设备广泛使用的硬件。未来会增加对更多硬件的支持。
4.最合适的才是最好的,选择自己的轻量化AI框架
如果说前几年深度学习追求的是越来越深的模型及越来越准的方法,那么最近几年关注的则是模型的轻量化及部署,即训练好的模型怎样部署在实际的项目中,好部署,用起来。
AI开发,特别是推动AI进入工业大生产阶段的深度学习技术,的确复杂,烧钱,耗时间。这时你需要一个高效节省开发时间、支持大规模数据训练、方便多端多硬件灵活部署的好工具。
深度学习框架有助于建模者节省大量而繁琐的外围工作,更聚焦业务场景和模型设计本身。使用深度学习框架完成模型构建,不用编写大量底层代码,屏蔽了底层实现,用户只需关注模型的逻辑结构。同时,深度学习工具简化了计算,降低了深度学习入门门槛。另外,省去了部署和适配环境的烦恼。
因此,在开始深度学习项目之前,选择一个合适的框架是非常重要的。因此,在轻量化AI应用发展中,应注意三大问题:
明确场景和平台。在确定应用场景时,应明确部署在移动端还是服务器端的,或者部署在边缘端还是云端;实现的硬件是CPU还是GPU;支持的操作系统是iOS还出Android,甚至是鸿蒙系统;明确实时的速度和准确率要求等。这些都是选择深度学习框架的基础和根本。
选择合适的轻量化深度学习框架。面对市场多达几十个的轻量化的深度学习模型框架,在选择时应该考虑几个因素:一是考虑框架对硬件CPU和GPU的支持能力;二是是否具有跨平台的能力,能否对iOS和Android系统都支持;三是最终生成的库尺寸大小,是否满足应用部署的需求;四是是否包括训练和推理(inference)功能,有的模型只有推理功能,模型文件需要通过离线的方式训练得到;五是训练好的模型部署到移动端需要做模型转换,要注意有些框架只支持几个大厂的格式,比如TensorFlow、PyTorch、Caffe、onnx等。
优先选择国内自主研发或者开源的框架。被“釜底抽薪”卡脖子的事儿绝对是每个人、每个企业的痛中之痛。
最后,成熟完备、易学易用也很重要。而决定框架“成熟可用”的最基础要素就是“场景”——框架好用,场景先行。推出框架的公司有场景吗?场景丰富吗?场景数据量大吗?面对大量的轻量化模型框架的选择,应用场景的因素是必须考虑的事情。
虽然AI应用大潮势不可挡,但是AI应用工程化之路才刚刚开始,在技术上依然有不低的门槛,对于AI应用商机的把握,除了创新技术以外,最重要的是人才!
科技媒体·企业演化科学·战略托管综合体
本文作者系海比研究院·赵满满
寻求报道,以及对相关话题感兴趣,请评论区留言
CDEC 2022中国数智智能生态大会暨第十五届软件渠道大会 火热报名中
深圳站
扫码报名参会/进群
扫码报名