目录
1.人工智能开创的新时代
2.使命开启飞桨一春独占
3.技术突破奠定飞桨品牌一骑绝尘
4.行业应用积淀飞桨品牌一枝独秀
5.生态传播造就飞桨品牌一众独妍
6.深度学习平台的现状和未来思考
使命开启飞桨品牌一春独占
深刻洞察技术走势和市场需求趋势的百度,提早布局了人工智能深度学习开源平台。早在2010年,百度就正式进军人工智能,开启征服未知远方和天空的步伐,先后成立深度学习研究院、深度学习技术及应用国家工程实验室。2016年开放人工智能平台-百度大脑,而作为百度大脑的“大脑“,两年后,百度飞桨首次开源。
科技品牌布局的时机实在太重要,因为受众和用户只记得第一。谁能先人一步,提前布局,谁成为头部品牌的可能就很大,这也是树立标杆、标准和掌握话语权的较量,阿里云和飞桨的布局时机选择再次证明了这一点。
一部IT发展史,称之为半部开源史毫不为过。从IT的底层基础架构“芯“(芯片)、”魂“(操作系统)分析,整个芯片分两大架构,复杂指令集CISC(Complex Instruction Set Computing的缩写)架构和和精简指令集架构RISC(ReducedInstructionSetComputer,简称RISC)。前者以Intel、AMD的X86架构为代表,而在RISK基础上先后衍生出在电子消费品领域笑傲江湖的MIPS架构,在移动互联网时代一骑绝尘的ARM架构,苹果、IBM、摩托罗拉、Intel等西方半导体巨头联盟分化、相爱相杀的PowerPC架构。操作系统的技术路线分为两派,微软自研自产的Windows为独门独户;一派在Unix版本上开源衍生出Linux,FreeBSD,各种Unix应用版本三个细分派别。安卓、鸿蒙等开源于Linux,苹果的iOS和macOS在FreeBSD基础上开源衍生而来,SunOS、IBM AIX HP-UX等为Unix应用版本,Unix全球操作系统的鼻祖的称号实至名归,后经开源迭代,在世界范围内生根发芽开花结果,和微软Windows平分秋色,并长期垄断全球移动互联网市场。被开源的核心产品具有广泛的兼容性和开放性,既能通过发行版直接满足应用,也能通过开源版本进行二次开发应用。因为节省了个人或中小企业开发和使用的研发周期和研发成本投入,被称之为站在巨人肩膀上授人以渔的技术运营方式。
目前在国际开源基金会中,国内成员2021年同期数量增长26%,达到125家。CNCF中超过20%的项目来自国内,Apache来自国内的项目24个,14个成为顶级项目,linux基金会有139名国内会员。从跟随、参与到深度贡献,中国现已成为全球开源的重要力量。开源贡献者人数规模快速扩大,开源贡献者数量快速增长,在全球贡献者中的占比不断攀升。GitHub 2021年调研报告显示,中国在GitHub的贡献者数量增长迅速,贡献者人数达到755万人,仅次于美国。在过去一年,中国贡献者数量增长16%,增长速度为全球最快。2020年,Gitee平台上参与开源的贡献者数量增长了50%,达到了600万,增长率达157%,其中38%是首次参与开源。2020年Gitee平台开源代码库,达到1500万,是2013年至2018年Gitee平台开源项目的总和,位居前三的分别是程序开发占比24.29%,Web应用开发占比17.75,移动开发占比10.15%。
而且,国内头部科技品牌已成为开源的主力军,根据 Open Source Contributor Index公布的2021年11月全球开源厂商GitHub开源贡献排名,华为、腾讯、阿里分别位列11、14、16位,华为活跃开发者人数为1059,参与社区数为2703。根据Gitee2020年度报告显示,2020年Gitee企业用户达到18万,相较于2019年的10万家企业,增长率达到80%。
百度飞桨在2019年之前并未像TensorFlow 和 PyTorch那样高调,而是结合中国市场的产业需求默默深耕,等待迎接着产业智能化浪潮来袭。好在,时代永远不会辜负踩准节点提前布局,厚积薄发的弄潮儿。
业界公认,目前人工智能进入规模工程应用与行业价值释放阶段,推动产业赋能进入黄金十年。Gartner 发布2022年重要战略科技趋势中,“AI Engineering(人工智能工程化)”连续两年成为关键词之一,预计到2025年,落实AI工程化最佳实践的企业会比未落实类似实践的企业创造至少三倍的价值。在人工智能工程化浪潮中,技术能力提升、应用成本下降、场景覆盖增强和治理规则完善成为主要动力支柱,推动“人工智能+产业赋能”纵深发展。伴随着技术、产业、政策等各方环境逐步成熟,人工智能已跨过技术理论积累和工具平台构建的发力储备期,开始步入以规模应用与价值释放为目标的产业赋能黄金十年。
宏观政策层面,中国人工智能开放平台发展已经拥有全面支持产业、创新、人才发展及财税优惠的政策条件。2021年颁布的十四五数字经济蓝图中圈定七大重点产业,以人工智能、大数据、区块链、云计算等新兴技术和数字产业为代表的经济形态,是组织和经营效率提升、经济结构优化的重要推动力,引领数字经济走向体系重构、动力变革和范式迁移的新阶段。而且,深度学习框架和开源,前者被列入“新一代人工智能”领域,成为国家重点支持的前沿创新技术,后者也正式成为国家战略。随后相关部委先后出台一系列配套政策,从顶层设计、技术底座、行业标准、数字安全、国际交流等维度为促进其健康快速发展而保驾护航。
技术层面,深挖深度学习技术潜力是发展主旋律,规模化应用面临多元挑战。深度学习仍是本轮人工智能发展的主导路线,深挖技术潜力成为主旋律。深度学习技术及背后蕴藏的思维方式,已成为人工智能技术从业者、项目管理者、战略规划决策者必备的基础能力和认知方式。深度学习作为本轮人工智能兴起和繁荣的引擎,无论从AI技术发展还是产业应用来说,都处于核心位置。目前,深度学习技术红利向生产能力实质性转化成为关键,规模化应用仍面临多方挑战。制造、物流、农业、医疗等传统行业集群开始享受人工智能发展带来的技术红利,纷纷提出AI时代的行业转型升级目标和路径。然而,行业数字化、智能化转型作为一项基础性、系统性、持续性工程,是一个循序渐进、不断摸索的过程,人工智能在行业的规模化应用仍面临知识、工具、数据等多方挑战。在知识层面,诸多传统行业在数十年发展过程中沉淀形成的经验知识,是企业核心价值的载体,但难以通过格式化、规范化数据表征,进而无法训练出契合场景需求的算法模型,构筑行业知识壁垒。在工具层面,目前市场上的方案多是通用型解决方案,无法满足企业、行业的专业化、个性化、一体化需求,缺少成熟、可信赖的集约式转型赋能工具平台。在数据层面,受限于数据的规模、种类以及质量,目前多数企业对数据的应用还处于起步阶段,主要集中在精准营销、舆情感知和风险控制等有限场景,未能从核心业务转型角度开展应用融合,难以更好挖掘数据资产的潜在价值。
当下,人工智能已经步入基于技术底座深化场景的攻坚期,建设、发展一个共赢、开放、繁荣的人工智能平台和生态,实现AI的价值闭环,为千行百业带来实际价值,顺利推进产业数字化转型升级,已成为数字经济时代下人工智能企业的共同选择。目前国内的AI头部品牌如科大讯飞、华为、阿里 腾讯等,都在积极布局此类开放平台,
如果说人工智能开创了人类生产和生活智能化新时代,那百度飞桨则百尺竿头更进一步,开创了国内深度学习开源平台深度赋能开发和应用的新时代。百度,以其前瞻性的战略眼光,深度理解技术趋势和国产化安全自主可控的时代呼吁,瞄准开发者和产业智能化升级的需求。以前哨和瞭望者的身份,按需开发,通过模块化搭积木的方式,授无数开发者、应用者以“渔”和“巨人肩膀”,大大降低了AI开发应用的门槛和成本,让原本高不可攀冰冷存在的AI技术有了温度和普世价值。
“让人人都成为AI开发应用者”的初心和使命,开启了百度飞桨品牌一春独占的基因。能够成为中外基业长青的科技品牌,其基因里的这份伟大而荣光的使命,从未缺席。
技术突破奠定飞桨品牌一骑绝尘
深度学习框架的历史并不算长,即使是从2010年诞生的Theano算起,至今也不过才十二年的时间。然而其淘汰和进化速度,似乎超出了许多人的意料。早期的Theano、Caffe、Torch等在2017年后逐渐销声匿迹。2015年谷歌开放TensorFlow,2017年Facebook开放PyTorch,两者迅速占领市场,激战正酣,Amazon主导的MXNet、微软背书的CNTK也蓄势待发。而此刻的百度飞桨,和全球开发者忠实拥趸的TensorFlow、PyTorch相比,可谓是国内深度学习框架的一根幼小独苗。
在羊头示范效应作用下,国内深度学习框架异军突起,呈现了第一波集中式的爆发,可谓百花齐放百家争鸣。产业界方面,AI四小龙之一的旷视工业级深度学习框架天元(MegEngine)、一流科OneFlow、华为昇思(MindSpore)先后上线;学术界方面,清华大学则开源了支持即时编译的深度学习框架计图(Jittor)。而后来居上的百度飞桨,却是全球深度学习框架集大成者。
起点和阿里云一样,都是业务倒逼技术革新,迫不得已以瞄准底层的核心技术,开启艰难的自研之路。2018年7月,飞桨开源框架 v0.14发布,首次开源10个模型,提供从数据预处理到模型部署在内的深度学习全流程底层能力支持。此后开启了高频迭代的一路开挂模式,至2022年,至少迭代了13个版本,跨进了版本2.4。完成了开发便捷的深度学习框架,超大规模模型训练,高性能推理引擎、产业级开源模型库四大核心技术,形成了从开发框架、开发套件到工具组件、服务平台的产品布局。
从全球范围来分析,科技品牌的迭代升级,其最终目的是通过保持技术领先优势进而占据有利的市场地位。1981年微软的MS-DOS1.0版本到如今的7.0,1985年Windows1.0到现在的Windows9X也是屡次迭代完善,并通过与全球半导体巨头Intel通过“Intel Inside“的生态合作,最终成为全球PC端操作系统的霸主。从1991年Linux1.0版本到如今的4.9.2版本,从安卓2007年的1.0版本阿童木到如今的V11版本,从2008苹果IOS1.2版本到如今的16.1版本。1971年,英特尔推出了它的第一款处理器4004,它的诞生实现了PC处理器从0到1的突破。后陆续推出迭代的8086、8088、80386、80486x86系列CPU、奔腾系列CPU,i3、i5、i7酷睿系列CPU技术成为桌面计算机CPU芯片发展的里程碑,成为了拉动芯片技术进步和产业发展的主力。FinFET电路技术、3D芯片技术和多核心CPU技术为后来的移动终端芯片技术提供了强有力支撑,并形成了以Intel和AMD为首的复杂指令集CISC(Complex Instruction Set Computing的缩写)架构。
而且,每一次版本的升级迭代,都是商业版图和全球霸权地位进一步扩展的过程。安卓在版本的升级迭代中,从最初的手机搭载应用扩展到电视、数码相机、游戏机、智能手表。数据显示,早在2011年第一季度,安卓的市场份额跃居全球第一,终结埋葬了欧洲唯一的操作系统爱立信的塞班。2013年第四季度,其全球市场份额已经达到78.1%,搭载的设备数量已经达到10亿台。2021年5月份,谷歌对外透露了安卓智能手机/平板数量超过了30亿台。iOS也从最初的iPhone手机扩展到iPad 、iPod、iTunes等苹果全系列产品,苹果CEO库克在2021年1月份表示,全球苹果iOS系统用户数量也达到了16.5亿。反观华为,在2022 HDC大会上,余承东介绍,目前搭载鸿蒙设备超过3.2亿,物联网生态设备超1.5亿,合作伙伴超过2200家,产品发货量超过200万,原子化服务达到5万多个。
阿里云以飞天为基础架构起步,然后形成三层布局,字节跳动以推荐算法为起点,打造了头条、抖音、TikTok等品牌矩阵。百度飞桨的产品布局也遵循以点到面,逐步成长为参天大树,形成牢固的护城河和技术壁垒的路径。科技品牌以颠覆式创新奠定稳定的基础架构,以渐进式创新推进迭代进化,颠覆式创新和渐进式创新交替,向最前沿的技术进发。既要保持功能稳定性的,又要随机调整,与时俱进,在变与不变中保持品牌长久的生命力和持续的领先优势。
目前,百度飞桨在部署应用、软硬件适配、模型库建设、平台及工具完善、前沿领域探索等方面,具有明显的技术领先优势。
统一的高速推理引擎满足端边云多场景大规模部署应用,飞桨开发训练得到的模型可以通过配套模型压缩工具PaddleSlim提供的相关技术来进一步优化,支持服务器、移动端、边缘端、网页端等不同硬件场景的推理引擎进行部署。从生态来看,飞桨还支持其它框架模型在飞桨平台部署,也支持将飞桨模型转换为其它格式部署,为开发者提供了多样化、个性化选择。
标准化的软硬件协同适配技术是打造国产化应用赋能的关键,业内领先的框架平台企业试图提供可满足多硬件接入的统一适配方案,包括统一硬件接口、算子开发映射、图引擎接入、神经网络编译器这几方面。一是构建统一硬件接入接口,完成不同硬件抽象层接口的标准化访问管理。飞桨框架支持插件式硬件接入功能,实现框架和硬件的解耦,开发者只需实现标准接口,即可在框架中注册新的硬件后端。二是提供算子开发映射方式,通过芯片提供的编程语言编写算子或算子映射方式接入硬件。具体可通过算子复用技术,减少算子数量。通过提供硬件开发接口,实现算子在不同硬件上复用。对于现有算子无法满足运算逻辑和性能需求的问题,开发者可以自定义算子,无需重新编译安装飞桨框架。三是打造神经网络编译器,实现自动优化的编译技术,利用基础算子自动融合优化实现复杂算子功能,降低适配成本的同时,优化性能。如百度神经网络编译器CINN具有方便接入硬件,提升计算速度的特点。对比业内的TVM,CINN额外支持了训练功能;对比谷歌的XLA,CINN提供自动调优技术,可更好实现软硬协同,发挥硬件性能。
模型库建设,算法创新、沉淀与集成管理是快速赋能关键能力。模型库是深度学习平台推动AI普惠化,实现快速产业赋能的关键能力。为解决人工智能算法工程化落地过程中面临的研发门槛高、周期长等问题,深度学习平台将模型库作为平台的核心能力进行建设,开发者依托模型库,无需从头编写代码即可实现算法能力,实现应用模型的不断复用,从而促进人工智能应用多样化和规模化发展,如Meta推出PyTorch Hub,提供算法模型库以及简易API和工作流程。百度飞桨构建产业级模型库并提供面向场景应用的模型开发套件,实现模型直接调用及二次开发的能力,提升算法研发应用效率。另一方面,学术界、产业界对先进算法的使用需求反推深度学习平台加强对算法模型库的能力建设,促进原创算法持续产生。当前,国际主流深度学习平台模型库不断加强对前沿算法模型的积累,将算法能力沉淀至深度学习平台模型库,为开发者提供前沿技术能力支撑。百度飞桨模型库支持多个国际竞赛中夺冠的算法模型,并将知识增强跨语言大模型加入到模型库中,促进前沿算法技术的产业转化。再次,模型库通过多样化应用场景实践加速完善,产业赋能能力不断强化。模型库主要通过两个方面提升平台产业赋能能力,一是通过细化应用场景,丰富算法覆盖方向,拓展模型库能力边界。模型库基于计算机视觉、自然语言处理等基础算法,依据实际产业需求对能力应用场景进行细化,面向图像分割、车辆检测、个性化推荐等细分任务提供经过产业实践的模型。此外,通过引入预训练模型,为开发者提供灵活、可拓展的算法能力,可实现在小样本任务中的快速应用。二是从实际产业应用场景出发,聚焦AI工程化落地问题,通过提供轻量级、低能耗的产业级部署模型,解决实际应用场景中模型的精度与性能平衡问题。
工具及平台完善,覆盖数据处理、模型训练和推理部署全周期。深度学习平台围绕前沿技术开发部署新范式、数据模型全流程可视化分析管理、企业级高精度应用构建以及全平台部署来布局相关工具组件及平台。一是打造面向新型学习范式的系统化工具,深度学习平台面对强化学习、联邦学习、图学习、量子计算、生物计算等前沿学习范式,提供所需编译运行机制和解决方案,实现广泛的模型应用场景。如飞桨打造图学习框架PGL(Paddle Graph Learn-ing),提供异构图数据采样和存储能力,以及图卷积神经网络、图注意网络、基于图卷积的无监督学习网络等模型,并结合分布式嵌入存储能力实现大规模分布式训练。飞桨联邦学习框架PaddleFL提供数据加密和分发解决方案以保证数据安全,并在训练和推理中支持用户选择多方安全计算(MPC)协议以自定义训练策略,训练结果可以以加密工具完成安全共享和重构。二是开发覆盖数据管理、模型开发和推理部署的全流程研发工具集,实际应用落地作为深度学习平台的出发点和落脚点,平台通过提供开发套件和工具组件,端到端打通数据准备、模型训练与优化、多端部署能力,助力产业实践工程化高效部署。如飞桨全流程开发工具PaddleX集成智能视觉领域的图像分类、目标检测、语义分割、实例分割任务能力,提供统一任务API接口,助力开发者无需分别安装不同套件以低代码的形成完成模型全流程开发,基于PaddleX发布的轻量级分类模型PPLCNet超越ResNet152效果。飞桨目标检测开发套件PaddleDetection,模块化地实现了多种主流目标检测算法,提供多种数据增强策略、网络模块组件,并集成了模型压缩和跨平台高性能部署能力,目前已广泛在智慧交通、安防监控和商品检索上落地应用。三是提供企业级高精度应用构建和全平台部署能力,企业开发服务平台作为深度学习平台的重要出口,整合底层核心开源框架以及上层数据处理、模型开发构建、模型训练管理及端侧部署能力,辅助企业实现一站式模型定制能力。飞桨面向不同开发能力的企业打造零门槛AI开发平台EasyDL和全功能AI开发平台BML,其中EasyDL内置文心大模型,可结合网络结构搜索和迁移学习等技术完成语言理解、语言生成、图像分类、物体检测、图文生成等任务,支持企业实现在公有云、本地服务器、移动设备的多侧灵活安全部署;BML提供NoteBook建模、代码建模、可视化建模、模型产线建模、Pipeline建模等多种开发方式,以适应不同建模水平,并提供多种调参选择,实现多自由度优化。同时支持模型测评,输出可视化建模评估结果。
在前沿技术探索方面,领先的深度学习框架及平台企业围绕更为前瞻性的生物医药、量子智能等垂直专业领域加速布局,降低前沿科学研发领域门槛,提升应用开发效率。当前,前沿学术研究进入多学科融合、技术工具升级发展的新阶段,人工智能技术已成为推动前沿科学发展的重要路径之一,在如科学计算、生物医药、量子智能等领域实现多点突破与创新的同时,也对深度学习平台工具能力提出新的挑战。飞桨还率先具有支持复数神经网络、跨学科机器学习研究的能力,并发布量子机器学习开发工具Paddle Quantum量桨,成为国内首个、也是唯一支持量子机器学习的深度学习框架开源平台,为开发者提供人工智能、组合优化、量子化学方面的量子应用研发工具,提升运行效率,降低量子应用研发门槛。毫不逊色谷歌开源TensorFlow Quantum(TFQ)框架,后者将人工智能与量子计算结合,可用于构建量子数据集、混合量子模型和经典机器学习模型、支持量子电路模拟器、训练判别和生成量子模型等能力。量子计算具有传统计算无法比拟的信息携带量和并行计算处理能力,有望打破人工智能模型参数量激增带来的计算瓶颈问题。飞桨也聚焦蛋白质结构预测、化合物性质预测等生物医药领域重点方向,构建生物计算及模型研发工具集。人工智能技术与生物医药相结合,可极大提升任务准确性及效率,成为产业布局的重要方向。PaddleHelix基于飞桨框架面向开发者提供包含RNA二级结构预测、大规模分子预训练、ADMET预测等在内的开源工具集,并构建生物计算和服务平台,可应用于药物研发、疫苗设计等领域,基于螺旋桨打造的“ADMET成药性预测模型”已经在Biotech公司实际业务管线中完成商业化落地。比肩入选《科学》杂志评为2021年度十大突破,DeepMind、华盛顿大学相继开源蛋白质结构预测工具AlphaFold2、RoseTTAFold。
从全球范围看,TensorFlow和PyTorch曾是引领AI技术创新潮流的核心框架。但从2016年至今,国内深度学习框架在经历多年积累、沉淀、探索后,创新成果已经逐步涌现。如飞桨PaddleClas、PaddleDetection、PaddleGAN、PaddleOCR、Pad-dleSpeech等开发套件发布后多次登顶Papers with Code和Github趋势榜单,引起业界高度关注。专利方面,百度深度学习专利数量已位居全球第一,且专利申请量增长率显著高于全球平均值,仅在2020一年内就增加了4倍。在自然语言处理任务、知识增强模型、生物计算等诸多领域开始逐步引领创新潮流。此外,针对国内市场需求特点,飞桨提供了大量经过真实应用场景有效验证的高精度、便捷部署的官方模型库,相关算法及API更加强调对中文情境的支持优化,能够广泛支持国产硬件平台,技术能力优势逐步凸显,相较于TensorFlow和PyTorch成为更满足国内技术应用需求的开发框架。百度飞桨以一以贯之的兼备易用性、高效性、灵活性和可扩展性等特点,构建了自己的技术底座和护城河。对后来者而言,没有长时间的技术积累和投入,跨过这条护城河的难度可想而知。
专利数量、奖项数量、下载应用数量等指标,是判断科技品牌创新突破和可用好用的重要标志,因为数字的直观性更容易让市场理解和接受。站在用户的角度,将看不见、摸不着的复杂技术转化和简化,降低传播成本,是科技品牌传播过程中始终要遵循的基本原则。
百度飞桨自主自研核心技术的突破和实践验证,奠定了品牌附加值和溢价基座,也奠定了品牌一骑绝尘的魂魄,更成为品牌加速驶向更广阔应用蓝海的起点。