目录
1.人工智能开创的新时代
2.使命开启飞桨一春独占
3.技术突破奠定飞桨品牌一骑绝尘
4.行业应用积淀飞桨品牌一枝独秀
5.生态传播造就飞桨品牌一众独妍
6.深度学习平台的现状和未来思考
7月28日,2022全球数字经济大会“人工智能驱动未来产业论坛”在京召开,中国信息通信研究院联合深度学习技术及应用国家工程研究中心发布了《深度学习平台发展报告(2022)》。百度飞桨超越谷歌TensorFlow和Meta PyTorch,成为跃居中国市场应用规模第一的深度学习框架和赋能平台,以肯定其在技术突破、应用创新、生态构建、服务规模等方面的领先优势。
这标志着曾经被TensorFlow 和 PyTorch 两大主流 " 玩家 " 主导的市场格局,外媒“中国在创新人工智能框架方面尤其薄弱”的评价,彻底被打破。以百度飞桨为代表的自主可控全栈人工智能平台,在加速底层技术创新应用、标准建立、流量入口等维度,具有了比肩乃至超越全球同行的品牌竞争力和和综合实力。
人工智能开创的新时代
从上世纪中期人工智能的概念兴起以来,在全球以波浪式发展路径曲折前进。高潮低谷交替轮回中,先后出现了几个阶段性的标志。一是图灵测试,简单理解就是将人和机器人安排在不同的环境中,就同一作业进行测试,根据测试结果分析比对机器人与人的差距。二为智能语音交互阶段,以2014年亚马逊的ECHO音箱、阿里巴巴的天猫精灵等人工智能应用产品出现为代表。三是2016年谷歌的阿尔法狗惊天逆转韩国围棋九段选手李世石,让全球尤其是国内认识到人工智能的魅力,进而纷纷抢滩布局,国内代表性的AI四小龙商汤、旷视、云从、依图先后成立。
目前,在全球范围内,不管是医疗、交通、教育等行业场景,还是企业内部财务、人力资源规划、供应链、生产、管理、营销、售后客服等链条,越来越多的行业及企业正在部署人工智能落地应用以提高效率和降低成本。而从简单模仿的机器学习到像人类一样思考的深度学习、计算机视觉和自然语言处理等各细分技术的突破和升级迭代,让许多遥不可及的智能应用,变得近在眼前,AI+、+AI、AIoT成为其主要应用模式。
在个人用户端,语音交互、智能翻译、智能交互等早已成为用户最常触达AI技术应用。1983 年阿尔文·托夫勒在其著作《第三次浪潮》中提出“产消合一者”(pro-sumer)的概念,指出人们对产品个性化的需求越来越高。用户既是消费者又是其生产者,将有助于生产出更加具有多样性、更加满足消费需求的内容。以内容生产为例,主要经历了四个发展阶段,专业生成内容(PGC)、用户生成内容(UGC)、AI 辅助生产内容、AI 生成内容(AIGC)。目前,前两者 PGC、UGC运营相对成熟,后两者仍在探索中前行并取得了阶段性成果。
尽管UGC创作自由度高,但难以避免内容创作良莠不齐,导致用户对于优质内容的搜寻成本提升。以短视频为例,由UGC内容的流动性、隐蔽性,主流的平台仍有大量的低俗内容,2018年以来快手、火山小视频等App多次被央视点名下架。同时海量的UGC 内容也较大程度提升了用户的搜寻成本,如何将优质内容匹配有相同兴趣爱好的用户成为 UGC时代的另一难题。再次,UGC版权保护存在难度,与NFT结合或成解决方式。UGC具有易复制、易传播的特点,短视频领域的版权问题频现。2019年1月至2021年5月,12426版权监测中心对5525件重点影视综及体育赛事等作品开展监测工作,累计监测到侵权短视频 2056万条,单部作品盗版量达到3721条,大量的二创盗版视频在行业中流通。NFT技术具有唯一性、不可分割性、不可复制性、可交易性,能够解决数字资产防伪、确权、溯源的难题,未来相关领域的合作或成版权保护的重要途径。
AI赋能内容分发与审核,内容推荐方面,AI 推荐算法对用户的年龄、兴趣爱好综合分析并提取标签,实现内容与用户的精准匹配,同时首轮推荐后会根据用户的点赞、评论、转发等数据进行分析,对于优质的内容进行二次曝光,给予更多的流量权重。内容审核方面,知乎的瓦力内容检测系统能够快速且准确地识别、折叠、删除不友好的、无关的、有偏见的内容,以减少对于其他用户的干扰;知乎的悟空反作弊系统能够准确识和处理刷赞等违反社区规定的操作,有效地保障社区的讨论与互动质量。
当前以AI辅助生产为主,长期有望实现AIGC。将AI技术的发展对应于内容生产,目前更多为AI辅助生产,创作并没有跳出PGC与UGC的创作框架,如虚拟人的创建需要人为为其编码基因,设定人设、背景,再与外部环境进行交互。但长期来看,伴随数据、算法、算力等要素持续发展,最终有望实现 AIGC,利用AI技术进行“想象”,创造出现实中不存在的流程与事物。
当然,围绕文本的AI创建工具功能已实现较大突破。AI技术在文本创作应用包括识别翻译,写作诗歌 、小说、新闻等。目前文字识别已经实现了较高的精准度,据百度官网介绍,百度AI通用文字识别已经能够识别包括中、英、日、韩等超20中语言,准确率高达99%。在内容创作方面同样取得较大进展,生产效率以及互动性进一步提升,如腾讯打造“梦幻写手”(Dreamwriter)的新闻写作系统能够在规定的22种场景中进行写作,具有0.46秒的平均发稿速度;在文字冒险游戏《AI 地下城》(AI Dungeon)中,当用户输入文字后,系统便会使用GPT-3(Generative Pre-Training Transformer)自然语言模型来理解脚本并生成接下去的几段文字,并且基本能够实现前后世界观一致。
基于音频的AI创作互动性进一步提升,目前AI在乐曲生成、合成讲话、制作歌曲等领域得到应用,并且交互性、实时性进一步增强。据说Siri联合创始Tom Gruber目前已经打造了能够实时动态编曲的自适应音乐平台LifeScore。用户向LifeScore输入一系列的音乐“原材料”之后,AI大师就会改变、提高并实时混音,带来音乐表演。盖世汽车2021年6月宾利宣布与LifeScore合作,已研发出让引擎转速(RPM)和加速情况等车辆输入信息实时影响车辆的配乐,因此能够根据用户的驾驶情况不断调整音乐。
相较于文本和音频,AI 图像、视频、3D模型创作难度相对更高,大厂加码布局,有效降低创作门槛与成本,目前已取得阶段性进展。Lip2Wav AI 语音合成技术实现动态视频的唇型转变。2020年印度海德拉巴大学和英国巴斯大学的团队推出了Lip2Wav的AI 语音合成程序,创作者只需提供目标语音内容、人物视频,该程序可以直接将动态的视频进行唇形转换,输出与目标语音内容相匹配的视频结果,并且实现了个体的极高相似度,而非普遍适用的通用模型。Morpheus引擎基于文字自动完成场景构造、3D渲染,RCT Studio自主研发的基于AI的Morpheus引擎,通过对大量机器学习,可以将所输入的文字内容拓展成一个开放虚拟空间,从文字中理解情节、内在逻辑和人物关系,进而根据现实世界的物体素材渲染出三维的虚拟动画,比如,程序可以将“有人在走路”这几个文字变成一个三维的虚拟人在虚拟环境中走路的动画。RCT创始人吕骋表示,Morpheus可以将制作周期大幅缩减。还是以走路为例,在传统PGC模式下,需要先做三维建模、骨骼绑定、动态调整,而Morpheus极大降低了工作量和创作时长。
英伟达(NVDA US)推出Omniverse Avatar,加码数字人技术。Omniverse Avatar是基于语音、机器视觉、自然语言处理等技术形成的交互式AI产品,集成了视频渲染能力(OmniVerse)、语音识别与交互(Riva、Maxine)、自然语言处理(NeMo Megatron)、 AI 推荐(Merlin)技术,可以有效地形成立体肖像并进行人机对话。可应用于人工智能助理等领域,未来有望广泛在机器人、自动驾驶、仓库、工厂等领域应用。其中Omniverse是公司创建AI系统的数字孪生的虚拟世界的基础平台,作为核心底层技术自去年年底推出以来已被500家公司的设计师下载7000多次。
在企业用户端,越来越多的AI技术应用到各行业中,市场已呈现多点开花的态势。IDC的数据显示,2021年至少有65%的国内头部企业将利用自然语言处理、机器学习和深度学习等AI工具,赋能安全、运营管理和采购等业务领域。而根据CB Insights、德勤等机构预测数据,仅2021年全球人工智能市场规模达千亿美元级别,主要应用场景为医疗、金融、城市、教育、制造等。
AI赋能教育,从在线教育到因材施教,致力于教育资源平等分配。相较于金融、医疗等在IT基础设施、数据质量等天然占据AI发展优势的行业,目前教育行业整体智能化水平较低,AI的商业渗透力有待提高。随着“双减”、疫情政策环境影响和智能化需求的增加,AI在教育中的力量正逐渐被释放,校内业务场景将释放更多增量,未来围绕区域和校内场景的应用有望进一步扩大。通过语义分析、人机交互、机器学习等各种技术手段改变传统的教学方式,真正实现因材施教理念,推动教育的个性化、定制化和科学化,促进学生各方面素养和能力的提升,减少教师的重复性工作。改变教育体系的运作方式,赋予教师和学习者智能化学习权力。并进一步促进教育变革创新,改变东西、城乡教育差距,弥补数字鸿沟。
AI 赋能医疗,从辅助诊断到药物研发,深度改变医疗行业底层运营能力。在疫情影响下,AI+医疗再次走到风口,成为最受关注行业之一。与传统行业不同,医疗本身具有数据密集型的特点,天然具备与AI强结合的能力。从医疗设施智能化、医药研发精准化到医疗服务个性化,智慧医疗生态已初具规模。当前,医疗机构面临着数据难共享、信息安全难保护、资源分布不均衡且难整合等痛点,医药领域更面临着研发周期过长、研发费用较高等问题,存在研发效率低、成功率低等问题。未来随着政策的调整,AI将与其他技术结合,进一步赋能医疗领域的各个主要角色,实现各场景商业模式的创新。例如,通用电气医疗使用谷歌TensorFlow 2D-3D模型实现患者核磁共振成像(MRI)的高精度切片定位,MRI智能识别分割模型的样本平均距离误差小于1mm,角度误差小于3°,达到放射临床使用的标准。DeepMind开发深度学习平台DM21,利用化学数据和分数电荷约束来训练神经网络,构建更为精确的电子密度和相互作用图,更好地描述广泛的化学反应类别。
AI赋能金融,从智能支付到智能风控,提升行业效率和安全性。“无科技不金融”已成全球共识,人工智能、云计算、大数据和区块链正在合力激活和改变金融生态、重塑金融格局。在人工智能方向,计算机视觉技术通过运用卷积神经网络算法在身份验证和移动支付环节广泛应用。知识图谱利用知识抽取、知识表示、知识融合以及知识推理技术构建实现智能化应用的基础知识资源。以机器学习、计算机视觉、知识图谱为代表的常用型技术,以自监督学习和自动因子、小数据和隐私计算为代表的创新型技术,正加快金融信息和金融数据的流动速率,促进金融行业数智化转型升级。现阶段,AI赋能智慧金融的主要应用方向为:智能风控、智能投顾、智能客服、智能投研、智能营销、智能理赔、智能支付等,其效果集中体现在提升金融主体的内外部效率、提升用户的全流程体验、提升金融服务的数智化程度。未来五年,AI将朝着复合型AI、智能型AI和安全型AI方向发展,引领金融业后端金融系统性业务数字化和自动化、前端金融产品在线个性化、金融全流程服务智能化和弹性化变革创新趋势越来越明显。
AI赋能城市,从城市安全到智能决策,构建智能、柔性的智能综合体。在智慧城市搭建中,需要部署语音、图像、自然语言处理等AI能力体系,并将AI技术和具体应用场景结合,延展了城市各模块资源的融合利用广度,构建城市数据资源体系,为城市新型基础设施提供了更加智能化的感知力。并通过智能终端对各类数据进行高效处理,助力城市实现从感知智能化、数据资产化到数据知识化、决策智慧化的变迁,为居民生活提供更加贴心化的智慧服务体验,更高效地推进城市超级大脑建设以及城市数字化转型。
AI赋能工业,从智能制造到智慧电力,提升工业效能,落实双碳要求。以数字经济为引领,工业正在与人工智能、大数据、云计算等新一代信息技术结合,深度构建行业应用场景,实现产品设计、制造执行、供应链和产品全生命周期管理等全产业链智能化管理应用,深度赋能制造、电力、矿山、钢铁、燃气、化工等多个领域,加速推进工业智能化转型发展。广州某物流公司采用旷视河图智慧物流平台,实现单据纸箱信息的智能识别与运输路径仿真规划,将仓库存储密度提升15%、整体效率提升25%,作业完成时间提前2小时。
AI赋能企业,从生产管理到经营,助力企业管理数字化、智能化。AI结合RPA、数据可视化技术等融合应用,为企业管理链条中的各项职能,如生产制造、经营管理、营销服务等企业全周期提供数字化、智能化的解决方案。在经营管理方面,AI可在人力招聘、培训、财务、合同管理、供应链、审计等场景赋能,助力企业内部实现管理数字化,从而减少员工的“简单重复性”劳动,提升业务处理效率。在生产方面,面向特定的生产制造场景,进行生产过程监督及产品检查,降低生产成本,提升产品质量。在营销服务方面,依托产品多模态交互、AI虚拟形象、智能化分析等技术,应用于精准营销、话术训练等围绕营销场景的智能化应用,提升企业营销效果。例如亚马逊广告部门为实现用户与图像、视频、音频等广告的精准匹配,采用PyTorch的torchvision库来为图像和视频进行分类、目标检测、实例分割和姿势估计,并通过部署管理平台TorchServe完成模型部署服务、模型版本控制、集成支持和自动批量处理,将产品推荐成本降低71%并推动横向拓展。国内某电商平台为解决预测周期长、销售渠道多、促销波动大、数据不连续、需求类型多等问题,采用TensorFlow完成从数据清洗、特征工程、商品分类、模型训练、评估校验到模型输出的全流程优化管理,并借助平台概率网络模型对销售量、区间分布在不同事件和季节等因素影响下进行预测,准确率达到国内领先水平。
AI赋能交通出行,从自动驾驶到交通大脑,重新定义汽车产品形态和出行方式、交通管理方式。在智慧交通方向,AI赋能的场景主要划分为两个维度,一是以自动驾驶为标志,通过人工智能、视觉计算、雷达、监控装置和全球定位系统等多技术的融合协同,实现自动安全地操作机动车辆的功能。二是通过交通大脑实现交通系统的智能化管理和实时性预测等功能,让城市交通环境及交通工具具备感知、互联、分析、预测、控制等能力。
AI从少数科学家走向开发者和工程师,从理论研究走向商业化实践,结合行业用户和个人用户实际需求,赋能社会化生产和生活方式等千行百业升级跃进。符合科技品牌发展从小众到大众,从理论到产品,进而到应用的路径和规律。技术创新是科技品牌存在的理由和支撑底座,场景应用是科技品牌发展壮大的环境土壤。两者结合,才能构筑科技品牌的基业长青。
数据的非标化和传输协议的贯通,数据的非法采集、隐私泄露、黑客病毒攻击等,多模态、大模型等技术手段能否解决从专用到通用,满足碎片化的场景应用等。技术路线、伦理法律、大规模场景应用等争议,半个多世纪以来,一直与人工智能的发展共存,也成为其发展的推动力。实际上,在数据安全和网络安全已经上升为国家战略的大背景下,对于科技品牌而言,安全合规是品牌健康运营的底线和红线。同时,科技品牌运营过程中,正面的信息固然好,是品牌健康发展的体现。负面的信息未必不好,正与负、危与机也是扩大传播范围的时机,考验着企业品牌操盘手的智慧和运营能力。抑扬之间,引导话题的节奏和走向,如马斯克收购推特的反复,明日回国的贾跃亭之流等。一般而言,企业内部加强品牌管理,防患未然是预防危机的根本。另一方面,变危为机,变负面为正面,也是常规操作。不过也要格外注意把握好时机和节奏,遵循适度原则,以免引起受众或者用户反感而得不偿失。
目前,人工智能已成为最为活跃的创新领域,对经济发展和社会生活发展影响深远。在技术进步与市场需求双重驱动下,人工智能应用开始全面覆盖日常生活、科学研究、社会治理、商业创新和国家安全等经济社会的关键领域,以空前的广度和深度推动社会发展,为助力行业数字化转型、促进后疫情时代经济增长提供新动能。根据信通院测算,人工智能可显著提高整体经济生产力,即使考虑到转型成本和竞争效应,到2030年也可能使全球总产量增长约13万亿美元,并推动全球GDP每年增长约1.2%,其作用堪比19世纪蒸汽动力、20世纪工业制造和21世纪初信息技术对世界经济的影响,人工智能将成为数字智能时代的全新生产要素,加速助力全行业转型升级。
业界共识,算力、算法、数据是人工智能运作的逻辑起点和起作用的“三驾马车“,三者缺一不可。以”巧妇难为无米之炊“这句中国古老的谚语来简单类比分析如下,”巧妇“类似算法,”米“类似数据,”锅碗瓢盆、煤气柴火“类似算力。如果缺少锅碗瓢盆、煤气柴火等类似算力的基础设施设备,烹饪手法、技术(算法)再高超的巧妇也难将米(数据)转化为美食。在实际的技术和业务场景中,算力主要以芯片为载体的硬件设备来承载,而算法主要呈现形式为应用场景。场景的呈现和应用,要在以芯片为主要载体的硬件算力基础设备上,数据结构和算法形成软件程序来实现。
根据清华大学研究,中国已完成ICT、互联网驱动数字化转型阶段,自2017年开始进入大数据、人工智能驱动的数字化转型阶段。学界也普遍认为,人工智能从诞生至今,经历了知识驱动的1.0时代,数据驱动的2.0时代,即将迎来两者相结合,利用知识、数据、算法和算力四大要素的AI 3.0时代。AI 3.0时代使得企业全面利用知识、数据、算法和算力四大要素,拥有自主知识学习、发现、演进及融合升华的能力,能够做出更复杂、自主化的智能分析决策。
那么问题由之而来,数据的采集处理应用、算力基础设备设施的搭建、算法依据场景应用不同的调整,三者相互协调互动。是否能够搭建一个通用平台,类似于搭积木似的自由拖拉组合,或者类似于时下火爆的预制菜,材料和调味料都已备好,只需简单翻炒即可。以此来降低学习门槛和成本,更方便快捷的满足开发爱好者,进而扩大应用场景,通过量身定制的解决方案赋能千行百业,以实现人工智能的普惠价值?