作者:薛晖(奥创)
近期,阿里巴巴人工智能治理与可持续发展研究中心(AAIG)负责人薛晖在2021中国人工智能产业年会—安全人工智能专题论坛发表了题为“人工智能治理和可持续发展的实践与思考”的主题演讲,分享了阿里巴巴过去几年的思考和探索实践。
过去几年,人工智能在应用以及技术本身方面,取得了长足的发展和进步。
第一个例子是自动驾驶。以阿里巴巴为例,“小蛮驴”在日常的物流配送、双11大促期间的物流支持、疫情期间上海的物资保供配送方面,都发挥了积极作用;新一代研发的“大蛮驴”,也就是无人卡车,在浙江省德清县获得了首张L4级别的路测牌照。
第二个例子是城市大脑。目前城市大脑已在全球23个城市铺开建设,在交通拥堵治理、公共安全和城市管理等方面发挥了重要作用。今年六月,四川成都成宜“云”上智慧高速公路,已经实现了“157公里全线覆盖车路协同”,对路况车况做到了全天候全时段的融合分析,事故率同比下降60%。
第三个例子是AI for Science。我们也看到最近一两年内,AI在助力生命科学、物理学和数学上获得了瞩目的成绩。过去我们在基础学科研究方面的主要范式是理论推导和实验分析;如今,人工智能的出现带来新的可能,有望大幅提升科研工作者的效率,使得他们可以抵达更远的无人区。
然而,深度学习依然存在瓶颈和局限。纽约大学的Gary Marcus在2018年发表的论文《Deep Learing:A Critical Appraisal》中提出了十个问题,有很多至今未能有效解决。前段时间,OpenAI和Google在基于海量数据预训练的生成式模型上投入大量的精力,Dalle-2和Imagen也取得了很多让人拍案叫绝的生成结果,但似乎仍无法区分一些基本的概念。例如人类可以轻易区分“骑着马的宇航员”和“骑着宇航员的马”,但对于AI来说就难以分清这两个概念。
创造更强大、通用的人工智能的方向很多,例如继续将现有的深度学习和神经网络做强做大,或是引入符号处理,建立世界模型等等,当下的我们还很难断言哪一条道路才是对的。唯一明确的一点就是这条路必不好走,也许会花上一代人甚至几代人的时间来探索。但是,当下人工智能引发的问题和争议已足以引起重视,解决此类问题刻不容缓。
首先,智能系统存在安全隐患,可能会造成重大事故。
第一个案例是关于自动驾驶。美国的交管部门发布的数据显示,过去自动驾驶酿成的事故不在少数,且多是严重事故。原因是当前基于数据驱动的人工智能还比较脆弱,我们往往无法预料和穷举所有的现场情况,例如遇到白色的车厢时车辆上的传感器可能会误以为是天空。
第二个案例是关于对话模型。智能音箱曾被曝出在对话时会劝诱患者放弃治疗或进行自杀。因为数据质量参差不齐、模型训练如同黑盒,利用海量数据自监督学习得到的大模型(如GPT-3)也可能出现不确定的问题,得到的结果可能难以预计和控制。
第三个案例是关于图像复原。FaceApp是一款火爆的社交产品,有一项功能包含图像增强算法,可以将低分辨率的图像变成高清图像,但当输入一张黑人图像时输出的结果就变成了白人。虽然被不少媒体指责涉嫌种族歧视,但这里面的主要问题恐怕应该归咎于训练过程中有意识或无意识(更多情况下)的数据偏见。
其次,如果一项技术我们过于强调其在某一方面功能上的优势,但未考虑到可能被用于非正义的用途,一旦大规模推广,就很容易产生滥用问题。
第一个案例是关于个人隐私和数据安全。在Facebook的剑桥分析事件中违反了对用户隐私协议的承诺,有大约8700万的用户数据被泄露给第三方公司,并被用于支持美国前总统的竞选。
第二个案例是关于深度合成的信息传播。通过Deepfake技术进行换脸换声从而伪造身份实行欺诈的案例也已屡见不鲜。从最初的对抗网络和自编码器,到现在最新的可支持高分辨率的扩散模型,深度合成的效果可谓越来越逼真,但防御和反制的手段仍相对滞后。
第三个案例是关于深度学习的能耗问题。大模型的参数从最初的几亿几十亿达到了现在的万亿甚至十万亿,识别和生成效果虽然得到了可观的改善,但训练和推理阶段需要耗费的额外资源也不容忽视。此前谷歌和伯克利的研究人员也研究过模型参数和碳排放之间的关系,谷歌的技术伦理研究人员也提出要谨慎对待大模型,其中一部分因素就是能耗问题。在训练阶段提升模型的复用率,推理阶段选择更加高效和符合实际的适配方式,都是构建良好的模型生态值得努力的方向。
最后,我们也应考虑人工智能应用所带来的潜在社会问题。
第一个案例是关于个性化推荐中的信息茧房问题。在现代社会生活中,我们在手机上花费的时间越来越多,手机对我们的影响也越来越深,甚至有可能主导了我们获取到的信息。
第二个案例是关于外卖骑手的调度决策问题。2020年一篇名为《外卖骑手,困在系统里》的文章上了热搜,这里面反映出在一类高度自动化决策场景中,特别是该场景中被决策的是人类自身时,我们应如何妥善处理系统与人之间的关系?
第三个案例是关于现在比较火热的虚拟空间问题。从Meta的游戏“地平线”中虚拟人物被侵权这一事件所联想到的,虚拟世界中的不道德行为应如何来规制?现实世界的法律规范和道德伦理又是否能否用于数字孪生的世界?在大踏步地迈向虚拟空间的同时,我们也需要足够的时间去思考这些问题。
也许有人会觉得AI的缺陷、滥用以及带来的社会影响等问题,距离我们较远,更多的是危言耸听。在我们日常处理问题时,总会期待AI能够“表现得更好”,但实际上这些问题切实存在,以在电商平台上进行风控治理工作为例:
1)平台不允许售卖保护动植物,因此需要对这些品类进行识别,但它们往往与可售卖的非禁限售品类在外观上非常相似,甚至不具备专业知识的人眼也很难区分。如何向感知系统注入专家知识,从而形成真正的认知视觉,是非常值得探索的问题。
2)在安全风控场景下,经常需要紧急处理新发现的风险类型,往往会缺少足够的样本,或者缺少足够的时间去标记样本。这对模型在少样本和开放域识别方面提出了很高的要求。
3)在安全风控场景中,AI会面临恶意的对抗和攻击。以输入数据为例,面对精心准备的、经过扰动的对抗样本,或者是利用深度伪造技术合成的虚假数据时,我们的系统和识别算法需要具备更强的鲁棒性。
4)千万商家、十亿消费者,每个角色都有自己的利益诉求,同时还面临黑灰产的攻击,在这一个动态变化的环境中去保障公平性、定义什么是公平,本身也是极富挑战的一件事。
在看到了这些问题后,近年来我们也特别提倡“好科技”这一概念,其核心包含两个方面的内容:一是建设负责任的技术体系;二是践行“人人受益、责任担当、开放共享”的好科技。
在我看来,负责任的技术体系就是建立一个可用、可靠、可信、可控的智能化系统。
首先是可用的技术,即技术本身必须要符合国家法律规范和公共政策,例如隐私安全和未成年人保护等等;
其次是可靠的技术,具备在未知或对抗环境的鲁棒性,在金融风控和自动驾驶等特殊场景这一点尤为重要;
再次是可信的技术,必须具备公平性和可解释性的特点,能够被人类所信任,只有这样才能得到大范围的应用和推广;
最后是可控的技术,我们应尽力避免算法失控,为自动化决策系统增加人工干预的能力。
除了要建设负责任的技术体系外,我们也希望持续践行“人人受益、责任担当、开放共享”的好科技。
1)人人受益:阿里巴巴一直把“客户第一”作为内部第一的价值观,不仅关注当下服务的消费者和商户,更加会关注到每一个人,尤其是其中弱势群体。例如,我们围绕信息无障碍做了大量的工作,目前阿里巴巴旗下的12款主流APP都添加了无障碍功能。优酷中就提供了子女可以帮助父母远程点播视频的功能;各个APP都经过了增大字体和图标、减少广告等适老版改造;对于视障群体我们提出了“读光计划”,利用端侧的OCR技术、带方言功能的语音能力,对手机屏幕进行播报,方便这一类消费者使用我们的产品,这背后的核心是让数字服务不产生数字鸿沟。
2)责任担当:利用科技服务国家重要方向和重点战略,是科技企业应尽的职责。过去几年,阿里巴巴在反诈、农业、环保、抗灾,双碳等方面都有参与,也取得了一定的成果。例如,阿里巴巴积极响应了减碳、双碳战略,在去年发布了《阿里巴巴碳中和行动报告》[01],在报告中介绍了绿色物流、商品回收、采用更加清洁的能源和更少能耗的计算体系等相关举措和技术,借此在2030年前实现自身业务运营的碳中和目标。
3)开放共享:数字化的道路上不能只有一家或几家公司跑在前面,“授人以鱼不如授人以渔”,这是阿里巴巴一直贯彻的理念。在算法技术开放方面,阿里巴巴持续在操作系统、数据库、大数据&AI等多个领域启动自主开源项目,拥有超过3万名贡献者,位列中国企业开源活跃度榜首。
例如在隐私计算方面,我们开源了两项高质量开源工作,一项是达摩院研发的一套可支持大规模、高效率的联邦学习异步训练引擎Federated Scope [02];另一项是阿里安全研发的猎豹 [03] 两方计算引擎,性能比之前业界最好工作还要快5倍以上。众所周知,数据是人工智能的最关键要素,在确保隐私保护和数据安全的前提下进行数据流通是社会各界都非常关注的点。我们将这两项技术开源,也是希望通过隐私计算技术的开放共享,推动数据在安全可控的前提下开放共享,最终促使数字经济的高质量发展。
建设可用、可靠、可信、可控的负责任技术体系,将是今后我们的主要工作。
具体来说,技术的可用性是前提。以之前颁布的《互联网信息服务深度合成管理规定(征求意见稿)》为例,其中明确提出,无论是作为深度合成的服务提供者还是服务使用者,都需要履行主体责任,包括需具备对合成内容的识别和追溯能力。阿里巴巴在深伪识别和数字水印两方面都有长期的布局和多年的投入。在深度伪造识别方面发表过多篇论文,例如在CVPR2021的这篇文章中,我们发现在相位上原图和不同的变换方法更具区分性,相关技术也帮助我们在中国人工智能竞赛的视频伪造检测赛道中获了A级证书。数字水印是解决合成内容溯源的有利武器,这方面阿里安全也深耕多年,是国内少数几家通过严苛的国际认证的企业之一,其水印的抗攻击鲁棒性和视觉不可见性也都非常领先。
技术的可靠性是负责任的重要体现,因为在某些关键场景中,技术失败的后果往往难以承受。我们在攻击和防御上都有一些代表性工作,例如在CVPR 2021上发表的论文,提出了一种利用激光笔干扰物理世界摄像头的攻击方法,并分析了其错误发生的成因和机理。在防御方面,我们在CVPR 2022上提出了一种可以和Transformer有机结合的、更加鲁棒的视觉模型架构。从图中可看出来,这种RVT的方法在干净数据集上的效果可以与最新的技术相媲美,在鲁棒性测试上则体现了巨大的优势,这部分工作我们也已开源,大家有兴趣可以关注该项目 [04]。
关于可信技术,这里重点谈谈公平性问题。过去,大部分学术界关于公平的讨论,还是限定在一个简单的、静态的环境中,例如多以就业和信贷为场景,研究在性别、民族等少数几个关键属性上的结果差异。
然而真实的场景和问题要复杂得多,我们来看一个例子:
以电商平台为例,我们既需要解决消费侧的信息茧房问题,又需要解决供给侧的马太效应问题。此外,经济利益也会驱使一部分不法商家利用作弊等手段获取非正常的流量,这将导致平台经济体系的公平性被打破。
因此淘宝的搜索和推荐业务配备了一支相当规模的、非常专业的反作弊团队,建设相关的系统,通过对线上网络世界的操作行为进行分析发现异常,并结合线下真实世界的位置聚集和变化规律发现团伙嫌疑,构建多视角的图神经网络,打击不法商家和黑色产业链的违法行为。
最后是技术可控,我们在使用“高度自动化决策算法”时应该慎之又慎。以“骑手困在系统里”这一问题为例:
1)当下出现“骑手困在系统中”的问题,其实原因并不是像很多人所理解的算法过于强大,而恰恰是算法还不够先进。不同于在传统的车间、厂房去定制工作计划,在这样一个开放、复杂、动态的工作环境下依靠人工去调度决策劳动力的分配是不现实,必须坚持靠技术和算法,一是需要纳入和考虑更多的数据,例如恶劣天气、交通拥堵和用餐高峰等;二是需要设计更加强大的算法,能够对异常情况做更好的判断和处理。
2)我们不应让算法主导所有重大决策,还需要业务专家和伦理专家对产品设计和奖惩规则进行评审,例如坚决落实“算法取中”、匹配灵活配送时长等;同时,在关键链路上增加人工干预的机制,例如对意外不可抗力造成的延误采取人工补时等操作。
3)作为这套系统中主要角色的劳动者,要有反馈的通道,例如根据实际状况调节背单量,对用户的差评和超时能够进行申诉,并得到妥善的处理等等。
详细内容可以参考《2022蓝骑士发展与保障报告》。[05]
人工智能治理是一门综合多个学科、智力密集型的工作,也是一门社会科学,需要政府的指导,和社会公众的监督。阿里巴巴一直提倡多元协同治理机制,未来也希望和大家一起推动这个领域的更多进展,让大众更多地了解技术原理和其背后的风险,和行业一起学习交流。
[01] 2021阿里巴巴碳中和行动报告
https://sustainability.alibabagroup.com/sc
[02] FederatedScope
https://github.com/alibaba/FederatedScope
[03] OpenCheetah
https://github.com/Alibaba-Gemini-Lab/OpenCheetah
[04] Robust-Vision-Transformer
https://github.com/vtddggg/Robust-Vision-Transformer
[05] 2022蓝骑士发展与保障报告
http://www.aliresearch.com/ch/information/informationdetails?articleCode=301971005755232256