【谦川解读】共享机器学习方法技术框架

共享机器学习

方 法 技 术 框 架 Technical Framework

众所周知,数据要素化已成为我国新一轮数字科技革命和产业变革的焦点。数据的共享及其流通成为刚性业务需求,这就将原本隐私保护与数据高效流动间的矛盾愈发凸显出来,数据隐私如何保护、如何在安全的环境下实现数据流通等问题是各行业所亟待解决。

而隐私计算正是解决数据利用与安全的“关键之钥”,为信息隐私保护提供了重要的理论基础。根据中国信息通信研究院的定义,隐私计算是指在保证数据提供方不泄露敏感数据的前提下,对数据进行分析计算并能验证计算结果的信息技术。即在保证数据安全的前提下,让数据完成自由流通,消除数据孤岛问题,以此为各行业释放出更大的数据价值,提升生产效率,做到“数据可用不可见,数据不动价值动”。

01共享机器学习系统

由于隐私计算中所包含的技术多样性,不同的企业或者项目根据技术优势,会采用不同的技术路线来实现其应用目的。与之相关的除了以多方安全计算为代表的基于密码学的隐私计算技术外,以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术以TEE为代表的基于可信硬件的隐私计算技术,已在众多领域被探讨。

ITU-T(Telecommunication Standardization Sector Of ITU ,国际电信联盟电信标准分局)最新发布的Technical framework for a shared machine learning system (《共享机器学习方法技术框架》)中指出,在共享机器学习系统中共包含4种角色,包括任务发起者(Task initiatior)、数据提供者(Data provider)、计算平台(Computation platform)和结果接收者(Result receiver)。共享机器学习系统的技术架构中,由一个计算平台和多个数据提供者组成。共享机器学习系统中又分为两类学习系统:集中式共享机器学习系统、分布式共享机器学习系统。

【谦川解读】共享机器学习方法技术框架_第1张图片

02集中式共享机器学习系统

集中式共享机器学习系统中,来自多方参与者的本地数据被处理、加密,并传输到一个可信的执行环境中。由于各方的数据都是加密的,因此平台或其他参与者无法看到这些数据,当多方参与者或其他人拥有访问共享模型的授权时,他们可以通过使用应用程序编程接口(API)来输入信息和获取返回值。

【谦川解读】共享机器学习方法技术框架_第2张图片

在提供数据之前,参与者(数据提供者)通过远程认证验证在可信执行环境中运行的软件的正确性和有效性。提供数据之后,在参与者与受信任的执行环境之间协商一个加密机制。参与者使用协商机制加密数据,并将密文发送到受信任的执行环境。加密机制可以是对称加密机制或非对称加密机制。为保证计算模型不会泄露,整个计算完成后应对训练后的模型进行加密。

在集中式共享机器学习系统架构中,每个数据提供者由一个进程和加密模块、一个身份验证模块和数据组成。数据提供者将这些数据作为输入提供给计算平台或其他数据提供者(数据提供者也具有计算能力)。随后,从认证模块获得的加密密钥通过认证模块对每个数据提供者的数据进行处理和加密,然后将加密的数据上传到的可信执行环境计算平台。计算平台由认证模块、解密模块、加密模块和共享学习模块组成。计算平台的认证模块通过解密模块对加密的数据进行解密,然后将解密后的数据发送给共享学习模块。共享学习模块对来自多个数据提供者的解密数据执行共享机器学习操作,并通过计算平台的加密模块将加密数据发送给数据接收者。

【谦川解读】共享机器学习方法技术框架_第3张图片

如上图所示,在集中式共享机器学习系统的流程中,任何数据提供者或计算平台都可以初始化计算任务,然后计算平台将创建一个可信的执行环境。每个数据提供者提供的本地数据可以被处理、加密,并上传到计算平台。该平台对可信执行环境中每个数据提供者发送的接收到的加密数据进行解密,并根据该解密后的数据执行模型训练,以获得共享模型。数据处理、加密、解密和训练步骤可以重复多次。最后,销毁可信执行环境,以确保数据的安全和隐私。

03分布式共享机器学习系统

而在分布式共享机器学习系统下,各方需要在本地部署一个学习模块,并将数据传输到本地学习模块。不同数据提供者之间的学习模块通过使用不同的加密方法来交换参数,在没有原始数据共享的情况下实现数据共享,以保护数据隐私。计算平台帮助触发每个参与者的学习模块更新,并协调各方之间的关系。

【谦川解读】共享机器学习方法技术框架_第4张图片

分布模式下的共享机器学习系统的技术架构主要由一个计算平台一个结果接收器一个任务发起器多个数据提供者组成。该计算平台主要包括一个控制模块,它将计算任务划分给不同的数据提供者,并与数据提供者中的学习模块进行协调。然后,每个数据提供者中的学习模块交换随机数或加密的参数,以执行共享的机器学习操作,而数据提供者主要由数据和学习模块组成。在此过程中,将多端数据放置在虚拟安全域——TEE可信执行环境下进行学习模块计算,通过安全协议将秘文发送到控制模块,同时计算平台的控制模块也处于TEE可信执行环境中,保证数据在各端侧、云端的各方计算过程安全性和可靠性。最后,结果接收者从数据提供者一方接收加密的结果并得到最终的结果。

【谦川解读】共享机器学习方法技术框架_第5张图片

在分布模式下的共享机器学习系统中还有一个比较特别的学习系统——联邦学习。作为隐私计算最常用的技术手段之一,联邦学习在计算过程中分享中间统计结果而不泄露原始数据的分布式算法框架,实现了数据的安全共享,在数据共享过程中只交换加密的中间计算参数,而不交换原始数据,让数据在多中心协同计算中的隐私保护,其特点是在保护原始数据隐私安全的同时,又能保证计算结果准确性和精度,同时达到数据共享和隐私保护的双重目标。(来源:中国信通院《联邦学习场景应用研究报告》)

然而,联邦学习虽然只传递中间计算结果,保障了原始数据的安全性。但在特殊情况下,中间参数易被攻击,容易被攻击者还原出原始数据,安全隐患无法避免。基于硬件的TEE可信计算方案,可保护整个计算过程的安全可靠:将中心节点部署在可信执行环境中,设备中的芯片和硬件系统将为其提供一个隔离的运行环境,有效保护中间数据、结果数据免受恶意攻击。以其中一种模式架构为例,如下图:

【谦川解读】共享机器学习方法技术框架_第6张图片

Tips谦川小贴士

可信计算环境(Trusted Execution Environment)是指计算机处理器的一块隔离的安全区域,它可以确保在其内部加载的代码和数据在机密性和完整性方面得到保护,有效的防止了底层操作系统或虚拟平台被挟持后对数据和代码的攻击。同时,可信计算环境还提供了对于不授信第三方安全计算环境的远程验证功能。其实现主要包括ARM TrustZone、Intel SGX软件防护扩展、AMD SEV安全加密虚拟机、基于RISC-V的开源框架Keystone、Intel TDX可信域扩展以及ARM CCA机密计算架构等。(来源:《2021隐私机密计算蓝皮书》)

基于可信执行环境技术(Trusted Execution Environment)的可信计算,其核心思想是以可信硬件为载体,提供硬件级强安全隔离和通用计算环境,在完善的密码服务加持下形成一个独立的“密室空间”,数据仅在“密室空间”内才进行解密并计算。除此之外,任何其他方法都无法接触到数据明文内容。数据在被传出“密室空间”之外后又会被自动加密,从而实现“可用不可见”。TEE是一种较为成熟的技术解决方案,目前已在商业应用中被广泛使用。

原文链接:【谦川解读】共享机器学习方法技术框架

你可能感兴趣的:(原创技术文章,机器学习,深度学习,人工智能)