当一个网络或者企业的规模变得越来越大,每个区域都拥有自己独有数据,而这些数据往往被储存于格子区域中,其他区域无法获取,就像一个个孤岛一样无法进行交互和链接,缺乏关联性无法兼容。
而这种数据之间无法兼容及协作的情况我们便将其称为数据孤岛,随着信息化的不断能深入,我们已经习惯了用数据来做决策,用数据来作为做事的参考,而数据的基础在于共享,如果数据无法共享,相互孤立,信息交互便无从谈起,其也更可能导致大量的安全问题与信任成本。
而针对这个问题,大量处于灰色地带的数据共享和买卖服务便应运而生,其存在的法律风险也不言而喻。
人工智能对于互联网世界的接入由来已久,但是由于其训练模型往往需要大量的高质量数据支持。先不论数据的质量,哪怕是数量的需求,已经成为了影响机器学习模型效果的重要因素,因此对于数据共享的诉求变得越来越强烈。
而除了机器学习领域,与我们生活最相关的便是个人信息保护,在数据共享和保护的过程中,无法避免的会出现一些敏感的隐私数据的泄露和滥用,而各国也在积极出台政策,对数据共享和交易进行限制或者禁止。例如在2018年5月,欧盟通过General Data Protection Regulation(GDPR)法案,其就定义了个人相关的信息都是个人数据,如果服务商要使用它,必须得到明确的授权。
但这些对数据安全的重视和隐私保护法案的出台,过去随意性的数据共享受到挑战。其也会导致数据都将保留在拥有者手上,使得非参与者很难获得自己想要的相关数据。
也就是说,虽然数据保护非常重要,但在另一个角度,其也会导致数据孤岛的现象变得更严重,并成为常态,不仅存在于不同公司和组织之间,在大型企业的内部也将存在。在将来,如果需要更好地使用数据,就必须保证不同行业、组织、公司和用户之间达成数据信任的状态,并进行数据共享,但必须满足隐私保护和数据安全这个大前提。
目前,一般会用两种方法来解决数据共享这个问题,一种是基于可信计算与硬件结合从而形成可信执行环境(TEE)技术,另一种方法是基于密码学的多方安全技术(MPC),这里我们将重点介绍可信计算如何解决数据孤岛问题。
首先简单介绍下可信执行环境(TEE),其是以硬件为核心,通过硬件创建安全的隔离环境,数据和代码都被保存在隔离环境中,只能被读取,而不能写入。目前外部的解决方案有英特尔的SGX技术以及AMD的TrustZone技术。
而冲量网络将使用SGX技术来构建TEE,并利用其解决数据孤岛问题,SGX通过提供一系列CPU指令码,允许用户代码创建具有高访问权限的"私有容器"Enclave,Enclave中的数据只有在CPU计算时,通过CPU上的硬件进行解密。
可信计算可以确保数据在存储、流转和处理中全程加密。具体操作中,数据提供方对原始数据进行加密,其将通过统一的标准进行加密,进入到平台后通过私钥再进行解密,而认证模块都会通过公钥和签名等形式进行验证,而当多个不同的数据提供方将自己的数据放入数据共享TEE平台中,其便可以在"容器"中进行分析或者机器学习,并输出相关的结果,但无法读取每个数据提供方的具体的隐私数据。
同时,冲量网络也将结合区块链技术,在链上发布任务以及验证,并在链下计算,兼顾效率和安全性,并使得任务分配、数据分配全部透明化,加强信任。通过发起方、提供方、运维方三者的相互制衡,使得数据在建立、传输、输出时都处于安全可信状态,并能将数据创造的价值公平地分配道网络中。
在实际应用中,例如在医疗学科中,医院直接可以在可信环境下分享患者数据信息实现协同医疗,同时保险机构可以统计用户某项健康数据,但并不会泄露用户其他健康隐私。而在金融机构中,其也可以在可信环境中分享数据,满足风控、征信等方面的数据计算需求。从而使得原来只存在于单个机构的数据能被安全地共享于同业或者非同业的组织或公司,从而打破数据孤岛带来的问题。
相对于传统行业数据共享解决方案,可信计算对解决数据孤岛问题有以下优势:
安全
利用可信计算,将能保证数据等不被轻易篡改,使得在数据共享时,不会有因为数据被篡改,使得在解决数据孤岛进行数据共享时,产生新的不信任问题,使得之前做的努力全部浪费。
隐私
所有的数据提供者都不需要向对方展示具体的数据内容,使用者只能获得返回的结果,从而保证数据在整个网络中的安全,增加信任。
信任
在数据孤岛问题中,其重要的问题之一便在于互相信任。借助可信计算,将大幅度减少双方的信任成本,使用户信用企业,企业信任同业或非同业的企业,让数据活动起来,并分享其创造的价值。
随着数据市场的扩大以及数据孤岛问题日益严重,我们相信会出现使用可信计算的数据交换平台,其将充当数据存储、 交换和价值挖掘的媒介,信息流转于不同的企业中,而这些信息组成的数据则流转于这些平台中,形成多元化的发展。
在未来,用户将能通过冲量网络让数据孤岛在安全环境下进行连接、合作、赋能、分享。在保护数据隐私和安全前提下的联合计算和交易,并实现计算过程地可信监测和追溯。给每个数据拥有方搭建起桥梁,使得数据孤岛不再是一座座孤岛,创建起分布式可信计算网络。