肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现

肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现_第1张图片

1,摘要

在新智元AI WORLD 2018世界人工智能峰会上,中国万向控股有限公司副董事长兼执行董事肖风分享了他对AI、数据隐私保护和区块链的独到看法。
肖风认为,随着AI迎来第三次高潮,技术对数据愈发依赖,带来了人们对数据估值的重新发现。
区块链加上加密算法是一对绝配。互联网是“信息机器”,区块链是“事实机器”。区块链加上加密算法将会给AI带来一片新的天地,它们的结合将满足AI对数据的需求,数据隐私会得到保护,数据资产会得到确权,数据共享会得到激励,数据计算会得以开放,数据治理会得以有序。
未来三到五年内,一个去中心化的分布式AI平台或将出现。
以下是肖风在新智元AI WORLD 2018世界人工智能峰会上的演讲实录:《AI、数据隐私保护与区块链》。

分布式的AI平台将解决数据带来的问题

肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现_第2张图片

肖风:很荣幸有这样一个机会在人工智能大会上进行分享。我自己过去五年在区块链这个领域当中做研究、投资和应用推广,既然来到这里,我还是想谈一谈和区块链有关系的一些话题,当然,首先它也是和人工智能有关系。

人工智能和区块链两个话题碰在一起,数据的产权意识、价值以及数据隐私保护意识的觉醒和AI的发展是密不可分的,或者可以说是AI带来的。

肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现_第3张图片
image

随着2016年人工智能第三次浪潮起来,人们突然发现原来数据有这么大的作用,数据能够创造这么大的价值,人们自然要问:我的数据在哪里?我的数据得到妥善的保护了吗?商业机构用我们的数据创造了价值,这些价值难道和我一点关系都没有吗?

肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现_第4张图片
image

有关数据的隐私保护、数据的价值分享和数据的共享,我总结了一下,最热门的有这样几个方向:

首先是数据的产****权确认。在座的各位可能都有很多数据遗留在互联网上,这些数据是属于我们的,还是属于互联网平台的?或者是属于我们和互联网平台共同拥有的?怎样确认我们遗留在互联网和其它平台产生的数据?比如医疗平台上你的基因数据、病历数据,怎么确定数据的主权是属于你还是属于谁?

第二个方向是数据的****隐私保护。大家可能不想把某些数据这么直白地、这么公开地在互联网上被传播甚至被买卖,所以我们要讨论数据的隐私保护。

再就是数据的协同计算。数据如果不被使用根本就不会有价值,但现在我们可能没有任何一个单一的平台能够拥有多维的、多元的数据满足人工智能算法的需求。电商平台可能有电商的数据,社交平台可能有社交关系的数据,但如果这些数据能够协同计算,那么对AI来说一定是功莫大焉。

但没有人愿意在现在的互联网的环境下把自己的数据交出去,因为交出去就等于断送,别人不可能拍着胸脯保证说这些数据我绝对不会偷看,绝对不会传播出去。即使有这种主观的善良的意愿,技术上也不一定能够做到,无法保证数据得到妥善的保管。那么怎样在既打消这种不信任的念头,同时又能够让这么多维、多元、多层次的数据在一起协同计算,共同共享,得出具有更大社会福利的AI成果呢?这确实也是一个话题。

第四是数据的价值分享。既然这些数据创造了很大的商业价值,我是不是应该从中得到我应该得到的那一份?现有的互联网架构下没有人给你。当然,互联网平台也用另外一种方式稍微返还了一部分利益,比如免费使用,这是因为要收集你的数据,你可以得到一些免费的使用,也许这是一种价值间接的体现。但有没有什么更直接的体现,能够激发大家愿意贡献更多的数据来帮助AI达到更好的结果?激励机制是数据共享或协同计算必须要建立的,没有很好的激励机制我们就很难相信,或者很难想像别人会平白无故地把隐私数据贡献出去,让某个科学家或让某个商业机构依据这些数据来训练机器、优化算法,得到一些结果。

今天很多人工智能学家都在谈怎么用数据。这些问题是AI的发展带来的,但AI本身不能解决这些问题。如果这些问题不得到解决,那么对AI来说是一个巨大的缺陷,尤其是如果我们不能用一个很好的激励机制去激励那些数据的持有人把自己的数据贡献出来,这对人工智能的发展来说也是一个巨大的缺陷。

举个例子,科学家如何征求1万个特殊病的案例?可以去找医院,这也是很困难的事情。但如果用区块链技术,用一个分布式的AI平台,并不需要找中间商,可以用你的智能合约加上隐私保护的算法,加上基于数字货币的激励机制,那些互不认识的1万个陌生人就会愿意把自己的病历资料贡献给这个平台,让某个科学家计算出来结果,然后智能合约会保证你能得到事先承诺给你的回报,并且你的所有数据能够得到很好的隐私保护。

如果能够做到这样一个分布式的AI平台,可以想像AI技术、AI行业会和今天讨论的不一样了。今天所有人工智能学家讨论的都是基于中心化的机制、中心化的数据平台去训练AI算法,得到一些结果。其实这是一方面,另一方面就是能不能用分布式、去中心化的AI平台把中心化平台无法提供,或者不能提供的数据都搜罗出来,然后达成我们想要达到的研究目的?

肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现_第5张图片
image

有很多密码学家在这方面做了很多努力,并且有了很好的成果。

首先,哈希函数。哈希函数能够证明一串数字或者一本书是不是被篡改过,不管是一段话还是一本书,这么多的内容哈希以后,得到的哈希值是一样大小的;但如果一本书当中改变了其中的一个标点符号,最后得到新的哈希值和原来就会有巨大的不同,所以能够证明后来的东西是不是被篡改过。哈希函数可以得到很好的保证,不需要写保证书,也不需要签合同,只要检查两个信息的哈希值是不是一样,就知道数据是不是被篡改过。

非对称加密。所谓的公钥、私钥的非对称加密算法,能够保证数据的安全、完整和匿名,某种程度上也能够对数据的产权进行确认,因为区块链上面唯一的产权确认的依据就是拥有这个数字或者密码学帐户的私钥,拥有了私钥,就拥有了帐户里面的所有价值物和数据。

零知识证明。这种加密算法能够在把数据加密之后,在密文的状态下让第三方验证者验证数据的真实,或者状态是否真的存在。

同态加密也是一样,数据加密之后,在密文的状态下,第三方仍然可以就这些数据进行某种程度上的分析和处理,最后由拥有密钥的人从这里得到想要得到的结果。也许这个密钥持有者并不是数据的所有者,因此也不会碰到原始的数据,或者说不会碰到明文的数据。

最后是安全多方计算。就是有一组互不信任的陌生人,比如前面讲到的某种特殊病的患者。这样一组互不信任的参与方,数据拥有者可以把自己的数据在加密以后贡献出来,让别人来做协同计算,最后大家可以共享计算的结果。数据永远都不会离开本地,永远无法推导出所有的原始数据。

其实密码学算法已经存在很长时间了,但是被用来做数据的隐私保护和隐私保护之后的数据协同计算是最近两年蓬勃发展的一个事实。

肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现_第6张图片
image

但是光有加密算法并不能够完整地达到帮助AI更好地利用这些数据的目的。比如数据确权方面需要借助其它的技术,数据的真实性方面哈希函数可以证明是否被篡改过,但只有哈希函数并不能够使得数据真的不可撤销、不可篡改和可追溯。

第三,数据真正要有价值就必须把数据资产化,数据没有被资产化就无法就数据进行交易,无法给数据确定价值,也无法收到贡献数据以后应该得到的回报。数据资产化是数据交易的基础,但是数据资产化的基础是数据的确权。

数据存储。尤其是去中心化计算,或者所谓的点对点、分布式、边缘以及多方协同计算这样的情形,如何建立一套激励机制,让那些无关但拥有某方面的数据的人交出这些数据。这时需要建立一套价值分配和激励机制,让他们愿意把数据贡献出来,这种价值分配机制和激励机制密码学算法也不能解决。

肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现_第7张图片
image

什么新的系统加上密码学算法才能解决呢?有人说互联网能够解决,但互联网不能解决前面的几个热点问题。

  • 首先技术上,我们不能相信一个互联网平台确实能够确保数据的安全和数据的隐私。前段时间我们有看到新闻,一家著名的连锁酒店,几亿的住客数据被盗取。今天的新闻好像是泄露数据的人被抓到了,公安部门说他没有能够完成交易,数据没有被卖出去。所以技术上并不能够证明互联网平台能够做到保证这些数据的安全和隐私。

  • 第二,在利益上,大家都在用这些数据赚钱,没有人在意数据的隐私保护或者产权归谁。

  • 第三,意愿方面,互联网平台希望掌握数据的主权,而数据的拥有者希望数据的主动权掌握在自己手里,使用数据就应该得到许可,分配使用数据获得利益的一部分。

  • 最后,在管理上。这几天也有新闻报道,一家非常著名的物流公司的一个工程师无意当中把一个数据库删掉了,导致这家很大的物流公司整个停摆了590分钟,整个系统才得以恢复。

因此,密码学算法不能解决这些问题,互联网技术也一样不能解决。

肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现_第8张图片
image

谁能解决呢?区块链是可以解决的,因为区块链和互联网有很大的不同。有人说区块链是第二代互联网,我觉得不是,区块链和互联网有巨大的区别,主要是这几个方面:

互联网刚出来的时候,美国的媒体把互联网叫做“信息机器”。确实,互联网使得信息的产生、交流、传递成本极低,低到边际成本是零,传递速度极快,信息的获取也极端方便。区块链被人们叫做事实机器,因为它的分布式数据库的特点,区块链的数据库上面任何数据只能添加,不能撤除,不能篡改。因此数据一旦登记到区块链上面,我们完全不需要担心是不是被改过,所以叫做事实机器一个事实机器显然更有利于AI

第二,互联网是一种中心化的信任机制,你必须相信互联网平台,说你的数据在我这里是得到妥善保护的,我是不会随便碰你的数据的。但是到现在为止几乎没有人敢彻底相信任何一个互联网平台不偷看你的数据,或者你的数据能够在那里得到妥善的保护。区块链是一个去中心化的信任机制,不需要信任任何人、任何机构、任何组织,只需要信任这套数学算法,这套数学算法不会偷窥你的数据,也不会擅自利用你的数据。靠着一条共识算法来建立的分布式信任机制,显然要比一个中心化的互联网机制好得多。

第三就是激励相容。数据的拥有方、算法的提供方、算力的提供方和AI的需求方在区块链上面完全能够做到激励相容,每个人各得其所,不会有激励不相容的现象发生。所以在激励机制上区块链和互联网有巨大的不同,互联网平台是多方参与的,但是我们无法在互联网平台建立很好的激励相容机制,区块链上面可以建立这样的激励机制。

第四,互联网上的应用叫做App,区块链上的应用叫做Dapp,D就是“去中心化”(Decentralized)。App和Dapp的最大区别是什么?比如说,如果你用出版社加上新华社的渠道来出版一本书,那么你可能得到这本书售价的10%,那是你的版税。但如果通过互联网平台,比如腾讯的阅文平台,出版任何的读物,收入的25%要归平台。这意味着作者本人可以得到这本著作所有收入的75%。但在区块链上面的Dapp上出版这样的读物和著作,所有的收入100%归你,没有任何人会在中间抽取你的费用。这是一个去中心化的商业模式,我们把它叫做分布式商业。

第五,互联网在利益上希望数据独享,所以在现有的技术状况下很难看到不同的互联网平台会把数据共享出来,这实际上妨碍了AI的进一步发展。但是在区块链上面是数据共享的,因为所谓分布式数据库之上的分布式记帐系统本来就是一个共享记帐系统,帐本系统本来就是相关参与方在一个数据库当中记录大家相关的所有数据,可以同步给所有的参与方。

最后,区块链上面跑的是数字货币,数据要达成交易交换,或者用来激励数据的所有者或者提供者,算法的提供者或者算力的提供者。互联网的环境中可以用微信和支付宝,但这是另外一套系统,把数据提供之后仍然可以怀疑是不是能够得到事先承诺的价值和利益。但是区块链上面不需要担心这个,任何一个需求的发起方建立智能合约,数字货币写在智能合约里面,也把数据交给这个智能合约,运算结束以后智能化合约会自动触发一个支付流程,所有人会依据事先约定好的计算机程序分配所得利益,所以它是可编程的智能货币。数字货币本身就是一段计算机程序,而不是一串数字。

这些是互联网和区块链很大的区别,可以看到区块链加上加密算法可能是一对绝配。区块链的链式数据库可以保证数据的真实性。区块链作为事实机器,它和互联网这种信息机器最大的不同是,任何数据在区块链上面不可能被“双花”,所谓“双花”就是数据可以不经许可,没有成本,随便复制。

肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现_第9张图片
image

我们把区块链叫做价值互联网。我们在区块链上面发送比特币,如果像发送邮件一样,一个比特币可以发给一万个人,本地还保存这样的邮件,这个世界就乱了。区块链技术有一套机制防止双花,当你宣称你要利用区块链寄送一个比特币给别人,这个系统会保证你的比特币一定会被减掉,而且你的比特币只能给你指定的那个人得到,不可能像邮件那样一千个人、一万个人都能得到。防止双花,数据才能成为资产。如果像互联网上面信息可以这样无成本、不经许可、随便扩散,这种时候数据不可能成为资产。

再就是点对点的交易系统。区块链就是一个点对点的交易系统。这种机制可以防止数据垄断,每个人拥有自己的数据,可以参与交易。

去中心化的信任机制保障了数据的安全,前面我们已经讲过了。

智能可编程货币带来数据协作新的激励机制,加上前面讲的加密算法是一对绝配。

肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现_第10张图片
image

最后,简单总结一下区块链和加密算法的发展趋势。

现在有越来越多大学的密码学家开始加入到区块链的创业团队当中,我在今年上半年就已经碰到过好几个斯坦福、MIT、马里兰大学和伯克利大学的密码学家,大家纷纷加入到了区块链行业,投身到数据的隐私保护和数据的协同计算。

通过这些密码学家我们了解到,密码学界研究方向正在发生巨大的转变,明年的美国密码学年会和欧洲密码学年会目前为止接到的论文和议题有一半是安全多方计算MPC。数据隐私保护成为了最热门、最重要的话题,我所发起的PlatON区块链项目就是致力于用加密算法加上区块链技术解决数据多方安全计算的问题。我们已经在工程上实现了两方安全计算,明年中会实现三方的安全计算,之后多方安全计算就不远了。

区块链加上加密算法将会给AI带来一片新的天地,满足AI对数据的需求,数据隐私会得到保护,数据资产会得到确权,数据共享会得到激励,数据计算会得以开放,数据治理会得以有序。可以期待三到五年之后,一个去中心化的分布式AI平台会出现,不再需要依靠中心化的机构,也不再需要中心化机构的数据。一个科学家可以在这样的平台上面发布自己的需求征集数据所有者,征集算法所有者,征集算力所有者,完成自己的一项科学研究。三到五年以内分布式的AI平台应该会出现。

你可能感兴趣的:(肖风:未来三到五年内,一个去中心化的分布式AI平台或将出现)