Trent McConaghy原著
区块链即通证生态系统的核心特征是激励制度。激励制度是很强大的,但要真正能做到激励非常困难,我们要付出代价。区块链就像一种特殊的生命形式——人工智能,一旦出生就会长得越来越大,贪婪的将各种能量吸收(挖矿电量2019年超过美国用电量),它会变成超级天网终结者吗?怎么改善,怎么平衡我们需要的激励制度和付出的代价?来让我们研究一下。
我们一开始会有一个想法目标,但和形成机器能够执行的算法之间有很大的差距。想通过设计一些目标函数和约束条件来达到这样的目的很难。当我们用这样方法写程序的时候,一开始还是用的经典的编程办法来描述一个“想法”,先描述一个条件,然后再来一个,一个又一个,做着做着就乱套了,有些条件相互冲突,有些条件不好定义,程序越做越大,bug越来越多,技术人员跟熊瞎子掰苞米一样补了一个bug,又来一个bug。越来越复杂,但离“目标”可能越来越远。
比如说我们设计了一个造纸的人工智能程序AI,主要目标是造出越来越多的纸,但我们忘了设置一个重要的约束条件--不能损害人类。那一旦运行起来,这个人工智能AI会越来越大,越来越高效。但AI很可能发现人类是个障碍,跟它抢资源,然后AI干掉我们,最后达成了一个全是纸但没有人类的目标。这个和我们一开始想要的目标显然是不一致的,但人工智能AI并不关心我们的实际目标,它只是不断地吸收能量变大变强,最后我们没办法要靠拔电源的方式结束它的统治(有点像终结者)。不过只有中央服务器机房可以拔电源,分布式电脑没法拔电源,除非我们退回农业时代不用电了。
区块链是干吗用的
1,区块链有信任机制。区块链有几个特点:分散(分布式系统),确定性(上链不可篡改)等等,这些特点使它适合构建资产数字化,这样区块链就有信任的机制,并且还发展出智能合约等更高级的功能。
2,区块链有激励机制。区块链可以通过激励调整通证持有者之间的平衡关系。这点体现在网络游戏世界里再普遍不过了,大家在游戏里都有用积分(类似通证)买过皮肤吧? 但通证远远不止这点用处,我们可以设计一种激励策略以发放区块链奖励的形式实现,就是说发(通证)代币来激励用户做事。
那么区块链这么强大,区块链的激励策略直接决定了你的网络用户的行为,那你到底想让用户做什么?而且更关键的是,你能把你的想法在互联网计算机上通过算法、程序、区块链实现吗?这是一个致命的问题,就是说我们真的知道如何设计区块链激励措施吗?
中本聪设计比特币的时候肯定不是要设计一个天网终结者,那么他是怎样通过设计一系列比特币的机制来实现它的目的呢?我们不仅要有理论基础,还要有一系列工程工具来实现。那下一次,我们研究一下激励机制的工程实现就是区块链经济体的设计。
区块链将彻底改变人工智能
近些年来,大数据已彻底改变了人工智能,达到了几乎难以置信的地步。区块链技术也有望以自己独特的方式,彻底改变人工智能。
拥有可扩展的区块链技术发掘了它应用于人工智能的潜力。现在不妨探究一下那些应用是哪些,先从区块链的三个好处说起。
区块链的这些好处给人工智能的从业人员带来了下列机会:
去中心化/共享式控制鼓励数据共享:
(1)带来更多的数据,因而带来更好的模型。
(2)带来全新的数据,因而带来全新的模型。
(3)便于对人工智能训练数据和模型实行共享式控制。
不可改变/审计跟踪记录:
(4)带来训练测试数据和模型方面的数据溯源(provenance),从而改善数据和模型的可信度。数据也想要信誉。
原生资产/交换中心
(5)导致训练/训练数据和模型成为知识产权(IP)资产,因而导致去中心化的数据和模型交换中心。它还能更有效地控制上游对你数据的使用。
还有另一个机会:
(6)人工智能连同区块链为人工智能去中心化自治组织(DAO)发掘了机会。这种人工智能可积累财富,是你无法关闭的。它们是增强版的软件即服务(SaaS)。
区块链几乎势必能以更多的方式帮助人工智能。人工智能同样能以许多方式帮助区块链,比如挖掘区块链数据(比如黑市交易网站Silk Road调查)。不过那是另一番讨论:)
许多这些机会关乎人工智能与数据之间的特殊关系。所以不妨先来探讨这方面。之后,我们将更深入详细地探讨区块链在人工智能领域的应用。
机会1:数据共享→ 更好的模型
简而言之:去中心化/共享式控制鼓励数据共享,这反过来带来了更好的模型,进而带来了更高的利润/更低的成本等好处。不妨详述一下。
人工智能爱数据。数据越多,模型越完善。不过,数据常常是筒仓式(即孤岛式)的,在数据好比护城河的这个新环境下更是如此。
但是区块链鼓励在传统的孤岛之间共享数据,如果有足够多前期好处的话。区块链的去中心化性质鼓励数据共享:如果没有哪个单一实体控制存储有数据的基础设施,共享面临的阻力比较小。我在后面会介绍更多的好处。
这种数据共享可能会出现在企业里面(比如在区域办事处之间)、生态系统里面(比如“联合”数据库),或者整个星球(比如共享式全球数据库,又叫公共区块链)。下面介绍了每一种情况的例子:
在企业里面:来自不同区域办事处的数据使用区块链技术合并起来,因为它降低了企业审计自己数据的成本,还降低了与审计人员共享该数据的成本。若有了这些新数据,企业就能构建这种人工智能模型:比如说能够比只能在区域办事处层面构建的之前模型更准确地预测客户流失率。相当于每个区域办事处的“数据集市”?
在生态系统里面:竞争对手(比如说银行或唱片公司)传统上根本不会共享其数据。但是不难表明,如果拥有来自几家银行的合并数据,一家银行可以构建更完善的模型,用于信用卡欺诈预防。或者对一条供应链上通过区块链共享数据的诸多企业来说,如何可以更准确地查明供应链中之后出现的故障的根源,针对来自供应链上游的数据使用人工智能。比如说,那一种大肠杆菌到底是从哪里冒出来的?
整个星球(公共区块链数据库):不妨考虑在不同的生态系统之间共享数据(比如能源使用方面的数据+汽车零部件供应链数据),或者每个个体参与全球规模的生态系统(比如Web)。来自更多来源的更多数据可改进模型。比如说,中国一些工厂的能源使用激增可与出现在市面上的欺诈性汽车零部件关联起来。总的来说,我们在聚合数据、清洁数据,重新包装并出售数据的公司身上看到这方面的迹象,从老式的彭博终端要机到成十上百家通过http API销售数据的初创公司。我会在后面那个点进一步探究这方面。
机会2:数据共享→ 全新的模型
如果区块链促成所有四家实验室共享数据,那会怎样。你将拥有所有合法的数据,你可以用来构建一个分类器。任何送来的钻石(比如eBay上在卖的钻石)都将通过该系统的审查,与这个所有数据的单类分类器(one-class classifier)进行比对。分类器可检测真正的冒牌货,避免误报,因而降低了欺诈率,从而惠及保险提供商和认证实验室。这可能只是被称查询,即不需要人工智能。但是使用人工智能进一步改进了它,比如说根据颜色、克拉等方面预测价格,然后使用“价格与预计价值多接近”,作为主欺诈分类器的输入源。
囤积还是共享?两个相反的动机在这里形成对峙。一个是囤积数据――“数据是新的护城河”观点;另一个是共享数据,以获得更好/新的模型。要共享,势必要有一个足够明显的驱动因素压倒“护城河”带来的好处。技术驱动因素是可获得更好的模型或新的模型,但是这个驱动因素势必会带来业务好处。可能具有的好处包括:减少欺诈,节省钻石或供应链方面的保险费;可以在Mechanical Turk中捎带赚钱;数据/模型交换中心;对某个大玩家采取集体性行动,比如唱片公司可以集体起诉苹果iTune,好处不止这些;这需要创新的业务设计。
中心化还是去中心化?即使一些企业组织决定共享,它们还是可以在不需要区块链技术的情况下共享。比如说,它们可能仅仅要把数据聚合到S3实例中,并在它们本身之间公开API。但是在一些情况下,去中心化带来了新的好处。先是名副其实地共享基础设施,那样共享联合体中的一家企业组织无法独自控制所有的“共享数据”。(这在几年前是一块主要的绊脚石,那时唱片公司试图联合起来,建一个通用的注册中心)。另一个好处是,更容易把数据和模型变成资产,然后可以授权外面的人使用,以获得利润。我在下面对此予以了详述。感谢亚当·德雷克(Adam Drake)对囤积与共享这种对峙予以特别关注。
正如讨论的那样,数据和模型共享会出现在三个层面:企业里面(对跨国公司而言,其难度超乎想象);生态系统或联合体里面;或者整个星球(这相当于成了一家公用事业公司)。不妨更深入地探讨全球规模的共享。
机会3:针对数据和模型的审计跟踪记录,获得更可靠的预测
这种应用面对这种现实:如果你训练垃圾数据,就会得到垃圾模型。对测试数据来说也是如此。正可谓,垃圾进垃圾出。
垃圾可能来自恶意的家伙/可能篡改数据的错综复杂的故障。想一想大众公司尾气排放丑闻。垃圾还可能来自并非恶意的家伙/崩溃故障,比如来自有缺陷的物联网传感器、出故障的数据源,或者导致比特翻转的环境辐射(没有很好的纠错机制)。
你怎么知道X/y训练数据就没有缺陷?实时使用怎么样,针对实时输入数据运行模型?模型预测(yhat)怎么样?简而言之:进出模型的数据是什么情况?数据也想要信誉。
区块链技术可助一臂之力。方法如下。在构建模型以及在实际现场运行模型的过程的每一步,该数据的创建者只要给该模型标以时间戳,并添加到区块链数据库,这包括对它进行数字签名处理,声称“目前我相信该数据/模型是好的。
好处包括:
可以在所有层面,发现数据供应链(从最广泛的意义上说)存在的泄露现象。比如说,你可以查明某传感器是否在“撒谎”。
你能以一种可通过密码来验证的方式,了解数据和模型的情况。
你可以发现数据供应链存在的泄露现象。那样一来,如果错误出现,我们就能极其清楚地知道错误为何出现、出现在哪里。你可以把它看成是银行界的对账,不过核对的对象是人工智能模型。
数据得到了信誉,因为多双眼可检查同一数据源,甚至坚持自己的主张,表明它们认为数据有多有效。而与数据一样,模型也得到了信誉。
机会4:训练数据和模型的共享式全球注册中心
人工智能界的一个特别的挑战是:数据集在哪里?传统上,它们分散在互联网上,不过有一些列表列出了主要的数据库。当然,许多数据集是专有的,就因为它们具有价值。还记得数据护城河吗?
但是,如果我们有一个全球数据库,易于管理另一个数据集或数据源(免费或收费),会怎样?这可能包括来自众多机器学习竞赛的广泛的Kaggle数据集、斯坦福大学的ImageNetdataset及其他无数的数据集。
这正是IPDB所做的。人们可以提交数据集,并使用别人的数据。数据本身会放在IPFS之类的去中心化文件系统;元数据(以及数据指针本身)将放在IPDB中。我们会获得一个人工智能数据集的全球共同体。这有助于实现开放数据社区的梦想。
我们不该止步于数据集;我们还可以加入用那些数据集构建的模型。获取和运行别人的模型,提交你自己的模型,这应该很容易。全球数据库会为此提供极大的便利。我们能获得由全球拥有的模型。
机会5:数据和模型是IP资产→数据和模型交换中心
不妨深入叙述运用由训练数据和模型组成的“共享式全球注册中心”。数据和模型可能是共同体的一部分。但是它们也可以买卖!
数据和人工智能模型可以作为一种知识产权(IP)资产来使用,它们受版权法的保护。这意味着:
如果你构建了数据或模型,就能拥有版权。这是指你想不想用它来开展任何商业活动。
如果你拥有数据或模型的版权,那么就可以授权别人使用。比如说,你可以授权别人使用你的数据来构建自己的模型。或者,你可以授权别人把你的模型添加到其移动应用程序中。也可以层层授权:你授权别人使用,别人授权他人使用。当然,你也可以在获得授权后使用别人的数据或模型。
我认为你可以拥有人工智能模型的版权,并授权别人使用,这很棒。数据已经被认为是一个可能很巨大的市场。
在区块链技术问世之前,就可以拥有数据和模型的版权,并授权别人使用。一段时间以来,相关法律为此提供了依据。但是区块链技术让它变得更好,原因是:
就你拥有的版权而言,它提供了一个防止篡改的全球公共注册中心;你拥有的版权由你以数字方法/加密方法来签名。这个注册中心还包括数据和模型。
就你的授权交易而言,它再次提供了一个防止篡改的全球公共注册中心。这回,它不仅仅是数字签名;而是说,你甚至无法转让版权,除非拥有私钥。版权转让作为类似区块链的资产转让来进行。
我很注重区块链方面的IP,我早在2013年就在开展ascribe方面的工作,帮助数字艺术家拿到应有的报酬。最初的方法在授权的规模和灵活性方面有问题。正如我最近撰写的那样,现在,这些问题已得到了解决。让这成为可能的技术包括如下:
Coala IP是一种灵活的、对区块链友好的IP协议。
IPDB(以及BigchainDB)是一种共享式公共区块链数据库,存储版权信息及其他元数据,规模堪比Web。
IPFS以及Storj或FileCoin之类的物理存储是一种去中心化文件系统,可以存储庞大的数据和模型blob。
因此,我们得到了作为IP资产的数据和模型。
一旦我们有了数据和模型这种资产,可以开始为那些资产建立交换中心。
交换中心应该是中心化的,就像DatastreamX已经为数据建立的机制那样。但到目前为止,它们其实只能使用公开可用的数据源,因为许多公司认为共享带来的风险高于回报。
去中心化的数据和模型交换中心怎么样?如果在“交换中心”这种环境下实现数据共享去中心化,就会出现新的好处。由于去中心化,没有哪一个实体控制数据存储基础设施或表明谁拥有什么的账本,这样企业组织更容易协同工作或共享数据,如本文前面所述。不妨想一想用于深度网络(Deep Nets)的OpenBazaar。
有了这样一种去中心化的交换中心,我们会看到真正开放的数据市场出现。这有望实现数据和人工智能人士长期以来怀有的梦想。
当然了,我们在那些交换中心上会有基于人工智能的算法交易:人工智能算法购买人工智能模型。人工智能交易算法甚至可能购买算法交易人工智能模型,然后更新自己!
机会5:控制你数据和模型的上游
这承接前一种应用。
如果你注册使用Facebook,也就把它对你输入其系统的数据可以做什么、不可以做什么方面很具体的权限授予了Facebook。它有权使用你的个人数据。
当音乐家与唱片公司签约后,他们将非常具体的权限授予了这家唱片公司,比如编辑音乐、发行音乐等。(通常唱片公司试图获得所有版权,这显然太过了,不过那是题外话!)
对人工智能数据和人工智能模型来说可能一样。如果你构建的数据可用于构建模型,当你构建好模型,就可以预先指定许可证,限制上游的别人如何使用它们。
区块链技术为所有使用场合简化了这方面,从个人数据到音乐,从人工智能数据到人工智能模型,不一而足。在区块链数据库中,你把权限当成资产:比如说,读取权限或查看某一部分数据或模型的权限。作为权限拥有者,你可以把作为资产的这些权限转让给系统中的别人,就像转让比特币那样:创建转让交易,并用你的私钥来签名。这方面感谢迪米特里·德·扬赫(Dimitri de Jonghe)。
因此,你对于使用你的人工智能训练数据、人工智能模型及更多内容的上游有了极大的控制权。比如说,“你可以重新混合这个数据,但不可以深度学习它。”
这可能是DeepMind在医疗区块链项目中采用的战略的一部分。在数据挖掘中,医疗数据让它们面临监管风险和反托拉斯问题(在欧洲更是如此)。但是如果用户能改而真正拥有其医疗数据,并控制上游使用,那么DeepMind只要告诉消费者和监管者:“嘿,客户实际拥有他们自己的数据,我们只能使用它。”我的朋友劳伦斯·伦迪(Lawrence Lundy)提供了这个很棒的例子(谢谢劳伦斯!)他随后作了进一步的外推:
完全有这个可能:政府允许私人拥有(人类或AGI)数据的唯一方式就是借助共享式数据基础设施,采用“网络中立”规则,就像AT&T和长长的原始线路那样。从这个意义上来说,日益自主的人工智能需要区块链及其他共享式数据基础设施得到政府的接受,因而从长远来看需要可持续发展-―劳伦斯·伦迪
机会6:人工智能DAO ?—能积累财富,你无法关闭的人工智能
到目前为止,我们谈论了作为去中心化数据库的区块链。但是我们也可以实现去中心化处理:基本上,存储状态机的状态。拥有这方面的一点基础设施让它更容易实现,而这就是以太坊(Ethereum)等“智能合约”技术的精髓。
我们之前也实现了流程去中心化,表现为计算机病毒。没有哪一个实体拥有或控制病毒,你无法关闭它们。但是它们有限制的――它们基本上试图破坏你的电脑。
但是如果你与这个流程有更丰富的交互,该流程本身可以独立积累财富,那会怎样?现在通过更好的API,这成为了可能,比如智能合约语言,以及公共区块链之类的去中心化价值存储系统。
去中心化自治组织(DAO)这种流程体现了这些特点。代码可以拥有数据。
这给我们带来了人工智能。名为“强人工智能”(AGI)的人工智能子领域最密切相关。AGI是指在环境下交互的自治代理。AGI可以建模成反馈控制系统。这是好消息,因为控制系统有许多出色的特性。首先,它们有强大的运算基础,可以追溯到50年代――诺伯特·维纳(Norbert Wiener)的“控制论”。它们捕获与外界的交互(驱动和感知),并适应(根据内部模型和外部传感器来更新状态)。控制系统使用广泛。它们控制着简单的恒温器如何根据目标温度来调节。它们可以为你昂贵的耳机降噪。它们是另外众多设备的核心部件:从微波炉到汽车制动器。
人工智能界最近更积极地拥抱控制系统。比如说,它们是AlphaGo的关键。AGI代理本身就是控制系统。
人工智能DAO是一种类似AGI的控制系统,它在去中心化的处理和存储底层上运行。反馈回路自成一体,获得输入信息后,更新状态,驱动输出,并拥有不断这么做的资源。
我们可获得人工智能DAO,只要从人工智能(AGI代理)入手,并让它去中心化。或者,我们可以从DAO入手,为它赋予人工智能决策功能。
人工智能得到了其缺失的一环:资源。DAO得到了其缺失的一环:自主决策。正由于如此,人工智能DAO可能比人工智能本身或者DAO本身要庞大得多。潜在的影响是倍增的。
小结
本文描述了区块链技术如何帮助人工智能,结合了我个人在人工智能和区块链研究方面的经验。这对组合威力强大!区块链技术(尤其是全球规模的技术)可帮助实现人工智能和数据人士的几个长期以来的梦想,并且带来几个机会。