软件定义的区块链 & BlockChain Storage 之4、为什说区块链存储是下一个热点 (下)...

【备注】

本篇是SDS之BlockChain Storage系列的第4篇,介绍《为什说区块链存储是下一个热点》的第5~8个原因。本篇原文刊发于2018年10月的微信公众号“九存区块链存储”,原文标题为《互联网与物联网有哪个七个不同之处 & BlockChain Storage 之4、为什说区块链存储是下一个热点 (下)》,内容略有修改。


昨天(2019-3-8),很荣幸受邀参加一个研讨会,并有机会和经济学家张曙光做短暂交流。有别于传统的以所有权为中心的经济学,他提到近些年研究的一个新课题:以使用权为中心的经济学。我听了心里一震,看来我在2019春节后得出的一个新观点:区块链系统不仅从物理位置上实现了软件和硬件解耦(架构的去中心化),还实现了使用权和所有权的解耦(组织的去中心化),有了理论的支撑。这个观点详见《比特数字》2019-03-07 的《新世界的崛起—区块链定义的价值互联网》

https://www.byte2100.com/category/depth/445/2132693945.shtml


最近几年走红的斜杠青年(自由职业,具备多种能力的人可以为多个组织服务获取酬劳)、共享经济或可视为这种新经济学的实践。不过,如何珍惜人和物(因为不具有所有权)、提供安全可靠专业的服务和产品,这条道路还很漫长。然而,基于人尽其用(或者充分发挥自己所长,所爱)、物尽其用的发展方向是必然的,因为地球人口的迅猛增长,一定迫使各种资源最大化利用。


---开始---


五、非中心化使数据更可靠

 

最近一年来,大家可能陆陆续续听到云存储故障的事件,虽然云服务提供商应负主要责任,但客户没有定期对数据进行备份也埋下了隐患。

 

全球范围内,各个云巨头都多少出过故障,这也是云计算普及并壮大必须的经历,并不代表中心化云计算就会前途暗淡。在云计算出现之前,本地化部署的集中存储也出现过各种各样的故障,只是因为影响范围小,知道的人不多。由于直接关系到信息系统的命脉-数据的安全,存储的可靠性至关重要。存储的成熟度会是用户选用时的一个重要指标,不过当我们脚踏实地的同时,也需要仰望星空。


区块链的出现,用户会发现,在未来,还多了一种选择,就是非中心化的云计算基础设施(或曰可信基础设施),在存储领域就是区块链存储(或曰可信存储)。在上篇文章中,我们提到区块链存储是下一个热点的第三点原因就是区块链能帮助用户保护隐私。为什么更可靠,而且能保护隐私呢?


在创新工场执行董事王嘉平的文章《区块链到底有什么了不起》中有一段话:“区块链将冯诺依曼架构的计算机构架进一步拓展,使其同特定的物理计算设备分离,才能从根本上避免计算过程被单一的控制方掌控,让所有的人都可以信赖这个计算系统”。


我们来看一下软件的发展历史,随着硬件的高速发展(芯片的摩尔定律是代表),有了更多的腾挪空间,让软件实现更多的功能和灵活性。所谓软件定义,实际上就是一个逐步解耦的过程,软硬件解耦,以及使用权和所有权的解耦。区块链系统其实也是一个软件定义逐步深入的过程:

1早期,部署在用户机房的信息化系统,软硬件都归用户所有;

2)从2006年开始,亚马逊、阿里等云计算出现后,软件的所有权归用户,承载软件的硬件所有权归云计算厂商,用户租用这些硬件资源,有的是使用权;

3)区块链诞生之后,站在项目方的角度看,连软件的所有权都没有了。首先,运行软件的节点也即矿机,硬件的所有权是分散的。其次,真正的区块链软件系统(如比特币、以太坊等),自诞生以后,并没有某个个体或者组织拥有所有权,软件的更改和迭代,涉及到人数众多的好几方,包括开发人员、用户社区、矿场矿工;因此它带来了纷争、冲突和低效(比特币从1MB到8MB引起了轩然大波,最终不得已分叉出BCH);但也正因如此,它逐渐成为一个可信的系统。详细剖析如下:


采用区块链使得软件系统运行在成千上万个节点上,而且大家做的是同一件事情:记账或者记日志。这成千上万个节点的物理硬件的所有权归于不同的个体或组织,而且他们之间还相互不认识。因此,这个软件系统不仅从物理位置上实现了解耦(架构的去中心化),还实现了使用权和所有权的解耦(组织的去中心化)。

实际上,整条公链的各个节点,是基于共识(公开的规则),由许许多多相互不认识的个体或组织,以自组织的方式构建而成,本质上没有任何个体或组织拥有所有权。因此也就没有单一的控制方能掌控,或者篡改上面的指令或数据。这是一种非常彻底的解耦。

区块链存储通过去中心化的方式,在不同节点以多副本或者纠删码的算法来提高数据的高可用性,这避免了以太坊创始人V神提到的“架构中心化”;再通过Token激励机制(例如FilecoinSTORJ)驱使大家提供存储空间(包括剩余存储资源),避免了“政治中心化”,大幅降低中心化运营面临的攻击或者内部误操作。

 

备注:V神提到的第三个是“逻辑中心化”,这个很难避免。三种中心化的论述,详情可参考《建立共识网络抵御攻击减少合谋,V神的“去中心化”结构、政治与逻辑三重含义解析》,文章链接参见后面的索引

 

六、存储介质的产能无法满足数字宇宙增长的需要

 

从下图可以看到,在全球范围内,从2005年到2017年,红线所示为数字宇宙的增长,蓝线所示为截止当前已经部署了的裸容量(例如2017年,不到8ZB),绿线所示为当年新增存储介质(也即产能)。


软件定义的区块链 & BlockChain Storage 之4、为什说区块链存储是下一个热点 (下)..._第1张图片


1:数字宇宙、存储介质产能增长曲线图

 

可以看出每年因为存储介质的产能不足,无法存放新增数据,导致极大的浪费!众所周知,数据是未来的石油(参见20175月初的《经济学人》封面故事)。

 

软件定义的区块链 & BlockChain Storage 之4、为什说区块链存储是下一个热点 (下)..._第2张图片

2: 20175月初的《经济学人》封面

 

 

表面上看,有些数据在当下,对某个个体或者组织没有用处,但不代表将来,或者对于其他个体或者组织也没有用处。很可能,这些数据将来也能成为宝贵的资源,有价值的数据资产。

 

举一个不是特别恰当的例子,大家可能听说过行星三大定律,但是除了开普勒强大的数学分析能力、丰富的想象力之外,还不能忘记第谷数十年如一日地观测和记录。第谷擅长精确的观察,但缺少想象力,记载的数据对于自己其实价值不大,但不妨碍在后来,成为他人乃至整个世界的宝贵资产。

 

再举一个例子,视频监控的数据在绝大多数的地址和时间,这些数据貌似没有价值,然而如果在某地某时发生了重大案件,或者重大历史事件,这个数据又非常宝贵了。

 

如果有方便便宜的技术手段,可以帮助我们随时随地,并且成本低廉地方式存放数据,我想很多时候,无论个人或者企业就不用像以前那么忍痛割爱,或者费劲脑汁去迁移数据,腾出空间了。

 

怎么办呢?

 

在计算方面,许多人都听说过有一个安迪-比尔定律 Andy andBill’s Law),也就是 “Andygives, Bill takes away(安迪提供什么,比尔拿走什么)。详见《未来 | 人文明运行在件之上》。而在存储方面,有一个Peter定律(PeterYe's Law:只要存储市场供不应求,存储效率(含利用率)的提高就会无所不用其极,例如企业级存储的存储虚拟化、精简配置、自动分级、去重压缩;分布式存储的纠删码(跨节点做RAID);乃至在全球范围内的存储池化,如StorJIPFS等。

 

 

七、物联网、边缘计算需要区块链存储

 

我们先来看一下什么是物联网?什么是边缘计算?

1、       物联网的英文名称是:Internet of things简写为IoT)。

物联网就是物物相连的互联网。这有两层意思:其一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;其二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信,也就是物物相息。根据美国研究机构Forrester预测,物联网所带来的产业价值将比互联网大30倍,物联网将成为下一个万亿元级别的信息产业业务。(摘自秒懂百科)

2、       边缘计算英文名称是:EdgeComputing

边缘计算是指在靠近物或数据源头的一侧,采用网络、计算、存储、应用核心能力为一体的开放平台,就近提供最近端服务。其应用程序在边缘侧发起,产生更快的网络服务响应,满足行业在实时业务、应用智能、安全与隐私保护等方面的基本需求。边缘计算处于物理实体和工业连接之间,或处于物理实体的顶端。(摘自百度百科)

 

很多人都认为,IoT的普及,势必驱使数据的访问从中心化云转向非中心化云,如下图所示。


软件定义的区块链 & BlockChain Storage 之4、为什说区块链存储是下一个热点 (下)..._第3张图片

3: IoT从中心化云转向非中心化云

 

 

笔者个人猜测,全球互联网所连接的服务器台数应该不超过2000万台,即使再怎么乐观猜测,服务器台数肯定不会上亿;移动互联网所连接的移动端不超过50亿。然而,物联网(IoT2020年将达到500亿个节点。未来,物联网产生的数据量要比互联网高出一、两个数量级。

 

由此产生的这么多的数据需要存放,包含去重在内的提高存储效率的方法,以及充分利用闲置存储资源的方法,在不远的未来将变得迫在眉睫。

 

其次,物联网时代需要的存储形态也不一样。

先来探讨一下,互联网或者移动互联网,与物联网有什么区别?

 

加州大学伯克利分校的团队在201576日~7日发表的题为“The Cloud is Not Enough: Saving IoT from the Cloud“的文章指出:

软件定义的区块链 & BlockChain Storage 之4、为什说区块链存储是下一个热点 (下)..._第4张图片


4: 加州大学伯克利分校:互联网与物联网有哪个七个不同之处?

 

 

1)隐私和安全方面(Privacy& Security)

互联网是开放访问的。

物联网里,植入到人们周边环境的传感器,其收集的通常是敏感信息。例如智能门锁、心脏起搏器等,这类信息的泄密将直接关系到人的生命财产安全。

 

2)可伸缩性(Scalability)

物联网中的可伸缩性比互联网更具挑战,生成的数据量将达数万亿个对象。物联网设备所需的大多数数据应该在本地处理,并可能立即丢弃,因此只有集中式的云是不够的。

 

3)交互模型(Interaction Model)

互联网是人机交互的。

而物联网是机器与机器交互;需要注意的是,有些交互必须伴随着交易,或者说是价值的转移,否则这些交互是不会发生的。

 

4)延迟(Latency)

场景不同,互联网对延迟的要求不同。

但物联网要求实时响应。例如,为响应本地温度的升高而打开风扇的应用程序,如果只有集中式的云,那这一简单的操作,也将经历来自感知、无线传输、网关处理、互联网访问和云处理的不可预测的延迟。因此,边缘计算势在必行。

软件定义的区块链 & BlockChain Storage 之4、为什说区块链存储是下一个热点 (下)..._第5张图片

5:虽然应用程序通常将云视为所有连接设备的中心(上半图),但实际上云通常位于互联网主干的边缘,就像其他设备(下半图)一样。

 

 

5)带宽(Bandwidth)

互联网主要产生的是下行流量。

物联网中,将数据传送到云端会产生大量的上行流量。物联网应用程序在网络边缘生成数据,这种模式很容易使上行链路的带宽饱和。使用边缘计算后,能让数据就地处理,也能减少不必要的带宽浪费。

 

6)可用性(Availability)

互联网用户可以容忍某些场景的可变延迟,容忍偶尔丢失Web服务。相比之下,物联网应用中传感器或执行器(actuators)的临时失效将严重影响到物理世界。

物联网中,有不少场景对于可用性有着近乎苛刻的要求。例如,对周边道路环境的感知和处理,是不可能仅仅依赖于集中式的云。

 

7)持久性管理(Durability Management)

持久性管理。一些传感器数据是短暂的,而另一些数据应该是持久的,以抵御灾难。现在没有有效的方法来验证数据是否已经被完全销毁,因为云已经超出了用户的控制范围,无论云实现了什么持久性,通常都是在不考虑特定应用程序的隐私的。对持久性的控制一般与控制密切相关:应该确保用户重新控制和拥有他们的数据,而不是提供者。

 

简而言之,边缘计算需要边缘存储,而且存储的数据应该由用户自由地控制、分享自己的数据

 

这里提到的边缘存储,在九存区块链存储看来,其实就是一个存储网关,它可以放在家里,放在工厂里,放在汽车上,放在任何静止或者移动的场合中,这些场合需要临时存放不小的数据。你可以把它视为信息或者价值的中转站,它也是通往云计算(这里不只是类似AWSAzure、阿里云的中心化云计算,也包括类似IPFS等在内的去中心化或者称之为非中心化的云计算)平台的枢纽,同时也是通向巨大无比的池化资源的缓存,保障了用户就近存取的速度,和数据的隐私。在刀片存储之外,九存的D4(目前是支持4块盘的家用存储)就是为物联网和边缘计算设计的,D4目前做为家用或者中小企业使用的NAS,已经有不少用户了。

 

八、区块链存储提高效率,降低单位TB的成本

 

区块链存储如何提高存储利用率呢?

以在IMDB和豆瓣都排名第一的电影《肖申克的救赎》为例,假设全球存放了1000万份。区块链存储由于能实现就近访问,并且只在全网存放一份,切片以多副本方式存放。即便切片的副本全球多达1000份,去重效率也高达1万倍,极大地节省了存储空间,提高了存储利用率。

 

为了获取Token而提供存储空间(例如以存储网关的形式)的区块链基础设施的建设者们,获取的回报或许不只是Token,因为甚至还可以额外地免费获得全球巨大无比的池化资源中更多的空间。具体举例,如果建设者提供了410TB硬盘,也即40TB的裸容量,假设某区块链存储在全球范围达到10倍的去重效率,意味着该建设者的贡献能达到400TB的裸容量,这样区块链存储项目方除了给予Token之外,或可考虑再返还几倍的空间存放该建设者的其他数据。

 

另外,无论个人还是企业,都有某些应用或者场景有大量的闲置空间,然而其他的应用或场景却捉襟见肘。

 

以我四、五年前购买的2TB硬盘为例,直到今天(2018/10/14),才使用了1.1TB,还剩余45%的存储空间。

企业级存储,一般存储利用率超过70%,用户就觉得有风险,要开始规划扩容了。我想,保守估计,企业级存储的平均利用率应该低于60%,甚至低于50%

 

在《当SDS遇见BlockChain 之二:区块链存储为什么势在必行?(SDS的新赛道 - 暗流涌动的区块链存储)》里曾分析过企业级单位TB的成本,全HDD的存储,单位TB成本至少在900元人民币以上。实际从市场上的反馈,往往在数千元。相距企业级硬盘的出货价每TB 200400多元,全球平均单位TB成本还有大量的下降空间,部分降幅可借助区块链存储来实现。

 

 

未完待续……

 

索引:

https://www.idc.com/downloads/where_is_storage_infographic_243338.pdf

http://blog.sciencenet.cn/blog-100379-1037923.html

https://ptolemy.berkeley.edu/projects/chess/pubs/1145.html

https://baike.baidu.com/item/%E7%89%A9%E8%81%94%E7%BD%91/7306589?fr=aladdin

https://m.sohu.com/a/225550459_114877/?pvid=000115_3w_a

https://www.ibmbigdatahub.com/blog/what-blockchain-and-what-does-it-have-do-internet-things

https://www.byte2100.com/category/depth/445/2132693945.shtml

你可能感兴趣的:(软件定义的区块链 & BlockChain Storage 之4、为什说区块链存储是下一个热点 (下)...)