“大数据+区块链”背景下数据存储方式的革命

一、大机构眼中的“大数据”

 

      “大数据”这一概念最早成型于IDC与EMC合作的调研报告中,具有极强时代嗅觉和商业直觉的麦肯锡(一家著名咨询公司)进而首先提出“大数据”的时代已经到来。

       一般认为大数据(big data)具有4V特点:Volume(海量性)、Velocity(快速性)、Variety(多样性)、Veracity(真实性)。

      其实大物始于小,Big things have small beginnings(《普罗米修斯》中David语)。笔者认 为其实叫做“小数据”或“微数据”也许更合适,因为我们作为具体个体与大数据的接触和应用反而都是与个人密切相关的小数据,例如我们个人或家庭的财务、健康、信用、衣食住行等数据。试图在小数据的集合中应用大数据工具发现模式、规律、知识等应该更多是“大”机构的兴趣所在。


二、一个人的“大数据”


       刚才说到了“大”本是相对概念,在前互联网时代,某一行业本身也会聚集很多的数据,其实是大数据的雏形。但是怎么才能聚集很多的数据呢,说到底还是和生产力水平有关系,不管如何辛苦的积累,例如大航海时代对于航线、海况、天气、航行日志的记载以及相应的时间数据和星象数据、工业革命时代新知识的爆炸等等,这些海量数据在前互联网时代都是纵向的,少有与其他领域知识的横向结合,而且没有方便快速高容量的传输手段,它们只是干巴巴的单一数据集合而已。

       而到了互联网时代,大数据才真正如鱼得水。互联网2.0已经使得全世界的PC连接起来,截至2014年底,全球人口近一半成为互联网用户。伴随人口向互联网的迁移,连带相应的设备、产业、伦理关系也在向互联网迁移。这一切的发生意味着海量数据(包括总量及类型)。

       规模越来越大和智能越来越高的互联网、海量数据、大数据……对这些宏大事物的描述过多非常容易导致空洞化和阅读疲劳。因此笔者打算从自身的体验描述“数据变大”的过程,诸位可见微知著。

      上世纪90年代刚有网吧的时候,出于对网络的热爱,笔者隔三差五翻墙逃学跑到网吧上网,那时候网吧的计算机硬盘几百M而已,给朋友拷贝当年最经典的马里奥游戏数据必须依靠容量为1.4M的软盘。

      2002年,笔者攒了个人第一台计算机,硬盘容量高达40G,很是开心。与同学分享数据已经普遍使用几十M的优盘或几百M的CD。偶记得由于容量限制,售片者为了更多的储存影片,采用高压缩率录制光盘,导致观赏效果较差,有时候拖拽播放进度会卡死,这个缺点反而得以让我们耐心完整地欣赏了星爷的全部作品。

      2007年,第二台个人计算机,硬盘容量达到320G,不过空间仍然很快就被各种数据填满。

      2010年后,第三台个人计算机硬盘容量达到2TB,此外还有多个大容量的优盘、移动硬盘。

      2015年后,各种云盘开始普及,大家开始习惯以云存储形式上保存大量数据,数据越来越多了后有效的管理个人数据开始成为一个必须注意的问题。

      2020……

      这仅仅是一个人的计算机数据增长史,窥一斑而见全豹,由此可以想象数据从small beginnings向big things演化的史诗般进程。



传统云存储的两大不足


       膨胀的数据使用户手忙脚乱,具有使用便利、操作简单、易于扩充等优点的传统云存储迅速普及,但是在传统云存储多年的野蛮生长中也暴露除若干不足,最突出的就是“安全性”和“中心化”。

        安全性问题

         由于技术发展以及管理方式的局限,在当前阶段看似强大的云服务提供商常会因为各种问题而出现运行故障或数据丢失泄露等情况,例如:CloudFlare云在2017年 出现了泄露海量用户数据长达数月;2016年Uber泄露了700万名司机的个人资料;2018年Facebook出现了 5000万用户的数据泄露;2018年6月圆通快递10亿条快递信息被泄露等等。

        中心化运作方式

        目前各大云存储机构都是由各大公司或机构管理和运营,虽然便于维护,但用户数据的可靠性和安全性完全依赖该公司的实力和信誉。如何保证用户数据不被公司有失职业道德的内部员工偷窥,公司能否长久运行和生存下去,云存储运营商难以保证用户心中的疑虑。


星际风暴(filestorm)来袭——完美解决传统云存储的不足


        星际风暴(FileStorm)是一个去中心化的分布式存储平台,简单讲星际风暴=区块链(墨客链)+IPFS协议。

        星际风暴解决了传统云存储中面临的安全性和中心化运作模式的不足。区块链通过网络共识就数据状态达成一致,通过要求在网络状态上达成一致来确保不可变性,因此区块链适用于分布式数据存储模型,其中用户可以在分布式节点网络而不是集中式服务器上进行加密保护其数据。星际风暴平台集成了区块链与IPFS,可以在区块链上使用哈希和安全时间戳数据,对数据进行标识,而无需实际将数据存储在区块链本身上,数据本身存储在IPFS分布式存储网络。

        其实星际风暴不仅仅解决了传统云存储的痛点,由于区块链和IPFS的特性,星际风暴还有如下亮点:

        共享经济

        传统云存储数据都存放在服务商数据中心内,尽管云服务商的数据中心会有多个并分部在不同地理位置,但这种模式本质仍然是中心化的。星际风暴平台通过采用区块链技术,可以使硬盘空间多余的用户(机构或个人)可以出租自己的硬盘空间,系统会通过“复制证明(Proof-of-Replication)”来计算该用户的工作量,按其工作量大小进行区块奖励,整个过程就是星际风暴的“挖矿”,竞争的算力是通过用户的硬盘可用空间、可用性和网络带宽等因素组成。用户为了获得更多的奖励,也会出租更多的硬盘空间并保证可用性。这种将整个计算机世界中无数的闲散硬盘空间有机的组织并利用起来正是共享经济的本质。

        快速传输

        原有的HTTP模式下的数据分发速度难以适应大数据时代的要求,而星际风暴IPFS本质上是一种P2P传输机制,该机制使得数据分发速度可达PB字节数量级;分布在不同组织不同地域的计算机协同参与大数据的计算,可极大地的提高数据运算能力;可实现大量数据集的不同版本的控制;高容量的媒体数据流及防止重要文件意外损坏等,IPFS文件系统这些卓越性能可较好满足大数据时代的要求。


数据岂止是“大”,用“爆炸”形容也不过分


        “大数据”这个说法更多说明了当前数据时代的特点,似乎并没有强调“变化的速度”,笔者认为用“数据膨胀”、“数据量快速增长”等说法都显得过于温和了,应该直接用这个表达词汇——“数据大爆炸”!

你可能感兴趣的:(“大数据+区块链”背景下数据存储方式的革命)