IPFS大咖谈(一)| 分布式系统模型及关键问题分析

2019年1月5日,分布式存储的创新与未来——首届亚太IPFS产业发展高峰论坛成功举办。作为一场产学研各界汇聚的行业交流盛会,现场多位嘉宾分享干货满满,获得与会者一致好评。

其中,来自中山大学数据科学与计算机学院的陈鹏飞教授《分布式系统模型及关键问题分析》尤为瞩目,本文即为陈鹏飞教授现场演讲精华。

1、数据时代,分布式系统重要性凸显

1分钟Internet会产生多少数据呢?

 YouTube一分钟产生130万个video,Google有200万个搜索查询,Facebook一分钟有600万个浏览查看。

据权威咨询公司Gartner报告,企业互联网数据大概每年有50%的增长,报告同时预测到2020年左右,全球的数据量就会达到35个ZB的量级。35个ZB大概需要有80亿块的4T的硬盘才能装得下。

随着5G时代的到来,数据量增长将更迅速,需要通过网络将互相隔离的存储设备连接起来,形成一个比较庞大的分布式存储系统。通常说的分布式存储指的是一个持久性、制度化、分布式的存储系统,通常有两大类:中心化的分布式存储系统,去中心化的P2P存储系统。 

中心化的分布式存储系统,将数据存储在一些分布的、网络互联的节点上,最终形成一个一体的命名空间。这一类文件系统是中心化的分布式文件系统,有一个集中的控制节点,整体是树状结构;

另外一类文件系统是去中心化或者说P2P的文件系统。这类文件系统是一个网状结构,没有中心控制节点。

IPFS就是一个典型的P2P的文件系统。它跟传统的HTTP网络七层协议一样,它底层有网络层、路由层、交换层以及典型的属性存储结构。网络层采用存储结构,实现了按内容去搜索。在IPFS里面比较核心的是共识协议,采用存储量证明、可能性证明、可检索性证明,是对区块链系统的可扩展性的补充。

2、分布式存储系统的发展历程

分布式存储的发展历程要追溯到1983年。整个分布式文件系统的发展,无论是中心化的分布式文件系统,还是去中心化的P2P的文件系统,发展过程是不断交叉的,可能在这一时期集中型的文件系统占优势,下一阶段可能就是去中心化的点对点式的文件系统占优势。各个阶段的分布式存储项目盘点如下:

1983年,AFS。由卡耐基梅隆大学开发出文件系统AFS。这个系统分布在网络上的不同节点,具有分布式跨平台,高安全性等特点。

1995年,Zebra。用于大规模并行系统上的分布式系统,采用了分区分片的技术,技术上有很强的可靠性,这类文件系统主要是用在一些高密度计算任务上。

2000年,Oceanstore。一种点对点的分布式文件系统,可以在全球部署,具有很强的网络穿透能力,在不同的子网络间互联,但这个文件系统没有用到当前的区块链激励制度,参与者自愿去贡献存储空间。激励的缺失导致底层的基础设施不稳定,缺乏保障。

2003年,GFS。它是一个集中式的文件系统,需要有一个主控节点去管控整个集群的任务的调度、数据的分布。

2005年,XrootD。这个项目是构造一个全局的或者是叫全球的文件系统。这类文件系统没有实现它底层的细节,只是把不同的文件空间做了一个关联,每一个机器都有自己的文件系统,不同的文件系统之间没有用协议去互联,只是用不同的文件系统做一个代理映射,挂到不同的节点上,然后串起来形成一个统一的空间。

2006年,HDFS。这类文件系统它有一个很大的好处,它可以跑在廉价的硬件上,有很强的可靠性和容错的一个措施。

2014年,IPFS。这类P2P的文件存储协议问世,主要是用来做归档存储,可能大家一年或者是很久不访问的数据会丢在上面,很快的完成文档的存储和检索。

伴随着互联网技术以及硬件的发展,分布式系统的出现、演变一直未曾止步。随着数据量的剧增,对于分布式系统的稳定性、可拓展性、安全性要求也越来越高。

3、分布式存储系统的关键问题

当前的分布式存储系统主要是沿着P2P文件系统方向发展。每一个P2P文件系统都会牵扯到一个基本原理:数据与存数据的节点之间,需要做一个哈希映射,大家存到一个哈希空间里面,数据跟节点的ID都在一个存储哈希空间里,节点与数据分在不同类型的拓朴结构上(环状或树状),最后将节点接入网络,把数据存在对应的节点上。最终实现按数据的文件路径访问,而不是按地址访问。

分布式系统里边需要考虑这样几方面的问题:容错性,可扩展性,安全性、稳定性、效率等等。在实现文件系统的时候,大家要考虑这样几个问题:

1、  服务器如何设计?设计成有状态还是没有状态的,这个关系到系统的稳定性;

2、  系统要有一些基本的文件语义,怎么打开文件,怎么处理文件锁?

3、  容错问题。如何保证数据的一致性或者可靠性呢?

4、  文件检索的效率问题。一般的做法是检索者在存储网络上依据内容挨个检索节点,先找到某个节点,再找它的邻居,但这样效率太低。需要一套高速的解决方案,提升检索效率。

4、分布式存储的展望

基于硬件的资源利用主要是计算与存储。计算大家可能听得比较多,主要边缘计算,雾计算,甚至华为提出来的无边界计算。

相对于计算,存储也有类似的概念。目前比较常见的几个概念是云存储,集中化存储,无边界存储。所谓的无边界存储,是指数据存在各种各样的设备、数据平台和存储系统里面。据预测,到2020年,全球智能物联网设备将达到200亿台以上,海量的智能设备意味着巨大的算力资源以及存储空间资源将处于闲置,如何充分管理、利用这些闲置资源,将是一个想象力巨大的市场。

当前比较火的IPFS能否为以上闲置内存资源,提供可靠、稳定的技术支撑,值得期待。

对于分布的计算力资源,又该如何充分利用呢?目前全球范围内,布局分布式计算的公司屈指可数,谷歌、IBM等行业巨头在这一领域的默默探索,同时他们的技术也遥遥领先。

星际鑫航立足于IPFS产业,致力于为行业提供分布式存储落地解决方案,目前已开发出硬件资源统一管理和监控的操作系统Sarah OS,其介绍以及功能特点如下:

你可能感兴趣的:(IPFS大咖谈(一)| 分布式系统模型及关键问题分析)