近年来,星际文件系统IPFS(InterPlanetary File System)的数据检索速度一直是去中心化存储及检索领域的一大痛点。不过近期在国际通信网络领域顶会SIGCOMM上发表的一篇论文,有望打破了这个困扰区块链存储领域多年的技术「瓶颈」。
利用ICN和NDN网络来加速IPFS的数据检索速度
2019年9月24日-26日,SIGCOMM在中国澳门圆满落下帷幕,这是由美国计算机协会ACM(Association for Computing)联合思科、华为、英特尔等国际顶级网络设备厂商一起举办的一场通信网络领域的旗舰型会议。ACM包含多个专业组织,而美国计算机协会数据通信专业组SIGCOMM(Special Interest Group on Data Communication)仅为其中之一。
但是SIGCOMM有非常重要的一个特点,该组织对论文的质量和数量要求极高。该顶会入选的论文不仅要做出基础性的贡献,同时还要拥有领导性的影响力和坚实的系统背景,而且在数量方面,SIGCOMM每年只会录用30篇左右的会议论文,其录取率仅在10%左右。当然基本上所有被SIGCOMM录用的论文都会被广泛引用,因此,能在SIGCOMM顶会上发表论文,对所有通信网络领域的研究者来说,都是无上荣誉。由此可见,该项技术必然会对区块链存储领域带来一场巨变。
2019年9月25日下午,来自来自伦敦大学、加州大学洛杉矶分校、日本大阪大学的8位计算机科学家发布了关于全新的IPFS数据检索方案的论文得到了分布式存储行业学者和专家的关注,该论文指出——运用NDN技术实现的IPFS数据检索能力将提高20倍以上。
去中心化存储及检索将是未来行业和科技的发展方向
在这篇顶会论文中,8位作者先从互联网的视频内容分发需求入手,从而引入了对P2P存储和检索领域的思考,他们一致认为,以IPFS为代表的以去中心化存储及检索将是未来行业和科技的发展方向。
此外,作者们分别从专业的角度比较了IP网络和ICN/NDN网络在P2P检索方面的性能差异,并指出了IPFS在数据检索性能方面存在的不足,并提出了一种基于满意兴趣表(Satisfied Interest Table一种算法)的自适应路由算法,该算法可将现有IPFS网络的检索速度提升数十倍。
最后的总结部分,作者们阐述了未来需要做的准备工作,他们希望能进一步将区块链技术和NDN技术进行融合,最终推动区块链存储领域技术的全面革新。
在过去五年里,全球IP流量突然增加了三倍,而流量增长背后的核心动力就是大众对视频内容的急速需求。权威数据表示,到2021年,视频需求数据量还将再次翻倍。现在,众多的内容的生产者,严重依赖CND厂商将其内容分发给更多的终端用户,虽然越受欢迎的内容生产者愿意支付更多的流量分发费用,但这些内容生产者普遍希望能够降低这部分成本。
从另一方面来讲,目前CDN市场的竞争愈发激烈,大型CDN公司的网络和硬件成本非常高昂,同时CDN服务本身利润较低,利润来源主要依靠附加服务。在这种背景下,点对点网络就具备了无可比拟的优势。
总的来讲,点对点网络可以通过附近节点的存储设备来检索内容,从而降低整个网络的负载。并且点对点网络具有自我增强的能力,内容越流行,就有越多的节点在缓存内容数据,从而将存储数据的成本变得很低。不过当前的点对点网络主要用在大型文件的下载上,还没有普及到一般用户群中,一定程度上点对点网络具备一定商业潜力。
在点对点网络的概念之上,业界进一步发展出了分布式存储的概念。
分布式存储提供去中心化的数据存储和数据检索能力。分布式存储基于分布式账本和密码学新的协议和机制,通过共识机制和加密数字货币的方式,向资源的提供者提供一定的奖励。并且在分布式存储中,可以通过多方参与的可验证市场的方式,帮助市场的参与者就有用资源的贡献度达成共识,从而让多方受益。
随着互联网业务需求的不断发展,内容数据已经是当今互联网流量最大需求方,在这样的背景下,传统的TCP/IP架构的以主机寻址为核心的架构设计,在当今内容为主要流量的需求下,逐渐暴露弊端,自2010年起,不同于TCP/IP的以内容为中心的网络(ICN)架构设计逐渐在科研界出现,并获得了大量高校企业和政府的支持。近年来以NDN、CDN为代表的开源科研项目是其中的代表。
而IPFS星际文件系统,就是一个类似于ICN和NDN网络的、以内容为中心的设计。该系统通过内容标识符的自认证内容哈希,以及人类可识别的命名映射的方式,将内容的CID映射到主机。另外,IPFS通过BitSwap协议提供数据块的传输服务,并且通过FileCoin来对资源提供者发放奖励。
在论文中,作者们设计了一个实现,来验证单纯的IPFS系统和启用了NDN网络的IPFS系统在视频数据传输方面的性能差别。
上图是实验中的一些参数设置,其中用来做实验的是一份有10分钟长度、清晰度为480P的视频文件。论文采用了NS-3来运行IPFS的产品模式,NDN采用NDN SIM的客户端,其中路由缓存功能暂时未开启,NDN的三种转发策略分别是:ASF、NCC和Best route strategy。
最终论文的结论是:单纯的IPFS系统检索性能比较低,主要是由于IPFS采用的的DHT技术存在寻址慢的问题,并且BitSwap协议的传输效率太低,在传输大型的文件时还会通过不同的节点同时传输重复的文件碎片,带来一定的损耗。
对比数据显示:基于NDN的IPFS对比普通的IPFS,寻址性能有着二十倍的提升;而且基于NDN的IPFS对比普通的IPFS,吞吐量也有着20倍左右的提升。
论文作者认为,构建在现有P2P分发网络的ICN/NDN通信协议是非常有价值的,它们通过采用自适应状态转发,利用SNAMP保证名字空间的安全,利用SIT路由去寻找网络同一区的内容的方式,确保NDN网络比IP网络的效率更高。另外,Filecoin/IPFS的激励机制和自认证命名在基于ICN/NDN的网络也是可用的。IPFS网络中内容Hash可以是NDN层级结构命名的一部分。
总结
在当前的互联网中,大规模的内容交付例如视频点播(VoD)需要大量投资大型分布式基础设施。而内容提供商(CP)通常求助于第三方内容分发网络(CDN),或者自建一套昂贵的内容交付基础架构,以应对高峰需求并维持足够的服务质量(QoS),而互联网服务提供商( ISP)需要为其网络过度配置。
根据论文中的阐述,业界在改进IPFS系统的方向上迈出了第一步,该方案使用用户的存储空间作为CDN缓存,并以足够的质量(即类似CDN)来交付内容,同时在内容检索市场中奖励用户的资源使用。作为此类系统的可能候选者,作者们考虑了最近的P2P存储和交付系统,这些系统采用了新机制,例如奖励有用的工作(例如存储),同时通过密码证明确保公平性和问责制。
在本次受邀的演讲中,论文作者介绍了对流行的星际文件系统(IPFS)进行了试验,并研究了其在ISP内部本地交付VoD内容的性能。他们的研究结果表明,运行IPFS(在IP之上运行)存在性能限制,并通过ICN网络层进行补充可以显着提高交付质量。然后,他们提出并比较了几种用于ICN的转发策略,这些策略可以有效地完成路由请求,并平衡具有有限上行链路资源的对等方之间的负载。
随着将ICN/NDN技术应用到IPFS之中,去中心存储领域必然将迎来一场全新的技术革命。