存储领域基于场景的技术创新案例分析

因为物理规则的存在,性能瓶颈永远存在,但我们可以尝试绕开它。硬件的性能有极限,我们就把计算和存储任务分配到多个硬件上,这就是“分布式”;硬件系统太复杂不好管理,我们就打包出一个可以应用在任何硬件上的、不变的环境,这就是“容器”;传输速度有极限,我们就让服务端尽可能靠近客户端来缩短传输时间,这就是“边缘”。无论是分布式、容器、还是边缘,刚被提出来时都是为了解决某个具体场景的具体瓶颈,而随着这个技术的发展,人们会渐渐发现他们适用的其他场景,最后形成通用的解决方案,比如分布式最开始是由谷歌提出,用来解决搜索引擎业务中计算与存储的瓶颈问题,这是一个普适性问题,所以引起了其他组织的关注,并形成了Hadoop、Spark等开源项目,随后又衍生出了众多商业产品应用于新的场景,并诞生更多问题去优化,形成需求与技术互相驱动的正反馈。如今,分布式的应用已经扩散到所有和信息技术相关的行业,几乎每天都有新的论文发表,远超最初的搜索引擎行业的范围。

随着互联网深入生活的方方面面,企业需要处理的数据更多的来自外部而非内部,基于数据驱动的商业模式,平台主导着数字经济的发展。作为数字经济的中介和基础设施,在平台上的互动会产生数据,平台又能对这些数据进行收集、分析和使用,进而实现价值创造。平台覆盖面越大,上传的物理范围和数据总量就越大,由此我们需要思考海量数据从四面八方高效上传的问题。一个应用开发者要存储数据,方案之一是把数据存在某一个资源池,比如放到上海,靠近华东地区的体验是比较好的,离华东比较远的用户体验就相对较差。方案之二是自行调度,选择几个资源池分布在全国范围内,东北地区放在长春,华北放在北京等。这种情况下,作为应用开发者,当终端发起请求时首先要找到平台,平台根据发起请求的位置,再将离终端最近的资源池返回给终端,最后终端才开始访问资源池,如此一来,终端和平台之间增加了延迟。同时要自己维护这种关系,当数据量很大的时候,维护的成本和难度是很高的,针对这个问题,我们需要一个能就近写入数据的解决方案。

提到“就近”这个词就容易联想到内容分发网络CDN,但CDN是由上到下的分发数据,我们需要一个与CDN类似却相反的概念。中国电信天翼云的存储研发团队提出了一个新的概念叫做“内容存储网络”(Content Storage Network,简称CSN),用户就近写入的数据,可以即时在任何一个CSN的资源池读到数据,如果说CDN是一种“为下而生”的网络服务的话,那么CSN就是一种“为上而生”的存储网络,它能够让用户总是能够就近存储数据,同时使得你可以从任何资源池读到数据,而且保证强一致性。中国电信天翼云存储产品线,自研了底层的文件系统、分布式存储引擎,到上层协议,负载调度、管理监控平台等技术,实现了CSN存储网络,其核心技术是分布在广域网上的全局元数据环服务,逻辑上单一的一张表在物理上分布存在于不同的机房,从而可以就近提供访问服务。所有的读写请求都会就近访问离用户最近的机房,数据在本地直接返还给用户,或者通过专网从其他地方拉过来给用户,比走互联网要快,因此可以获得最好的延迟。

如今,这张具有中国电信特色的内容存储网络已经建成并得到广泛应用:一方面已经做到可以高效管理数量众多、规模巨大的资源池集群;另一方面通过对象存储OOS在扩展性、执行效率方面的精巧设计,以及在资源池之间搭建的“高速通道”,让每个用户从不同的资源池看到同一个视图,获得极致的访问体验;最重要的,它解决了在相隔数千公里的多个资源池之间,容忍大网的抖动,保证数据的一致性的同时,提供极低的延迟;之后,内容存储网络的提出者,中国电信集团云计算首席专家江峰,计划进一步在灵活的数据调度算法和能力上寻求进一步的突破,目前,oos的服务可用性已经达到超99.995%/周的水平,在行业内是领先的,为诸多国际、国内客户关键核心业务提供了强有力的技术支撑。这就是海量数据从四面八方高效上传的业务需求促进分布式元数据环等技术发展的例子。

随着CSN在全国范围大规模铺开,接入CSN的场景多种多样,又诞生了新的需求。有些企业研发能力不足,无法合理地使用CSN提供的API和SDK;有些企业有把数据存储在本地的需求;有些企业希望在云和本地做数据冷热分层;有些企业希望把自己已有的硬件更加高效地利用起来等等。面对这些场景,我们需要的是一个支持块设备、帮助数据实现冷热分离、可以承载其核心业务生产数据的高可用应用,于是,我们研发了存储资源盘活系统。存储资源盘活系统方便用户将本地数据轻松上传到CSN中,实现存储空间的弹性扩展。存储资源盘活系统作为本地与云端存储之间的桥梁,通过标准 iSCSI 协议提供块存储服务,帮助用户将全量数据自动同步到CSN中,本地仅保留热数据以节省本地存储空间,或者保留全量数据以保障本地 I/O 性能,实现混合云存储。同时,存储资源盘活系统也可以将通用服务器及其管理的存储资源转换成高性能的虚拟存储阵列,承载企业核心业务数据。海量数据从四面八方高效上传的业务需求促进了分布式元数据环等技术发展,由此诞生的CSN创造了更多场景,进一步产生了存储资源盘活系统,而这两者如今都是存储领域的重要概念。

你可能感兴趣的:(存储,架构)