什么是大数据?IDC的权威定义为:满足4V(Variety, Velocity, Volume, Value,即种类多、流量大、容量大、价值高)指标的数据称为大数据。IDC对大数据技术的定位为:通过高速捕捉、发现和/或分析,从大容量数据中获取价值的一种新的技术架构。大数据主要涉及两个不同的技术领域:一项致力于研发可以扩展至PB甚至EB级别的大数据存储平台;另一项则是大数据分析,关注在最短时间内处理大量不同类型的数据集。这两个论题已经被充分讨论,这里不准备再作讨论,而是换个角度思考一下大数据,事实上可能与大数据存储平台更相关一点。这些需求或者思考,或源自用户模糊的需求,或源自存储同行的交流讨论,还有一些源自存储实践中的感悟。
1、数据备份
信息作为现代企业的核心资产,一旦发生数据损坏或丢失,小则带来不同程度的经济损失,大则关系企业生存。因此,现在企业对重要数据备份都不得不高度重视。在大数据之前,企业需要备份的数据量通常在GB级-数十TB级之间,上百TB的数据量的企业非常之少。这些数据往往都是Oracle/DB2/SQLServer等数据库的结构化数据,以及FTP/CIFS/NFS等文件共享服务的非结构化数据,目前诸如Symantec/Falcon/CommVault/EMC/Eisoo等公司的备份系统都可以很好地满足普通的备份需求。然而当遇上大数据,它们是否仍然可以满足备份需求呢?大数据容量很容易达到数十TB级以上,数百TB甚至PB级的案例也不再鲜见,而且这些数据种类多、流量大,都是新增数据。从备份技术角度看,全备份/增量备份/差异备份的备份窗口会很大,CDP的并发I/O捕获和处理能力要超强,否则大量数据都来不及备份。从备份数据量看,备份所需要的存储空间至少生产数据量的一倍以上,这个成本是巨大的。还有重点的一点是,大数据通常都是分布式采集、存储和处理的,实现统一的数据备份对备份系统是个技术挑战。或许,大数据天然不合适采用备份技术,而需要由存储系统本身的机制来解决,诸如多版本(multi-vesion)、写新地址(Write Any Where,可实现自然的快照)等。
2、长期存储
信息有生命周期,金融/商业/财务/通信/法律等很多数据都需要遵从法规保存相应年限,一些重要的科学实验数据和历史资料甚至要永久保存。大数据作为现代企业有重要价的资产,长期保存基本都是必要的,比如10-20年甚至永久。长期存储,看似很简单的事情,实际上有很多问题需要解决。几百个TB或者PB级的大数据,假设是非活动的历史数据,采用什么介质进行存储?磁盘,磁带,还是光盘?采用离线还是近线方式?如何监控巨大数量存储硬件设备的状态?采用什么方法来保证海量数据的完整性?如何发现长期存储中的问题并修复?需要的时候如何简便快速地查询和获取数据?另外,还需要考虑存储所占用空间和能耗问题。面对这些问题,我们就会发现大数据长期存储也是一个很大的挑战,一方面需要提高存储介质的持久性、智能性、可靠性等,另一方面需要信息生命周期管理系统进行完善的管理和监控。
3、数据查询
数据访问是存储系统最基本的功能之一。传统的数据访问方式,都是根据文件名来定位和访问数据。文件名标识具有一定的表意性,但非常不足,很难通过文件名对数据本身的内容和特征进行理解。这种查询访问语义非常差,需要用户给出准确的文件名,否则就无法进行定位和访问。随着文件数量的不断增加,它将给用户对数据的访问带来很大的困难。现实世界中,人们主要根据事物的特征记忆和区分不同的事物,而非简单的名字。在实际应用中,如果能够提供基于文件属性和内容的数据访问方式,丰富的语义将会极大地增加数据的表意性,从而大大方便用户的使用,提高数据访问效率。Internet中,用户在Web 搜索引擎(如Google,Baidu)中输入内容关键字就可以查询到自己想要的数据。数据库系统中,使用SQL 语言查询记录,可以指定相关条件对查询记录进行筛选。由此可见,与传统的数据访问方式相比,基于数据内容和属性的数据访问方式具有很强的语义,能有效提高数据定位和访问效率,可以很大程度上降低用户的使用复杂性,适合于各种数据存储系统,尤其是分布式存储系统。目前,自然语言处理和WEB语义网络都有了长足的发展,大数据管理中如何能实现基于语义的数据访问方式,不仅可以提高了查询效率,而且符合人们的思维模式,能够提供更加友好的数据访问界面。
4、绿色归档
由于法规遵从或长期存储的需要,数据根据生命周期管理需要进行归档处理,采用方法有磁带归档、磁盘归档、光盘归档、CAS系统归档等。大数据数据量大,如果采用磁盘介质进行归档,磁盘数量会很多,正常工作下能耗也是相当可观。为了降低能耗实现绿色归档,同时有效延长磁盘使用寿命,需要考虑相关高效存储技术,包括MAID、SemiRAID、数据压缩、重复数据删除、自动精简配置等。这些技术主要从两个方面着手,一是精减数据量以减少磁盘介质达到降低能耗的目标,如数据压缩、重复数据删除、自动精简配置,二是控制磁盘介质状态(高速、低速、停止)或减少活动磁盘数量来实现降低能耗和延长寿命,如MAID和SemiRAID。SNIA相关组织专门研究绿色存储技术,包括提到的上述各种技术。
5、统一存储
大数据种类多,涵盖了结构化数据、非结构化数据以及对象数据,分别采用数据块接口、文件接口和对象接口进行访问。目前的大多数企业还没有将三者统一起来,采用不同的存储系统来管理这三类数据,在大数据快速增长的压力下,带来存储利用效率低、管理复杂性高、成本不断提升、资源整合程度低等一系列问题。在这些因素驱动下,统一存储概念得到复兴,SAN/NAS统一存储得到各大存储厂商推崇并相继推出产品,对象存储也有望被一同整合到统一存储中。如此一来,就可以使用统一的存储来管理大数据,统一规划和整合资源,提高存储资源利用率,简化管理和降低总体成本。
6、存储介质寿命管理
大数据存储系统具有成千上万块磁盘很常见,可能包括FC、SAS、SATA磁盘,还有可能包括SSD固态硬盘和磁带等存储介质。这么大数量的存储介质,每天坏上一两块盘的概率是非常的,不可控制的故障发生会影响前端大数据应用。存储介质的使用年限都有标准,可以基于此进行存储介质寿命管理,结合实际环境进行适当调整,并根据存储介质运行状态进行分析和故障预测。当存储介质使用寿命即将到达,或者预测到故障即将发生,则主动通知管理员对存储介质进行更换,之后有系统自动进行数据重建。如此,可以有效降低存储介质发生故障的随机性,增强故障的可管理性,再结合人为的调度,就可降低或者避免故障发生对大数据应用的影响。
7、磁带存储
一直都有人在预测磁带已死,不过可惜的是,直到目前这个预测还没有成真。相比磁盘,磁带具有成本、寿命、能耗等特性和优势,另外磁带技术本身也在不断发展,比如新一代LTO5的磁带写入速度达到180 Mb/s,未压缩容量提升至1.6TB,保证磁带仍然是最适合做为长期的数据归档保存之用,这些特性是磁盘所无法取代的。关于磁带在大数据中的使用,最为典型是做数据归档,比如上面谈到的长期存储和绿色归档,这里面的数据基本不会被访问。另外还有一种形式是分级存储HSM,磁带、磁盘、SSD固态硬盘、内存形成四级存储,数据按照活跃程度在不同级别存储介质之间流动,以实现较高的性价比。HSM中位于磁带的数据会被访问,只是频率和概率非常低。由于磁带自身的优势以及不断发展,它可能不但不会消亡,反而会在大数据时代重获新生。