大数据解决方案背后――开放架构才是未来

摘要:大数据的浪潮有多迅猛?IDC在2006年估计全世界产生的数据量是0.18ZB(1ZB=100万PB),而今年这个数字已经提升了一个数量级,达到1.8ZB,差不多对应全世界每个人一块100多GB的硬盘。这种增长还在加速,预计2015年将达到近8ZB。就目前来看,大数据处理正面临三大瓶颈大容量、多格式和速度,而与之对应的解决...
大数据的浪潮有多迅猛?IDC在2006年估计全世界产生的数据量是0.18ZB(1ZB=100万PB),而今年这个数字已经提升了一个数量级,达到1.8ZB,差不多对应全世界每个人一块100多GB的硬盘。这种增长还在加速,预计2015年将达到近8ZB。就目前来看,大数据处理正面临三大瓶颈――大容量、多格式和速度,而与之对应的解决方案也被提出,那就是扩展性、开放性和下一代存储技术。
容量――高扩展性
数据正从TB级扩展到PB级甚至EB级,人们和机器制造的越来越多的业务数据对IT系统带来了更大的挑战,数据的存储和安全以及在未来访问和使用这些数据已成为难点。
那么,未来的系统架构应当是怎样的呢?传统系统架构,无论是较早的Monolithic还是现在的Modular架构,都基于Scale-up设计,这种传统模式不可避免的让存储系统会遇到性能瓶颈问题,存储系统必然会出现性能拐点。加上现在的信息环境决定了用户数据量处于一个快速增加的状态,用户对功能和扩展性方面的需求愈加强烈。传统存储架构物理组件和逻辑约束等方面有其上限(比如磁盘数量、服务器数量、缓存大小、控制器数目等),决定了Scale-UP架构有其巨大的局限性。
因此,面对大数据,具备高扩展性的Scale out架构已是必然的需求,越来越多的企业都开始采用开放架构,并用Scale―out储存加VM on x86环境实现服务器整合。
目前EMC已经把经营了多年的传统高端Symmetrix DMX系列的核心软件迁移到了开放式硬件平台上,CPU从PowerPC变成了Intel x86,并推出了新一代Scale-Out高端存储系统Symmetrix V-Max;HDS也将其传统高端存储USP V也迁移到了开放硬件平台,变身成了VSP存储系统。这也说明Scale-Out架构将在未来存储系统中扮演着越来越重要的角色。
多格式――开放性
大数据包括了越来越多不同格式的数据,这些不同格式的数据也需要不同的处理方法。从简单的电子邮件、数据日志和信用卡记录,再到仪器收集到的科学研究数据、医疗数据、财务数据以及丰富的媒体数据(包括照片、音乐、视频等)。
对系统架构而言,处理不同的数据需要不同的软件,此外,如果将系统锁定在某个厂家上面,会给后续的扩容带来很大的困难。
事实上,现在无论在服务器还是存储方面,采用传统的RISC架构的产品都无法具备良好的扩展性,而像X86服务器、集群NAS、集群存储产品都具有高度的可扩展性,能够很好的满足私有云对扩展空间的弹性需求。比如说,EMC、VMware、Cisco联合推出的Vblock产品,就能够帮组用户实现灵活多变的弹性需求。因此,弹性化用户实现按需添加或减少IT资源、架构灵活多变的私有云环境的一个重要标志。
而在生态链的营造上,开放架构的优势进一步体现出来,在基于开放的X86架构上用各种开源软件构件未来的大数据处理架构已经成为架构师们得共识,由于x86平台的开放性和庞大成熟的软件生态圈,因此基于英特尔的X86服务器所具备的平台优势和潜力将超过以往任何一款平台。这也是现在各种开源软件比如Hadoop、MongoDB、Redis、Xen等如此受到系统架构师欢迎的原因。
速度――下一代的存储技术
这个速度主要是指数据从端点移动到处理器和存储的速度,当企业开始越来越多地运用虚拟化在大数据架构中后,运算密度会大幅提升,系统I/O的负担就会越来越重,而SSD硬盘则成为解决这个问题的一个新方法。
实际上,服务器搭配SSD硬盘不足为奇,Intel、EMC、 NetApp等厂商正在研发的服务器I/O加速技术,可说是把分层存储架构更进一步推至服务器端,把存储设备的快取放到服务器里,并且使其成为存储设备可管理的一部分,如此让存储设备的快取能更接近处理器运算核心,以获得整体能效的提升。
当然,可擦写次数一直是SSD盘的硬伤,不过对此已经有很多技术实现来解决这一问题,以英特尔HET系列为例,其融合了NAND闪存在芯片上的改进和独一无二的固态硬盘NAND管理技术,可延长基于MLC的固态硬盘的写入耐用性。由英特尔开发的固件、控制器和高循环NAND组成的盘阵足应对24/7全天候数据中心或科学、金融以及其它高密度使用模式中的繁重数据处理和写入负载。英特尔固件的增强特性则包括经过优化的错误避免技术、减少写入放大的算法和超越业内常见的错误检查与纠正(ECC)标准的系统层错误管理。
转自CSDN

你可能感兴趣的:(大数据,存储)