Hadoop+集算器共同实现去IOE



什么是IOE?I=IBM,O=Oracle,E=EMC。他们代表着典型的高端数据库、数据仓库架构体系,如高端服务:HP、IBM、Fujitsu,高端数据库软件,Teradata,Oracle,Greenplum,高端存储设备:EMC,Violin,Fusion-io。


以往,这种典型的高性能数据库架构还是中大型企业的首选。它们运行稳定、性能出众,在信息化程度不高、企业应用简单的时代非常流行。但随着近几年信息爆发性增长和企业应用的多样化复杂化,去IOE的呼声逐渐成为主流,一大批企业实施了减少乃至完全取消高端数据库的计划,这其中包括Intel、阿里巴巴、AmazoneBayYahooFacebook

信息爆发性的增长意味着存储空间需求的快速增长,应用的多样化、复杂化意味着计算压力和并发访问的快速增大,更快频率的升级是唯一应对之道,而IOE的升级成本之高,已经越来越成为企业管理者沉重的压力。很多情况下,企业即使付出了高昂的升级成本,仍然要面临响应缓慢、高负载率的痛苦。这就是去IOE的根本原因。

Hadoop,是被企业管理者们给予厚望的去IOE解决方案。

它支持廉价桌面级磁盘,可取代IOE的高端存储介质。

它的HDFS文件系统,可取代IOE的磁盘柜,磁盘阵列所提供的数据冗余安全。

它支持廉价PC,可取代高端数据库服务器。

它是开源软件,无需为CPU数量、存储空间、用户许可协议支持额外的软件费用。

它支持并行计算,可进行低成本的横向扩容,可将计算压力、存储压力均衡分担在多台廉价PC上,付出较低成本就可以使存储空间、计算性能、并发数量远远超过IOE。这就是Hadoop被寄予厚望的原因。


IOE有一项优势是Hadoop无法完全具备的,那就是数据计算能力


数据计算是企业数据中心最重要的软件功能,在信息爆炸和竞争日益激烈的今天,业务逻辑复杂的数据计算已经是常态的,尤其是在一些重要的应用如企业决策、流程优化、绩效测算、时间控制、成本管理等。事实上,那些高喊去IOE的企业,大都不得不保留着相当部分的IOEHadoop计算能力的短板,使它仅仅用于计算简单的ETL、数据存储及查找,真正大规模用于业务数据计算的应用却非常困难。


集算器能够提供企业级数据库的计算能力,与Hadoop无缝配合可以充分发挥其优势,真正帮助企业实施去IOE


集算器是专注于增强Hadoop能力的纯JAVA并行计算框架。它可以通过JDBC访问Hive,也可以直接读写HDFS。它拥有完备的数据计算体系,尤其擅长业务逻辑复杂的、需要存储过程才能完成计算。


集算器可以理解为一种类似R语言的动态集合式语言,并在内核提供了对分布式并行计算的支持,程序员可在享受类似R语言的简捷语法的同时获得并行计算的高效。它专为数据计算而设计,专为数据处理而优化,对于复杂的分析类业务,其开发效率和计算性能都超过当前Hadoop下的解决方案


集算器支持专业的数据脚本语言,它支持真正的集合数据类型,易于用户从业务角度设计算法,可轻松实现用户的复杂业务逻辑。另外,它还支持有序集合,可以自由地访问集合的成员并进行和序号相关的计算。集合的集合可以轻松表达复杂的分组形式,比如等值分组、对位分组、枚举分组。用户还可以像操作对象一样操作数据集中的单独记录。它的脚本是书写在网格中的,无需定义即可引用中间计算结果,它的代码编辑和调试功能完善。


Hadoop+集算器,可以充分弥补Hadoop的短板,使Hadoop真正能够替代IOE的绝大部分功能,同时计算性能大大提高。


http://blog.sina.com.cn/s/blog_e4de31d00101el4y.html

你可能感兴趣的:(hadoop,集算器,去IOE)