大数据部署方案研究比较总结

1 套装软件搭配自组硬件

  目前包括Hadoop、Greenplum以及Aster Data都有纯软件产品以及软硬件整合的一体机产品,如果企业选择以纯软件产品,虽然具有可以自由搭配硬件的优势,但却也相对挑战企业的技术能力,因为软件的数据处理效能是否可以充分发挥,往往与所搭配的硬件规格、平台架构以及系统调校有关

  一般来说,企业在评估数据处理平台时,如果选择采用软件型态的解决方案,通常都具有强大的系统架构规画能力与维护能力。不过,台湾有家晶圆公司为了解决大数据问题,1年多前开始寻找各种软硬件的大数据解决方案,最后则决定以Hadoop搭配x86架构,作为发展大数据处理平台的主轴。然而,在第一阶段的概念验证结束后,这家晶圆厂商公司小规模试行,并且部署了10~20台服务器,却发现数据处理效能不如预期,理论上,以Hadoop架构可以几分钟完成的数据量,最后却花费了1小时,其中的关键在于企业IT人员对Hadoop技术的掌握能力不足,以致于造成MapReduce程式与HDFS、Linux相互争夺硬件资源,最后导致当机。

2 软硬件整合的一体机

  相较于软件解决方案的技术门槛,以硬件形式推出的一体机,不仅同时具有软硬件整合的优势,更重要是,系统效能调校也已经做到最佳化,对于企业来说,采用一体机可以大幅节省部署大数据处理平台的时间,后续的维护也比较轻松,不过,一体机通常会配置比较贵的硬件,因此,成本效益的考量仍旧是企业必须斟酌的地方。

  目前IBM、Teradata、惠普、甲骨文、精诚资讯Etu以及EMC都推出了大数据一体机产品。不过,各家厂商所采用的数据处理技术是否具有开放性,将是企业未来面临扩充时能否无痛转移的关键。以EMC的产品来说,虽然是采用MapReducer的理论来做分散运算,但储存技术是来自EMC的MapR File System,而非Hadoop的HDFS,因此,虽然可以横向扩充,但储存技术就必须依循EMC的发展。

3 采用云端巨量分析服务

  然而,从企业的角度来看,大数据处理平台并非一定得要通过软硬件厂商取得,在美国,有不少企业的大数据处理,是部署在云端架构系统环境上,目前这个领域主要的服务供应商有Amazon,Amazon的云端服务AWS,总共有20多种服务,其中的EMR(Elastic MapReduce)服务,可以让企业省去部署Hadoop丛集的工程,企业只需要把MapReduce程式,载入到EC2(Elastic Compute Cloud)虚拟机器执行EMR来运算即可。国内有阿里云、腾讯云、华为云、京东云等。


讨论:

国内云服务器测试http://www.idcps.com/News/20121017/45590.html

你可能感兴趣的:(数据)