IT168记者有幸采访到了VMware高级经理王蔚东先生,其2012年加入VMware公司,负责虚拟化和云计算领域中数据存储、管理及利用的咨询和解决方案。在数据仓库、大数据及数据分析有多年的经验。

Hadoop在国内发展进入快速增长期

  Hadoop是一项开源技术,目前网络上大概有上千个论坛、社区,技术门槛也比较低。据王蔚东介绍,从2008年开始,很多国外的互联网企业就开始采用Hadoop,目前,也有很多传统企业开始部署Hadoop, 比如AT&T、沃尔玛等。

  “目前在国内,我们知道像淘宝、京东等很多企业已经开始使用Hadoop,而更多的企业也已经开始尝试使用。由于企业对数据的重视度不断提高,市场竞争的加剧,也由于Hadoop及相关大数据技术有了很大的完善,Hadoop服务提供商越来越多,国内的电信、电销、物流等行业的需求非常强烈,Hadoop在国内的的应用会进入到一个快速增长期。”

VMware助力Hadoop与虚拟化结合

  传统虚拟化给企业带来好处已经众所周知,无论是丛IT系统构建,还是从运行维护,乃至运营管理,我们都实实在在地感受到它的好处。“Hadoop被用来解决企业大数据的问题,我过去看到,大多数的应用场景是单独建立一个x86服务器的集群来跑map/reduce任务,随着数据量和数据查询分析任务的增加,服务器的数量也要不断增加。这时,就带来了一系列新的问题,首先这个Hadoop集群需要有IT人员来专门维护和管理,其次,我们知道日常Hadoop任务是会有波峰波谷的分布,往往是某一时段,任务会比较密集,机器的CPU、IO和存储会非常繁忙,而其它时间,机器就比较空闲,存在资源浪费的情况。”王蔚东表示。

  由此,很多使用和尝试Hadoop的企业,就希望能够把这样一个越来越大的Hadoop集群放到自己的云平台里,能够统一管理和使用。除此之外,我们知道,Hadoop本身是一项开源的技术,虽然入门容易,但是要大规模企业级应用,还存在非常多的困难。比如安装部署、Fix Bug、升级等等,即使目前有一些Hadoop的商用版,可以提供部分的现场服务,但是也会导致使用者的整体拥有成本大大增加。

  据王蔚东介绍,目前VMware就是要解决这个问题。据了解,从2012年初, VMware就与Apache Hadoop社区展开合作,开始推广一个开源项目—Serengeti,通过把Apache Hadoop节点从底层物理基础架构剥离,VMware可以将云基础架构的优势带给Hadoop,包括快速部署、高可用性、最佳资源利用率、灵活和安全多租户。

  “事实上,很多Hadoop发行版的厂家,都曾提出来Hadoop不适合在虚拟化平台上运行,理由是Hadoop的特点是在本地磁盘上运行,而虚拟化都是在共享磁盘上;而且虚拟机增加了额外开销,在虚拟机上运行Hadoop性能会变慢。”但Serengeti推出后,彻底改变了这些看法。多数人知道Vsphere的工作模式是将数据存储到共享磁盘,其实Vsphere也支持本地磁盘,这完全取决于用户的应用场景。

目前,Serengeti被大量下载和试用,并获得了广泛的认可。 “VMware决定把它嵌入到Vsphere里,也就是说任何购买Vsphere5.5的用户, 都可以免费获得一个组件,它可以用来部署和管理Hadoop.这个组件叫作 Vsphere Big Data Extension,简称BDE。BDE作为商用软件,在可靠性,性能方面,要远远高于Serengeti。同时,它还支持多数市场上主流的Hadoop发行版, 如MP/R,Cloudera,Pivotal HD,Intel等等。”王蔚东介绍说。

  事实上,尽管Hadoop被证明可以与虚拟化进行结合,但人们不得不担心性能问题。王蔚东表示,由于安装了虚拟机,会占用服务器的一部分内存CPU,会导致系统整理性能有所下降,把Hadoop装到虚拟机上,肯定会带来部分性能的下降,关键是下降幅度有多大。“比如,我们正在为国内一家比较大的企业做POC,他们是VMware的老用户,对虚拟化的了解程度很深,我们在向他们推荐我们的解决方案时,开门见山地提出对性能的担忧,提出了十多项性能测试指标,包括Terasort、K-means性能等。与物理环境的Hadoop比,整体测试结果表明,性能损失基本保持在15%的范围内,一些指标如NoSQL并发、访问、数据的吞吐能力、HIVE处理能力等,都与物理环境的Hadoop十分接近。”

致力于降低Hadoop使用门槛

  据王蔚东介绍说,其工作大部分都与云计算相关,BDE是其工作中比较重要的一部分。“我们的CEO Pat Gelsinger提出了三个战略即软件定义的数据中心、混合云和终端用户计算,在这三个方面,都与大数据有直接的关系。比如软件定义的数据中心,针对于不同的应用场景,我的团队就要提供方案,快速部署和全面管理Hadoop集群。同时我们也在尝试把Hadoop作为一项服务,部署到PAAS层,以降低它的使用门槛,为企业中各类使用者提供灵活可控的大数据服务。”

  Hadoop作为一项技术,目前确实非常流行。王蔚东老师介绍说,国内的开发者和试用的企业已经有了很多了解,搞的比较好的发行版有MP/R, Cloudera;Horntworks;常去他们的网站会得到比较新的知识,另外大家也都别忘了Apache Hadoop社区,上面有最新的进展。目前,国内的开发者和企业, 早已不满足Hadoop的知识学习和研究,更关注Hadoop的具体应用。

  “我们的团队,也在最近推出了自己的博客(http://vbigdata.blog.51cto.com/),里面有我们提出Hadoop虚拟化的概念,技术架构和细节,围绕着Hadoop虚拟化会出现的各种问题,也会有Hadoop虚拟化的应用实践。这里,我欢迎大家到我们的博客上进行交流,在大数据领域和我们共同成长。”


本文内容转载自:http://tech.it168.com/a2013/0917/1535/000001535267.shtml


如有任何问题,您可以发邮件至[email protected]


关于vSphere Big Data Extensions:

VMware vSphere Big Data Extensions(简称BDE)基于vSphere平台支持大数据和Hadoop作业。BDE以开源Serengeti项目为基础,为企业级用户提供一系列整合的管理工具,通过在vSphere上虚拟化Hadoop,帮助用户在基础设施上实现灵活、弹性、安全和快捷的大数据部署、运行和管理工作。了解更多关于VMware vSphere Big Data Extensions的信息,请参见http://www.vmware.com/hadoop