运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析

【编者 Peter Ye 按】

2018-01-22在微信公众号“乐生活与爱IT”上,发表《vSAN支持大数据应用吗?》后,收到了一些朋友和同事的,非常好的提问或反馈。


今天这篇文章《运营商在VMware vSAN上运行大数据应用的案例》可以视为对上一篇文章的回应。VMware不仅支持,而且还有几个国内的案例。


一、提问和答案


例如:Hadoop默认的3副本是否可以在vSAN场景中降到2,以提高容量呢? 我简单查了一下资料,并咨询了一位Hadoop领域的技术大拿。问答如下:


问:Hadoop的HDFS可以通过修改dfs.replication将默认值3,改为2或者1,或者其它值,对吗?

答:可以的,这个是修改全局的,也可以创建文件的时候指定。


问:实际使用中,有没有改成2或者1的? 什么场景改成1,或改成2?

答:这个看用户需求,如果是一些日志型数据不太重要的,可以设成1或者2,如果是存企业里一些历史数据的,默认都用3。

新的HDFS版本,有纠错码技术,可以明显降低空间的浪费

https://www.edureka.co/blog/hadoop-3/#ErasureEncoding 


---


我个人觉得,如果用户为了标准化购买和方便运维和管理,将HDFS运行在vSAN上。由于当前vSAN版本尚未支持vmdk和Hadoop的虚机锁定在同一物理服务器的前提下,为了提高存储利用率,也可以考虑将HDFS的默认副本数3减小。但这个需要用户仔细评估和平衡,因为这可能会影响性能。


二、大数据应用运行在VMwarevSAN上的案例


且不论国外,在国内也已经有些用户了。

1)有一个控股集团,将其电商大数据平台,以及某行业平台的数据分析,运行在Hadoop on vSAN上;

2)有一个电信运营商,将某信令检测系统,运行在Hadoop on vSAN上;

3)还有一些政府用户,正在规划将某些应用运行在Hadoop on vSAN上;

……

4)本文正文要分享的是另一个电信运营商的案例。


需要再次提醒的是,Hadoop不是大数据的全部。当我们考虑大数据应用是否适合运行在vSAN上的时候,应该知道除了Hadoop之外,还有其他许多应用也被归在大数据项目里;即使是Hadoop,除了HDFS之外,还有MapReduce等其他组件,他们运行在vSAN上,也是不错的。即使是HDFS,虽然利用率和性能都会有所减损,但仍有少量用户希望做到:标准化购买和运维,并利用虚拟化资源池实现弹性伸缩,所以将HDFS也运行在vSAN上。 

详细分析,仍然是参见上一篇文章《vSAN支持大数据应用吗?》


下面分享我的同事---程恒在电信行业做得很漂亮的一个案例,可以视为Hadoop on vSAN上的很好的实践。


---Begin---

 

图一:采用超融合vSAN资源池后:

1、存储资源和服务交付更快更灵活

2、业务存储需求变更更快,实时生效

3、降低IT架构复杂度,实施、配置和管理更加简单

4、存储与计算基础架构融合共享,资源利用率更高

5、存储与计算基础架构融合共享,减少硬件采购成本,节约机房空间、节能减排

运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第1张图片


图二:用户的业务需求 - 物联网Hadoop虚机

运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第2张图片


图三:采用裸服务器部署大数据业务,每个物理服务器只能部署一个Hadoop节点,加上业务负载具有波动性,导致物理服务器的资源利用率不高,且节点扩容不够快速灵活,虚拟化之后计算、网络和存储资源整合,单个物理服务器上可以部署更多的Hadoop节点,提高了业务分析速度和物理服务器资源利用率,采用虚拟机方式扩容节点更加快速和灵活。另外虚拟化后可以在资源池里为不同租户不同业务部署Hadoop大数据业务,共享基础架构资源。

运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第3张图片


图四:资源共享和灵活调度

运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第4张图片


图五:虚拟化后提高了所有节点的可用性,当物理服务器发生故障宕机后,vSphere HA可以其他物理服务器上快速恢复Hadoop节点,采用容错技术可以为Namenode节点提供7*24小时的无中断保护。


运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第5张图片


图六:物理服务器配置:HP DL380 G7CPU: 2x X5687 Memory: 72GB or 96GB Disk: 16x SAS 146GB NIC: Broadcom 10GbE

Native:在裸服务器上部署1Hadoop节点

1 VMHadoop虚拟化后,每台物理服务器上运行1Hadoop虚拟机数据节点

2 VMHadoop虚拟化后,每台物理服务器上运行2Hadoop虚拟机数据节点

4 VMHadoop虚拟化后,每台物理服务器上运行4Hadoop虚拟机数据节点

TeraGen:数据生成耗时,100%

TeraSort:数据排序耗时,40%读,60%

TeraValidate:数据校验耗时,100%


从测试结果来看,即使是将物理服务器虚拟化,在每台物理服务器上部署1个虚拟数据节点,该业务的重要参考指标TeraGen耗时相比裸服务器增加了不到6%,部署2个或4个虚拟数据节点情况下只增加了约4%2.5%

运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第6张图片


图七:所有虚拟机的操作系统盘和非Datanode虚拟机的数据盘都放在vSAN共享存储中,为所有节点提供高可用性保护和差异化的数据存储服务,便于迁移和故障恢复。Datanode的数据盘直接采用服务器的3块6TB本地盘。

运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第7张图片

在上面这张图七中,其实还分享了Hadoop部署在vSphere上的最佳实践。通过将DataNode的数据盘直接部署在物理服务器的本地物理盘上,较好的规避了《vSAN支持大数据应用吗?》提到的存储利用率仅有六分之一,且IO延迟较长的问题。示意图如下所示:

运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第8张图片


相关的VMware白皮书是《Virtualized Hadoop Performance with VMware vSphere 6 on High-Performance Servers》,详细地介绍了Hadoop运行在vSphere上最佳实践。感兴趣的朋友可以前去软件定义存储讨论群的QQ群:122295009 下载



图八:Datanode、NameNode和业务虚机的分布

运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第9张图片

图九:Hadoop虚机在vSAN集群上扩容方便

运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第10张图片


图十:管理网络、vSAN网络和业务网络物理上隔离。

管理网络采用标准虚拟交换机,业务和vSAN采用2个独立的分布式虚拟交换机,Hadoop业务与vSAN共享虚拟交换机和一对万兆上行链路,上行链路互为主备,当某条链路发生中断时,另外一条链路会同时承载vSAN流量和Hadoop业务流量。

VLAN划分:

11个管理网VLAN

21Hadoop业务VLAN

31vSAN网络VLAN

4、若干个其他业务VLAN


运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析_第11张图片

---End---


想要了解更多vSAN,可以打开如下链接:

VMware SDS 之一 : 什么是VSAN

VMware SDS 之二 : VSAN用在哪?

VMware SDS 之三 : VSAN的体系结构 (含VSAN 6.0、6.1版的新内容)

VMware SDS 之四: VSAN的技术细节 (含VSAN 6.0、6.1版的新内容)

VMware刚公布第四代VSAN - 超融合软件VSAN 6.2新增了哪九大特性? (VMware SDS之五)

VMware SDS之六:  怎么玩VSAN ?

VMware SDS之七: 谁在用VSAN ?


欢迎您通过扫描关注微信公众号:“乐生活与爱IT”。

640?wx_fmt=png

关注后,可以通过点击左下角的文章目录,通过输入三位数(记住!是三位数,目前第一位是0或者1)详细了解如何查看历史文章。


点击左下角“阅读原文”,可以看到上一篇文章《vSAN支持大数据应用吗?》

你可能感兴趣的:(运营商在VMware vSphere、vSAN上运行Hadoop的案例剖析)