hadoop介绍 - Hadoop部署案例

案例之一:eBay的Hadoop环境

eBay分析平台开发小组的Anil Madan讨论了这家拍卖行业的巨擘在如何充分发挥Hadoop平台的强大功能,充分利用每天潮水般涌入的8TB至10TB数据。

虽然eBay只是几年前才开始向生产型Hadoop环境转移,但它却是早在2007年就率先开始试用Hadoop的大规模互联网公司之一,当时它使用一个小型集群来处理机器学习和搜索相关性方面的问题。这些涉及的是少量数据;Madan表示,但是就这个试验项目而言很有用;不过随着数据日益增加、用户活动日益频繁,eBay想充分利用几个部门和整个用户群当中的数据。

hadoop介绍 - Hadoop部署案例_第1张图片

eBay的第一个大型Hadoop集群是500个节点组成的Athena,这个专门建造的生产型平台可以满足eBay内部几个部门的要求。该集群只用了不到三个月就建成了,开始高速处理预测模型、解决实时问题;后来不断扩大规模,以满足其他要求。

Madan表示,该集群现由eBay的许多小组使用,既用于日常生产作业,又用于一次性作业。小组使用Hadoop的公平调度器(Fair Scheduler)来管理资源分配、为各小组定义作业池、赋予权重、限制每个用户和小组的并行作业,并且设定抢占超时和延迟调度。

虽然Madan经常在台上畅谈Hadoop具有的实际价值,他也经常提到工作小组在扩建eBay基础设施时面临、继续竭力克服的几个主要挑战。下面列出了与Hadoop有关的一系列挑战:

可扩展性

就现有版本而言,主服务器NameNde存在可扩展性问题。由于集群的文件系统不断扩大,它占用的内存空间也随之扩大,因为它把整个元数据保存在内存中。1PB的存储容量大概需要1GB的内存容量。几种切实可行的解决方案是分层命名空间分区,或者结合使用Zkeeper和HBase,实现元数据管理。

可用性

NameNde的可用性对生产型工作负载来说至关重要。开源社区正致力于冷备份(cld standby)、暖备份(warm standby)和热备份(ht standby)这几个选项,比如检查点(Checkpint)节点和备份(Backup)节点;从辅助NameNde切换avatar的Avatar节点;以及日志元数据复制技术。我们正在评估这些方案,以建立我们的生产型集群。

数据发现

在天生不支持数据结构的系统上支持数据监管、发现和模式管理。一个新项目准备把Hive的元数据存储区和wl合并成一个新系统,名为Hwl。我们旨在努力把该系统连接到我们的分析平台中,那样我们的用户很容易跨不同的数据系统发现数据。

数据移动

我们正在努力开发发布/订阅数据移动工具,以便跨我们不同的子系统,如数据仓库和Hadoop分布式文件系统(HDFS),支持数据拷贝和调和。

策略

通过配额(目前的Hadoop配额需要做一些改进)进行存储容量管理,能够制定良好的保留、归档和备份等策略。我们正根据集群的工作负载和特点,跨不同的集群努力定义这些策略。

度量指标、度量指标、度量指标

我们正在开发成熟可靠的工具,以便生成度量指标,用于度量数据来源、使用情况、预算编制和利用率。一些Hadoop企业服务器体现的现有度量指标有的不够全面,有的只是临时的,很难看清楚集群使用模式。

案例之二:Facebook更新Hadoop的状态

虽然一些公司和机构对其庞大的Hadoop系统秘而不宣,但是就已知存在的系统而言,Facebook的数据仓库Hadoop集群已成为世界上已知规模最大的Hadoop存储集群。

hadoop介绍 - Hadoop部署案例_第2张图片

下面是关于这个单一HDFS集群的一些详细信息:

单一HDFS集群中存储容量达21PB

2000个机器

每个机器12TB(有几个机器是每个24TB)

1200个机器每个有8个处理器核心,800个机器每个有16个核心

每个机器有32GB内存

每个机器有15个映射/化简(map-reduce)任务

已配置存储容量总共超过21PB,大于之前大名鼎鼎的雅虎集群(14PB)。在Hadoop的早期,Facebook就与另外几个互联网巨擘,充分利用这种框架来管理其不断发展的业务。

由于每月活跃用户超过4亿个,页面浏览量超过5000亿人次,每个月共享的内容多达250亿则,对于自称能够处理大数据问题的任何技术而言,Facebook是再合适不过的应用环境。

Facebook的工程师与雅虎的Hadoop工程小组密切合作,把Hadoop推向更高的可扩展性和性能。Facebook有许多Hadoop集群,其中最大的一个集群用于数据仓库。下面一些统计数字描述了Facebook的数据仓库Hadoop集群的几个特点:

每天增加12TB的压缩数据

每天扫描800TB的压缩数据

每天处理25000个映射/化简作业

HDFS里面有6500万个文件

30000个客户机同时访问HDFS NameNde

Facebook的软件工程师、开源倡导者Jnathan Gray演示了Facebook如何一直使用更庞大Hadoop平台架构的一部分:HBase,支持生产环境下的在线应用程序和离线应用程序。

虽然幻灯片有点深奥,又针对特定环境,但是大致描述了HBase适合的那种复杂数据环境;而更重要的是,描述了这个环境需要怎样的一些重大调整和专门知识才加以管理。HBase仅仅是Facebk管理海量数据、为用户提供异常智能化服务的方法之一。


你可能感兴趣的:(hadoop介绍 - Hadoop部署案例)