Facebook Data Freeway : Scaling Out to Realtime

我的一些想法:从以下数据来看,Facebook的SLA明确提出了有不超过0.01%的数据丢失。分布式平台要做到像Oracle/DB2之类的100%的数据安全性保证是几乎不可能的,而且互联网产品通超都能容忍微量数据的丢失。

==========================================================


这是Facebook工程师Eric Hwang和Sam Rash在HadoopSummit 2011上的一个Topic。

在这个topic中,分享的一些关于Facebook的数据:

  • 5亿+活跃用户
  • 5000w用户每天至少更新一条状态信息
  • 每月上传超过10亿张照片
  • 每周分享超过10亿份内容
  • 每秒产生超过7GB数据

以及Facebook对于实时数据处理系统的SLA:

  • 每秒支撑10~15GB的数据生成
  • 没有单点失效的问题
  • 只运行不超过0.01%的数据丢失(也就说需要99.99%的数据可靠性)
  • 99%的数据要求延时少于10s(一般情况下2s)

在PPT的后半部分,则简单的介绍了Facebook的数据高速公路,包括Scribe,Calligraphus,HDFS,ZooKeeper等,以及他们的实时分析平台Puma(使用HBase做为数据持久化方案)。

2011 06-30-hadoop-summit v5
View more  presentations from  Sam Rash

你可能感兴趣的:(Facebook Data Freeway : Scaling Out to Realtime)