Storm官网上的各公司的使用介绍

其实这些介绍就是第三方使用者写的,比如我是一个使用者,在公司大规模运用Storm后,把使用情况邮件到官方,官方觉得OK了,就搬运过来。

原创翻译,如有错误请指出,谢谢。

原文链接

下面选择一些国内的公司的情况进行介绍(原创翻译,持续更新ing..)


淘宝网

我们使用Storm来做一些实时的日志统计,从日志中抽取有用的信息。

日志是存在一个类似Kafka的持久化消息队列中(MetaQ,是一个淘宝在Kafka基础上研发的消息队列系统),然后读到拓扑中的spout中。

接着在拓扑进行处理和分发最后得到想要的计算结果。

最终存储到分布式数据库中,等待其他的使用者来使用。

每天的日志量在200w到15亿之间,最大达到2T。

这里最大的挑战不仅仅是对大数据集进行实时处理,持久化计算结果也是一大挑战,需要严谨的设计和实现。


阿里巴巴

阿里巴巴在世界上是B2B电商的领头羊。我们使用Storm来处理应用程序日志和数据库中的数据改变来为数据应用提供实时的统计。


百度

百度提供最牛的网站,音频文件,图像的搜索服务。

我的公司使用Storm来处理搜索日志,提供了用户的pv,ar-time等的实时统计。

另外还帮助了运维部门进行决策并对服务的状态进行监控。未来还会用Storm做更牛的事情。


支付宝

支付宝是天朝最牛的第三方在线支付平台。我们在许多场景下都选择使用Storm:

  1. 实时计算交易的数量,交易成交额,TOP N的交易卖家的信息,注册用户数量。每天处理的消息超过了1亿。
  2. 日志的处理,每天的数据量超过6T。

友盟

友盟在中国是移动应用分析和开发者服务平台的业界骄楚。Storm为友盟的实时分析平台提供支持,每天处理数10亿的数据点,并不断增长。

我们还其他许多需要实时处理的产品中使用Storm,Storm在我们公司逐渐成为了核心的基础设施。


奇虎360

我们使用Storm的案例比较特殊,我们在数千个节点上部署了Storm,这些节点并不是专属于Storm的,它们还跑了一些各种各样的业务。

Storm在每个节点上只使用一点点CPU/内存/带宽。然后Storm集群会对这些节点的空闲资源进行调度,这个调度的消耗趋向于零。

这提供了强劲的计算能力,并且是实时的。这太不可思议了。

to be continued..

你可能感兴趣的:(storm)