(一)storm-kafka源码走读之前言

写在前面的话

个人以前学生时出于兴趣开始看Spark的源码,对于计算实时性很感兴趣。毕业之后没有找到一份相关的工作,做搜索引擎开发,其中会经常用到MapReduce,其批处理数据的性能还是很好的,离线索引模块就是利用MapReduce构建,每天数据在几百万篇文章的构建与更新索引的操作,从爬虫爬去到前面搜索大概在10分钟的样子,公司要求实时性没有那么快,所以就满足当前需求,一直沿用该模块。但是后来很多业务都设计实时性,像业务推送之类的,老大要求要3分钟之内推送到用户手机上。于是开始了轰轰烈烈的搞起了Storm(为什么不用Spark,这个在选型上,大家考虑编程模型简单,而且实时性流计算,当初就Storm要好一些,现在二者性能之差,只能自己测了)。有篇博客是关于Storm VS Spark的,大家可以看看。

该系列只是小弟简单的对Storm-kafka module的源码做一点简单的介绍,加深自己的理解,中间可能会插入一些个人拙见之类的,如果大家发现在解释的过程中有错误,还望提出。


本系列storm-kafka源码版本为 0.9.3-rc1


你可能感兴趣的:(storm,kafka,大数据,实时计算)