随笔

昨天很有幸参加了淘宝的技术沙龙,在交流会上,认识了很多技术牛人,所见所闻都让人热血沸腾……

首先听到的是AdMaster公司的@爱的马斯特的有关流式计算的分享,之前对流式计算也稍稍了解了一些,但是了解不多,在这里我了解到他们使用storm实现了日志分析、ETL的功能,用Redis来做多个数据集的关联计算、join计算,实现了cookie,使用hbase做存储,离线分析使用MongoDB(这个主要是因为MongoDB的读比写性能好的多)。最后@爱的马斯特也给我们提出了很宝贵的建议:

(1)做一个Map reduce的个数动态分配;

(2)Redis数据结构设计要节省内存;

(3)Storm处理太快,后面的存储性能跟不上,可以使用内存文件系统(如:RamFS)

(4)建议使用Storm0.7.0以后的版本,比较稳定;

(5)hive使用map reduce,瓶颈在join上;

(6)建议做分析,优先考虑pig,pig的分析功能很强大。

呵呵,由于我在这段时间遇到一个关于存储压缩的问题,所以我重点关注了一下AdMaster的压缩,他们使用了lzo压缩,原因是lzo的压缩比其他的压缩方法的查询性能高一些,并且他们还写了一个用于压缩的公平调度器,呵呵,标榜目前只有他们做了这个东西,看来值得研究啊!

接下来是淘宝的@我是aleafs介绍异构数据源整合,主要介绍了一下他们团队开发的产品ITier,目前已开源,地址:https://github.com/xianbei/itier。感觉这个产品的功能很强大啊!主要的技术是Node.js,目前支持SQL,数据都是以二维表存储的(这个不是很理解,为什么要采用二维表,可能是出于计算效率的考虑吧!),并且join都是在内存中做的。这里值得一提的是,Node.js是异步IO,并且是单线程的,其中对象的join开销大,他们对这一块进行了优化,呵呵,真是牛人啊!所以他们现在产品模式是Master+worker(Node.js)

最后是MediaV的一位大师介绍了一下聚合分析实时数据处理,他们的NoSQL使用场景主要有:MongoDB用在报表引擎中;实时分析采用cassandra,主要是考虑cassandra的写比读的性能好,并且他们的场景中写较多。呵呵,他们也做了hbase和cassandra的读写性能测试,发现hbase的读比写性能高,这也就说明hbase适用于读多写少的场景。

呵呵,参加了这次交流,收获还是颇多的,也许是知识的漏洞很多,很多东西听了还不是很理解,在云计算和流式计算这块,我就是一个刚刚起步的菜鸟,学习方法还不是很有效,欢迎大家交流,我的邮箱:[email protected]

你可能感兴趣的:(redis,JOIN,mongodb,hbase,node.js,cassandra)