搬个凳子坐跑道,静看别人赛跑

James Hamilton(VP & Distinguished Engineer, Amazon Web Services)在他的Blog 中提到:过去5年,数据库又成为一个令人兴奋的领域 自然,如何支持互联网规模的数据系统,是兴奋点之一,而Hadoop又在其中扮演了重要角色,SIGMOD 2011的Industry Session中,和Hadoop相关的文章有5篇,分别来自于不同的公司,代表了基于Hadoop的海量数据处理的一些新进展,PPT 是对其中的4篇文章(不包括没看懂的一篇)的总结。FB和Y!在Hadoop上的投入还是很足,朕心甚慰!

Apache hadoop goes realtime at Facebook
纯工程性文章也登大雅之堂,肯定是有fuck good(干货)的:Realtime对于Hadoop,难度颇高,FB对HDFS做了大手术,特别是NameNode的HA和Lease管理部分;又对HBase做了增强,并在此基础上提供Facebook Messaging,很有想象力,同时,用HBase把Cassandra踩在脚下,对基于一致性哈希的系统打击不小啊。

Nova: continuous Pig/Hadoop workflows
Yahoo这篇文章,应该是Pig运用一段时间后的一个平凡结果,淘宝在Hive SQL翻译上也做了类似的工作,都很扎实。文章的关键在于对处理过程的4种模式的讨论,即:Non-incremental(全量)、Stateless incremental(无状态增量)、Stateless incremental with lookup table(状态外置的无状态增量)和Stateful incremental(带状态增量),这些讨论清楚后,一切自然。
另:需要关注Zebra文件格式,Metadata管理在海量数据处理中,一直不是那么被重视。
另:在IBM的时候也有一个相关专利,不过我们做得太底层,也就没啥工程价值,把一个idea放到不同层面上去应用,也是一种能力。

Automated partitioning design in parallel database systems
HadoopDB原来是Yale的研究成果,现在是初创公司的Hadapt的产品(不知道Yale的学生要不要去公司里当体力)。HadoopDB介于传统RDB DW产品和Hive间(GP也是采用该技术路线),采用数据库作为每个节点存储数据,并在此基础上讨论了多种join操作(大表Join是海量数据处理中“很黄很暴力”的地方),如Referential Partitioning、Split MR/DB (Semi)Joins等,启发不少。

Emerging trends in the enterprise data analytics: connecting Hadoop and DB2 warehouse
短文,没有太多的亮点,通过一些连接器在Hadoop和DB2中共享数据。如果没有IBM的大旗,估计早被拒了(我不厚道了,毕竟有两个CRL作者)。

(没看懂)A Hadoop based distributed loading approach to parallel data warehouses
Teradata出品。这篇文章是关于HDFS数据块分布的,将数据块均匀地分别到各个节点上,并使加载时数据传输量最小,典型的优化问题,亮点在于它把这个优化转换成一个灌水问题(就是图论中的最大流问题,一直没参透怎么转换过去的,不好意思),同时还搞了一个近似算法,再套个Hadoop的外衣,ETL也能搞定牛评委。

 

PPT中引用了王老师微薄的一张图片:Industry Session在SIGMOD中很受欢迎

 

 

 

 

你可能感兴趣的:(搬个凳子坐跑道,静看别人赛跑)