MapReduce简史

Google的经典论文
2004年12月,Google公司发布MapReduce经典论文:来自Jeffrey Dean和Sanjay Ghemawat的“MapReduce: Simplified Data Processing on Large Clusters”,该文于2005年4月正式发表于国际会议OSDI,标志着Google的大规模数据处理系统MapReduce公开。
(http://research.google.com/archive/mapreduce.html)(http://research.google.com/archive/mapreduce-osdi04-slides/index.html)

关于Hadoop
Hadoop的设计思想来源于Google的MapReduce和GFS相关论文
早在2004年,Doug Cutting和Mike Cafarella就初步实现了HDFS和MapReduce,这是Hadoop的两大核心架构。
2006年1月,Doug Cutting加入Yahoo!
2006年2月,Apache启动了对Hadoop项目MapReduce和HDFS的独立支持。
(相关文献见:Open Source Distributed Computing: Yahoo’s Hadoop Support,http://developer.yahoo.com/blogs/ydn/posts/2007/07/yahoo-hadoop/)
2008年7月2日,Yahoo!的Hadoop集群利用910台机器排序1TB数据,所用时间为209秒。
(Apache Hadoop Wins Terabyte Sort Benchmark)

2008年11月21日,Google在其官方博客上宣布打破Yahoo!的记录:
We are excited to announce we were able to sort 1TB (stored on the Google File System as 10 billion 100-byte records in uncompressed text files) on 1,000 computers in 68 seconds. By comparison, the previous 1TB sorting record is 209 seconds on 910 computers.
It took six hours and two minutes to sort 1PB (10 trillion 100-byte records) on 4,000 computers. 
(Google Official Blog: Sorting 1PB with MapReduce)

对MapReduce持否定意见的也有之,比如David J. DeWitt和Michael Stonebraker的这篇文章就认为MapReduce是巨大的倒退
(http://homes.cs.washington.edu/~billhowe/mapreduce_a_major_step_backwards.html)

你可能感兴趣的:(MapReduce简史)