Hadoop分布式文件存储系统

Hadoop分布式文件存储系统
Posted by Y.D. in June 7th 2008
 
http://hadoop.apache.org/core/docs/current/index.html

Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等

Yahoo仿照Google文件系统开源的分布式文件存储系统
支持MapReduce,从Nutch 独立开源出来的存储部分
//适合>100台的文件系统,如果节点少的读取测试效率低下无法体现其优势
该项目的设计目标是10,000节点,已经有大于1,000节点的项目样例

HDFS三个重要角色:NameNode、DataNode和Client

特点和应用

可扩展:不论是存储的可扩展还是计算的可扩展都是Hadoop的设计根本。
经济:框架可以运行在任何普通的PC上。
可靠:分布式文件系统的备份恢复机制以及MapReduce的任务监控保证了分布式处理的可靠性。
高效:分布式文件系统的高效数据交互实现以及MapReduce结合Local Data处理的模式,为高效处理海量的信息作了基础准备。
Yahoo’s Doug Cutting on MapReduce and the Future of Hadoop

Hadoop中的集群配置和使用技巧分布式计算开源框架Hadoop介绍

分布式计算开源框架Hadoop介绍――分布式计算开源框架Hadoop入门实践(一)
Hadoop中的集群配置和使用技巧――分布式计算开源框架Hadoop入门实践(二)
Hadoop基本流程与应用开发――分布式计算开源框架Hadoop入门实践(三)
All content and news on InfoQ about Hadoopref link

http://hadoop.apache.org/core/docs/current/quickstart.html Hadoop Quickstart
http://www.mengyan.org/blog/archives/2006/11/15/138.html Map Reduce - the Free Lunch is not over?
BigTable论文 Googel Cluster,分布式文件系统 GFS,分布式计算环境 - MapReduce,分布式结构化存储 - BigTable,Lock Service

http://huang.yunsong.net/2006/getting_started_with_hadoop_part1.html Getting Started with Hadoop, Part 1
本文的目标是描述如何安装和使用 Hadoop 0.9.2,不涉及如何使用 Hadoop 框架来开发分布式程序
http://hadoop.apache.org/core/docs/current/quickstart.html Hadoop Quickstart
http://www.cppblog.com/javenstudio/archive/2008/02/22/43076.html Annotated Hadoop (源码剖析)
Annotated Hadoop: 第一节 Hadoop是什么 http://www.cppblog.com/javenstudio/articles/43072.html
Annotated Hadoop: 第二节 MapReduce框架结构 http://www.cppblog.com/javenstudio/articles/43073.html
Annotated Hadoop: 第三节 MapReduce工作原理 http://www.cppblog.com/javenstudio/articles/43075.html

你可能感兴趣的:(apache,mapreduce,框架,hadoop,Yahoo)