1. hadoop概念
Provide easy but general model for programmers to use cluster resources
Hide
network
communication (i.e. RPCs)
Hide
storage
details, file chunks are automatically distributed and replicated
Provide transparent
fault tolerance
Failed tasks are automatically rescheduled on live nodes
High
throughput
and automatic
load balancing
E.g. scheduling tasks on nodes that already have data
2. dbms vs bigtable
3. hadoop 特性
1>流动的计算:而不是让数据流动;其实hadoop自动将数据分片存储到集群,每个节点尽力只计算自己节点的data;
2>可靠性,容错性:自动分派数据和负载均衡;将坏掉的节点的任务自动分派给其他持有此节点数据的其他节点上去执行;
3>数据冗余:每份数据最少存在3份:除了自身机器,并将数据存在于同机架和不同机架各一份;
4>伸缩性:可以通过增加机器数量增强计算和存储;满足不断膨胀的需求。
5>开发友好性:开发人员很容易编写m/r;不用关注hadoop/hdfs的内部实现;而且配置简单。
6> 经济:利用廉价pc机器搭建强大的计算平台;
4. map/reducer
1>利用stream 跨语言支持写M/R;