[Hadoop培训笔记]01-Hadoop开源软件及其生态系统介绍

注:开源力量Hadoop Development网络培训,链接:http://new.osforce.cn/course/52  个人笔记,不具参考性。


Hadoop实际用途主要是:运维、开发

Hadoop组件:common、HDFS、MapReduce(mrv1,mrv2)

Google核心技术(分四类,括号里是Hadoop对应组件)

  • ​分布式基础设施:GFS(HDFS)、Chubby(Zookeeper)、Protocol Buffer
  • 分布式大规模数据处理:MapReduce(MapReduce(mrv1,mrv2))、Sawzall
  • 分布式数据库技术:BigTable(HBase)、Sharding
  • 数据中心优化技术:数据中心高温化、12V电池和服务器整合
  • Hadoop特点:open source, reliability, availability, scalability, high efficiency

Hadoop core:HDFS组件、MapReduce组件、Common组件


下图是HDFS架构图


下图是MapReduce示意图



下图是Hadoop生态系统



Hadoop发行版:

  • Cloudera CDH (重要组件:Impala)
  • Hortonworks HDP (重要组件:TEZ、YARN)
  • Intel Distribution (重要组件:Flume、Sqoop、Mahout)
  • IBM BigInsight
Hadoop版本选择:Hadoop 1.x,Hadoop 2.x
  • namenode,HA(0.21.x, 0.22.x, 2.x)
  • HDFS Federation & YARN (0.23.x, 2.x)

推荐资料:
  • 《Hadoop权威指南》、《Hadoop实战》

  • Apache Hadoop: http://hadoop.apache.org

  • Hadoop jira
    • https:/issues.apache.org/jira/browse/HADOOP
    • https:/issues.apache.org/jira/browse/YARN
    • https:/issues.apache.org/jira/browse/HDFS
    • https:/issues.apache.org/jira/browse/MAPREDUCE

  • Cloudera Blog: http://blog.cloudera.com

  • Hortonworks Blog: http://hortonworks.com/blog

  • Hadoop wiki: http://wiki.apache.org/hadoop

你可能感兴趣的:(hadoop,笔记,培训,开源力量)