hadoop学习日记(1)

1.hadoop是什么?

hadoop软件库是一个框架,允许在集群中使用简单的编程模型对大规模数据集进行分布式计算。它被设计为可以从单一服务器扩展到数以千计的本地计算和存储的节点,并且hadoop会在应用层面检测和处理错误,而不依靠硬件的高可用性,所以hadoop能够在一个每个节点都有可能出错的集群之上提供一个高可用的服务。

总结一下就是:1)hadoop是一个框架;2)hadoop适合处理大规模数据;3)hadoop被部署在一个集群上。hadoop是一个提供分布式存储和计算的软件框架,它具有无共享,高可用,弹性可扩展的特点,非常适合处理海量数据。

hadoop生态圈
kafka  (分布式发布订阅消息系统) hive(数据仓库工具) pig(数据流) mahout(机器学习和数据挖掘库) sparksql impala(数据查询工具) hbase(分布式数据库) sqoop(ETL工具)
MapReduce(分布式计算) spark(迭代计算框架)
zookeepeer(分布式协调服务) YARN(资源管理和调度平台) flume(日志收集)
HDFS(分布式文件系统)
common(hadoop底层模块)

 

(sqoop:用于在结构化的数据存储即关系型数据库与hadoop之间进行双向的数据交换)

 

 

你可能感兴趣的:(hadoop)