hadoop基础----hadoop理论(一)----Hadoop简介


hadoop是什么?


(1)Hadoop就是一个分布式计算的解决方案,也就是帮助我们把 一个任务分到很多台计算机来运算。


(2)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。

Hadoop=HDFS(文件系统,数据存储技术相关)+ Mapreduce(数据处理)

Hadoop的数据来源可以是任何形式,在处理半结构化和非结构化数据上与关系型数据库相比有更好的性能,具有更灵活的处理能力,不管任何数据形式最终会转化为key/value,key/value是基本数据单元。用函数式变成Mapreduce代替SQL,SQL是查询语句,而Mapreduce则是使用脚本和代码,而对于适用于关系型数据库,习惯SQL的Hadoop有开源工具hive代替。


hadoop能做什么?


hadoop可以解决运算时间长等问题

举例来说,我之前有一个运算任务,是对比几个网站之间的数据。

你可能感兴趣的:(hadoop,hadoop从基础到实战)