Hadoop简介 4V特征和3个核心

Hadoop 4V特征

volume(大量数据):90%的数据是过去两年产生的
velocity(速度快):数据产生速度快,时效性高
varity(多样化):数据的来源和种类多样,数据种类包括结构化数据、半结构化数据、非结构化数据,表现为日志、音频、视频、图片,地理位置信息等
value(价值密度低):单个数据意义不大,需要大量数据进行归纳总结出规则

固有特征
时效性:一段时间在某一时间段内产生的已知的数据,并且决策在哪些时间内具有价值的属性。
不可变性:已产生的数据不会改变,我们将大数据的变化视为新数据条目的产生,而不是现有条目的更新。

Hadoop 3大核心

Hadoop三个核心
分布式文件系统 HDFS—解决大数据的存储
分布式计算框架 Mapreduce—解决大数据计算
分布式资源管理系统 Yarn

Hadoop优点:
1.高扩展性,可伸缩:根据需要添加新节点,不需要改变现有的数据分布,也不需要更改作业和应用程序。
2.可靠性:能自动维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。当丢失一个节点时,资源管理器会将任务重发布到另一个空闲位置,可以在不中断地情况下继续处理。
3.成本低:Hadoop通过普通廉价地机器组成服务器集群来分发以及处理数据,以至于成本很低。
4.无共享架构:不同机器上的不同分块的数据处理互不干扰。
5.开源,社区活跃。

你可能感兴趣的:(Hadoop)