大数据4v特征

​ 1.Volumu : 体量大

​ 2.Velocity : 速度快

​ 3.Variaty : 样式多

​ 4. Value : 价值密度低

什么是hadoop ?

大数据不是Hadoop,Hadoop只是大数据环境中的一个工具(一个软件,一个框架)

​ 可靠的,可伸缩的,分布式计算的开源软件

​ 是一个框架,允许跨越计算机集群的大数据处理,使用简单的编程模型(MapReduce)。

​ 可从单个服务器扩展到几千台主机,每个节点提供计算和存储的功能。二不是依赖性高可用性的机器

依赖于应用层面上的实现, (重点,默写下来)
hadoop 模块

​ 1.Hadoop common 公共类库

​ 2.HdFS hadoop 分布式文件系统

     3.Hadoop Yarn                作业调度和资源管理框架

​ 4.Hadoop Map Reduce 基于yarn系统的大数据集并行处理技术

Map Reduce 工作原理思路

img

把一份材料切割成很多份,分布在很多太计算机(Yarn调度 比如300台计算机)上共同工作。最后很多台计算机归纳成文件,最后合成和一个文件

在Java用使用多线程,线程来提高运行的效率

Hadoop 安装(