Java大数据平台开发 学习笔记(62)—— 大数据简介、Hadoop版本

一、6V特征

  1. 数据体量大。中小型企业的数据量基本上在TB级别左右,大型企业的数据量是在PB左右
  2. 数据的种类样式和来源多。样式:文本、图片、视频、音频、flash等。种类:结构化数据、半结构化数据、非结构化数据。来源:日志、爬虫、网页埋点、数据库、其他文件系统、手动录入等
  3. 数据的增长速度越来越快。随着网络的发展,数据的产生速度和传播速度越来越快
  4. 数据的价值密度越来越低。指的是需要的数据在总数据样本量中占的比例越来越低。但这并不意味着获取到的数据变少,实际上是在变多的
  5. 数据的质量/真实性。随着网络的发展,获取到信息的质量参差不齐
  6. 数据的连通性。随着大数据的发展,需要考虑数据之间或者模块之间的关联性
  7. 数据的动态性、可视化、合法性

二、Hadoop简介

2.1、概述

  1. Hadoop是Yahoo!开发后来贡献给了Apache的一套开源的、可靠的、可伸缩的、分布式系统
  2. Hadoop之父:Doug Cutting(道格.卡丁)
  3. Hadoop是大数据生态系统中的生态框架 - Hadoop是大数据技术中的基石框架
  4. Hadoop提供了简单的计算模型,能够分布式处理集群中的大量数据
  5. Hadoop能够从1台服务器扩展到上千台服务器,并且每一台服务器都可以进行计算和存储
  6. Hadoop提供了探测和处理异常的机制
  7. Hadoop是由Apache开源基金会维护,所以Hadoop在发展过程中整合开发者的意见,导致版本非常混乱
  8. Hadoop的发行版
    a. Apache版:Hadoop原生版本,部署过程非常麻烦,但是提供了很多细节,适合于初学者
    b. CDH版:由Cloudera公司发行的商用版,能很好的解决组件之间的兼容性,并且提供了可视化平台便于对Hadoop进行操作和维护
    c. HDP版:由Hortonworks公司发行的商用版,更注重于Hadoop的计算性能的优化

2.2、版本

  • Hadoop1.0:包含Common,HDFS和MapReduce模块。Hadoop1.0和Hadoop2.0不兼容
  • Hadoop2.0:包含Common,HDFS,MapReduce和YARN模块。从Hadoop2.7开始,包含Ozone模块。Hadoop2.9包含Submarine,但是Hadoop2.10不包含Submarine模块。Hadoop2.0部分版本和Hadoop3.0的部分版本兼容
  • Hadoop3.0:包含Common,HDFS,MapReduce,YARN以及Ozone模块。Hadoop3.0和Hadoop3.1.0版本包含Submarine,但是从Hadoop3.1.3开始,不好含Submarine模块

2.3、模块

  • Hadoop Common:公共模块
  • Hadoop Distributed File System(HDFS):分布式文件存储系统
  • Hadoop YARN:任务调度和资源管理
  • Hadoop MapReduce:基于YARN的分布式计算系统
  • Hadoop Ozone:对象存储

2.4、安装模式

  • 单机模式:在一个节点上安装Hadoop,只能启动MapReduce模块
  • 伪分布式:在一个节点上安装Hadoop,利用多个进程来模拟Hadoop的集群环境,能够启动Hadoop的大部分功能
  • 完全分布式:在集群中安装Hadoop,能够启动Hadoop的所有功能

• 由 ChiKong_Tam 写于 2021 年 1 月 7 日

你可能感兴趣的:(Java大数据平台开发 学习笔记(62)—— 大数据简介、Hadoop版本)