大数据学习笔记(一)

一、大数据的概念

无法再一定时间范围内用软件工具进行管理与处理的数据集合称之为大数据。

大数据技术主要解决存储分析计算问题.

1.4V特征

- A.  Valume   大量   (KB->MB->GB->TB->PB->EB->ZB)
- B. Velocity    高速   分布式技术(N台计算机同时运算.)
- C. Variety     多样    (存储结构化数据与非结构化数据和半结构化数据)
- D .Value       低价值密度

2. 结构化、非结构化、半结构化

结构化:数据库表中的数据.

非结构:图片、视频

半结构:日志

例子:购物->本地仓

1.所有商品都有吗?

2.有的物品,都有多少?

经过大数据的分析(分析本地购物数据),助力精细化运营,促进销量,节约成本.

例子:猜你喜欢

浏览一个东西,推荐一堆相关物品,促进购买.

二、 大数据部门的组织架构

大数据学习笔记(一)_第1张图片

 

三、Hadoop

1.Hadoop是什么?

- Hadoop 是apache基金会开发并维护的分布式系统架构
- 主要解决海量数据**存储**和分析**计算**问题
- 广义上Hadoop现在指的就是Hadoop的生态圈(N个组件)

2. Hadoop发展历史

  • 最早起源lucene 全文检索(一个开源的查询引擎和索引引擎)

  • 2001年成为apache的子项目

  • 出现海量数据存储的困难,检索速度奇慢

  • google三大论文成为Hadoop的思想之源(Hadoop的根)

    三篇论文分别是:

    GFS -> HDFS

    Map-Reduce -> MR

    BigTable -> HBase

3. Hadoop的三大发行版本

  • Apache 基础入门

  • cloudera 创始人加入

  • hortonworks 8成的源码写作人加入

    类似android ,华为emui 小米miui .

    发行版C和H的特性:包含了 一键集群,性能优化,各种资源的可视化等.

4.Hadoop的4H优势

  • 高可靠性:多数据副本,数据不会丢失

  • 高扩展性:随时随地扩展集群节点.

  • 高效性: MR并行计算

  • 高容错:自动将失败的任务重新分配重新执行.

5. Hadoop 1.x 与 Hadoop 2.x 区别

Haoop 1.x Hadoop 2.x
MapReduce 负责计算资源调度 HDFS 负责数据存储 MapReduce 只负责计算 Yarn 负责资源调度 HDFS 负责数据存储

总结:

在hadoop1.x中 MR同时处理业务计算和资源调度

在hadoop2.x 中增加了Yarn,MR只负责计算,Yarn 只负责调度

Hadoop 最新版本为3.x 最稳定版本为2.7.2

Apache Hadoop 官网

帮助文档:在share/doc/hadoop/index.html

四、组件介绍

1.HDFS

分布式文件系统.由多个节点组成的文件管理系统.

  • NameNode(NN): 存储文件的元数据(描述数据的数据叫元数据,包含了文件名、目录、生成时间、副本数等.)以及每个文件的块列表和块所在的DataNode信息等.

  • DataNode(DN):在本地文件系统存储文件块的数据,以及数据的校验值.

  • Secondary NameNode(2NN):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS的元数据快照.

2. Yarn

负责调度算力、CPU、内存

  • ResourceManager(RM):

    A.负责处理客户端请求

    B.监控NodeManager

    C.启动或监控Application Master

    D.资源的分配与调度

  • NodeManager(NM):

    A.管理单个节点的资源

    B.处理来自RM的命令

    C.处理来自AM的命令

  • Application Manager (AM):

    A.负责数据切分

    B.申请资源并分配

    C.任务监控与容错处理

  • conatiner

    它是Yarn中的资源抽象,封装了某个节点上的多维度信息:如内存,CPU,磁盘,网络等.

3.MapReduce

计算过程分为两个阶段:

A.Map阶段:并行处理输入数据.

B.Reduce阶段:对Map阶段的结果进行汇总.

你可能感兴趣的:(big,data,学习,大数据)