hadoop大数据学习笔记

一、Hadoop 的作用

本质来说hadoop的作用是在多计算机集群环境中营造一个统一而稳定的存储和计算环境,并能为其他分布式应用服务提供平台支持。

或者说将多台计算机组织成了一台计算机,让他们做同一件事,在这其中 HDFS 就相当于这台计算机的硬盘,而 MapReduce 就是这台计算机的 CPU 控制器。

二、Hadoop环境部署

按着正常来说我们想要部署Hadoop集群需要把相同的软件部署到众多计算机上,实际学习中没有那么多计算机,并且计算机集群成本太高,难以部署维护。所以我们正常会使用虚拟机来进行集群搭建:使用Docker容器管理系统,可以完整的虚拟出一个或者多个计算机。当然也可以利用其它虚拟机系统我用的VM,通过镜像来复制4个虚拟机

创建镜像后需要配置jdk和linux系统,然后安装hadoop,将下载好的文件进行解压,在进行名的配置和端口配置,配置集群就不多做概述

三、Hadoop 整体设计

Hadoop 框架是用于计算机集群大数据处理的框架,所以它必须是一个可以部署在多台计算机上的软件。部署了 Hadoop 软件的主机之间通过套接字 (网络) 进行通讯。

Hadoop 主要包含 HDFS 和 MapReduce 两大组件,HDFS 负责分布储存数据,MapReduce 负责对数据进行映射、规约处理,并汇总处理结果。

而大数据主要处理的就是大量数据采集,储存,运算.

Hadoop 框架最根本的原理就是利用大量的计算机同时运算来加快大量数据的处理速度。例如,一个搜索引擎公司要从上万亿条没有进行规约的数据中筛选和归纳热门词汇就需要组织大量的计算机组成集群来处理这些信息。如果使用传统数据库来处理这些信息的话,那将会花费很长的时间和很大的处理空间来处理数据,这个量级对于任何单计算机来说都变得难以实现,主要难度在于组织大量的硬件并高速地集成为一个计算机,即使成功实现也会产生昂贵的维护成本。

Hadoop 可以在多达几千台廉价的量产计算机上运行,并把它们组织为一个计算机集群。

一个 Hadoop 集群可以高效地储存数据、分配处理任务,这样会有很多好处。首先可以降低计算机的建造和维护成本,其次,一旦任何一个计算机出现了硬件故障,不会对整个计算机系统造成致命的影响,因为面向应用层开发的集群框架本身就必须假定计算机会出故障。

Hadoop Distributed File System 分布式文件系统简称 HDFS

四、Hadoop 运行思想

先把样本分成一段段能够令单台计算机处理的规模,然后一段段地进行统计,每执行完一次统计就对映射统计结果进行规约处理,即将统计结果合并到一个更庞大的数据结果中去,最终就可以完成大规模的数据规约。

在以上的案例中,第一阶段的整理工作就是"映射",把数据进行分类和整理,到这里为止,我们可以得到一个相比于源数据小很多的结果。第二阶段的工作往往由集群来完成,整理完数据之后,我们需要将这些数据进行总体的归纳,毕竟有可能多个节点的映射结果出现重叠分类。这个过程中映射的结果将会进一步缩略成可获取的统计结果。

你可能感兴趣的:(学习笔记,大数据,hadoop,学习)