大数据概述及其生态圈(二)基础架构支持

前面的章节已经讲过,搞大数据的第一步就是基础架构的支持。它解决了如何组织、协调、分配计算资源、存储资源、网络资源以及其他硬件资源的问题。本节我们将简单讲述其中所包含的内容。

大数据技术分类 大数据技术与工具
基础架构支持 云计算平台(Apache Hadoop、OpenStark)
储存虚拟化、分布式存储
虚拟化(VM、Docker)
网络(OpenFlow)

云计算平台

云计算平台也称为云平台。云计算平台可以划分为3类:以数据存储为主的存储型云平台,以数据处理为主的计算型云平台以及计算和数据存储处理兼顾的综合云计算平台。

其中比较热门的有两个,分别是:Hadoop和OpenStark;

Apache Hadoop

Hadoop是完全模仿Google体系架构做的一个开源项目,主要包括Map/Reduce和HDFS文件系统。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

Hadoop热门的原因还得益于它庞大的生态圈,为大数据应用方面提供了各种较为成熟的解决方案。比较有名的有:HBase、Hive、Zookeeper、Pig、Sqoop、Flume等。这里的每一项技术都够讲上好几个章节。之后的章节中会对Hadoop生态圈做一个全局介绍,并用几句最简单的描述或图帮助大家理解每个子项目原理或应用场景。

OpenStack

OpenStack是IaaS(基础设施即服务)组件,让任何人都可以自行建立和提供云端运算服务。

说这些官方描述没用,我相信谁都会用搜索引擎搜索关键字来了解相关内容。我这里还是用最简单的描述帮助大家理解每一部分的内容。

我们只要记住OpenStack的目标,我们就能理解它是做什么的了。提供实施简单、可大规模扩展、丰富、标准统一的“云操作系统”。通俗的讲就是,你把硬件资源给OpenStack,OpenStack帮助你整合和协调这些资源,对你来说,你只要像操作操作系统一样操作这些资源即可。

储存虚拟化、分布式存储

储存虚拟化技术

打个比方,你有200台机器,你把一个文件存到了A机器的C盘,那你去取这个文件的时候就得记着A机器C盘。一个文件还好,如果还有其他成千上万的文件,那显然是不现实的,那能不能把所有机器的硬盘,合并成一个,并划分出一个容量超大的C盘,D盘呢。可以,这就是储存虚拟化技术。

分布式存储技术

还是之前的例子,也许我们连超大容量的C盘都不想记。我们就需要有个系统能提供接口,我们把文件以某种规则形式告诉系统,系统帮我们存,至于存在哪台机器,哪块硬盘,我们不管,甚至系统把文件拆分成若干,存放在不同的地方我们也不管。我们只关心,需要文件的时候,系统能把我们想要的文件取出来给到我们就行。系统来保证可靠性,可用性,可扩展性等。这就是分布式存储技术。

虚拟化

这里的虚拟化主要指一种资源管理技术,把计算机资源,进行整合,抽象,转换成满足实际需求的环境,甚至可以是多个不同需求的环境。相信大家都玩过虚拟机,那就是一种虚拟化技术。

VM

Virtual Machine(虚拟机)技术,将一台服务器分割成多个虚拟机(VM主机)的优质服务。比较常见的有VMware Workstation和微软Virtual PC。相信计算机专业的读者都已经玩过。

容器虚拟化

它是构建在操作系统之上的虚拟化技术。其中,热得大红大紫的技术实现就是Docker,它甚至曾经一度要替代之前的VM技术,因为用它来部署环境实在是太方便了。对它的详细介绍并不是本章的重点,你可以参阅其他相关资料。在这里,简单说下VM虚拟化和容器虚拟化的区别:一个虚拟化的是一个操作系统,另一个虚拟化出来的是一个进程,并依赖于操作系统。

网络

随着互联网的发展,今天的互联网业务对互联网提出了越来越高的传输质量要求,如何修改互联网以满足新业务的需求,出现了改良派和改革派两种不同的做法。改良派认为可以在原有的基础设施上添加新的协议来解决问题,改革派则认为必须推倒一切重来。改革派提出这样的两个问题:“就目前掌握的知识,如果我从一个全新的开始设计互联网,我会怎么做”和“15年后的互联网应该是什么样子”。为此,改革派们开始了一系列新的设计方案,OpenFlow就是改革派提出的一种新型网络交换模型。

OpenFlow是一个协议,它的终极目标是重新定义网络发展的未来走向。有兴趣的同学可以研究下。

你可能感兴趣的:(大数据)