大数据与云计算应用

第一章 云计算概述

什么是云计算

就像生活中的水、电、煤等利用着的IT资源都无时无刻的按人们自己的需求使用

而水、电、煤,这些呢是属于资源性产品                 IT资源就是计算存储网络资源

云计算的定义

按需使用IT资源和应用程序,通过互联网,按使用量付费。

美国联邦云计算战略报告中,定义了四种云

  1. 公有云:提供公共的IT资源

缺点:保密性较低

  1. 私有云:提供给政府、学校等机构

优点:保密性高

  1. 社会云:提供给研究人员使用
  2. 混合云:包含以上任意两种云

生活中的例子

  1. 出行论

买车——公有云

开车——私有云

自己买车,开车——混合云

  1. 酒店论

酒店——公有云

家——私有云

云计算的概念模型

       从以上云计算的概念可知,云计算的实质是网络下的应用,其业务实现的概念模型,云计算包含了多层含义。

      1)用户的公共性。云计算面向各类用户,包括企业、政府部门、学术机构、个人等用户,也包括应用软件、中间件平台等“用户”。中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机/服务器的操作系统之上,管理计算机资源和网络通信,它是连接两个独立应用程序或独立系统的软件。

        2)设备的多样性。云计算用于提供服务的设备是多样的,既包括各种规模的服务器、主机、存储设备,也包括各种类型的终端设备,如计算机、智能手机、各种智能传感器、RFID(Radio Frequency Identification,射频识别。它是一种通信技术,可通过无线电信号识别特定目标并读写相关数据,而无须在识别系统与特定目标之间建立机械或光学接触) 设备等。

       3)商业模式的服务性。云计算的服务特性体现在两个方面:简化和标准的服务接口、按需计费的商业模式。

       4)提供方式的灵活性。云计算既可以作为一种公用设施,提供社会服务,即“公有云”,也可以作为企业信息化的集中计算平台来提供,即“私有云”。

云计算的基本特征

  1. 资源无限量供应
  2. 提供自助式服务
  3. 远程提供服务
  4. 资源可控
  5. 按使用量付费

云计算的发展背景

  1. 20世纪60年代:计算机革命
  2. 20世纪90年代:互联网革命

1994年:Web 1.0(单向传递)

2004年:Web 2.0(双向传递)

  1. 2010年:移动互联网革命

 1983年提出“云计算”名词

 2006年提出云计算概念及基础架构

 2008年,进入中国

 2009年,首届云计算大会在中国召开

 2012年,中国提出定义

典型的云计算基础架构

       了解了云计算技术的概念和发展背景之后,在此以Google的云计算架构为例介绍典型的云计算基础架构。

       Google的云计算技术实际上是针对Google最重要的搜索应用而开发的。针对内部网络数据规模超大的特点,Google提出了一整套基于分布式的并行集群基础架构,并且Google的数据中心采用廉价的Linux PC机组成集群,利用软件来处理集群中经常发生的结点失效问题,从而形成了Google的云计算基础架构。

         Google的云计算基础架构包括三个相互独立又紧密结合在一起的系统:GFS分布式文件系统、针对Google应用程序的特点提出的MapReduce编程模型和大规模分布式数据库Big Table,如下图所示。

Google云计算架构

MapReduce API

Big Table分布式数据库

GFS分布式文件系统

       1) GFS是建立在集群之上的分布式文件系统,Google为了满足其迅速增长的数据处理需求,对文件系统进行了特别优化,解决了包括超大文件的访问、读操作比例远超过写操作和集群中的结点极易发生故障造成结点失效等问题(GFS默认把超大文件分成64MB的块,分布在集群的机器上,使用Linux的文件系统存放,同时每块文件至少有3份以上的冗余,从而解决结点失效问题)。

2) MapReduce是分布式并行编程模型。Google构造MapReduce并行编程模型来简化分布式系统的编程,用户只需要提供自己的Map函数以及Reduce函数,就可以在集群上进行大规模的分布式并行数据处理。Map(映射)是把输入Input分解成中间的Key/Value键值对,Reduce(化简)把Key/Value键值对合成最终的输出Output。这两个函数由开发者提供给系统,Map和Reduce操作分布在集群上运行,并把结果存储在GFS上。

       3) Big Table是分布式大规模数据库管理系统,由于Google应用程序需要处理大量的半结构化数据,Google构建了弱一致性要求的大规模数据库系统BigTable。它是稀疏的、分布式的、持久化的、多维排序的,并以Key/Value键值对形式存储的数据模型。BigTable不是关系型数据库,像它的名字一样,就是一个巨大的表格,用来存储半结构化数据。

       以上是Google内部云计算架构的三个主要部分,除了这三个部分之外,Google还构建了其他云计算组件,包括领域描述语言、分布式程序调度器,分布式锁服务Chubby机制等。

云计算模式下的IT建设

特点:

  • 开放硬件平台,软件与硬件解耦
  • 分布式设计,软件定义储存
  • IT建设的传统IOE架构,转向互联网架构
  • 集中资源池的共享,虚拟化分时共享
  • 动态调配、弹性伸缩、低成本、标准化硬件
  • 芯片新介质取得突破(云计算IT的基础)

优点 :省事、省力、省钱、省电、省人、省地

云计算的特点:

  1. 虚拟化技术
  2. 动态可拓展性
  3. 按需部署
  4. 灵活性高
  5. 可靠性高
  6. 性价比高
  7. 地理分布
  8. 先进安全技术

云计算的主要服务模式

        根据现在最常用、也是比较权威的NIST及维基百科的定义,云计算从用户体验的角度主要分为三种服务模式:基础设施即服务(Infrastructure as a Service, IaaS)、平台即服务(Platform as a Service,PaaS)、软件即服务(Software as a Service,SaaS)。SaaS侧重于软件服务,通过网络提供软件程序服务;PaaS侧重于平台服务,以服务平台或者开发环境提供服务;IaaS侧重于硬件资源服务,注重于计算资源的共享,消费者通过互联网可以从完善的计算机基础设施获得服务。

  • IaaS(基础设施即服务)

适用对象:租用

关键技术:虚拟化技术

  • PaaS(平台即服务)

适用对象:编程

应用:数据库服务、Web应用

特点:

  1. 简化开发人员
  2. 提供PC端或软件端的开发套件
  3. 丰富的开发环境
  4. 完全可托管的数据库服务
  5. 可配置式的应用程序的构建
  6. 支持多语言的开发
  7. 面向市场

关键技术:

  1. 分布式并计算
  2. 分布式存储

  • SaaS(软件即服务)

适用对象:用户

关键技术:多租户技术

三种服务的区别

  1. IaaS        最底层
    • 提供基础设施服务

      PaaS    提供软件

      部署平台

      SaaS     拿来即用

      例:云计算服务=做饭做菜

      云计算服务提供商=饭店

      IaaS=提供厨房、锅具等

      不提供:食材和技术

      PaaS=提供厨房和切好的食材

      不提供:技术

      SaaS=提供厨房、食材、技术

第二章 大数据技术概述

大数据技术的产生

海量数据的产生:

  1. 来自大人群互联网
  2. 来自大量传感器机械
  3. 科学研究及行业多结构专业数据

大数据的基本概念

       大数据的定义:无法在一定时间内用常规软件工具对其内容进行抓捕、管理和处理的数据集合

经典案例:啤酒与尿布、谷歌与流感。

        大数据的范围:采集、存储、搜索、共享、传输、分析和可视化

 大数据产生的原因

(1)信息技术的飞速发展,是大数据产品的技术基础

       在互联网技术的技术上,产生物联网技术、无线互联技术、无线传感技术不断推行了物联网、移动互联网和传感器网络的飞速发展,各个网络都在持续不断的产生和传播数据。另外数据抓取技术可以使人们方便地获取数据;并行处理技术的发展,极大地提升了海量数据的处理能力和处理效率;容量、高可靠的存储技术,可以让人们更多、更快地存取数据。

(2)数据产生方式的多元化,是大数据产生的数据基础

        全世界网民成为数据的生产者,每一个网民就是一个信息系统不断地制造数据。

(3)企业思维转变,是大数据产生的内在动力

        企业开始注重于企业内外部数据挖掘,在海量的数据中搜索出隐藏的规律和价值,从而为决策者提供更好的参考。大数据时代的到来,人类对于数据的搜索和利用能力得到了巨大的提升,主要表现在企业大数据的挖掘上。

大数据概念的提出

 1887-1890年:电功器

 1944年:预见大数据

 1997年:用大数据描述超级计算机产生的大量信息

 2003-2006年:谷歌提出大数据可重用方案

 2008年:提出大数据概念

 2009年:大数据逐渐走进互联网

 2012年:大数据成为一种新的资产类别

 2013年:大数据元年

第四范式——大数据对科学产生的影响

第一范式:实验

第二范式:理论

第三范式:计算

第四范式:数据

大数据的4V特征

一、大量化

  1. 存储量大
  2. 增量大

二、多样化

1.来源多

      1)搜索引擎

      2)社交网络

2.格式多

      1)结构化数据

      2)非结构化数据

三、快速化

四、价值密度低

企业推动大数据行业发展

  • 腾讯
  • 华为
  • 谷歌
  • 阿里
  • 数据库
  • ETC

大数据的关键技术

一、大数据预处理技术

1.数据采集

2.数据存储

3.基础架构支持

4.计算结果展示

二、大数据存储技术

1.存储设备能持久可靠的存储数据

2.提供可伸缩接口

3.提供高效查询、更新等操作

三、大数据分析技术

1.数据处理

2.统计和分析

3.数据挖掘

4.模型预测

四、大数据计算技术

典型的大数据计算架构

1)Hadoop——处理本地数据

2)Spark——收集并更新

3)Storm——延迟毫秒级

第三章 虚拟化技术

虚拟化技术

        虚拟化技术其实很早以前就已经出现了,虚拟化的概念也不是最近几年才提出来的。虚拟化技术最早出现于20世纪60年代,那时候的大型计算机已经支持多操作系统同时运行,并且相互独立。如今的虚拟化技术不再是仅仅只支持多个操作系统同时运行这样单一的功能了,它能够帮助用户节省成本,同时提高软硬件开发效率,为用户的使用提供更多的便利。尤其近年来,虚拟化技术在云计算与大数据方向上的应用更加广泛。虚拟化技术有很多分类,针对用户不同的需求涌现出了不同的虚拟化技术与方案,如网络虚拟化、服务器虚拟化、操作系统虚拟化等,这些不同的虚拟化技术为用户很好地解决了实际需求。

虚拟化技术的概念

        虚拟化技术作为一种计算机资源管理技术,将各种的IT实体资源抽象转化为另一种形式的技术。

虚拟化技术的分类

      1.寄居虚拟化:在主操作系统上安装和运行的一个程序。例:操作系统:VMware、Workstation等。

CPU、内存、显卡等

 应用

应用

客户操作系统

虚拟化层

主操作系统

特点:

1)简单易于实现

2)安装和运行应用程序时,依赖于主操作系统对设备的支持

3)有两层OS,管理开销大,性能损耗大

4)虚拟机对各种物理主机的调用都是通过虚拟化层和宿主OS一起调用完成

           2.裸金属虚拟化:在硬件上部署虚拟化层。例:操作系统:VMware、ESX、Xen等。

应用

应用

客户操作系统

客户操作系统

虚拟化层

CPU、内存、显卡等

特点:

1)不依赖于操作系统

2)支持多操作系统

3)依赖虚拟层内核和服务控制台进行管理

4)需要对虚拟层进行内核开发

          3.混合虚拟化:插入内核模块。例:操作系统:KVM。

应用

应用

应用

CPU、内存、显卡等

Host OS

Host OS

Host OS

宿主操作系统  内核(虚拟硬件管理)

特点:

1.相对于寄居虚拟化性能高

2.相对于裸金属虚拟化不需要内核开发

3.支持多种操作系统

4.需要底层硬件支持虚拟扩展功能

虚拟化层架构

        从虚拟化的程度来看,服务器虚拟化还可分为:全虚拟化(KVM),半虚拟化(Xen)和硬件辅助虚拟化。

         1.全虚拟化:即所抽象的KVM具有完全的物理特性,虚拟化层负责捕获CPU指令,为指令访问硬件充当媒介。

Linux OS  VM1

Windows OS  VM2

Linux OS (KVM)

CPU、显卡、内存等

特点:

1.OS无需修改

2.速度和功能比较好,使用非常简单

3.移植性好

       2.半虚拟化:通过事先经过修改的客户机操作系统内核共享宿主底层硬件来实现的

Linux OS  VM1

Windows OS  VM2

VMM(Xen)

CPU、显卡等

特点:

1.架构更简单

2.对OS进行修改,用户体验比较麻烦

3.速度上占一定优势

        3.硬件辅助虚拟化

虚拟化技术的优势和劣势

优势:

  1. 减少物力资源的投入,节约成本
  2. 虚拟数据资源迁移方便
  3. 提高物理资源的使用率
  4. 更加环保,节约能源
  5. 易于自动化维护与操作,减少维护成本
  6. 数据安全更有保障

劣势:

  1. 目前业界没有统一的虚拟化技术标准与平台,没有开放的协议
  2. 如果没有对数据进行备份,应用虚拟化技术会存在一定的风险
  3. 虚拟数据中心的迁移,特别是对在线服务的迁移,对用户影响巨大

全虚拟化与半虚拟化举例对比

KVM(性能)

1)全虚拟化

2)内置在内核中

3)便于版本安装、升级、维护

4)性能好

Xen(安全)

1)半虚拟化

2)需要修改内核

3)更新版本,重新编辑整个内核

4)隔离好

虚拟化技术与云计算

云计算1.0——以虚拟化为核心

云计算2.0——以资源为核心

云计算3.0——以应用为核心

云计算:一种服务

虚拟化:一种技术基础

物理机

  1. 操作系统(Host OS)
  2. 硬件(Host Machine)

虚拟机

  1. 操作系统(Guest OS)
  2. 虚拟机(Guest Machine)
  3. VMM(虚拟监控器)
  4. 硬件(Host Machine)

操作系统

Host OS

硬件

Host Machine

操作系统

Guest OS

操作系统

Guest OS

虚拟机

Guest Machine

虚拟机

Guest Machine

VMM虚拟监控器

硬件 Host Machine

虚拟化的特点

  1. 分区——可分为多个虚拟机
  2. 隔离——虚拟机与虚拟机之间相互独立
  3. 封装——独立的文件夹形式
  4. 相对于硬件独立——屏蔽底层硬件不兼容问题

第四章 数据中心

数据中心的概念

       数据中心(Data Center)通常是指在一个物理空间内实现信息的集中处理、存储、传输、交换、管理,而计算机设备、服务器设备、网络设备、存储设备等通常认为是网络核心机房的关键设备。

        关键设备运行所需要的环境因素,如供电系统、制冷系统、机柜系统、消防系统、监控系统等通常被认为是关键物理基础设施。

数据中心的定义、作用及分类

数据中心的定义

        一说到数据中心,人们经常会想到一个高科技IT环境,大小和足球场差不多,其中装满了来自许多厂商的设备,并拥有充足的空调系统,即使伦敦动物园的企鹅,也能一直保持好心情。

        事实上,数据中心一词适用于为机柜或机架专门分配的任何空间,其中装有网络设备,这些设备要么为其他网络设备提供服务(一般通用布线传送),要么从外部电信网络中获得服务(如程控交换机、光纤或来自ISP的ADSL连接),要么为外部网络提供服务(典型代表是虚拟主机设施)。

        我们一般还会认为数据中心是一种多客户端环境,由第三方提供环境维护服务。但是,数据中心同样适用于最终用户内部网络中的主通信间。换句话说,数据中心可以是服务器室,可以是设备间,也可以是并放设备。

作用

     提供强大动力

        在政府导向和市场驱动的双重作用下,我国大数据中心发展迅猛,市场规模一直保持高速增长。政府采购云服务的带动作用日益凸显,很多行业采用大数据中心对原有系统更新以支持业务发展。

        大数据中心有什么作用.中探魔方大数据平台表示数据中心是云计算的根,云计算是数据中心“叶子”,云计算通过“光合作用”促进数据中心的发展,而数据中心的壮大又为云计算发展提供了坚实的基础,这三者起到相互依存,互相促进的作用。

分类

数据中心的类型主要有四类:计算机机房、电信机房、控制机房、屏蔽机房等。这些机房既有电子机房的共性,也有各自的特点,其所涵盖的内容不同,功能也各异。

  1. 计算机机房

        计算机机房内放置重要的数据处理设备、存储设备、网络传输设备及机房保障设备。计算机机房的建设应考虑以上设备的正常运行,确保信息数据的安全性以及工作人员身心健康的需要。

        大型计算机机房一般由无人区机房组成。无人区机房一般包括小型机机房、服务器机房、存储机房、网络机房、介质存储间、空调设备间、UPS设备间、配电间等;有人区机房一般包括总控中心机房、研发机房、测试机房、设备测时间、设备维修存储间、缓冲间、更衣室、休息室等。

        中、小型计算机机房可将小型机机房、服务器机房、存储机房等合并为一个主机房。

  1. 电信机房

        电信机房是每个电信运行商的宝贵资源,合理、有效、充分地利用电信机房,对于设备的运行维护、快速处理设备故障、降低成本、提高企业的核心竞争力等具有十分重要的意义。

        电信机房一般是按不同的功能和专业来区分和布局的,通常分为设备机房、配套机房和辅助机房。

        设备机房是用于安装某一类通信设备,实现某一种特定通信功能的建筑空间,便于完成相应专业内的操作、维护和生产,一般由传输机房、交换机房、网络机房等组成。配套机房是用于安装保证通信设施正常、安全和稳定运行设备的建筑空间,一般由计费中心、网管监控室、电力电池室、变配电室和油机室等组成。

        辅助机房是除通信设施机房以外,保障生产、办公、生活需要的用房,一般由运维办公室、运维值班室、资料室、备品备件室、消防保安室、新风机房、钢瓶间和卫生间等组成。在一般智能建筑中通信机房经常与计算机网络机房合建。

  1. 控制机房

        随着智能化建筑的发展,为实现对建筑中智能化楼宇设备的控制,必须设立控制机房。控制机房相对于数据机房、电信机房而言,机房面积较小,功能比较单一,对环境要求较低。但却关系到智能化建筑的安全运行及设备、设施的正常使用。

        控制机房包括楼宇智能控制机房、保安监控机房、消防控制室、卫星接收机房、视频会议控制机房等。这些控制机房的共同特点是机房内均有操作人员工作,在保证电子设备运行的同时还要保证操作人员的身体需要。根据设备及操作的要求,这些控制机房也有其相应的特点。

  1. 屏蔽机房

        为了有效地防止电磁式噪音、辐射对电子设备和测量仪器的影响,并进行电子信号泄漏从而威胁到机密信息的安全,国家机关、军队、公安、银行、铁路等单位需要建立屏蔽机房。有保密要求的数据机房应建设屏蔽机房,确保数据在处理过程中,其信号不泄露,从而满足数据保密的要求。一些对抗电磁要求较高的环境,如通信设备的测试实验室等场所,需要建设屏蔽机房,以防止外界电磁信号。有强电磁设备的机房应进行相应的电磁屏蔽处理,以避免临近机房设备的正常运行。

数据中心的发展历程

        上世纪的40年代,美国生产了世界上第一台全自动电子数据计算机“埃尼阿克”(Electronic Numerical Integrator And Calculator),体积3000立方英尺,占地170平方米,重量30吨,耗电140~150千瓦,就当这台庞然大物就此开启人类计算的新时代的同时,也开启了与之配套的“数据中心”历程的演进。

       上世纪的60年代,人们通常把数据中心称之为服务器农场,是用来存放计算机系统、存储系统、电力设备等等相关的组件。

        上世纪的80年代,微机市场(现在叫服务器)呈现出一片繁荣的景象,大量的计算机会被应用到各级的领域,但是很少人会关心运维,随着运维的技术越来越复杂,资源丢失的现象也越来越普遍,所有公司面临到IT资源管控的重要性。

        上世纪的90年代,微计算更加的繁荣,新一代的连接型网络取代了老一代的PC,开始将服务器单独的放在一个房间里,单的布线和分层设计,就是在那个时候才开始有了数据中心的叫法,这个名称延续到至今。

        2000年前后,互联网称爆发式的增长。在国内,腾讯、百度、阿里、网易等互联网公司的兴起,PC端对网络的要求不断的增加,有效的促进了数据中心的快速发展。

        2005年,数据中心发展稳定,而且就在这一年,电信公司推出了受行业所认可的机房设计标准,即:中国电信--2005 IDC产品规范;与此同时,美国电信产业也颁布了“TIA942标准”将机房分为Tire1-Tire4,4个级别。该两项标准为数据中心的稳定发展起到了规范和指导作用。

        2007年,一些大型数据中心也开始采用了更环保节能的技术来保障数据中心的正常运行。

        2010年,随着云计算技术的兴起,大数据中心逐渐的又走进了大家的视线。

数据中心的组成及建设原则

数据中心的组成

        从数据中心的物理范围看,数据中心可以是一个建筑群,建筑物,也可以是建筑物的一部分。按照数据中心的功能区划分,数据中心由主机房、辅助区、支持区和行政管理区。按照数据中心的专业系统划分,数据中心由供配电系统、机密空调、消防系统、安防系统、监控系统组成。

功能区域划分

        主机房是安装和运行数据设备的建筑空间。

        辅助区域是安装、调试、维护、运行、监控和管理电子信息设备和软件的场所。

        支持区域是为主机房,辅助区提供动力支持和安全保障的区域。

        行政管理区:是日常行政管理及客户对托管设备进行管理的场所。

专业系统划分

         供配电系统:数据中心供配电系统是从电源线路进用户起经过高/低压供配电设备到负载止的整个电路系统。供配电系统主要包括高压变配电系统,柴油发电机系统,自动转换开关系统,输入低压配电系统,不间断电源配电系统(UPS),UPS列头柜系统和机架配电系统,以及电气照明,防雷和接地系统。供配电系统是支撑数据中心运行的基础核心系统,为数据中心的主设备负载和辅助设备负载提供电力运行保障。

        主设备负载指计算机及网络系统,计算机外部设备及机房监控系统,这部分电力系统统称为设备供配电系统。其供电质量要求非常高,通常采用不间断电源系统来保证供电的稳定性和可靠性。

        辅助设备负载指空调设备,动力设备,照明设备等,其电力系统统称为辅助供配电系统,通常用市电直接供电。

       供配电系统在数据中心的作用极其重要,随着数据中心不断发展,2N或2(N+1)供配电系统中,大型数据中心得到普遍应用,其通常也被称为双总线或双母线供配电系统。

精密空调系统

        机房专用空调的作用是将机房内计算机设备工作时所产生的热量通过热交换带出机房外,保持机房运行在SLA规定范围内。它通过对空气的处理是某区域范围内空气的温度,相对湿度,洁净度和气流速度达到一定的要求。空调的功能主要有制冷,制热,加湿,除湿和温度控制的功能。机房专用空调主要由控制系统,通风系统,制冷循环系统及除湿系统,加湿系统和加热补偿系统组成,水冷机组一般还包括冷却水循环系统。

        机房精密空调系统冷源有多种形式,如风冷型直接膨胀(蒸发式制冷)。水冷型直接膨胀制冷、自由制冷,冷冻水制冷,双冷源制冷等。

        消防系统:数据中心的消防系统分为灭火系统和火灾报警系统。数据中心机房内通常采用气体灭火系统,在吊顶内、吊顶下和地板下的大空间内都应设置气体喷嘴。火灾报警系统由消防控制箱、烟感、温感组成。由于数据中心机房内的空气流动速度特别快,烟感探头不易察觉火灾初期产生的烟雾,数据中心的机房内增了早期预警系统。早期预警系统采用的是吸入式采样原理,在火灾初期能进行报警,能极大地降低数据中心火灾风险。

        监控系统:机房监控系统包括视频监控和机房相关辅助设备的监控等,通过进行实时监控并记录,了解机房动态情况和环境动力设备运行情况,确保机房安全。

       机房监控系统一般包括机房供配电系统、UPS、空调系统、消防系统、安保系统(包括门禁系统、闭路监视系统、通道报警系统)、漏水检测系统等,具有完善的监控和控制功能,更为重要的是融合了机房的管理措施,对发生的各种事件都结合机房的具体情况给出处理信息,提示值班人员进行操作。机房监控系统具有实时语音通话报警和实时事件记录功能,能减轻机房维护人员的负担,实现机房的科学化管理。

        机房环境动力设备监控包括供配电系统监控、开关状态监控、UPS监控、空调监控、漏水监控、温湿度监控等。

建设原则

企业(机构)数据中心的建设应遵循以下几项原则:

(1)坚持“统一领导,统一规划,统一标准,统一建设,信息共享,面向服务”的指导方针,推进规范化,标准化建设,建立互联互通、功能强大的企业(机构)数据中心。

(2)应以国家部门,行业领域信息中心或专业信息机构为依托,汇集、建立企业(机构)某一部门或行业的科学数据共享资源。

(3)坚持以需求为导向,从需求上找准切入点,从企业(机构)数据应用效益和现实情况出发确定重点建设内容,在企业(机构)数据共享应用方面下工夫,不做表面文章,不搞花架子工程。

(4)坚持采用现代信息技术中的现金成熟技术,保证系统的安全性、可靠性、可扩充性、易维护性和开放性。

(5)遵循系统工程建设的规律,对企业(机构)数据中心总体设计进行详细、科学的论证,加强项目过程管理,规范技术文档,对重要信息系统必须保留完整的源代码。

云计算、大数据时代的数据中心发展趋势

        党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展,我国大数据发展可总结为:“进步长足,基础渐厚;喧嚣已逝,理性回归;成果丰硕,短板仍在;势头强劲,前景光明”。

        作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。随着数字中国建设的推进,各行业的数据资源采集、应用能力不断提升,将会导致更快更多的数据积累。预计到2020年,我国数据总量有望达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。

        我国互联网大数据领域发展态势良好,市场化程度较高,一些互联网公司建成了具有国际领先水平的大数据存储与处理平台,并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而,大数据与实体经济融合还远不够,行业大数据应用的广度和深度明显不足,生态系统亟待形成和发展。

         随着政务信息化的不断发展,各级政府积累了大量与公众生产生活息息相关的信息系统和数据,并成为最具价值数据的保有者。如何盘活这些数据,更好地支撑政府决策和便民服务,进而引领促进大数据事业发展,是事关全局的关键。2015年9月,国务院发布《促进大数据发展行动纲要》,其中重要任务之一就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并明确了时间节点,2017年跨部门数据资源共享共用格局基本形成;2018年建成政府主导的数据共享开放平台,打通政府部门、企事业单位间的数据壁垒,并在部分领域开展应用试点;2020年实现政府数据集的普遍开放。随后,国务院和国务院办公厅又陆续印发了系列文件,推进政务信息资源共享管理、政务信息系统整合共享、互联网+政务服务试点、政务服务一网一门一次改革等,推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享,用政务大数据支撑“放管服”改革落地,建设数字政府和智慧政府。目前,我国政务领域的数据开放共享已取得了重要进展和明显效果。例如:浙江省推出的“最多跑一次”改革,是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例,通过设立综合窗口再造业务流程,群众由原来跑国土、住建、税务3个窗口8次提交3套材料,变为只跑综合窗口1个窗口1次提交1套材料,效率大幅提高。据有关统计,截至2019年上半年,我国已有82个省级、副省级和地级政府上线了数据开放平台,涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。

       我国已经具备加快技术创新的良好基础。在科研投入方面,前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务,成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;在大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。

        国家大数据战略实施以来,地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室,为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央信办网联合批复贵州、上海、京津冀、珠三角等8个综合试验区,正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等,使大数据发展呈蓬勃之势。

       然而,我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。

      一是大数据治理体系尚待构建。首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源,但存在“不愿”、“不敢”和“不会”共享开放的问题。例如:在“最多跑一次”改革中,由于技术人员缺乏,政务业务流程优化不足,涉及部门多、链条长,长期以来多头管理、各自为政等问题,导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时,由于办事流程不规范,网上办事大厅指南五花八门,以至于同一个县市办理同一项事件,需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同,造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前,我国的政务数据共享开放进程,相对于《行动纲要》明确的时间节点,已明显落后,且数据质量堪忧。不少地方的政务数据开放平台,仍然存在标准不统一、数据不完整、不好用、不能用等问题。政务数据共享开放意义重大,仍需要坚持不懈地持续推进。此外,在数据共享与开放的实施过程中,各地还存在片面强调数据物理集中的“一刀切”现象,对已有信息化建设投资保护不足,造成新的浪费。第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战。在大数据环境下,数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中,所有权与管理权分离,真假难辨,多系统、多环节的信息隐性留存,导致数据跨境跨系统流转追踪难、控制难,数据确权和可信销毁也更加困难。

        二是核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。

        三是融合应用有待深化。我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。

数据中心的基本单元——服务器

        一个完整的数据中心包括支撑系统、计算机设备和信息服务这三个逻辑部分。支撑系统主要是由电力设备、环境调节设备和监控设备组成,计算机设备包括服务器、存储设备和网络设备,这些设备运行着上层的信息服务。从中可以看到,服务器是数据中心服务的主要载体,同时与存储设备和网络设备相连,是数据中心的基本单元。

        服务器(Server)是指运行操作系统、数据库系统、Web系统等软件系统,为网络上其他终端提供服务的硬件设备。即从广义上讲,服务器是指网络中能对其他机器提供某些服务的计算机系统(如果一个PC对外提供FTP服务,也可以称之为服务器);从狭义上讲,服务器是专指某些高性能计算机,能通过网络对外提供服务。服务器通常都会采购专用的CPU,与PC相比,服务器有更高标准的主板和电源、以及专用的带纠错功能的高速内存(ECC内存)和专用的硬盘(SAS硬盘、FC硬盘、SSD硬盘)。

        目前常见的服务器从基础构架上分为使用RISC(精简指令集)CPU的专用服务器和使用CISC(复杂指令集)CPU的通用服务器。专用服务器主要用于对浮点运算性能较高的应用场景,如中型机和小型机,也就是大家经常听说的高性能机。目前大多数数据中心通常采用的是通用服务器,如Intel公司的Xeon系列和AMD公司的Opteron系列服务器。由于Xeon和Opteron与PC机的CPU都使用了X86架构,使用的都是CISC指令集,所以这类服务器通常被称为X86服务器。

        X86服器可从机箱结构和外形、结点密度、支持的CPU数量和用途进行分类。

1)按机箱结构和外形分类:塔式服务器、机架式服务器;

2)按结点密度分类:单结点服务器、多结点(高密度)服务器;

3)按CPU数量分类:单路服务器、双路服务器、4路服务器、8路服务器、16路服务器、32路服务器。

4)按功能分类:文件服务器、数据库服务器、邮件服务器、Web服务器、DNS服务器等。

下面分别对这四种分类方式进行详细的讲解。

按机箱结构和外形分类

(1)塔式服务器

        塔式服务器的外形如图所示,塔式服务器机箱从体积上可以分为全塔式、中塔式、mini 塔式,塔式服务器占用的体积比较大,通常数据中心或云计算中心不采用塔式服务器。

(2)机架式服务器

        对于建设费用高昂的数据中心来说,数据中心空间利用率非常重要,塔式服务器的空间利用率较低,不适合用于数据中心,于是机架式服务器应运而生。

        机架式服务器采用了与交换机一样的长方体结构,美国电子工业协会(U. S. Energy Information Administration EIA)制定了统一的标准尺寸,标准宽度(两端上架孔距)固定为470mm, 标准深度为650mm,在高度方面,EIA推出了一个专用计量单位“U”(Unit的缩略语)。1U=1.75英寸=44.5mm。机架式服务器在高度上分为1U/2U/3U等。后面要讲到的刀片式服务器(刀片机)也属于机架式服务器。

按结点密度分类

        结点密度是单台服务器内置的独立系统单元数目,即单台服务器内置的主板数目。内置一个系统单元的服务器称为单结点服务器,单结点服务器是平时最常见的服务器类型;内置两个系统单元的服务器称为双结点服务器,通常被称为“双子星”服务器。以此类推还有“四子星”,“八子星”等,结点密度一般为偶数。

        单台服务器的密度在四结点及以上的,又被称作高密度服务器。刀片机也是高密度服务器的一种,相比“四子星”和“八子星”等高密度服务器。刀片机在电源模块和网络模块等万面拥有更高的集成密度,目前主流的刀片机可达7U/14刀及以上的密度。例如双子星服务器、四子星服务器、十八子星服务器、刀片式服务器(7U/14刀)。

按CPU数量分类

        服务器所指的“单路”或者“双路”是指单台服务器的主板上所能支持安装CPU的数量,一般为偶数颗CPU协同工作,用以得到更高的单机(单元)计算性能。

        只支持一颗CPU的服务器称为单路服务器;支持两颗CPU的服务器称为双路服务器:支持四颗CPU的服务器称为四路服务器;双路及以上的服务器统称为多路服务器。例如单路服务器、双路服务器、四路服务器。

4、按功能分类

       为了让服务器提供各种不同的服务,实现各种不同的功能,因此服务器按功能可以划分为文件服务器、数据库服务器、邮件服务器、Web服务器、DNS服务器等。

       文件服务器是以文件数据共享为目标。它的特点是将供多台计算机共享的文件存放于一台计算机中,这台计算机就被称为文件服务器,如Windows Server2003文件服务器。

        数据库服务器是安装了不同的数据库软件,提供不同的数据库服务的服务器被称为数据库服务器,如Oracle数据库服务器、MySQL数据库服务器、SQL Server数据库服务器等。

        邮件服务器对企业用户来说也很重要。提供邮件功能的服务器被称为邮件服务器。它们通常安装的软件包括 Web Easy Mail、Send mail、 Postfix、Q Mail、Exchange等。

        Web服务器是网络服务器的一种,其用途是提供Web网页服务,如基于Apache、等系统搭建的服务器。

        DNS服务器是提供城名服务的服务器称为DNS服务器,通过DNS服务器,可以实现域名服务的查询、应答。

数据中心选址

       数据中心的选址是数据中心建设的早期重要工作,数据中心的使用年限往往会超过20年,数据中心的建设、运行、维护涉及对于地质条件、气候环境、电力供给、网络带室、人力资源等条件,需要综合考虑以下诸多因素。

       地质环境:大型数据中心在选址的时候一般倾向选择建设在地质条件比较稳定,地震、沉降等自然灾害较少的地区,减少自然灾害等不可抗力对数据中心运行的影响概率。

       起候条件:气候条件对于数据中心的建设、运行成本有直接影响,建设在寒冷地区的数据中心与建设在炎热地区的数据中心相比,用于制冷的电力成本大幅降低,同时其制冷系统的建设级别和造价相对较低。Google在比利时、芬兰等寒冷地区建设了自己的数据中心。尤其是建设在比利时的数据中心基本全年性地采用无须制冷剂的自由冷却方式对数据中心进行降温,制冷系统造价和电力成本非常低。

        电力供给:数据中心是电力消耗的大户,在美国,数据中心的能耗已经占美国全国用电量的1.5%早在2012年全球数据中心的总能耗就已超过300亿瓦,相当于30座核电然的发电量:单个数据中心的能耗已经上升到千万瓦的级别。所以数据中心在选址时必须要考虑当地的电力供应能力和电力成本。

       网络带宽:网络带宽是数据中心为用户提供服务的核心资源,网络带宽直接影响用户的请求响应及时性,是数据中心选址考虑的重要因素,需要选择网络带宽条件较好的骨干网结点城市。

       水源条件:目前先进的数据中心的冷却系统经常采用水冷系统进行蒸发冷却,用水量巨大,如微软公司的圣安东尼奥数据中心每年需要消耗38万吨水用于制冷,所以数据中心选址时需要考虑当地的水源供给情况。

       人力资源:数据中心在选址时需要选择在能够提供必要的数据中心的建设、维护、运营等人力的地区。

       以Google的数据中心选址为例,Google一般会选择在电力成本低廉、绿色能源丰富、水资源丰富、地域开阔、与其他数据中心距离合理的地方来新建数据中心。Google数据中心的服务器数量占全球服务器总量的3%,但只消耗了全球数据中心1%的电力,可再生能源的使用量占其总电力消耗的近30%,这得益于Google的数据中心节能环保技术。Google将数据中心的冷通道温度保持在27℃,并使用外部空气冷却其数据中心,而不是使用耗能的冷却系统。Google的服务器都是由其自行设计,减少不需要的组件,减少不必要的部件能耗,减少风扇数量,从而提高了能源使用效率。

数据中心的能耗

        本章前面部分提到,数据中心的硬件部分由机柜、服务器、网络设备、网络安全设备、存储设备等组成。数据中心的能耗控制可以分为数据中心级、结点级、器件级,如下图所示。大数据与云计算应用_第1张图片

       数据中心级:从较为宏观的数据中心级别来看,制冷系统所消耗的能源占数据中心总体能耗的比重较大,制冷系统的规划和性能对于数据中心整体能耗的影响很大。

       结点级:结点级的能耗控制主要在于根据结点的负载状况动态调整处于工作状态的结点数量。

       器件级:CPU、内存、硬盘等器件的能耗主要通过调整工作电压和频率的方式来控制。

数据中心能耗评估

       数据中心的能耗通常是通过PUE、DCIE、IT设备能效比等参数来进行评估。

1.PUE

      PUE(Power Usage Effectiveness,电源使用效率)由美国绿色网格联盟(The Green Grid)于2007年提出,是业界公认的测量数据中心能耗的主要指标之一,其定义如下:

       PUE=数据中心整体能耗/设备能耗IT设备的能耗为数据中心计算、存储、网络等核心设备的总能耗,包含服务器、网络没备、存储设备等;数据中心整体能耗为IT设备能耗、制冷设备能耗、电源能耗、控制仪表等设备的能耗总和。

       PUE值表示数据中心的总能耗为IT设备能耗的倍数,其值越小表示用于数据中心计算、存储等核心设备的运行的能耗比例越大,数据中心的能源效率越高。如,PUE=3时,数据中心总能耗为IT设备能耗的3倍,服务器等IT设备每消耗1度电,空调等其他设备就要消耗2度电,数据中心总体能效较低;当PUE=1时,数据中心的所有电能都用于IT设备的运行,没有其他的能量损耗,是PUE的理论最小值。

      Google公司拥有数以百万计的庞大服务器集群,其数据中心建设采用一系列先进的建设技术,从2008年首次开始统计报告PUE数据以来,Google的数据中心其全年平均PUE值为1.12,最优值为1.06,远优于全球PUE的平均值1.8-1.89。我国的数据中心PUE值相对较高,全国数据中心PUE平均值为2.5,百度M1云计算中心的PUE值最低,全年平均值为1.35,最优值为1.18,是国内能效最高的数据中心之一。

       以下为计算数据中心能耗的例子。

       数据中心入有100个机柜,每个机柜有5台2U/18刀的刀片式服务器,运行时总功率为500w。IT设备功率250kW,该数据中心的PUE-500/250-2。

     数据中心B由200个机柜,每个机柜有6台机架式2U/4刀的机架式服务器,运行时功率为700kW,IT设备功率为300kW,该数据中心的PUE-700/300-2.33。

       以上例子表明数据中心A的PUE值低于数据中心B,说明数据中心A的能效更高。

2.DCIE

       IF(Data Center Infrastructure Efficiency数据中心基础设施效率)是数据中心能耗评估——公认指标,是由美国绿色网格联题于2007年提出,用于表示数据中心IT设备用电占总用电量的比例,其定义如下:

       DCIE=IT设备能耗\数据中心整体能耗CIE&PUE的倒数,其数值小于1,越接近于1表明数据中心能源用于IT设备的比例越高,数据中心的能源效率越高。

3.IT设备的能效比

        IT设备自身的能效也是数据中心能效的一个重要指标,其定义如下:

        IT设备每秒的数据处理流量\IT设备的能耗这里的IT设备指的是服务器、存储等设备,IT设备的能效比越高IT设备每消耗单位电能所能处理、存储和交换的数据量越大;执行相同的计算、存储、通信任务IT设备的能效比越高消耗的能量就越低,设备与周围环境的热交换就越少,这样可以降低数据中心UPS和空调系统的设计容量,进一步降低数据中心的能耗,提高数据中心的能效。

数据中心的主要节能措施

       随着新一代数据中心建设浪潮的兴起,数据中心机房里服务器的密度越来越高、数量越来越大,电力消耗和散热能力正在成为数据中心重点关注的问题,数据中心所消耗的电力以及要冷却数据中心各种设备产生的热量的电力消耗都达到了越来越高的水平。电力的巨大消耗带来各种严峻问题,巨额的电力成本会让数据中心运营的整体成本上升,并且,相对而言在一段时期内任何一个数据中心的电力供给都是有限的,在日益倡导绿色环保的低碳时代,降低数据中心的能耗极为必要。

      在保证数据中心基础设施稳定运行的同时又能显著减少电力消耗与电力成本的方法有以下这些。

服务器虚拟化

       服务器的电力消耗占整个数据中心电力消耗的一半左右,虚拟化技术让一台物理服务器可以运行多个虚拟主机,这让单独服务器的计算资源可以被多个环境共享,通过调整服务器的负载,可以让计算资源得到充分利用。降低二氧化碳排放量,降低管理和运营成本。

       服务器虚拟化技术降低成本的效果是非常明显的,平均来说,以一个月为周期,和应用多台服务器的非虚拟化站点相比,应用虚拟化技术的服务器站点在数据流量、能耗、受攻击威胁和总体运营成本上只有前者的10%。

采用现代化冷却系统

       供热通风与空气调节系统(Heating Ventilation and Air Conditioning,HVAC)系统通常是数据中心第二大耗电系统,Data Center Users Group估计,HVAC系统消耗的电能占数据中心能源消耗的37%.面对大规模的数据中心的冷却任务,多数传统的冷却系统无法最优化处理,冷却效率非常低。采用现代化、模块化和更高效的组件替代一些传统空调设备进行冷却处理可以节约大量电能。在气候条件允许的情况下,采用类似用外部冷空气替代电力系统来进行冷却的方式,将可以有效节约电能。

重组数据中心

       数据中心的数量和规模近些年来增长迅速,而很多数据中心中的服务器则被随处安装,非常缺乏计划性。这导致了数据中心的发热与散热不均,超载的IT环境也很难保证冷却系统的最优化运行。

        对数据中心服务器的物理位置进行重组,例如配置冷、热通道,都可以显著减少冷却系统的负荷。

升级数据存储器

       数据存储系统也是数据中心电能消耗人的主要原因之一。更新存储系统也可以显著减少数据中心的电力消耗。一般来说,新磁盘比旧磁盘能效更高,而一个高容量磁盘则比两个相同容量的低容量磁盘消耗能源少。存储虚拟化也可以通过提高存储器的利用率、避免提供过最存储空间来提高能效。对于一些应用软件来说,可用SATA磁盘替代光纤驱动,因为后者每T e r a B V t e(字节,计算机存储容量单位,也常用TB来表示,1TB=1024GB=240字节)消耗的电能是前者的两倍。

升级变压器

数据中心的交流电供给需要采用变压器。大量电能就在这一环节损失了。很多廉价的变压器的效率仅为80%,但通过对变压器升级,其利用率可达90%甚至更多样,数据中心的电力损耗则可明显减少。

将服务器芯片更新为低电力消耗产品

如果服务器硬件达到了使用寿命,可采用低功耗的服务器芯片(CPU)和其他组件(如前面所提到的磁盘驱动器和变压器)进行替换以降低能耗。

开展软件审核

绘制一份服务器运行的最新图表,注明正在运行的服务器及其上运行的软件,关闭空转的服务器以实现节省电能。

提高冷却温度

数据中心硬件进行更新时,有时冷却温度超出了指定范围。提高数据中心的冷却温度可以有效减少电力消耗。

你可能感兴趣的:(大数据)