大数据就是:海量数据或巨量数据,其规模巨大到无法通过目前主流的计算机系统在合理时间内获取、存储、管理、处理并提炼以帮助使用者决策。
大数据产生的原因可以从2个方面来看:
一是数据产生方式的改变。过去的信息是由手工产生的,而随着人类进入信息社会,信息的产生越来越自动化。
二是人类的活动越来越依赖数据。产生数据的主要源头有:
(1) 人类的日常生活已经与数据密不可分(如使用个人智能设备产生的数据);
(2) 科学研究进入了“数据科学”时代(科学研究产生的数据);
(3) 各行各业也越来越依赖大数据手段来开展工作(各行各业工作过程中所产生的数据)。
由图灵奖获得者Jim Gray提出,内容是:每18个月全球新增信息总量是计算机有史以来全部信息量的总和。
云计算的特点:
(1)超大规模。指的是提出云计算数据中心的建设规模,谷歌云拥有上百万台服务器,亚马逊、IBM、微软、Yahoo、阿里、百度和腾讯等公司的“云”都拥有几十万台服务器。
(2)虚拟化。程序可以运行在云“中”,并对外提供服务。因此,户不必知道提供服务的程序是在哪个位置运行,只需要用一台终端设备(如计算机、PAD或手机)就可方便地获得程序提供的服务。(3)高可靠性。“云”使用了数据多副本容错、计算机节点同构可互换等措施,使运行和存储在“云”上的程序和数据比运行和存储在本地计算机更可靠。
(4) 通用性。云计算不针对特定的应用,在“云”上可以开发出不同的程序,提供各种服务。
(5)高可伸缩性。“云”的规模可动态伸缩,可以较好满足应用和用户规模增长的需求。
(6)按需服务。“云”是一个庞大的资源池,由用户按需购买,按使用量计费。
(7)极其廉价。相对于传统数据中心:“云”计算中心更大,管理成本更低;“云”计算中心的硬件使用率更高;“云”计算中心更适合建立在电力资源丰富的较偏远地区。
云计算按服务类型可以分为三类:
(1)将基础设施作为服务,laaS ( Infrastructure as aService),如: Amazon EC2/S3;
(2) 将平台作为服务,PaaS( Platform as a Service),如: GoogleApp Engine .Microsoft Windows Azure;
(3)将软件作为服务,Saas ( Software as a Service),如: Salesforce online CRM。
云计算技术体系结构分为4层:
(1)物理层:包括计算机、存储器、网络设置、数据库和软件等;
(2)资源池层:将大量相同类型的资源构成同构或接近同构的资源池,如计算资源池、数据资源池等;
(3〉管理中间件层:负责对云计算的资源进行管理,对众多应用任务进行调度;
(4)SOA(面向服务体系结构)构建层:将云计算能力封装成标准的 Web Services服务,以SOA体系进行管理,并提供各项接口供用户访问。
云计算较传统技术有两方面的优势:
(1)由于主流云服务供应商使用的数据中心多是大型云计算数据中心,其管理和运营成本(人员费用、电力费用等)是传统数据中心成本的1/5——1/7,因此云计算在性价比上比传统技术有5——7倍的优势;
(2〉传统数据中心按照峰值要求来配置服务器和网络资源,资源的平均利用率只有10%——15%;而云计算平台是有弹性的服务,它根据租用者的需要在一个超大的资源池中动态分配和释放资源,不需要为每个租用者预留峰值资源,因此云计算资源的利用率可以达到80%左右,是传统技术的5——7倍。
集装箱数据中心的优点有以下几个方面:
(1)高密度。在相同的空间内可以容纳更多的CPU、内存和存储系统,提供更多的计算能力和存储能力。
(2)模块化。有利于建立一个最优化的数据中心系统,具有恰如所需的供电、冷却和计算能力。
(3)按需快速部署。由于是模块化,可以把多个模块进行连接、堆叠,节省场地建设、硬件部署的时间。
(4)移动便携。由于集装箱数据中心只需要接上电、水(用于冷却)、数据线就可以工作,因此可以方便地移动,在活动结束后移动到其他地区继续使用。
集装箱数据中心常见的节能措施有:
(1)缩短送风距离;
(2)提高冷通道温度;
(3)冷/热通道完全隔离;
(4)隔热保温材料。等等。
由于电源转换的过程会存在损耗,云计算数据中心配电系统节能的原理是:最大化减少配电系统的转换环节。
PUE是Power Usage Effectiveness 的简写,是评价数据中心能源效率的指标,是数据中心消耗的所有能源与IT负载使用的能源之比。PUE= 数据中心总设备能耗/IT设备能耗,PUE是一个比值,基准是2,越接近1表明能效水平越好。
云计算中运用虚拟化技术主要体现在对数据中心的虚拟化上。数据中心虚拟化是通过服务器虚拟化、存储虚拟化和网络虚拟化实现的。
对于各种常用的虚拟化平台的优劣与选择,请参考:http://www.3lian.com/edu/2014/06-28/152540.html
虚拟器虚拟化的实现方式可以分为:寄居虚拟化、裸机虚拟化。
存储虚拟化的实现方式可以分为:基于主机的存储虚拟化、基于存储设备的存储虚拟化、基于网络的存储虚拟化。
网络虚拟化的实现可以分为:核心层网络虚拟化、接入层网络虚拟化、虚拟机网络虚拟化。
桌面虚拟化是指利用虚拟化技术将用户桌面的镜像文件存放到数据中心,每个桌面镜像对用户来说就是一个带有应用软件的操作系统。终端用户通过一个虚拟显示协议来访问他们的桌面系统。
虚拟桌面是一种瘦客户端模型,它能够让系统管理员和用户同时获得两种应用方式的优点:用户获得完整的PC使用体验;管理员仅维护部署在中心服务器的系统即可。
OpenStack是一个管理计算、存储和网络资源的数据中心云计算开放平台,通过一个仪表板,为管理员提供了所有的管理控制,同时通过web界面为其用户提供资源。
OpenStack 的主要组件有:
(1)Nova。提供计算服务,是OpenStack 云计算架构的控制器,管理计算资源、网络、授权和扩展需求。
(2)Swift。提供对象存储服务,允许对文件进行存储或检索。
(3)Glance。提供一个虚拟硬盘镜像的目录和存储仓库,可以提供对虚拟机镜像的存储和检索。(4)Keystone。为 OpenStack 上的所有服务提供身份验证和授权。
(5)Cinder。提供块存储服务。
(6)Horizon。提供一个 web 界面,便用户可以用图形化的方式直观、方便地使用OpenStack。
1、在自己的用户目录下面创建目录aa/bb,在 bb 目录下创建一个文件hello.txt,并将在文件中编辑一行文字"hello it's me”.将 hello.txt 文件复制在aa目录下并更名为yes.txt
2、用tar命令对yes.txt文件进行压缩解压.删除bb子目录
1、请大家完成上述配置,结合理论课回答什么是APT,什么是sources.lis 以及为什么要更改sources.list(写在实验报告上)。
1、什么是APT :
apt是一个命令行实用程序,用于在Ubuntu、Debian和相关Linux发行版上安装、更新、删除和管理deb软件包。
apt是为交互使用而设计的。最好在shell脚本中使用apt-get和apt-cache,因为它们在不同版本之间向后兼容,并且有更多选项和功能。
大多数apt命令必须以具有sudo权限的用户身份运行。
2、什么是sources.lis:
sources.list 位于/etc/apt目录下
sources.list是一个普通可编辑的文本文件,保存了ubuntu软件更新的源服务器的地址。
3、为什么要更改sources.list:
修改 /etc/apt/sources.list 文件,也即修改镜像源,能够加快在 Ubuntu 中下载和更新相关软件数据;否则默认情况下使用的是外网,下载起来比较慢。
4、什么是pip:
pip 是 Python 中的标准库管理器。它允许你安装和管理不属于 Python标准库 的其它软件包。
5、pip在安装包时怎么添加镜像源:
默认情况下 pip 使用的是国外的镜像,在下载的时候速度非常慢,我们可以通过使用国内镜像源来提高下载速度,例如使用国内清华大学的源,地址如下:
https://pypi.tuna.tsinghua.edu.cn/simple
直接使用国内镜像源,可以在 pip 命令中使用 -i 参数来指定镜像地址,如通过以下命令使用清华镜像源安装 numpy 包。
pip3 install numpy -i https://pypi.tuna.tsinghua.edu.cn/simple
如果需要全局修改,则需要修改配置文件。
Linux/Mac os 环境中,配置文件在 ~/.pip/pip.conf(如不存在创建该目录和文件):
mkdir ~/.pip
打开配置文件 ~/.pip/pip.conf,修改如下:
[global]
index-url = https://pypi.tuna.tsinghua.edu.cn/simple
[install]
trusted-host = https://pypi.tuna.tsinghua.edu.cn
查看镜像地址:
$ pip3 config list
global.index-url='https://pypi.tuna.tsinghua.edu.cn/simple'
install.trusted-host='https://pypi.tuna.tsinghua.edu.cn'
1、请大家自行查阅免密登录的原理
1、请问什么是裸机虚拟化,简述 vmware workstation 和 esxi 的区别