云计算与大数据

1.云计算的定义:
        云计算是一种将硬件基础设施、软件系统平台等资源通过互联网以按需使用、按量计费的方式为用户提供动态的、高性价比的、规模可扩展的计算、存储和网络等服务的信息技术。
2.云计算的基本特征:云计算有以下5个基本特征:
        1.虚拟化资源池
        2.用户自配置资源
        3.网络访问
        4.弹性使用资源
        5.效用计算

3.云计算的典型特征:主要包括
       
1. 规模庞大
        2.资源聚合
        3.虚拟抽象
        4.按需使用,按量计费
        5.高可靠性
        6.高扩展性
        7.高利用率、高性价比

4.云计算的关键技术:       
        1.虚拟化技术
        2.分布式并行编程存储技术
        3.分布式数据存储技术
        4.分布式任务调度技术
        5.监控管理技术
        6.云计算安全保障机制
        7.云计算网络技术
        8.绿色节能技术 

5.数据中心定义:
        数据中心是全球协作的特定设备网络,用来在Internet网络基础设施上传递、加速、展示、计算、存储数据信息。
6.什么是边缘计算:
        边缘计算(Edge Computing)  将计算任务放在接近数据源的计算资源上运行,将云端计算放到网络边缘,可以有效减小计算系统的延时,减少数据传输带宽,缓
解云计算数据中心的压力。

7.相较于云计算,边缘计算的优势在于:
        (1)边缘计算能够带来极低的延时。这是由于边缘计算网络中具有计算能力的设备往往都聚集在用户侧附近,因此能够实时做出响应。
        (2)边缘计算能够以极低的带宽运行。在边缘计算网络中,工作被迁移至用户侧附近,减少了向云端中枢节点发送大量数据的处理请求,降低了带宽限制所带来的影响。
        (3)边缘计算具有保护隐私的优点。边缘计算有效地减少了隐私数据被上传到云端的机会,有助于保护用户的数据隐私。

8.虚拟化技术的定义:
        虚拟化技术将计算机(物理主机)的各种物理资源(如CPU、内存、磁盘空间、网络适配器等)予以抽象,经过虚拟化转换后呈现为可供分割和组合的资源支撑与任务执行环境。虚拟化资源不受现有物理资源的硬件差异、地域或配置的限制。
9.虚拟化技术的主要特征:
        1.分区
        2.隔离
        3.封装
        4.硬件独立

10.虚拟化技术的优势主要包括:
        1.有效的利用物理资源
        2.更好地容错能力
        3.提高可用性
        4.简化服务器的创建与管理
        5.节约系统能源消耗

11.服务器虚拟化
        服务器虚拟化是指通过虚拟化技术使多个虚拟服务器存在于一台物理主机中。服务器虚拟化的架构有两种:宿主机虚拟化和裸金属虚拟化。宿主机虚拟化利用宿主操作系统的功能来实现硬件资源的抽象和虚拟化的管理,典型应用有VMware Workstation;而在裸金属虚拟化架构中,Hypervisor直接运行在硬件之上,提供指令集和设备接口以支持虚拟机,实现从虚拟资源到物理资源的映射,以及不同虚拟机切换过程中的上下文保护,保证了各个客户虚拟系统之间能够得到有限的隔离,典型应用有Xen,Linux KVM。
        服务器虚拟化的核心是CPU、内存与T/O设备等的虚拟化。

12.CPU虚拟化
        
CPU虚拟化是指将单个物理CPU虚拟成多个虚拟CPU,供虚拟机使用,由VMM为虚拟CPU分配时间片,同时对虚拟CPU的状态进行管理,本质上是采用时分复用技术来完成对CPU资源的共享利用的。
13.内存虚拟化
        内存虚拟化用于统一管理物理内存资源,将其包装成多片虚拟内存空间,分别供若干个虚拟机使用,使得每个虚拟机拥有各自独立的内存空间,实现了内存空间的合理分配、管理和隔离,以及高效可靠的使用。
14.存储虚拟化
        
存储虚拟化是指通过虚拟化技术把多个物理存储介质(如硬盘、磁盘阵列等)组成一个虚拟存储池进行统一管理。通过对存储系统或存储服务内部的功能进行隐藏、隔离及抽象,可以使存储与网络、应用程序等相互分离,使存储资源得以合并,为用户提供大容量、高数据传输性能的存储系统,从而提升资源利用率
15.存储虚拟化的三种实现方式
        1. 基于主机的存储虚拟化。基于主机的存储虚拟化也称基于系统卷管理器的存储虚拟化,一般是通过逻辑卷管理来实现的。
        2. 基于存储设备的存储虚拟化。基于存储设备的存储虚拟化主要是指在存储设备的磁盘或者控制器上实现虚拟化功能。
        3. 基于网络的存储虚拟化。基于网络的存储虚拟化是指在网络设备上实现存储虚拟化功能。

16.应用程序虚拟化的优势:
        1. 可以实现基于浏览器方式难以实现的应用,丰富应用程序的服务。
        2. 可以快速实现SaaS。
        3. 在用户体验方面,和独立的计算机应用没有差别,容易被接受。
        4. 支持多样化的终端,同一个设备也可以运行相同软件的不同版本。

17.虚拟机的迁移
        虚拟机迁移是指将虚拟机从源宿主机迁移到目标宿主机,并且在目标宿主机上将虚拟机运行状态恢复到其在迁移之前的状态,继续完成任务。
18. 评价虚拟机迁移效率的主要性能指标
        1. 总迁移时间
        2. 停机时间
        3. 总数据传输量
        4. 应用性能损失

19. 云存储的定义:
        
云存储是由云计算的概念延伸和发展而来的,将网络中大量存储设备通过集群系统、虚拟化技术或分布式文件系统等组织起来,为用户提供一个集业务访问和数据存储服务于一体的复杂存储池系统。
20. 云存储系统的主要优势:
        1. 低成本
        2. 高安全性
        3. 易扩展
        4. 丰富接口
        5. 支持同步
        6. 灾备恢复

21. 分布式文件系统的透明性可分为以下几种:
        1. 位置透明性
        2. 故障透明性
        3. 迁移透明性
        4. 副本透明性
        5. 并发透明性

22. 数据一致性技术
        数据一致性是指关联数据之间的逻辑关系是否正确和完整,可以理解为应用程序自己认为的数据状态与最终写入磁盘的数据状态是否一致。
23. 云计算的资源监管主要包含如下几个目标
        1.  自动化监管。自动化是指整个云计算系统在尽量少甚至完全不需要人工干预的情况下,自动完成资源部署、资源配置、资源监测、资源管理、资源调度等各项监管功能。
        2. 资源优化。云计算系统需要灵活实施多种资源调度策略来对系统资源进行统筹安排,资源优化通常包含资源调优、负载均衡等。
        3. 虚拟资源监管:虚拟资源是在物理资源上实施虚拟化技术后产生的,因此动态地对虚拟机、容器等虚拟资源进行监管变得尤为重要。
        4. 弹性可伸缩:弹性可伸缩是指云计算系统可根据系统规模、资源种类数量的增大或减小,按需增加或减少资源的监管能力。

24. 云计算系统中的资源监测存在以下挑战
        1. 系统规模巨大
        2. 资源异构性
        3. 服务多样性
        4. 资源动态性
        5. 性能与监测矛盾性

25. 任务调度的概念
        资源与任务的调度是指在特定的资源环境下,根据一定的资源使用规则,在不同的使用者之间调整资源的过程,不同的使用者对应着不同的任务,每个任务在系统中对应着一个或者多个进程。通常有两种途径可以实现资源与任务的调度:在任务所在的机器上调整分配给该任务的资源使用量,或者将该任务迁移到其他服务器上。
26. 任务调度算法应实现以下目标
        1. 在单位时间内完成尽可能多的任务,使系统的吞吐率尽可能高。
        2. 使系统在有任务需要完成的情况下,尽可能保持忙碌工作状态。
        3. 对于用户的服务请求、提交的任务,系统的响应时间和周转时间应尽可能短,降低用户和任务的等待时间。
        4. 使各种设备得以充分利用,提高所有设备的资源使用率。
        5. 系统提供服务性能公平合理,避免一些任务分配到太多的资源,而另外一些任务处于没有资源可用的状态。

27. 云计算安全问题的来源
        1. 合法云计算用户进行不法行为
        2. 云服务提供商管理可能出现疏漏
        3. 云服务提供商内部管理人员滥用职权
        4. 恶意攻击者攻击盗取云计算系统信息.

28. 云计算安全保障技术主要包括
        1. 身份认证机制
        2. 访问控制机制
        3. 隔离机制
        4. 数据加密技术
        5. 数据完整性保障技术
        6. 审计与安全溯源技术

29. 实现绿色云数据中心,可以从基础设施,IT设备、能源利用率以及能耗管理四方面入手:
        1. 尝试不断引入节能环保新技术,采用高能效的基础设施来支撑绿色云数据中心的部署。
        2. 降低计算设备在计算过程中的能耗,可以从源头上提高IT设备的能源利用率。
        3. 利用汇聚技术和虚拟化技术提高绿色云数据中心的能源利用率,可以有效提高云数据中心的整体能效。
        4. 实时、全面地监控整个云数据中心乃至网络的能耗情况,对每天产生的海量能耗数据进行多维度的分析,并给出合理的节能建议,设计有针对性的能效优化策略。

30. 节能优化技术
        1. 低功耗硬件
        2. 关闭/休眠技术
        3. 动态电压频率调节技术
        4. 绿色网络通信
        5. 温控节能技术
        6. 虚拟化技术
        7. 资源配置
        8. 节能调度技术
        9. 绿色数据部署机制

31. 大数据定义
        数据规模庞大,类型复杂,信息全面,维度高,难以基于传统软、硬件工具在有效的时间范围内进行采集、存储、分析、处理和展示的数据集合,对该数据集合进行处理有可能获得高价值处理结果,有助于机构或个人洞察事物真相,预测发展趋势,进行合理的判断与决策。
32. 大数据思维包含:
        1. 逻辑思维
        2. 上切思维
        3. 下切思维
        4. 求异思维
        5. 客观思维

33. 分布式数据采集系统的主要特点有:
        1. 伸缩性强。无论大规模的系统还是中小规模的系统,都适合使用分布式数据采集系统,均可以通过选用适当数量的采集节点来构建相应规模的系统。
        2. 可靠性高。由于采用了多个数据采集节点,若某个数据采集节点出现故障,只会影响该数据节点,而不会对系统其他部分造成任何影响,也便于故障查找。
        3. 速度快。分布式数据采集系统采用了多机器并行的工作模式,能够快速采集大规模的数据并进行数据预处理,可满足大型、高速、广域数据采集的需求。

34. 数据预处理
        数据预处理的目的是为数据挖掘模块提供准确、有效、具有针对性的数据,剔除于数据挖掘不相关的数据,甚至错误的数据或者属性信息,通过同一数据集中打的数据格式,为数据挖掘提供高质量的数据,从而提高数据挖掘与知识发现的效率。数据预处理食杂进行数据挖掘前不可或缺的一个步骤,主要包括数据清洗、数据集成、数据转换、数据规约等。
35. 数据清洗
        所谓数据清洗,就是对数据进行重新审查和校验的过程,目的是删除重复数据、纠正数据中存在的错误,并使数据保持一致性。
 36.数据转换:
        所谓数据转换,就是将数据从一种表示形式转换为另一种表现形式。常用策略如下:
        1. 平滑处理
        2. 合计处理
        3. 泛化处理
        4. 属性构造
        5. 规格化处理
        6. 数据离散化

37. 聚类算法所满足的要求主要包括
        1. 具有可扩展性
        2. 具有处理不同类型属性的能力
        3. 具有发现任意形状聚类的能力
        4. 具有自动决定输入参数的能力
        5. 具有处理噪声数据的能力
        6. 对输入数据顺序不敏感
        7. 具有处理高维数据的能力
        8. 可进行基于约束的聚类

38. 集成学习主要分为以下三种
        1. Boosting。串行学习算法,其工作机制为:首先使用初始训练集训练一个基学习器并评估其学习效果,然后根据评估结果进行权重调整,提升模型预测错误的样本权重;接着使用调整好的训练集来训练下一个基学习器,不断重复上述过程,终止条件通常为训练好的基学习器数量达到设定值或者学习效果达到预期目标。基学习器的结合以权重为主,即被赋予高权重的基学习器拥有更高的主导地位。
        2. Bagging。并行学习算法,基于自助采样策略,首先从训练集中有放回地取出一定数量的样本构成采样集,重复多次可得到多个采样集,每一个采样集都可以训练对应的基学习器;然后是基学习器的结合,不同任务使用不同的方法,常用的方法有平均法和投票法。
        3. Stacking。串行学习算法,其训练出的模型具有层级结构,前一层的输出作为后一层的输入,这种算法具有较强的表征学习能力。

39. 循环神经网络RNN:
循环神经网络(Recurent Neural Netwonk, RNN) 是同层节点相互连接的种结构, 循环神经网络的这种结构使其在自然语言处理、生理电信号等领域中得到了更广泛的应用。在一般的网络中,节点之间是相互独立的。但是对于序列化数据,节点之间是有联系的,不是独立存在的。循环神经网络的神经元有两个输入,一个是上一层的输出,另一个是本层的一个反馈,按照时间序列观察,可以看到循环神经网络中同层节点依据时序依次连接共享权值。因此在循环神经网络中,t时刻的输入还会包含着前面时刻的信息,t时刻之前的信息会对当前内容产生影响。
40. 解决过拟合问题经常使用的两种方法为正则化和随机失活:
        (1)正则化。在深度学习模型中,常常会由数据量较小,深度学习模型过于复杂,导致深度学习模型对数据过报合。为了防止深度学习模型出现过拟合并提高深度学习模型的泛化能力,往往会对深度学习模型进行正则化。正则化主要包含L1正则化(L1 Regularization)和L2正则化(L2 Rguazatio)o。L1正则化将参数的绝对值作为惩罚项,而L2正则化则将参数的平方作为惩罚项。L1正则化倾向于将网络中的部分权重变为0,使参数矩阵变得稀疏,从而降低深度学习模型的复杂度。L2正则化会使深度学习模型中的所有参数都接近于0,降低参数对输入数据较大变换的敏感度。L1正则化与2正则化项计算公式分别如式所示:
               (a)                                                   (b). 
        (2)随机失活。随机失活是一种常用的缓解过拟合方法。如果使用随机失活,那么会在训练时随机将神经网络中一部分节点遗弃,也就是将这些节点中的数值置0,使这些节点的相关参数不会参与训练。图9.17所示为是否使用随机失活的比较,图9.17 (a) 中没有使用随机失活,图9.17 (b)的中间一层使用了遗弃值为0.2的随机失活,遗弃值为0.2表示有20%的节点将会被遗弃。图9.17 (b)中的虚线表示被遗弃的节点,由于节点被遗弃,因此将节点中的数值置为0,节点不会参与反向传播。随机失活只会在训练中遗弃节点,使用随机失活会使得神经网络少了一部分输入,在进入求和运算时得总值会比没有遗弃节点时小,因此在测试时,节点会乘以训练时所设置得遗弃值来补偿训练时遗弃节点所产生得数据分布上得差距。

云计算与大数据_第1张图片

 



 

 

 

 

你可能感兴趣的:(云计算,云计算,大数据)