大数据作业

1.什么是云计算
云计算(cloud computing)指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。

2.云计算的关键技术
(1)体系结构
实现计算机云计算需要创造一定的环境与条件,尤其是体系结构必须具备以下关键特征。第一,要求系统必须智能化,具有自治能力,减少人工作业的前提下实现自动化处理平台智地响应要求,因此云系统应内嵌有自动化技术;第二,面对变化信号或需求信号云系统要有敏捷的反应能力,所以对云计算的架构有一定的敏捷要求。与此同时,随着服务级别和增长速度的快速变化,云计算同样面临巨大挑战,而内嵌集群化技术与虚拟化技术能够应付此类变化。

(2)资源监控
云系统上的资源数据十分庞大,同时资源信息更新速度快,想要精准、可靠的动态信息需要有效途径确保信息的快捷性。而云系统能够为动态信息进行有效部署,同时兼备资源监控功能,有利于对资源的负载、使用情况进行管理。其次,资源监控作为资源管理的“血液”,对整体系统性能起关键作用,一旦系统资源监管不到位,信息缺乏可靠性那么其他子系统引用了错误的信息,必然对系统资源的分配造成不利影响

(3)自动化部署
自动化部署主要指的是通过自动安装与部署来实现计算资源由原始状态变成可用状态。其于与计算中表现为能够划分、部署与安装虚拟资源池中的资源为能够给用户提供各类应用于服务的过程,包括了存储、网络、软件以及硬件等。系统资源的部署步骤较多,自动化部署主要是利用脚本调用来自动配置、部署与配置各个厂商设备管理工具,保证在实际调用环节能够采取静默的方式来实现,避免了繁杂的人际交互,让部署过程不再依赖人工操作。

3.云计算的特点
(1)虚拟化技术。
虚拟化突破了时间、空间的界限,是云计算最为显著的特点,虚拟化技术包括应用虚拟和资源虚拟两种。
(2)动态可扩展。
云计算具有高效的运算能力,在原有服务器基础上增加云计算功能能够使计算速度迅速提高,最终实现动态扩展虚拟化的层次达到对应用进行扩展的目的。
(3)按需部署。
计算机包含了许多应用、程序软件等,不同的应用对应的数据资源库不同,所以用户运行不同的应用需要较强的计算能力对资源进行部署,而云计算平台能够根据用户的需求快速配备计算能力及资源。
(4)灵活性高。
虚拟化要素统一放在云系统资源虚拟池当中进行管理,可见云计算的兼容性非常强,不仅可以兼容低配置机器、不同厂商的硬件产品,还能够外设获得更高性能计算。
(5)可靠性高。
倘若服务器故障也不影响计算与应用的正常运行。因为单点服务器出现故障可以通过虚拟化技术将分布在不同物理服务器上面的应用进行恢复或利用动态扩展功能部署新的服务器进行计算。
(6)性价比高。
将资源放在虚拟资源池中统一管理在一定程度上优化了物理资源,用户不再需要昂贵、存储空间大的主机,可以选择相对廉价的PC组成云,一方面减少费用,另一方面计算性能不逊于大型主机。
(7)可扩展性。
用户可以利用应用软件的快速部署条件来更为简单快捷的将自身所需的已有业务以及新业务进行扩展。如,计算机云计算系统中出现设备的故障,对于用户来说,无论是在计算机层面上,亦或是在具体运用上均不会受到阻碍,可以利用计算机云计算具有的动态扩展功能来对其他服务器开展有效扩展。这样一来就能够确保任务得以有序完成。在对虚拟化资源进行动态扩展的情况下,同时能够高效扩展应用,提高计算机云计算的操作水平。

4.什么是MPI?
MPI是一个信息传递应用程序接口,包括协议和和语义说明,他们指明其如何在各种实现中发挥其特性。MPI的目标是高性能,大规模性,和可移植性。MPI在今天仍为高性能计算的主要模型。

5.什么是网络计算?
网络计算指用户通过专用计算机网络或公共计算机网络进行信息传递和处理的技术。

6.MPI网络计算与云计算的区别?
网格计算整合大量异构计算机的闲置资源组成虚拟组织,以解决大规模计算问题。对云计算而言,其借鉴了传统分布式计算的思想。通常情况下,云计算采用计算机集群构成数据中心,并以服务的形式交付给用户,使得用户可以像使用水、电一样按需购买云计算资源。
但是云计算和网格计算等传统的分布式计算也有着较明显的区别:首先云计算是弹性的,即云计算能根据工作负载大小动态分配资源,而部署于云计算平台上的应用需要适应资源的变化,并能根据变化做出响应;其次,相对于强调异构资源共享的网格计算,云计算更强调大规模资源池的分享,通过分享提高资源复用率,并利用规模经济降低运行成本;最后,云计算需要考虑经济成本,因此硬件设备、软件平台的设计不再一味追求高性能,而要综合考虑成本、可用性、可靠性等因素。

7.什么是数据分析?
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

8.物联网的四个环节
物联网产业链可细分为标识、感知、处理和信息传送4个环节,因此物联网每个环节主要涉及的关键技术包括:射频识别技术、传感器技术、传感器网络技术、网络通信技术等。

9.机器学习与数据挖掘的区别
首先数据挖掘是从海量数据中找出规律,有选择性的处理,利用包括但不限于机器学习中常用的方法,来找到一种可以更好地解决实际问题的模式;
机器学习是研究并利用解决某种问题的方法或规律,为这些规律在实际中应用提供理论证明,同时研究如何进一步优化这些方法和开发出新的方法。
机器学习注重相关机器学习算法的理论研究和算法提升;数据挖掘注重运用算法或者其他某种模式解决实际问题联系:机器学习为数据挖掘提供解决实际问题的方法,数据挖掘中算法的成功应用,说明了机器学习对算法的研究具有实际运用价值。

10.大数据计算系统分类及特点
主要的大数据处理系统有数据查询分析计算系统、批处理系统、流式计算系统、迭代计算系统、图计算系统和内存计算系统
(1).数据查询分析计算系统:数据查询分析计算系统是最常见的系统。数据查询分析计算系统需要具备对大规模数据进行实时或准实时查询的能力,数据规模的增长已经超出了传统关系型数据库的承载和处理能力,主要的数据查询分析计算系统包括很多内容,主要就是Hive、Cassandra、Hana、HBase、Dremel、Shark等;

(2).批处理系统:主要操作大容量静态数据集,并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征
<1>有界:批处理数据集代表数据的有限集合·
<2>持久:数据通常始终存储在某种类型的持久存储位置中·
<3>大量:批处理操作通常是处理极为海量数据集的唯一方法
由于这种方法严重依赖持久存储,每个任务需要多次执行读取和写入操作,因此速度相对较慢。但另一方面由于磁盘空间通常是服务器上最丰富的资源,这意味着MapReduce可以处理非常海量的数据集。同时也意味着相比其他类似技术,Hadoop的MapReduce通常可以在廉价硬件上运行;

(3)

你可能感兴趣的:(大数据作业)