大数据学习笔记 之 大数据概述

                             大数据与云计算、互联网

1、云计算的概念。

          云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力。云计算代表了以虚拟化技术为核心,以低成本为目标的、动态可拓展的网络应用基础设施,是近年来最具代表性的网络计算技术与模式。

           云计算包括3种典型的服务模式:IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)

                   IaaS:将基础设施(计算资源和存储)作为服务出租。

                   PaaS:把平台作为服务出租。

                   SaaS:把软件作为服务出租。

       云计算包括公有云、私有云和混合云3种类型。公有云顾名思义  是面向所有用户提供服务,只要是注册付费的用户都可以使用。私有云是只为特定的用户提供服务。混合云就比较强大,它综合了公有云和私有云的特点。

2、云计算的关键技术。(虚拟化、分布式存储、分布式计算、多租户)

        (1)虚拟化

             虚拟化技术是云计算基础架构的基石,是指将一台计算机虚拟为多台计算机,在一台计算机上同时运行多个逻辑计算机,每个逻辑计算机可运行不同的操作系统,并且应用程序都可以在相互独立的空间内运行而不相互影响,从而提高计算机的工作效率。

        (2)分布式存储

               面对数据爆炸的时代,集中式存储已经无法满足海量数据的存储需求,分布式存储就出现了。说到分布式,首先人们会想到HDFS(Hadoop Distributed File System),而HDFS就是对GFS(Google File System)的开源实现。GFS(Google File System)是谷歌公司推出的一款分布式文件系统,它可以满足大型、分布式、对大量数据进行访问的应用的需求。GFS具有很好的硬件容错性。GFS 支持GB或者TB级别的超大文件的存储,在进行存储的时候,一个大文件会被分为好多个块,然后分散存储在由数百台机器组成的集群中。而HDFS呢,它是对GFS的开源实现,它采用了“一次写入,多次读取”的文件模型。文件一旦创建,写入并关闭了,之后只能对它执行读取操作而不能执行任何修改操作。而且HDFS是基于java实现的,具有强大的跨平台兼容性,只要是JDK支持的平台都可以兼容。

        (3)分布式计算

               面对海量的数据,传统的单指令单数据流顺序执行的方式已经无法满足快速数据处理的要求,又是谷歌公司,它提出了并行编程模型MapReduce,让任何人都可以在短的时间里迅速获得海量的计算能力,它允许开发者在不具备并行开发经验的前提下也能够开发出分布式的并行程序。MapReduce将复杂的、运行于大规模集群上的并行计算过程抽象为两个函数——Map和Reduce,并把一个大数据集切分成多个小的数据集,分布到不同的机器上进行并行处理,极大地提高了数据的处理速度。

        (4)多租户

                多租户技术的目的在于使大量用户能够共享同一堆栈的软硬件资源,每个用户按需使用资源,能够对软件服务进行客户化配置,而不影响其他用户的使用。多租户技术的核心包括数据隔离、客户化配置、架构拓展和性能定制

3.物联网

       ① 物联网的概念

            物联网是物物相连的互联网,是互联网的延伸。从技术架构上物联网分为四层:感知层、网络层、处理层和应用层

            (1)感知层:用来感知物理世界,采集来自物理世界的各种信息。这一层包含大量的传感器。

            (2)网络层:相当于人体的神经中枢,起到信息传输的作用。网络层包含各种网络类型。

            (3)处理层:相当于人体的大脑,起到存储和处理的作用,包括数据存储、管理和分析平台。

            (4)应用层:直接面向用户,满足各种应用需求

       ②物联网关键技术

              (1)识别和感知技术:RFID、二维码、传感器等。

          (2)网络与通信技术:包括短距离无线通信技术(WiFi、蓝牙、NFC、RFID等)和远程通信技术(互联网、2G/3G/4G/5G移动通信网络、卫星通信网络等)。

              (3)数据挖掘与融合技术

4、大数据与云计算、物联网的关系 

 

大数据学习笔记 之 大数据概述_第1张图片

你可能感兴趣的:(大数据,云计算)