大数据和云计算是两个不同但密切相关的概念。
大数据是指大量非结构化或结构化数据集合,无法通过传统的数据处理方式进行管理和分析。大数据的特点包括数据量大、数据类型多样、数据速度快、数据价值高等。随着互联网的发展,人们获取和处理大数据的能力不断提高,大数据正在成为推动社会进步和经济增长的重要力量。
云计算是指通过互联网将计算资源、存储资源和软件应用程序等提供给用户使用的一种计算模式。用户无需购买和维护自己的计算设备,只需通过互联网租用云端的计算资源,按需使用和支付。云计算的优势包括灵活性、可扩展性、弹性、安全性和低成本等。
大数据是指所涉及的数据量规模巨大到无法通过人脑或主流数据分析软件工具,在合理时间内达到提取,管理,处理,和整理成为帮助企业经营者进行决策的数据。
相对于传统的数据收集和分析流程,大数据就是数据量非常大,数据种类繁多,无法用常规方法对数据进行集成。现实中,大数据的收集,开发,和利用已经成为了当今数据分析领域最热门研究主题之一。人们都认为,掌握大数据的分析应用技术,将对于政府和企业的决策具有非常积极的帮助,其影响也是非常深远的。
大数据技术的战略意义不仅仅在于掌握庞大的数据信息,而还需要在于对这些含有意义的数据进行专业化处理。从另外一个角度来看,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”实现数据的“增值”。所谓加工能力就是处理大数据的整体过程,包括大数据采集,入库,在线分析。
大数据定义:无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。
由于大数据不能用传统的类似于抽样调查之类的随机分析法获取数据,而采用对所有数据都进行分析处理。大数据的基本定义是一种规模大到在获取,存储,管理,和分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模,快速的数据流转,多样的数据类型,和价值密度低四大特征。
为了深入理解数据大小概念,我们接下来讨论数据存储的单位。对于二进制计算机来说,最小的基本单位是位(bit),电脑记忆中最小的单位,在二进制电脑系统中,每一位(bit)可以代表0或1的数位讯号。
一个字节(Byte)由8个位(bit)所组成,可代表计算机键盘上的字元,英文字母A到Z,数字0到9,和各种符号,是记忆体储存资料的基本单位。如果要表达中文字则须要两个字节。
汉字的字长是指汉字的长度,转换关系如下:
1字节(byte) = 8位(bit)
1汉字 = 2字节= 16位(bit)
当记忆体容量过大时,位这个单位就不够用,因此就有千位的单位,用KB表示,以下是各个记忆体计算单位之间的关系:
1 Byte = 8 Bits
1 KB = 1024 Bytes
1 MB = 1024 KB
1 GB = 1024 MB
它们是按照进率1024(2的十次方)来计算。下面我们讨论大数据存储单位,TB,PB, EB,ZB,YB, DB的关系:
1 TB = 1, 024 GB
1 PB = 1, 024 TB
1 ΕB = 1, 024 PB
1 ZB = 1, 024 ΕB
1 YB = 1, 024 ZB
1 BB = 1, 024 YB
1 NB = 1, 024 BB
1 DB = 1, 024 NB
我们以PB为例说明这些存储单位,根据换算,1PB-2的50次方,地球上所有印刷材料大约200PB。今天我们讨论的大数据其实是发生在2000年后,因为信息交换,信息存储,信息处理三个方面能力的大幅增长而产生的数据。
由于大数据是指那些数量巨大,难于收集,处理,和分析的数据集,大数据存储是将这些数据集持久化到计算机中。存储是大数据分析的第一步。为满足大数据存储需求,存储机制已经形成从传统数据管理系统到非结构化数据管理(NOSQL技术)的结构化转移。
随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储,网络以及计算技术的发展。毕竟处理大数据这种特殊的需求是一个新的挑战。硬件的发展最终还是由软件需求推动的,我们很明显的看到大数据分析应用需求正在影响着数据存储基础设施的发展。
非关系型数据库技术通常可以理解为对关系型数据库的一个有力补充。非关系型数据能够拥有存储类似声音和图像的非结构化数据,非关系型数据库的典型代表有Mongodb, Redis,和Neo4j。
Mongodb是一个基于分布式文件存储的数据库,为互联网应用提供可扩展的高性能数据存储解决方案。
Redis是一个高性能的键值对数据库,
Neo4j是高性能的图形数据库。
大数据应用技术包括用于发现数据价值的数据挖掘技术,人工智能领域的自括然语言处理技术,社交网络分析技术,以及数据可视化技术。
大数据挖掘技术有分类,聚类,回归预测,和关联规则这些领域。
自然语言处理的研究领域包括机器翻译,主题模型,情感分析与意见挖掘,智能问答与对话系统,个性化推荐,和机器写作。
社交网络分析的主要目标是对社交网络中用户关系的预测与分析。
大数据的特征首先就是数据规模大。随着互联网,物联网,移动互联技术的发展,人和物的所有轨迹都可以被记录下来,数据呈现出爆发性增长。一般认为,大数据主要具有以下几个方面的典型特征,
1. 数据量巨大,
2. 数据呈现多样性,
3. 数据获取的速度快,
4. 数据的价值密度低。
数据量大是大数据能够运行的基础,统计分析也要求数据量大,数据量小不符合大数据的原则。因为个体都是有差异的,数据量足够大才可以避免因个体差异带来的偏差。
多大的数据才是大数据?目前一般笔记本硬盘最大的容量也就在1TB这个级别,但是从大数据角度来看数据很可能超过该规模。上一节中讨论了比TB级还大的数据存储单位。比TB级还大的数据计量单位还
1PB=1024TB,
1EB=1024PB,
1ZB=1024EB,
1YB=1024ZB.
到目前为止,业界尚未有一个公认的标准来界定“大数据”的大小。换句话说, “大”只是表示大数据容量的特征,并非全部含义。
所以,大数据是一个抽象的概念,是我们面临的数据无法存储,无法计算的状态,大数据的容量是没有
边界的。
大数据的数据类型不仅仅是单一的文本或数字信息,还包括越来越多的非结构化,半结构化数据,例如,互联网的网络日志,音频,图片,视频,地理位置信息。
针对不同的应用,这些数据的采集可以通过表格格式, HTML网页格式, XML格式,资源描述框架(RDF)数据格式,文本数据格式,图片格式,多媒体数据格式来获得。这些数据可以划分成结构化数据,非结构化数据和半结构化数据等不同类型。
结构化数据,可以从名称中看出,是高度组织和整齐格式化的数据。结构化数据通常对应表格数据结构和SQL的数据类型,可使用关系型数据库表示和存储。
一般特点是数据以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。
结构化数据的存储和排列是很有规律的,便于查询和修改等操作。在计算机中可以轻松地搜索,但是在日常管理中可能不是大家最容易找到的数据类型。
结构化数据缺点是扩展性不够灵活。在实际使用中反复进行表结构变更是不可取的,这也容易导致后台接口从数据库取数据出错。
另一方面,结构化数据比较适合处理定量数据,是能够用统一的结构加以表示的信息,例如,数字或符号。一般使用关系型数据库保存和管理这些数据,当使用结构化查询语言(SQL)时,计算机程序很容易获取这些数据。结构化数据具有的明确的关系使得这些数据使用起来十分方便,但是在商业上可挖掘价值方面就比较低。常见的结构化数据包括银行卡号码,日期,存款金额,电话号码,地址,产品名称等。
半结构化数据是结构化数据的一种形式,但它并不符合关系型数据库或其他表格结构的形式。半结构化数据是以树或者图的数据结构存储的数据。标签是树的根节点和子节点。通过这样的数据格式,可以自由地表达很多有用的信息。所以,半结构化数据的扩展性是比较好的。常见的半结构数据有日志文件,HTML,XML和JSON文档。
非结构化数据是指数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。可以说非结构化数据是结构化数据之外的一切数据,其字段长度可变,并且每个字段的记录又可以由可重复或不可重复的子字段构成的数据库。
非结构化数据技术不仅可以处理结构化数据而且更适合处理非结构化数据,例如,全文文本,图象,声音,影视,超媒体等信息。它不符合任何预定义的模型,因此它存储在非关系数据库中,并使用NOSQL语言进行查询。它可能是文本的或非文本的,也可能是人为的或机器生成的。简单的说,非结构化数据就是字段可变的的数据。
大数据具有一定的时效性,数据是不停变化的,体现在两个方面,
大数据的可变性妨碍了处理和有效地管理数据的过程,为什么会出现这种情况?由于数据的多义性,数据在处理过程中发生了变化,这意味着相同的数据在不同的上下文中可能具有不同的含义。在进行情感分析时,这一点非常重要,即分析算法能够理解上下文并发现该上下文中数据的确切含义。
大数据的真实性指的是数据的质量问题,例如,数据的可信度,偏差,噪声和异常值的情况。那么怎样保障大数据的数据质量呢?根据大数据的收集和处理过程,一般分为事前预设,事中监控,事后改善三个阶段来实施。
大数据中出现损坏的数据很常见。它可能由多种原因而产生,例如,拼写错误,语法缺失或不常见的缩写,数据重新处理和系统故障等。但是,忽略这些损坏数据可能会导致数据分析不准确,最终导致错误的决策。因此,确保数据正确,对于大数据分析非常重要。
大数据由于数据量巨大,并且其来源渠道多,导致传统的数据处理和分析技术难以应对。具体来说,这些挑战大多来自数据本身的复杂性,计算的复杂性和信息系统的复杂性。
大数据的价值是从数据分析中获得的知识。大数据的价值在于组织如何将自己转变为大数据驱动型公司,并利用大数据分析的洞察力来决策。具体来说,企业利用大数据有下述3方面可作为。
大数据具有数据规模大,数据类别复杂,数据处理速度快,数据真实性高,数据蕴藏价值的特点,对于大数据的处理和挖掘很大程度上需要依赖于云计算平台的分布式处理,分布式数据库,云存储和虚拟化技术。
云计算和大数据是相辅相成关系,从应用角度来讲,大数据离不开云计算,因为大规模的数据运算需要很多计算资源;大数据是云计算的应用案例之一,云计算是大数据的实现工具之一。大数据说的是一种移动互联网和物联网背景下的应用场景,各种应用产生的巨量数据,需要处理和分析,挖掘有价值的信息;云计算说的是一种技术解决方案,就是利用这种技术可以解决计算、存储、数据库等一系列IT基础设施的按需构建的需求。两者并不是同一个层面的东西。
什么“云”?家庭使用集中供应的自来水,冬季使用集中供应的暖气,就是“云”的基本概念,过去企业数据维护需要恒温恒湿的机房、一排排服务器以及专业的维护人员。现在云服务器成为了公司“隐形的机房”,由云服务器的提供者负责维护事宜。简单来说,配备了阿里云,就是阿里云的技术团队在维护服务器的安全云计算是分布式计算的一个分支,指的是通过网络“云”将巨大的数据计算处理程序分解成无数个小程序,然后,通过多部服务器组成的系统进行处理和分析这些小程序得到结果并返回给用户。
云计算模式分为公有云,私有云,和混合云,我们进行简单介绍。
公有云通常指第三方提供商提供给用户能够使用的云,公有云一般可通过Internet 使用,可能是免费或成本低廉的。这种云有许多实例,可在当今整个开放的公有网络中提供服务。公有云的最大意义是能够以低廉的价格,提供有吸引力的服务给最终用户,创造新的业务价值,私有云是为一个客户单独使用而构建的,因而提供对数据、安全性和服务质量的最有效控制。该公司拥有基础设施,并可以控制在此基础设施上部署应用程序的方式。
私有云极大的保障了安全问题,目前有些企业已经开始构建自己的私有云。
混合云是公有云和私有云两种服务方式的结合。由于安全和控制原因,并非所有的企业信息都能放置在公有云上,这样大部分已经应用云计算的企业将会使用混合云模式。很多将选择同时使用公有云和私有云,有一些也会同时建立公众云。因为公有云只会向用户使用的资源收费,所以集中云将会变成处理需求高峰的一个非常便宜的方式。
云计算可以在很短的时间内完成对数以万计的数据的处理,从而达到强大的网络服务。目前阶段的云服务已经不仅仅是一种分布式计算,而是综合分布式计算,效用计算,负载均衡,并行计算,网络存储,热备份冗余和虚拟化等计算机技术混合演进并跃升的结果。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。
云计算主要就是对计算资源进行灵活有效的管理和分配,这些资源主要包含计算资源,存储资源,网络资源三个方面。
那什么是计算资源?对于一个笔记本电脑来说,计算资源是CPU,存储资源是硬盘,由于内存是CPU和硬盘之间的桥梁,它的性能制约着整个计算机的性能,相当于网络资源。
云计算的计算资源不是单体物理资源。也就是说,不会租一台物理服务器给你。大部分云计算资源,都是虚拟化了的资源。虚拟化就是在物理资源的基础上,通过软件平台,封装成虚拟的计算资源。虚拟化的好处,就是让计算资源变得更加容易选择,调用更加灵活。
从管理角度来看,云计算具有弹性伸缩特点。云计算的计算资源,可以按需付费。你想要用多少,就租多少,配置是支持自定义的。如果后期因为业务增长,需要更好的配置,可以加钱买更多资源。
增加资源的过程,基本上是平滑升级。尽可能减小对业务的影响,也不需要进行业务迁移。如果某项业务的负荷下降,你也可以选择弹性收缩,降低配置,节约资金。
由于云计算既然是一种资源提供方式,那么,就可以根据模型的层级,提供不同等级的资源。云计算服务类型基本上可以分为3个层次。
大数据和云计算之间的关系在于,云计算为大数据提供了处理、存储和分析的基础设施和技术支持。大数据需要海量存储和高速处理的能力,云计算提供了无限制的存储和计算能力,同时支持弹性和可扩展性,使得用户能够在任何时候、任何地点访问和处理大数据。因此,云计算成为了大数据处理和分析的重要技术手段之一。