到底什么是大数据?来看这篇!

大数据时代,不学点儿大数据怎么能行。不学点大数据都不好意思说在21世纪生活过

      从这篇文章,我和大家一起开始大数据之旅。

到底什么是大数据?来看这篇!_第1张图片

1、大数据诞生的时代背景

 

      随着计算机技术全面融入社会生活,出现信息大爆炸,信息积累到了一个开始引发变革的程度。

      互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。

      此时数据最直接的特点就是:体量大、增长快!

 

      那么人类,每年会产生多少数据量呢?

      据不完全统计,地球上数据发展如下:

      2006 年:全球共新产生约180EB的数据(个人用户迈进TB时代)

      2011 年:新产生数据约1.8ZB。

      有市场研究机构预测,2020 年,将新产生数据约35.2ZB 。

  

到底什么是大数据?来看这篇!_第2张图片

      光看上面的数字,可能大家没有具体的根据,通过看下面更严谨的对比数据,就知道海量数据的威力了。

位(bit)是计算机存储信息的最小单位,二进制的一个“0”或一个“1”叫一位。

字节(Byte)是存储容量基本单位,1字节(1Byte)由8个二进制位组成。

如:一个英文字母占1字节,一个中文汉字占2~4字节(不同编码占不同字节数)

注意:位和字节的英文读音相似,业内区分方式一般是:大B 和 小b。

          使用场景:存储单位(空间)时使用 大B, 网络速率(带宽)时使用小b。

 

各单位间的换算关系是:

1KB=1024B

1MB=1024KB (约等于一张网络通用图片(非高清)的大小)

1GB=1024MB(约等于一部电影(非高清)的大小)

1TB=1024GB(常见移动硬盘的容量级别,约等于一家大型医院所有X光片信息量)。

1PB=1024TB(容量相当大,常见于服务器,应用于大数据存储设备)

1EB=1024PB(目前还没有单个存储器达到这个容量)

1ZB=1024EB    1YB=1024ZB    1DB=1024YB    1NB=1024DB

现在1TB的硬盘的标准重量是670g(差不多吧)

1NB=2的60次方TB=1152921504606846976TB

       =1152921504606846976个1TB硬盘

       总重量约为77245740809万吨,

       使用载重量为56万吨的巨轮运输,需要拉十几亿次才能将这些数据运到地点,估计目前地球上所有巨轮一起运输都运不完。现在知道大数据的威力了吧。

 

目前国内外专家学者主要是在数据规模上达成共识:

  • 超大规模:GB级别 

  • 海量规模:TB级别 

  • 大数据级:PB级别 

 

                                                      ——  摘自《系统规划与管理师》教程

 

    想驾驭这庞大的数据,作为人类的我们,首先想到的是要创造一个概念

 

到底什么是大数据?来看这篇!_第3张图片

2、大数据定义

       关于,大数据这一概念的提出者,众说纷纭,我们就不细究啦。

 

       有一种说法是:最早提出“大数据”一词的是全球知名咨询公司麦肯锡。麦肯锡给出的大数据定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合大数据具有5V特点:

体量大

Volum

数据量巨大,非结构化数据的超大规模和增长快速。  非结构化数据占数据总量的90%-90%。

非结构化数据比结构化数据增长速度快10-50倍; 处理的数据是传统数据仓库的10-50倍。

多样性

Variety

类型多样性:结构化、半结构化、非结构化

形式多样性:文本、图像、视频、机器数据、地理信息等

另外:这些数据无模式,或模式不明显;并且属于不连贯的语法或句义。

价值密度低

Value

类似沙里淘金,从海量数据中获取有用信息需要处理大量不相关的信息(例如:在连续一小时不间断的视频监控中,有用数据可能仅有一二秒)。

意味着深度复杂分析(人工智能、机器学习等),甚至可对未来趋势与模式进行预测分析。

处理速度快

Velocity

大数据处理通常指实时获取需要的信息,而非批量式分析。

即:立竿见影,  不是事后见效。

这是大数据区分于传统数据挖掘的最显著特征。

在大数据面前,处理数据的效率就是企业的生命。

真实性

Veracity

数据准确和可信赖,可以对现实进行反映和预测。

但实际情况是:到处充斥着虚假数据(如:刷单、刷粉等行为),数据不能反映真实的情况,不具备价值 并影响分析结果。从大数据中剔除错误、无效、无意义的脏数据是当今的一个重要的研究方向。

 

 

3、大数据应用

       尤瓦尔·赫拉利在《未来简史》中预测:人文主义的下一个主义是数据主义,一切学科(科学、文学、音乐、经济学等),背后都是数学模式,任何一个对象都可想象成一个数据处理系统。按这位大预言家的说法,大数据最终会融入到社会的方方面面。

      目前,大数据也确实已应用到广阔的领域,各行业的契合度如下:

到底什么是大数据?来看这篇!_第4张图片

 ——  摘自《系统规划与管理师》教程

上面这个图,分析如下:

(1)互联网和电子商务行业:主要用于用户行为分析(访问日志、用户主体信息和外景环境信息等),进而挖掘潜在客户,进行精准广告和营销。如:大家平时常用的地图导航应用(根据行程规划路线和预估时长)。

(2)电信/金融:对用户通信、流量、消费等进行分析,判断用户消费习惯和信用能力,给用户设计更贴合的产品。

 

(3)政府:通过挖掘和实时分析,提高决策的科学性和时效性,有效削减预算开支。

       借助大数据政府变得更加开放透明和智慧,使政府更清楚地了解公民的意愿和想法,提升公民的价值。

       通过引导社会舆论,为公众提供更好的服务,树立更好的形象。

(4)医疗:“流感趋势”案例是医疗行业的典型应用,社交网络为许多患者提供临床症状交流和诊治经验分享的平台。

(5)制造:传统制造业以产品为导向,降低生产成本来决定制造业的生存和发展。

       如今,个性化定制是趋势,借助大数据对海量数据获取、挖掘和分析,把握客户需求,交付客户喜欢的产品。

 

4、大数据处理

    面对上面具有5V特性的大数据,我们如何处理和分析,才能将大数据的价值发挥出来呢,这就需要大数据处理技术。大数据关键技术包括:数据采集、数据存储、数据管理、数据分析与挖掘。

 

到底什么是大数据?来看这篇!_第5张图片

 

    我目前大数据方面的工作,基本上就是围绕上面这个图开展。

    什么!你觉得这个图不好理解?那我举个例子吧:想一下你平时的做饭过程,买菜(数据采集/准备) - 放菜篓或冰箱(数据存储) - 洗菜(数据处理) - 配菜(数据建模/分析) - 炒菜(数据加工) - 上菜(成果展现) - 顾客/家人(用户)。这样是不是好理解一些。

 

     上面图中关键技术的专业角度的解释:

  • 数据准备:根据业务需求,利用数据抽取工具(ETL)来采集分布于各个地方的相关数据。汇总到的数据是后续数据处理的基础,正所谓“巧妇难为无为之炊”。

  • 数据存储:结构化数据使用关系数据库,非/半结构化数据使用分布式文件系统的NoSQL。

  • 计算处理:分布式并行处理技术(MapReduce,Spark等),将自己的程序运行在分布式并行处理平台中。

  • 数据分析与挖掘:根据业务需要对大数据进行关联、聚类、分类等钻取和分析,利用图形、表格进行展示。

 

到底什么是大数据?来看这篇!_第6张图片

 

     大数据是通过对它进行分析使用,让其产生和体现它的价值;而不是因为用到了NB的技术和算法才体现了它的价值。分析是大脑、关键技术是四肢。

     大数据概念本身强调的是处理大数据的能力和技术,但大数据的应用价值不在于它“大”,而主要体现于分析结果的细粒度价值(微观干预能力)。

 

      

 

       接下来,我们就围绕大数据关键技术,进行一系列的讨论。一层层揭开大数据的神秘面纱。敬请关注!

 

       如果感觉内容有点儿意义,欢迎大家进行分享

 

      我的文章一般  先发到  公众号,再发到 CSDN。如果想第一时间看到最新的文章,请关系公众号  “学点儿编程”,扫描以下二维码即可:

到底什么是大数据?来看这篇!_第7张图片

 

你可能感兴趣的:(程序人生,大数据)