大数据时代,不学点儿大数据怎么能行。不学点大数据都不好意思说在21世纪生活过。
从这篇文章,我和大家一起开始大数据之旅。
1、大数据诞生的时代背景
随着计算机技术全面融入社会生活,出现信息大爆炸,信息积累到了一个开始引发变革的程度。
互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。
此时数据最直接的特点就是:体量大、增长快!
那么人类,每年会产生多少数据量呢?
据不完全统计,地球上数据发展如下:
2006 年:全球共新产生约180EB的数据(个人用户迈进TB时代)
2011 年:新产生数据约1.8ZB。
有市场研究机构预测,2020 年,将新产生数据约35.2ZB 。
光看上面的数字,可能大家没有具体的根据,通过看下面更严谨的对比数据,就知道海量数据的威力了。
位(bit)是计算机存储信息的最小单位,二进制的一个“0”或一个“1”叫一位。 字节(Byte)是存储容量基本单位,1字节(1Byte)由8个二进制位组成。 如:一个英文字母占1字节,一个中文汉字占2~4字节(不同编码占不同字节数) 注意:位和字节的英文读音相似,业内区分方式一般是:大B 和 小b。 使用场景:存储单位(空间)时使用 大B, 网络速率(带宽)时使用小b。
各单位间的换算关系是: 1KB=1024B 1MB=1024KB (约等于一张网络通用图片(非高清)的大小) 1GB=1024MB(约等于一部电影(非高清)的大小) 1TB=1024GB(常见移动硬盘的容量级别,约等于一家大型医院所有X光片信息量)。 1PB=1024TB(容量相当大,常见于服务器,应用于大数据存储设备) 1EB=1024PB(目前还没有单个存储器达到这个容量) 1ZB=1024EB 1YB=1024ZB 1DB=1024YB 1NB=1024DB |
现在1TB的硬盘的标准重量是670g(差不多吧)
1NB=2的60次方TB=1152921504606846976TB
=1152921504606846976个1TB硬盘
总重量约为77245740809万吨,
使用载重量为56万吨的巨轮运输,需要拉十几亿次才能将这些数据运到地点,估计目前地球上所有巨轮一起运输都运不完。现在知道大数据的威力了吧。
目前国内外专家学者主要是在数据规模上达成共识:
超大规模:GB级别
海量规模:TB级别
大数据级:PB级别
—— 摘自《系统规划与管理师》教程
想驾驭这庞大的数据,作为人类的我们,首先想到的是要创造一个概念。
2、大数据定义
关于,大数据这一概念的提出者,众说纷纭,我们就不细究啦。
有一种说法是:最早提出“大数据”一词的是全球知名咨询公司麦肯锡。麦肯锡给出的大数据定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,大数据具有5V特点:
体量大 Volum |
数据量巨大,非结构化数据的超大规模和增长快速。 非结构化数据占数据总量的90%-90%。 非结构化数据比结构化数据增长速度快10-50倍; 处理的数据是传统数据仓库的10-50倍。 |
多样性 Variety |
类型多样性:结构化、半结构化、非结构化 形式多样性:文本、图像、视频、机器数据、地理信息等 另外:这些数据无模式,或模式不明显;并且属于不连贯的语法或句义。 |
价值密度低 Value |
类似沙里淘金,从海量数据中获取有用信息需要处理大量不相关的信息(例如:在连续一小时不间断的视频监控中,有用数据可能仅有一二秒)。 意味着深度复杂分析(人工智能、机器学习等),甚至可对未来趋势与模式进行预测分析。 |
处理速度快 Velocity |
大数据处理通常指实时获取需要的信息,而非批量式分析。 即:立竿见影, 不是事后见效。 这是大数据区分于传统数据挖掘的最显著特征。 在大数据面前,处理数据的效率就是企业的生命。 |
真实性 Veracity |
数据准确和可信赖,可以对现实进行反映和预测。 但实际情况是:到处充斥着虚假数据(如:刷单、刷粉等行为),数据不能反映真实的情况,不具备价值 并影响分析结果。从大数据中剔除错误、无效、无意义的脏数据是当今的一个重要的研究方向。
|
3、大数据应用
尤瓦尔·赫拉利在《未来简史》中预测:人文主义的下一个主义是数据主义,一切学科(科学、文学、音乐、经济学等),背后都是数学模式,任何一个对象都可想象成一个数据处理系统。按这位大预言家的说法,大数据最终会融入到社会的方方面面。
目前,大数据也确实已应用到广阔的领域,各行业的契合度如下:
—— 摘自《系统规划与管理师》教程
上面这个图,分析如下:
(1)互联网和电子商务行业:主要用于用户行为分析(访问日志、用户主体信息和外景环境信息等),进而挖掘潜在客户,进行精准广告和营销。如:大家平时常用的地图导航应用(根据行程规划路线和预估时长)。
(2)电信/金融:对用户通信、流量、消费等进行分析,判断用户消费习惯和信用能力,给用户设计更贴合的产品。
(3)政府:通过挖掘和实时分析,提高决策的科学性和时效性,有效削减预算开支。
借助大数据政府变得更加开放透明和智慧,使政府更清楚地了解公民的意愿和想法,提升公民的价值。
通过引导社会舆论,为公众提供更好的服务,树立更好的形象。
(4)医疗:“流感趋势”案例是医疗行业的典型应用,社交网络为许多患者提供临床症状交流和诊治经验分享的平台。
(5)制造:传统制造业以产品为导向,降低生产成本来决定制造业的生存和发展。
如今,个性化定制是趋势,借助大数据对海量数据获取、挖掘和分析,把握客户需求,交付客户喜欢的产品。
4、大数据处理
面对上面具有5V特性的大数据,我们如何处理和分析,才能将大数据的价值发挥出来呢,这就需要大数据处理技术。大数据关键技术包括:数据采集、数据存储、数据管理、数据分析与挖掘。
我目前大数据方面的工作,基本上就是围绕上面这个图开展。
什么!你觉得这个图不好理解?那我举个例子吧:想一下你平时的做饭过程,买菜(数据采集/准备) - 放菜篓或冰箱(数据存储) - 洗菜(数据处理) - 配菜(数据建模/分析) - 炒菜(数据加工) - 上菜(成果展现) - 顾客/家人(用户)。这样是不是好理解一些。
上面图中关键技术的专业角度的解释:
数据准备:根据业务需求,利用数据抽取工具(ETL)来采集分布于各个地方的相关数据。汇总到的数据是后续数据处理的基础,正所谓“巧妇难为无为之炊”。
数据存储:结构化数据使用关系数据库,非/半结构化数据使用分布式文件系统的NoSQL。
计算处理:分布式并行处理技术(MapReduce,Spark等),将自己的程序运行在分布式并行处理平台中。
数据分析与挖掘:根据业务需要对大数据进行关联、聚类、分类等钻取和分析,利用图形、表格进行展示。
大数据是通过对它进行分析使用,让其产生和体现它的价值;而不是因为用到了NB的技术和算法才体现了它的价值。分析是大脑、关键技术是四肢。
大数据概念本身强调的是处理大数据的能力和技术,但大数据的应用价值不在于它“大”,而主要体现于分析结果的细粒度价值(微观干预能力)。
接下来,我们就围绕大数据关键技术,进行一系列的讨论。一层层揭开大数据的神秘面纱。敬请关注!
我的文章一般 先发到 公众号,再发到 CSDN。如果想第一时间看到最新的文章,请关系公众号 “学点儿编程”,扫描以下二维码即可: