大数据学习笔记1·研究现状

什么是大数据

如果逐字逐句来看两家公司对大数据的定义,你们会发现这两个定义非常相似,其中都提到了大量、高速和多样化的信息;关注发现、分析、洞见和决策制定。

我想在某种意义上,在这个高度竞争的社会,创新意味着,如果你有某种洞见、想法和决定,它们不同于或者超前于有相同想法的人的洞见、想法和决定,即使只是超前一天,说一天可能有点夸张,就说一个月或者几年吧,那么你就有了独特的优势。这就是创新。大数据正是你实现创新所需要的机制、工具以及能够帮助你获得洞见的整个过程。使你能够在竞争者之前作出决策。
大数据学习笔记1·研究现状_第1张图片
在任何时候,如果你乘坐飞机,你问一问坐在你旁边的人,他跟你基本是坐在相同的座位上。我保证,你和他/她购买机票时所付的价格都是不一样的,这就是动态定价。你购买机票时所付的价格取决于你是在哪一天购买的机票,你从哪个代理机构购买的机票,以及你从什么样的渠道购买的机票,等等。
这就是动态定价,其关键是收益管理。每个航班的上座率如果低于某个百分比,比如上座率低于50%,该航班肯定是亏损的。如果你的航班太多,那么就会有空的飞机。这时候你应该怎么办呢?
但是,如果你的航班太少,那么你的顾客就会选择竞争对手的航班。
因此,很显然,在收益管理方面,你可以做很多大数据分析。

大数据的另一个维度是组合数据。
组合数据,对我们自己来说可以是组合我们的日程、电子邮件、个人联系人信息。
大数据的“大”不仅仅是指在一个维度上的“大”,而是包括多样性、组合和精炼。这就是为什么我们要讨论很多关于基础设施、机器学习和数据挖掘的内容。这些工具怎么样来帮助你们精炼数据,把信号转化成数据,把数据转化成信息,以及把信息转化成知识。这就是所谓的大数据。

为什么大数据是当前热点

  1. 数据获取成本接近于0
    大数据学习笔记1·研究现状_第2张图片
  2. 数据存储成本接近于0
    大数据学习笔记1·研究现状_第3张图片
  3. 如何组合这些数据,需要大数据技术
    大数据学习笔记1·研究现状_第4张图片
    典型的企业中会有企业数据:CRM客户关系数据、ERP数据、交易数据。然后是使用的用户,用户对产品如何反应。接下来是社交媒体。社交媒体的重要性甚至都不需要我来强调,因为你们大多数人都生活在社交媒体的世界中。我认识的很多人从不关手机,哪怕是在睡觉的时候,一醒来他们就会回复好友信息。在社交媒体上,人们会发表对你产品的想法,对你竞争对手产品的想法。人们会上传传感器数据、系统、日志数据、公共数据。

新的计算基础设施

大数据的“5V”

  • volume:大体量
  • velocity:实时性
  • variety:多样性
  • veracity:真实性
  • value:价值

大数据基础计算设施
大数据学习笔记1·研究现状_第5张图片

  • 云计算基础设施
  • 异构的多供应商服务整合:你可以从开源Apache、微软、IBM等处获得服务。
  • 数据仓库:存储
  • 数据安全性
  • Hadoop
  • 数据分析
    • 数据挖掘
    • 实时流分析
    • 数据可视化(关于可视化有一个很好的展示示例:Hans Rosling’s 200 Countries, 200 Years, 4 Minutes

由以上:获取数据的成本趋近于0、组合数据的能力以及新工具的使用,促进大数据时代的来临。
大数据学习笔记1·研究现状_第6张图片

课程简介

分为三个部分:
1. 基础设施:包括云计算,Hadoop,MapReduce、big table、数据中心、数据库等
2. 机器学习、知识挖掘和数据可视化
3. 工业应用:比如社会计算、城市计算、软件分析、网络搜索和信息检索,以及情感分析和意见挖掘。

基础架构

以微软大数据架构为例:
大数据学习笔记1·研究现状_第7张图片
1. 最底层是传感器等物理设备,收集和获取数据
2. 基本管理层,用于管理底层物理设备
3. 安全隐私层,需要考虑认证、用户账号、数据账号
4. Hadoop和YARN:YARN管理所有计算、存储资源。在资源管理层上有传统关系型数据库、数据仓库,处理结构化数据。也有Hadoop、MapReduce和HDFS,它们主要处理非结构化数据。其中,noSql表示not-only-Sql。
5. Hive:非结构化数据的查询处理和查询优化,实时处理大数据量的流。
6. Storm:高效计算;Sqoop:在结构化和非结构化之间转移数据;Zookeeper:处理协调性的工作;Pig脚本语言:比MapReduce更高层的语言。
7. 分析引擎:无需考虑数据是否结构化,可以做统计分析,比如SAS文本分析、搜索引擎等。
8. 在最上层,大部分是给开发人员提供的建立协作和分享工具、自服务应用或者机器学习可视化等。

科学的四个范式

大数据学习笔记1·研究现状_第8张图片

  • 第一范式,实证科学,通过观察。
  • 第二范式是理论科学,使用理论和概括,也是基于实证的东西,但是已经有了一些更精细的数据,来真正地描述这个世界。
  • 第三范式是计算科学,做很多模拟,甚至是使用计算来研究数学和物理这类现象。
  • 第四范式实际上是由吉姆.格雷提出来的。他预见了这个大数据时代,在所有的科学领域使用数据。大数据已经提供了机会,去把所有的理论、实验和模拟统一在一起。

我预测会有很多很多新理论、新发现会在可以预见的未来几年里被发现。现在,你们要发现新的理论变得越来越困难,只有有限的理论等你发现。但是,还有很多你们在过去不能做的事情,现在有了所有这些基础设施,大数据允许我们去做,甚至是以无所不在的方式做这些事情。不只是自然科学、社会科学,各种各样的东西,实际上你们可以做,甚至是以纯科学的方式。

大数据转换,你获得很大量的数据,你进行精炼,进行连接,然后进行融合。最后你将获得我们所说的知识。整个事情就是关于把一些东西变得越来越精炼,最后获得一些有深刻洞见的东西。

大数据学习笔记1·研究现状_第9张图片

看看整个数据循环,人们可能说这是烦人的,但是相信我,这非常非常重要,如果做不好,就像我所说的,错进错出。所以,数据收集,你们如何做摄取、抽取、转换和加载加载到大数据存储管理平台,结构化的和非结构化的。然后你可以开始做大数据分析和挖掘。然后你可以建模和预测。一旦你真正有了发现,你可以公布你的发现,并把它可视化并最终作为应用程序部署。在某种意义上,现在,天气预报、PM 2.5预报,不管是什么,在某种意义上都是大数据应用。

你可能感兴趣的:(大数据)