大数据:大数据知识框架汇总(四)

一、什么是大数据

大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。IBM提出大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)。
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

二、大数据技术

GFS、BigTable、Map-Reduce三篇论文是Hadoop的基础。下面是从Apache官网上查看到的不完全大数据相关项目信息,以供读者研究、学习。
大数据:大数据知识框架汇总(四)_第1张图片

  1. Hadoop相关组件介绍
    HDFS:分布式文件系统,提供高吞吐量访问应用程序数据;
    YARN:集群资源管理框架,用户作业调度和集群资源管理;
    MapReduce:基于YARN的大数据集并行处理系统;
    Common:支持其他模块通用功能,如序列化,RPC,持久化数据结构等;
    Ambari:部署管理和监视的开源框架,提供直观操作工具和健壮性的API;
    Hbase:可拓展的分布式列式数据库,支持大表的结构化存储;
    Hive:分布式数据仓库系统,提供基于类SQL查询语言;
    Mahout:机器学习和数据挖掘领域经典算法实现;
    Pig:高级数据流语言和执行环境,用来检索海量数据集;
    Spark:快速通用计算引擎,支持多应用的编程模型;
    Sqoop:在关系型数据库与Hadoop之间进行数据传输的工具;
    Tez:从MR演化而来的通用DAG计算框架,作为底层数据处理引擎;
    ZooKeeper:提供Hadoop集群高性能的分布式协调服务。

三、大数据应用

大数据应用方向主要有:可视化分析、数据挖掘算法、预测性分析、语音引擎、数据质量与管理。
3.1 啤酒与尿布
全球零售业巨头沃尔玛在对消费者购物行为分析时发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段。没想到这个举措居然使尿布和啤酒的销量都大幅增加了。如今,“啤酒+尿布”的数据分析成果早已成了大数据技术应用的经典案例,被人津津乐道。

3.2 意料之外:胸部最大的是新疆妹子
淘宝数据平台显示,购买最多的文胸尺码为B罩杯。B罩杯占比达41.45%,其中又以75B的销量最好。其次是A罩杯,购买占比达25.26%,C罩杯只有8.96%。在文胸颜色中,黑色最为畅销。以省市排名,胸部最大的是新疆妹子。

3.3 魔镜”预知石油市场走向
如果你对“魔镜”还停留在“魔镜魔镜,告诉我谁是世界上最美的女人”,那你就真的out了。“魔镜”不仅仅是童话中王后的宝贝,而且是真实世界中的一款神器。其实,“魔镜”是苏州国云数据科技公司的一款牛逼的大数据可视化产品,而且是国内首款喔。
在现在,“魔镜”可以通过数据的整合分析可视化不仅可以得出谁是世界上最美的女人,还能通过价量关系得出市场的走向。在不久前,“魔镜”帮助中石等企业分析数据,将数据可视化,使企业科学的判断、决策,节约成本,合理配置资源,提高了收益。

3.4 大数据与乔布斯癌症治疗
乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。

3.5 微软大数据成功预测奥斯卡21项大奖
2013年,微软纽约研究院的经济学家大卫•罗斯柴尔德(David Rothschild)利用大数据成功预测24个奥斯卡奖项中的19个,成为人们津津乐道的话题。今年罗斯柴尔德再接再厉,成功预测第86届奥斯卡金像奖颁奖典礼24个奖项中的21个,继续向人们展示现代科技的神奇魔力。

引用:

  1. Apache项目清单

你可能感兴趣的:(大数据,大数据)