Hadoop教程:大数据概述

由于新技术、新设备和社交网站等通信手段的出现,人类产生的数据量每年都在迅速增长。2003年之前的所有数据量总和是50亿G。如果你把数据以磁盘的形式堆起来,它可能会填满整个足球场。到了2011年,每两天就能创造同样的数量,2013年每十分钟创造同样的数量。这一比例仍在大幅增长。虽然所有这些信息都是有意义的,并且在处理时很有用,但它却被忽略了。

世界上90%的数据是在过去几年生成的。

什么是大数据

大数据其实就是海量的数据,它是不能用传统计算技术处理的海量数据集的集合。大数据不仅仅是一种数据,它已经成为一门完整的学科,涉及到各种工具、技术和框架。

大数据的来源

大数据涉及不同设备和应用产生的数据。以下是大数据保护下的一些领域。

  • 黑匣子数据:是直升机、飞机、喷气机等的组成部分,它可以捕捉机组人员的声音、麦克风和耳机的录音,以及飞机的性能信息。
  • 社交媒体数据:Facebook和Twitter等社交媒体包含全球数百万人发布的信息和观点。
  • 股票交易数据:股票交易数据包含客户对不同公司股票的“买入”和“卖出”决策的信息。
  • 电网数据:电网数据包含特定节点相对于基站所消耗的信息。
  • 搜索引擎数据:搜索引擎从不同的数据库检索大量数据。
Hadoop教程:大数据概述_第1张图片
big_data.jpg

因此,大数据包括大容量、高速度和可扩展的各种数据。其中的数据有三种类型。

  • 结构化数据: 关系型数据库。
  • **半结构化数据: **XML数据。
  • 非结构化数据: Word、PDF、文本、媒体日志。

大数据带来的好处

大数据对我们的生活至关重要,它正在成为现代世界最重要的技术之一。下面是我们大家都知道的几个好处:

  • 利用Facebook等社交网络中保存的信息,营销机构正在了解他们的活动、促销和其他广告媒介的效果。
  • 利用社交媒体上的信息,如消费者的喜好和对产品满意度,产品公司和零售组织正在优化他们的生产。
  • 利用患者既往病史资料,医院提供更好、更快的服务。

大数据技术

大数据技术在提供更准确的分析方面有很重要的作用,这可以提供更具体的决策,从而提高运营效率,降低成本,降低业务风险。

想要利用大数据的力量,你需要一个能够实时管理和处理海量结构化和非结构化数据、能够保护数据隐私和安全的基础设施。

市场上有来自亚马逊、IBM、微软等不同厂商的各种处理大数据的技术。在研究处理大数据的技术时,我们考察了以下两类技术:

大数据操作

这包括像MongoDB这样的系统,它提供了实时、交互式工作负载的操作能力,数据主要是在这些工作负载中捕获和存储的。

NoSQL大数据系统旨在利用过去十年出现的新的云计算架构,以低成本和高效率运行大量计算。这使得操作大数据工作负载更容易管理、更便宜、实现更快。

一些NoSQL系统可以提供基于实时数据的模式和趋势的洞察,而只需最少的编码,并且不需要数据科学家和额外的基础设施。

大数据分析

这包括大规模并行处理(Massively Parallel Processing)数据库系统和MapReduce系统,它们提供可追溯和复杂的分析能力,可能涉及大部分或所有数据的分析。

MapReduce提供了一种新的数据分析方法,它是SQL提供的功能的补充,并且基于MapReduce的系统可以从单个服务器扩展到数千台高端和低端机器。

这两类技术是互补的,经常一起部署。

操作VS分析

操作 分析
延迟 1 ms - 100 ms 1 min - 100 min
并发 1000 - 100,000 1 - 10
访问模式 Writes and Reads Reads
查询 Selective Unselective
数据使用范围 Operational Retrospective
End User Customer Data Scientist
技术 NoSQL MapReduce, MPP Database

大数据的挑战

与大数据相关的主要挑战如下:

  • 数据采集
  • 管理
  • 存储
  • 搜索
  • 共享
  • 传输
  • 分析
  • 展示

为了完成上述挑战,通常需要企业服务器的帮助。

原文链接:https://www.tutorialspoint.com/hadoop/hadoop_big_data_overview.htm

你可能感兴趣的:(Hadoop教程:大数据概述)