你想知道的大数据知识都在这里

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~

毋庸置疑，现如今是属于大数据（Big Data）的，革命性的时代。从社交媒体到企业，每时每刻都在产生大量的数据。无所作为，从而把这样的宝藏白白浪费掉是及其愚蠢的。企业已经学会了收集大数据以获取更高的利润，并提供更好的服务以及更深入地了解其目标客户。

大数据主要是指企业中日常生成的，大量的有组织以及无组织的数据。在这种情况下，组织如何处理这些数据，与数据量是无关的。对大数据分析可以产生改善战略商务决策（Strategic business decision-making）的洞察力。

大数据的重要性

如前所述，大数据的价值不在于您拥有多少信息，而在于您要如何利用它。您可以从任何一个点收集数据（并对其进行检查），以找到下面四种情况的解决方案：

物价回降（Price reductions）
时间缩减（Time reductions）
新产品开发，以及改进产品
做出明智的判断

当您耗费大量精力分析聚合大数据时，下面这些业务关联的任务就可能实现：

实时识别故障原因、问题以及缺陷。
根据客户的购买历史，在销售端（Point-of-sale）生成凭证（Voucher）。
在几分钟内计算出特定功能的全部风险。
在欺骗行为影响到您的组织之前，将其检测出来。

图1 大数据基础结构

大数据实例

汽车行业：福特现代混合动力车型 Fusion，它每小时产生高达 25GB的数据。这些数据可以用于解释驾驶习惯和驾驶模式，以预防意外事故，转向碰撞等情况。
娱乐：电子游戏行业每天都在使用大数据技术来检查超过 500GB 的有组织数据，以及 4TB 的功能性积压（Functional backlogs）。
社交媒体效应：每天，社交媒体网站 Facebook 的数据库中都会增加大约 500TB 的新数据。

大数据类型

大数据可以分为以下三大类。

结构化：可以以固定数据格式存储、处理和改进的数据称为结构化数据。随着时间的推移，如今计算机科学已经能够开发使用这些数据的方法，并从中获得价值。不过近来我们正预测与庞大数量的这类数据相关的问题，这些数据量将成为ZB（10 亿 TB 等于 1ZB）级别的。
非结构化：非映射（Unmapped）形式的数据称为非结构化数据。如何从大量的非结构化数据中获取价值，这其中充满挑战。例如，包含了简单文本文件、图片、音频，以及视频录像之集合的异构数据源（Heterogeneous data source），这些数据将难以进行分析。当下，组织拥有大量可用的数据，但不幸的是，他们并何从下手以提取数据的价值，因为这些数据是未经处理的形式。
半结构化：这可以包含两种形式的数据。另外，我们可以将半结构化数据视为一种形式上的结构，但实际上数据本身并未定义。例如，XML文件中所描述的数据。

大数据的四个 "V" 值

一些共同特征如图 2 所示。

体积（Volume）：数据量是决定大数据价值的重要因素。因此，体积是处理大数据时需要考虑的一个属性。
种类（Variety）：指的是各种数据源以及数据的性质，这其中既有结构的，也有非结构化的。曾经，电子表格和数据库是大多数实际应用中唯一考虑的数据来源。但现在，调查应用中还会考虑到电子邮件，图片，录音，以及监控设备等形式的数据。
速率（Velocity）：该术语是指“数据是如何迅速生成的”。数据创建和提炼的速率要有多快，才能满足特定需求，这决定了它的真正潜力。大数据的速率是数据从业务流程、应用程序日志、网站等来源流出的速度。大数据流动的速度非常高，几乎从不间断。
精确性（Veracity）：这是指所生成数据的各种格式之间的不兼容性，这限制了挖掘或管理数据的过程。

图2 大数据的特征

大数据架构

大数据架构包含一致的、可扩展的，以及完全计算机化的数据管道（Data pipelines）。构建这种基础架构需要具有深入了解堆中的每一层的能力，即从集群设计（Cluster design）开始，直到设置负责处理数据的顶级链（Top chain）。图 3 展示了堆栈的复杂性以及数据管道工程如何触及其每个部分。

在图 3 中，数据管道收集原始数据并将其转化为有价值的东西。同时，大数据工程师必须计划好数据会发生什么情况，数据存储在集群中的方式，内部许可的访问方式，用于处理数据的设备，以及提供给外界访问的模式。那些设计和实现这种架构的人被称为大数据工程师。

大数据技术
众所周知，大数据的主题非常广泛，并且渗透到了许多新技术的发展中。以下对一些技术的概述旨在帮助用户对大数据进行改造。

1. MapReduce（映射化简）：这使得任务的实现具有能够跨越数千台服务器的可扩展性。

Map：将输入数据集转换为一组不同的值。
Reduce：将 Map 任务的输出联合起来，形成一组简化的值。

2. Hadoop：这是 MapReduce 最令人钦佩的执行方式，它是一个完全开源的处理大数据的平台。Hadoop 足够灵活，它能够处理多种数据源，例如聚合数据以进行大规模处理，从数据库读取数据等。

3. Hive：这是一个类似 SQL 的链接，允许 BI（商业智能）应用程序在 Hadoop 集群旁运行查询。这是由 Facebook 开发的，它已经被开源了一段时间，并且它还是 Hadoop 框架的更高层次的概念。此外，它允许每个人对存储在 Hadoop 集群中的数据进行查询，并改进了 Hadoop 的功能，使其成为了 BI 用户的理想选择。

图3 大数据体系结构

大数据处理的优势

处理大数据的能力具有多种益处。

企业可以在进行决策时利用外脑（Outside brainpower）：使用来自搜索引擎以及 Facebook 和 Twitter等网站的社交数据的权利，可以帮助企业改进商务战略。
增强客户服务：客户响应系统正在被使用了大数据技术的新系统所取代。在这些新系统中，大数据技术用于理解与评估消费者的反应。
在早期识别服务风险：可以事先识别风险因素，以提供完美的数据。
提高操作能力：大数据技术可用于在决定将哪些数据移入数据仓库之前，为新数据构建暂存区（Staging areas）或着陆区（Landing zones）。此外，这种大数据和数据仓库技术的结合可帮助企业绕过不经常访问的数据。

挑战

虽然很容易陷入各种关于大数据的炒作之中，但它未得到充分利用的原因之一就是，在使用到它的技术中仍有许多挑战需要解决。其中一些挑战如下：

公司面临着的问题是：识别正确的数据，以及审查如何最好地利用它们。构建与数据有关的商业案例，这往往意味着形成“开箱即用（Out-of-the-box）” 的意见，以及寻找与传统商业模式截然不同的收入模式。
公司不情愿去挑选同时具有使用新技术和审查数据（以发掘重要的商业洞察）能力的优秀人才。
大量数据点还没有进行链接，公司通常没有合适的平台来整合和管理整个企业的数据。
数据世界的技术发展日新月异。借用数据之力，意味着能够与良好的、具有开拓性的伙伴一起运营 —— 这些公司可以帮助创建正确的 IT设计，从而以良好的组织方式适应环境的变化。

大数据的可访问性（Accessibility），便宜的硬件产品，以及新的信息管理和分析软件聚合在一起，在数据分析的历史中创造了独特的时刻。我们现在有能力快速且经济高效地审查这些惊人的数据集，这是有史以来的第一次。这种能力象征着真正的飞跃，同时也象征着一个在工作效率、收入和成功方面大幅进步的机会。

问答
Pandas“Group By”如何查询HDFStore中的大数据？
相关阅读
大数据安全市场现状和需求分析
NBA＋大数据，数字经济重塑体育帝国！
大数据与互联网医疗之发展浅谈

此文已由作者授权腾讯云+社区发布，原文链接：https://cloud.tencent.com/dev...