http://www.doc88.com/p-9773645686622.html
内容
前言
什么是数据? 这似乎是一个简单的问题; 然而,根据解释,数据的定义可以是从“记录的东西”到“阳光下的一切”的任何东西。数据可以作为所有经验,无论是来自传感器的机器记录信息,个人拍照, 或由科学家记录的acosmic事件。 换句话说,一切都是数据。然而,记录和保存数据一直是挑战,而技术限制了捕获和保存数据的能力。
人脑的内存存储容量应该在2.5千兆字节(或100万千兆字节)左右。 可以这样想:如果你的电脑像电视中的数字视频录像机一样,2.5PB就足以容纳300万小时的电视节目。 您将不得不让电视连续运行超过300年,以耗尽所有的存储空间。 用于存储数据的可用技术无法进行比较,从而创建了一个名为Big Data的技术领域,该领域呈指数级增长。
如今,企业正在记录越来越多的信息,信息(或数据)正在增长,消耗的存储空间越来越多,管理变得越来越难,从而创建了大数据。 记录如此大量信息的需要各不相同。有时候原因是遵守合规性规定,在其他情况下,需要保留交易,在许多情况下,它只是备份策略的一部分。
如今,企业正在记录越来越多的信息,信息(或数据)正在增长,消耗的存储空间越来越多,管理变得越来越难,从而创建了大数据。 记录如此大量信息的需要各不相同。有时候原因是遵守合规性规定,在其他情况下,需要保留交易,在许多情况下,它只是备份策略的一部分。
然而,保存数据需要花费时间和金钱,即使它只是用于保护数据。 这是最大的挑战:企业如何能够继续保存大量数据? 幸运的是,那些已经提出减轻这些存储问题的技术的人也想出了一种从许多人看来是负担的价值中获取价值的方法。 这是一个称为大数据分析的过程。
大数据分析背后的概念实际上并不是什么新鲜事。几十年来,企业一直在使用商业智能工具,科学家们一直在研究数据集,以揭示多年来的秘密。 但是,数据收集的规模正在变化,您可用的数据越多,您可以从中推断出的信息就越多。
今天的挑战是找到数据的价值,并以更有趣和适用的方式探索数据源,以开发能够推动决策,找到关系,解决问题,提高利润,生产力甚至生活质量的智能。
关键是要想大,这意味着大数据分析。
本书将探讨大数据背后的概念,如何分析数据以及解释分析数据的收益。
第1章讨论大数据分析的起源,探讨相关技术的演化,并解释推导价值背后的基本概念。
第2章深入研究了不同类型的数据源,并解释了这些来源对于寻求在数据集中寻找价值的企业非常重要。
第3章帮助那些希望利用数据分析来构建业务案例以刺激技术投资并开发成功提取智能和数据集所需技能的人员。
第4章将分析团队的概念结合在一起,描述必要的技能集,并解释如何将BigData集成到企业文化中。
第5章帮助寻找数据源以提供大数据分析,涵盖各种公共和私人数据源,并识别可用于分析的不同类型的数据。
第6章通过描述构成大数据分析系统的元素来处理存储,处理能力和平台。
第7章介绍了安全性,合规性和审计的重要性 - 这些工具和技术使大数据源安全可用于分析。
第8章深入研究大数据的演变,并讨论将作为大数据发展的短期和长期变化,并被越来越多的组织采用。
第9章讨论了数据分析的最佳实践,涵盖了使大数据分析更易于交付的一些关键概念,以及如何避免潜在陷阱以及如何避免它们。
第10章探讨了数据管道的概念以及BigData如何在分析过程中移动,然后转换为可提供价值的可信信息。
有时,关于特定技术的最佳信息来自于那些为促进利润和增长而推广该技术的人,因此白皮书的出生。 白皮书旨在教育和激励客户关于特定技术领域,同时将这些潜在客户轻轻地引向供应商的产品。
也就是说,最好采取含有一粒盐的白皮书。然而,白皮书被证明是研究技术的极好来源,具有重要的教育价值。 考虑到这一点,我在本书的附录中包含了以下白皮书,每个白皮书都为那些希望利用大数据解决方案的人提供了额外的知识:“ApacheHadoop的MapR发布”和“高可用性:无单点故障, “都来自MapR Technologies。
第1章:什么是大数据?
究竟什么是大数据?乍一看,这个词看起来很模糊,指的是大而且充满信息的东西。该描述确实符合要求,但它没有提供有关WhatBig Data真正的信息。大数据通常被描述为超大型数据集,这些数据集已经超越了使用传统数据处理工具管理和分析它们的能力。在网上寻找线索,揭示了一种几乎普遍的定义,大多数推广BigData意识形态的人都可以将其归结为类似的东西:
大数据定义了数据集已经发展到如此巨大的规模的情况,以至于常规信息技术无法再有效地处理数据集的大小或数据集的规模和增长。换句话说,数据集已经变得如此之大,以至于难以管理甚至更难以从中获取价值。主要困难是数据的采集,存储,搜索,共享,分析和可视化。
关于大数据究竟是什么,还有很多话要说。 概念已经发展到不仅包括数据集的大小,还包括利用数据所涉及的过程。 大数据甚至与其他业务概念(例如商业智能,分析和数据挖掘)具有同义词。
矛盾的是,大数据并不是那么新鲜。 虽然大量数据集是在过去两年中创建的,但大数据的根源在于科学和医学界,其中对药物开发,物理建模和其他形式的研究进行了大量数据的复杂分析,所有这些都是 涉及大型数据集。 然而正是这一概念的根源改变了BigData的发展方向。
分析的到来
随着分析和研究应用于大型数据集,科学家们得出结论:越多越好 - 在这种情况下,更多的数据,更多的分析和更多的结果。 研究人员开始将相关的数据集,非结构化数据,档案数据和实时数据整合到流程中,从而产生了我们现在所称的大数据。
价值在哪里?
在商业世界中,大数据都是关于机会的。 根据IBM,我们每天创建2.5个五分之一(2.5×10 18)字节的数据,因此今天世界上90%的数据都是在过去两年中创建的。 这些数据来自各地:用于收集气候信息的传感器,用于社交媒体网站的帖子,在线发布的数字图片和视频,在线购买的交易记录以及手机GPS信号,仅举几例。 这是BigData的催化剂,以及更重要的事实,即所有这些数据都具有可以使用分析,算法和其他技术推断的内在价值。
大数据已经证明了它在几个领域的重要性和价值。国家海洋和大气管理局(NOAA),美国国家航空航天局(NASA),几家制药公司和众多能源公司等组织已积累了大量数据和现有的大量资源。 数据技术每天从中提取价值。
大数据已经证明了它在几个领域的重要性和价值。国家海洋和大气管理局(NOAA),美国国家航空航天局(NASA),几家制药公司和众多能源公司等组织已积累了大量数据和现有的大量资源。 数据技术每天从中提取价值。 其他研究。 制药公司和能源公司已经利用大数据来获得更有形的结果,例如药物测试和地球物理分析。 纽约时报
已经使用大数据工具进行了Fortext分析和Web挖掘,而沃尔特迪斯尼公司则使用它来关联和理解其所有商店,主题公园和Web属性中的客户行为。
大数据在当今的业务中扮演另一个角色:大型组织越来越需要维护大量结构化和结构化数据 - 从数据仓库中的交易信息到员工推文,从供应商记录到监管文件 - 遵守政府法规。 最近的法院案件鼓励公司保留大量的文件,电子邮件和其他电子通信,如即时通讯和互联网提供,如果他们面临诉讼,电子发现可能是必需的
大数据在当今的业务中扮演另一个角色:大型组织越来越需要维护大量结构化和结构化数据 - 从数据仓库中的交易信息到员工推文,从供应商记录到监管文件 - 遵守政府法规。 最近的法院案件鼓励公司保留大量的文件,电子邮件和其他电子通信,如即时通讯和互联网提供,如果他们面临诉讼,电子发现可能是必需的
价值在哪里?
提取价值说起来容易做起来难。 大数据充满了挑战,从技术到概念到运营,其中任何一个都可能破坏发现价值的能力和大数据的所有内容。也许最好以多维术语来思考大数据,其中四个维度 涉及大数据的主要方面。 该定义可以定义如下:
1.卷。
大数据有一种尺寸:大。 企业充斥着数据,容易积累太字节甚至数PB的信息。
2.品种繁多。
大数据扩展到结构化数据之外,包括各种类型的结构化数据:文本,音频,视频,点击流,日志文件等。
3.准确性。
为大数据目录收集的大量数据可能导致统计错误和对收集信息的误解。 信息的纯度对价值至关重要。
4.速度。
通常对时间敏感,必须使用大数据,因为它正在流入企业,以便最大化其对业务的价值,但它仍然必须从档案来源中获得。
这些4V的大数据构成了分析的路径,每个分析在发现价值的过程中都具有内在价值。 然而,大数据的复杂性并不仅仅以四个维度结束。 还有其他因素在起作用:大数据驱动的过程。 这些过程是技术和分析的集合,用于定义数据源的价值,这转化为可以推动业务发展的可操作元素。
其中许多技术或概念并不新鲜,但已经成为大数据的保护者。 最佳定义为分析类别,这些技术和概念包括以下内容:
传统商业智能(BI): 这包括用于收集,存储,分析和提供数据访问的大量应用程序和技术。 BI提供可操作的信息,帮助企业用户使用基于事实的支持系统做出更好的业务决策。 BI通过使用由数据库,应用程序数据和其他有形数据源提供的详细业务数据进行深入分析来工作。 在某些圈子中,BIcan提供业务操作的历史,当前和预测视图。
数据挖掘:这是一个过程,在这个过程中,从不同的角度分析数据,然后将其转换为被认为有用的摘要数据。 数据挖掘通常与静态数据或归档数据一起使用。 数据挖掘技术专注于建模和知识发现,用于预测,而不是纯粹的描述性目的 - 从大型数据集中发现新模式的理想过程。
统计应用:这些数据使用基于统计原理的算法来查看数据,并且通常集中于与民意调查,人口普查和其他静态数据集相关的数据集。 统计应用程序可以提供样本观察结果,可用于研究人口数据集,以进行估算,测试和预测分析。 经验数据,如调查和实验报告,是可分析信息的主要来源。
预测分析:这是统计应用程序的一个子集,根据从数据库收集的趋势和信息,检查数据集以提出预测。 一旦将外部元素添加到数据集中,预测分析就会在金融和科学领域变得越来越大,其中趋势推动预测。 预测分析的主要目标之一是确定业务流程,市场和制造的风险和机会。
数据建模:这是分析的概念性应用,其中可以通过算法多个数据集应用多个“假设”场景。 理想情况下,建模信息会根据算法可用的信息而变化,然后提供对变更对数据集的影响的洞察。 数据建模与数据可视化密切相关,其中隐藏信息可以帮助进行特定的业务努力。
前面的分析类别仅构成了大数据流向的一部分,以及为什么它对业务具有内在价值。 这种价值是由对永无止境的追求竞争优势的驱动,鼓励企业转向大型公司和外部数据库,以发现趋势,统计数据和其他可行的信息,以帮助他们决定下一步行动。 这有助于大数据的概念在技术专家和管理人员及其相关工具,平台和分析中得到普及。
更多大数据,而不是眼睛:
数据集的体积和总体大小只是BigData方程的一部分。越来越多的人认为,半结构化和结构化数据源都包含业务关键信息,因此必须能够满足BI和运营需求。同样,相关非结构化业务数据的数量不仅在增长,而且在可预见的未来将继续增长。
数据可以分为几类:结构化数据,半结构化数据和非结构化数据。结构化数据通常在传统数据库(SQL或其他)中发现,其中数据根据定义的业务规则组织到表中。结构化数据通常被证明是最容易使用的数据类型,因为数据被定义和索引,使访问和过滤更容易。
相反,非结构化数据通常没有BI。结构化数据不会组织到表中,也不能由应用程序本地使用或由数据库解释。结构化数据的一个很好的例子是二进制图像文件的集合。
半结构化数据介于非结构化数据和结构化数据之间。半结构化数据没有像包含表和关系的数据库那样的正式结构。但是,与非结构化数据不同,半结构化数据具有标记或其他标记来分隔元素,并提供定义数据的记录和字段的层次结构。
处理大数据的数量
由于可以使用标准XML格式和行业特定的XML数据标准(例如,保险中的ACORD,医疗保健中的HL7)处理数据集的实用程序和应用程序,处理不同类型的数据正在融合。 这些XML技术正在扩展可由大数据分析和集成工具处理的数据类型,但这些流程的转换功能仍然因数据的复杂性和数量而紧张,导致现有转换功能与新兴需求之间的不匹配。 这为新型通用数据转换产品打开了大门,该产品将允许为所有类别的数据(结构化,半结构化和非结构化)定义转换,无需编写代码,并且可以部署到任何软件应用程序或平台体系结构。
大数据的定义和相关分析的执行仍处于不断变化的状态; 工具,技术和程序不断发展。 然而,这种情况并不意味着那些从大型数据集中寻求价值的人应该等待。 对于采用观望态度的业务流程而言,大数据非常重要。
大数据的真正诀窍是找到处理变化数据源的最佳方法,并仍然满足分析过程的目标。这需要一种精明的方法,将硬件,软件和过程集成到一个可管理的过程中,在可接受的时间内提供结果 框架 - 这一切都始于数据。
存储是大数据的关键要素。 数据必须存储在某个地方,易于访问和保护。 事实证明,这对许多组织来说是一个巨大的挑战,因为基于网络的存储(例如SANS和NAS)的购买和管理成本非常高。
存储已经发展成为典型数据中心中更为行人的元素之一 - 毕竟,存储技术已经成熟并且已经开始接近商品状态。 然而,今天的企业面临着不断变化的需求,这些需求可能会给储存技术带来压力。 一个典型的例子就是大数据分析的推动,即为大数据集带来BI功能的概念。
大数据分析流程需要的功能通常超出典型的存储范例。 传统存储技术(如SANS,NAS等)无法原生处理大数据提供的TB级和PB级非结构化信息。 大数据分析的成功需要更多:处理大量数据的新方法,新的存储平台意识形态。
开源带来了工具
进入Hadoop,这是一个开源项目,提供了一个使用Big Data的平台。 尽管Hadoop已经存在了一段时间,但现在越来越多的企业开始利用其功能。 Hadoop平台旨在解决由大量数据引起的问题,尤其是包含复杂结构化数据和非结构化数据混合的数据,这些数据不适合放在表中。 Hadoop适用于需要支持深度和计算范围广泛的分析的情况,例如群集和定位。
对于寻求利用大数据的决策者,Hadoop解决了与大数据相关的最常见问题:以有效的方式存储和访问大量数据。
Hadoop的内在设计允许它作为一个平台运行,该平台能够在大量不共享任何内存或磁盘的机器上工作。 考虑到这一点,很容易看出Hadoop如何提供额外的价值:网络管理员可以简单地购买一大堆商品服务器,将它们放在机架中,然后运行Hadoop软件。
Hadoop还有助于消除与大型数据集相关的大部分管理开销。 在操作上,当一个组织的数据被加载到Hadoop平台时,该软件将数据分解为可管理的部分,然后自动将它们分散到不同的服务器上。 数据的分布式特性意味着没有一个地方可以访问数据; Hadoop会跟踪datareside的位置,并通过创建多个副本存储来保护数据。增强了灵活性,因为如果服务器脱机或失败,数据可以从已知的正常副本中自动复制。
Hadoop范例在处理数据方面还有几个步骤。例如,与传统的集中式数据库系统相关的限制,可能包括连接到服务器类系统并具有多个处理器的大型磁盘驱动器。在Inthat场景中,分析受到磁盘性能的限制,并最终受到可购买的处理器数量的限制。
通过Hadoop集群,集群中的每个服务器都可以利用Hadoop在集群中传播工作和数据的能力来参与数据处理。换句话说,索引作业通过将代码发送到集群中的每个服务器来工作,然后每个服务器在其自己的一小部分数据上运行。结果然后作为一个统一的整体被回传。使用Hadoop,该过程称为MapReduce,其中代码或进程映射到所有服务器,结果缩减为单个集合。
这个过程使Hadoop在处理大量数据时非常擅长:Hadoop通过利用所有可用的集群处理器并行工作来扩展数据并处理复杂的计算问题。
然而,冒险进入Hadoop世界并不是一种即插即用的体验;必须满足某些先决条件,硬件要求和配置工作才能确保成功。第一步是理解和定义分析过程。大多数主要信息官员熟悉业务分析(BA)或BI过程,并且可以与最常用的过程层相关:提取,转换和加载(ETL)层以及它在构建BA或BI解决方案时所起的关键作用。大数据分析要求组织选择要分析,合并它们的数据,然后在数据进行ETL过程之前应用聚合方法。这必须发生在大量数据中,这些数据可以是结构化的,非结构化的,也可以来自多个来源,例如社交网络,数据日志,网站,移动设备和传感器。
Hadoop通过整合实用流程和考虑(例如容错集群架构),将计算能力移近数据,并行和/或批量处理大型数据集的能力以及支持企业架构层从数据存储到开放的生态系统来实现这一目标。分析过程。
并非所有企业都需要大数据分析提供的服务;必须考虑Hadoop应对挑战的能力。但是,Hadoop无法独立完成所有事情。企业需要考虑构建Hadoop项目需要哪些额外的Hadoop组件。
例如,一组Hadoop组件的初始组件可能包括以下内容:用于数据管理的HDFS和HBase,用于处理框架的MapReduce和00ZIE,用于开发人员生产力的开发框架Pig和Hive,以及用于BI的开源Pentaho.A试点项目不需要大量的硬件。硬件要求可以像一对带有多重核心的服务器,24或更多千兆字节的RAM,以及每个2兆兆字节的十几个硬盘驱动器一样简单。这应该足以让一个试点项目开始。
应预先警告数据管理员,Hadoop的有效管理和实施需要一些专业知识和经验,如果没有现成的专业知识,信息技术管理应考虑与能够全面支持Hadoop项目的服务提供商合作。 这种专业知识证明对安全特别重要; Hadoop,HDFS和HBase以集成安全性的形式提供非常小的功能。 换句话说,仍然需要保护数据不受损害或被盗。
考虑到所有因素,内部Hadoop项目是大数据分析功能试点测试的最佳选择。 在试点之后,那些渴望进一步深入大数据分析领域的人可以使用大量的商业和/或托管解决方案。