这些内容和后面的数据管理很抽象和乏味,大部分人可能没有直观感受,所以,我尽可能地记录详细,便于深入后回顾,我相信持之以恒的坚持和经历项目后就会发现这些是弥足珍贵的。
这篇笔记讲会说一说
- 大数据时代和三大主要数据源。
- Machines
- People
- Organizations
- 总结与每个来源相关的数量,种类,速度和真实性问题;
- 解释五步数据科学过程,从大数据中获取价值。
![Uploading image_999460.png . . .]
- 了解Hadoop Stack的主要元素(Pig,Hive,zookeeper等)。
大三主要数据源
在list1-Getting Started with BigData解释了为何随时随地处理数据的云数据结合云计算功能的大量数据一直是大数据时代发布的核心。
大量数据通常归结为机器,人员和机器生成数据组织生成的几种数据。我们参考从实时感觉和工业机械或车辆产生的数据。在线跟踪用户行为的Web日志。而我的心理传感器,个人健康追踪器等众多其他有意义的数据来源。
通过人工生成的数据,比如大量的社交媒体数据,状态更新,推文,照片和视频。
通过组织生成的数据,我们引用更传统的数据类型,包括经常存储在数据仓库中的交易信息数据库和结构数据。
请注意,大数据可以被结构化,半结构化和非结构化。这在后面的笔记会详细总结的。
无论您的大数据应用程序和所使用的大数据类型如何,真正的价值将来自集成不同类型的数据源并进行规模分析。总体而言,即使在我们开始分析之前,通过建模,管理和整合不同的流来改善业务并增加我们的大数据的价值。
作为建模和管理大数据的一部分,重点关注规模可用性的维度,并考虑与此维度相关的挑战来选择正确的工具。
体积,品种和速度是我们描述大数据并描述其挑战的主要方面。我们有大量不同格式的数据,质量不同,必须快速处理。真实性是指数据的偏差,噪声和异常,或不可测量的确定性在于数据的真实性和可信度,价格是指大数据的连通性。如图形网络的形式。
每个星期的大数据主要是大小,复杂性,速度,质量和连续性的挑战性维度。虽然我们可以根据上下文列出一些其他的v'我们宁愿把这五个列为这个大数据专业化帮助您工作的基本维度。此外,我们一定要永远忘记第六个价值观,大数据挑战的核心在于把所有其他方面都转化为真正有用的商业价值。
大数据将如何使您和您的组织受益匪浅?处理所有这些大数据的想法首先在于为现有问题带来价值。我们需要采取大数据工程和可扩展数据科学的步骤,从大数据中产生价值。我们都听说过了。数据符号将大数据转化为内部甚至行动。
但这是什么意思?数据符号可以被教导为实证研究的基础。像数据一样用来诱导观测资料。这些观察数据主要是数据。在我们的案例中,大数据涉及到一个企业或科学用例。
内部是我们用来指数据科学数据产品的术语。它通过探索性数据分析和建模的组合从不同数量的数据中提取出来。这些问题有时不那么具体,它可能需要仔细查看其中的模式的数据来提出一个具体的问题。数据科学不是静态的一次性分析。它涉及一个过程,其中生成的模型给我们的见解不断改进,进一步和前传的证据和迭代。
summary big data 2 数据科学五个步骤
有很多方法来观察这个过程。将其视为两个不同的活动的一种方式。我喜欢称之为大数据工程和大数据分析,或计算大数据科学,因为不仅仅是简单的分析。
查看该过程的更详细的方法揭示了数据科学过程的五个步骤或活动,即获取,准备,分析,报告和行为。
我们可以简单地说,数据科学发生在所有步骤的边界。理想情况下,这个过程应该支持实验性的工作,这些实验工作经常被迭代,并导致更多的科学探索,以及在大数据和俱乐部平台上使用动态可扩展性在这些探索过程中产生可操作的结果。
如果我们将不同工具的依赖关系相互添加,则这五步过程可以以现实生活中的大数据应用程序的替代方式使用。大数据的影响推动了流程每一步的替代可扩展性方法。收购包括帮助我们检索数据的任何内容,包括查找,访问,获取和移动数据。它包括对所有相关数据的识别和认证访问,以及从源到目的地的数据传输。
将数据分组和匹配到感兴趣的地区或时间的方法,我们有时将其称为地理空间查
我们根据活动的性质将准备数据步骤划分为两个子步骤。
数据准备的第一步是探索数据来了解其性质,意义,质量和格式。它经常需要对数据或数据样本进行初步分析来了解它。这就是为什么这个主要步骤称为准备。
一旦我们通过探索性分析了解更多数据,下一步就是预处理数据进行分析。
- 它包括清理数据,子集或过滤数据以及创建数据,哪些程序可以通过将原始数据建模为更定义的数据模型或使用特定数据格式进行打包来读取和理解。
后面笔记也更多地总结数据模型和数据格式。
如果涉及多个数据集,此步骤还包括不同数据源或流的集成、准备好的数据将传递给分析步骤,其中包括选择使用的分析技术,构建数据模型和分析结果。
此步骤可以自行进行几次迭代,以不同的方式获取更多数据或打包数据。所以,探索永远不会结束。
传达结果的第4步包括对分析结果的评估,以视觉方式呈现,创建报告,其中包括对成功标准的结果评估。此步骤中的活动通常可以用诸如解释,总结,可视化和后处理等术语来引用。最后一步让我们回到了我们做数据科学的第一个原因。
根据您最初定义的目的,分析分析和确定行动的洞察力,我们称之为行为步骤。
我们现在已经看到了典型数据科学过程中的所有步骤。请注意,这是一个迭代过程,一步的发现可能需要重复以前的步骤,但需要信息,从而进一步探索和应用这些步骤。这个过程对大数据分析的可扩展性需要使用像Hadoop这样的大数据平台。
3、
Hadoop生态系统框架和应用程序通过几个主要的主题和目标来提供这些功能。
首先,它们提供可扩展性,以便在商品硬件上存储大量数据。随着系统数量的增加,崩溃和硬件故障的机会也会增加。他们处理容错,以从这些问题中恢复正常。此外,它们旨在处理大数据量和压缩文本文件,社交网络图,流传感器数据和光栅图像。我们可以添加更多的数据类型到这个品种。
对于任何给定的数据类型,您可以在支持它的生态系统中找到多个项目。最后,它们便于共享环境,允许多个作业同时执行。此外,Hadoop生态系统还包括一个由大型活跃社区支持的广泛的开源项目。这些项目可以免费使用,易于查找。
今天有超过100个大数据开源项目,而且这个继续增长,很多依赖于Hadoop,但有些则是独立的。这是一种查看Hadoop生态系统工具的一个子集的方式。
上面图片是基于接口垂直组织。
底层和高级语言的存储和调度的下层接口,顶部的交互性。Hadoop分布式文件系统或HDFS是许多大型数据框架的基础,因为它提供了可扩展和可靠的存储。随着数据量的增加,您可以将商品硬件添加到HDFS以增加存储容量。所以它使我们称之为扩展您的资源。
Hadoop YARN为HTFS存储提供灵活的调度和资源管理。YARN用于雅虎在40,000台服务器上安排工作。
MapReduce是一种简化并行计算的编程模型。而不是处理同步和调度的复杂性,您只需要给MapReduce两个函数映射和减少。这个编程模型非常强大,以前Google已经将其用于索引网站。 MapReduce只承担一个有限的模型来表达数据。 Hive和Pig是MapReduce之上的两个附加编程模型,分别用关系代数和数据流建模来增加MapReduce的数据建模。
Hive在Facebook上创建,使用MapReduce在HDFS中的数据上发出类似SQL的查询。
Pig在雅虎创建,使用MapReduce建立基于数据流的程序。感谢YARNs管理资源的能力,不仅仅是为了MapReduce而是其他编程模型。 Giraph是为了有效地处理大规模图形而建立的。
例如,Facebook使用Giraph来分析其用户的社交图。类似地,Storm,Spark和Flink是为实时和内存处理大数据而构建的。在YARN资源调度程序和HDFS之上。内存中处理是运行大数据应用程序的一种强大方式,甚至更快,为某些任务实现了100倍更好的性能。有时您的数据处理或任务不能使用存储的文件和目录模型轻松或有效地进行表示,其中包括键值集合或大型稀疏表。
Cassandra MongoDB和HBase等NoSQL项目都处理了所有这些情况,Cassandra在Facebook创建,Facebook也使用HBase作为其消息平台。
最后,运行所有这些工具需要集中管理系统进行同步,配置和确保高可用性。
由雅虎创建的Zookeeper以动物命名的服务来执行这些任务。只需查看少量的Hadoop堆栈组件,我们就可以看到,它们大都是专门用于数据建模的。管理和高效处理数据。在本课程的其余部分,我们将为您提供如何开始建模和管理数据的基础知识和一些实践技能,并从大量数据工具中为此活动挑选出适合的工具。