csid_502

Hadoop专业解决方案-第1章大数据和Hadoop生态圈

一、前言：

　　非常感谢Hadoop专业解决方案群：313702010，兄弟们的大力支持，在此说一声辛苦了，经过两周的努力，已经有啦初步的成果，目前第1章大数据和Hadoop生态圈小组已经翻译完成，在此对：译者：贾艳成 QQ：496830205 表示感谢。

二、意见征集：

　　本章节由《Hadoop专业解决方案群：313702010》翻译小组完成，为小组校验稿，已经通过小组内部校验通过，特此面向网络征集意见，如果对本章节内容有任何异议，请在评论中加以说明，说明时，请标明行号，也可以以修订的方式，发送给我。非常感谢。

三、原书说明

　　英文原书《Wrox.Professional.Hadoop.Solutions》第一章，请参照英文原文。

四、翻译原稿

第一章大数据和Hadoop生态圈

本章主要内容：

理解大数据的挑战
了解Hadoop生态圈
了解Hadoop发行版
使用基于Hadoop的企业级应用

你可能听别人说过，我们生活在“大数据”的环境中。技术驱动着当今世界的发展，计算能力飞速增长，电子设备越来越普遍，因特网越来越容易接入，与此同时，比以往任何时候都多的数据正在被传输和收集。

企业正在以惊人的速度产生数据。仅Facebook每天就会收集 250 TB 的数据。Thompson Reuters News Analytics （汤普森路透社新闻分析）显示，现在数字数据的总量比2009年的1ZB（1ZB等同于一百万 PB）多了两倍多，到 2015 年有可能将达到7.9ZB，到 2020 年则有可能会达到35ZB。其他调查机构甚至做出了更高的预测。

随着企业产生并收集的数据量增多，他们开始认识到数据分析的重要性。但是，他们必须先有效地管理好自己拥有的大量信息。这会产生新的挑战：怎样才能存储大量的数据？怎样处理它们？怎样高效地分析它们？既然数据会增加，又如何构建一个可扩展的解决方案？

不仅研究人员和数据科学家要面对大数据的挑战。几年前，在Google+ 大会上，计算机书籍出版者Tim O’Reilly引用过Alistair Croll的话，“这些产生了大量的无明显规律数据的公司，正在被那些产生了相对较少的有规律数据的新创公司取代……”。简而言之，Croll想要说，除非你的企业“理解”你拥有的数据，否则你的企业无法与那些“理解”自身数据的公司抗衡。

企业已经意识到：大数据与商业竞争、态势感知、生产力、科学和创新等密切相关，分析这些大数据能够获得巨大的效益。因为商业竞争正在驱动大数据分析，所以大多数企业认同O’Reilly和Croll的观点。他们认为当今企业的生存依赖于存储、处理和分析大量信息的能力，依赖于是否掌控了接受大数据挑战的能力。

如果你阅读这本书，你将会熟悉这些挑战，熟悉Apache的Hadoop，并且知道Hadoop可以解决哪些问题。本章主要介绍大数据的前景和挑战，并且概述Hadoop及其组件生态圈。可以利用这些组件构建可扩展、分布式的数据分析解决方案。

1.1 当大数据遇到Hadoop

由于“人力资本”是一个无形的、对成功至关重要的因素，所以多数企业都认为他们的员工才是他们最有价值的财产。其实还有另外一个关键因素——企业所拥有的“信息”。信息可信度、信息量和信息可访问性可以增强企业信息能力，从而使企业做出更好的决策。

要理解企业产生的大量的数字信息是非常困难的。IBM指出在过去仅仅两年的时间里产生了世界90%的数据。企业正在收集、处理和存储这些可能成为战略资源的数据。十年前，Michael Daconta, Leo Obrst, and Kevin T.Smith (Indianapolis: Wiley, 2004)写的一本书《The Semantic Web: A Guide to the Future of XML, Web Services, and Knowledge Management》中有句格言“只有拥有最好的信息，知道怎样发现信息，并能够最快利用信息的企业才能立于不败之地”。

知识就是力量。问题是，随着收集的数据越来越多，传统的数据库工具将不能管理，并且快速处理这些数据。这将导致企业“淹没”在自己的数据中：不能有效利用数据，不能理解数据之间的联系，不能理解数据潜在的巨大力量。

人们用“大数据”来描述过于庞大的数据集，这些数据集一般无法使用传统的用于存储、管理、搜索和分析等过程的工具来处理。大数据有众多来源，可以是结构型的，也可以是非结构型的；通过处理和分析大数据，可以发现内部规律和模式，从而做出明智选择。

什么是大数据的挑战？怎么存储、处理和分析如此大的数据量，从而从海量数据中获取有用信息？

分析大数据，需要大量的存储空间和超级计算处理能力。在过去的十年中，研究人员尝试了各种的方法来解决数字信息增加带来的问题。首先，把重点放在了给单个计算机更多的存储、处理能力和内存等上面，却发现单台计算机的分析能力并不能解决问题。随着时间的推移，许多组织实现了分布式系统（通过多台计算机分布任务），但是分布式系统的数据分析解决方案往往很复杂，并且容易出错，甚至速度不够快。

在2002年，Doug Cutting和Mike Cafarella开发一个名为Nutch的项目（专注于解决网络爬虫、建立索引和搜索网页的搜索引擎项目），用于处理大量信息。在为Nutch项目解决存储和处理问题的过程中，他们意识到，需要一个可靠的、分布式计算方法，为Nutch收集大量网页数据。

一年后，谷歌发表了关于谷歌文件系统（GFS）和MapReduce的论文，MapReduce是一个用来处理大型数据集的算法和分布式编程平台。当意识到集群的分布式处理和分布式存储的前景后，Cutting和Cafarella把这些论文作为基础，为Nutch构建分布式平台，开发了我们所熟知的Hadoop分布式文件系统（HDFS）和MapReduce。

在2006年，Yahoo在为搜索引擎建立大量信息的索引的过程中，经历了“大数据”挑战的挣扎之后，看到了Nutch项目的前景，聘请了Doug Cutting，并迅速决定采用Hadoop作为其分布式架构，用来解决搜索引擎方面的问题。雅虎剥离出来Nutch项目的存储和处理部分，形成Apache基金的一个开源项目Hadoop，与此同时Nutch的网络爬虫项目保持自己独立性。此后不久，雅虎开始使用Hadoop分析各种产品应用。该平台非常有效，以至于雅虎把搜索业务和广告业务合并成一个单元，从而更好地利用Hadoop技术。

在过去的10年中，Hadoop已经从搜索引擎相关的平台，演变为最流行通用的计算平台，用于解决大数据带来的挑战。它正在快速成为下一代基于数据的应用程序的基础。市场研究公司IDC预计，到2016年，Hadoop驱动的大数据市场将超过23亿美元。自从2008年建立第一家以Hadoop为中心的公司Cloudera之后，几十家基于Hadoop的创业公司吸引了数亿美元的风险投资。简而言之，Hadoop为企业提供了一个行之有效的方法，来进行大数据分析。

1.1.1 Hadoop：迎接大数据挑战

Apache的Hadoop通过简化数据密集型、高度并行的分布式应用的实现，以此迎接大数据的挑战。世界各地的企业、大学和其它组织都在使用Hadoop，Hadoop把任务分成任务片，分布在数千台计算机上，从而进行快速分析，并分布式存储大量的数据。Hadoop利用大量廉价的计算机，提供了一个可扩展强，可靠性高的机制；并利用廉价的方式来存储大量数据。Hadoop还提供了新的和改进的分析技术，从而使大量结构化数据的复杂分析变为可能。

Hadoop与以前的分布式方法的区别：

数据先进行分布式存储。
在集群上备份多份数据，从而来提高可靠性和实用性。数据在哪存储就在哪处理，从而消除了带宽瓶颈问题。

此外，Hadoop隐藏了复杂的分布式实现过程，提供了一种简单的编程方法。从而，Hadoop得以提供强大的数据分析机制，包括以下内容：

存储量大——Hadoop能够使应用程序运行在成千上万的计算机和PB级数据上。在过去的十年中，计算机专家认识到，那些曾经只能由超级计算机来处理的高性能应用，可以由大量廉价的计算机一起处理。在集群中，数百台“小”的电脑的聚合计算能力，可以超过一台超级计算机的计算能力，并且价格便宜。Hadoop利用超过数千台机器的集群，在企业可以承受的价格范围内，提供了巨大的存储空间和处理能力。
分布式处理与快速的数据访问——Hadoop集群在提供高效数据存储能力的同时，也提供了快速的数据访问能力。在Hadoop出现之前，应用程序很难并行运行在计算机集群之间。这是因为集群模型在创建共享存储数据时，对I/O性能要求很高。用Hadoop来处理数据，减轻了许多高性能的挑战。此外，Hadoop应用程序处理数据通常都是有序进行的，这就避免了随机的数据访问（磁盘寻道操作），进一步减轻了I/O负载。
可靠性，故障转移和可扩展性——在过去，并行应用程序很难解决集群上机器的可靠性问题。虽然单台机器的可靠性相当高，但是随着群集增加，出故障的概率也随之增加。在数千个节点的集群上，这种日常故障经常发生。由于Hadoop有独特的设计和实施方式，相同的故障将会产生相似的结果。从而，Hadoop可以监测到这些故障，并利用不同的节点重新执行任务。此外，Hadoop有很好的可扩展性，实现无缝地将多个服务器整合到一个集群，并利用它们来存储数据、执行程序。

对于大多数Hadoop用户而言，Hadoop最重要的特征是，将业务规划和基础设施维护进行了清晰的划分。为那些专注于商业业务的用户，隐藏了Hadoop的基础设施的复杂性，并提供了一个易于使用的平台，从而使复杂的分布式计算的问题简单化。

1.1.2 商业界的数据科学

Hadoop的存储和处理大数据的能力经常与“数据科学”挂钩。虽然该词是由彼得·诺尔在20世纪60年代提出的，但是直到最近才引起人们广泛关注。美国雪域大学杰弗里·斯坦顿德教授把“数据科学”定义为“一个专注于搜集、分析、可视化、管理和大量信息保存的新兴领域”。

通常将“数据科学”这一术语用在商业业务分析中，与实际中的“大数据”学科有很大的不同。在数据科学中，业务分析师通过研究现有商业运作模式，来提升业务。

数据科学的目标是从数据提取出数据的真正含义。数据科学家基于数学、统计分析、模式识别、机器学习、高性能计算和数据仓库等来工作，通过分析数据来发现事物发展趋势，并基于收集到的信息开发新业务。

在过去的几年中，许多数据库和编程方面的业务分析师成为了数据科学家。他们在Hadoop生态圈中，使用高级的SQL工具（比如：Hive或者实时Hadoop查询工具）进行数据分析，以做出明智的业务决策。

不只是“一个大数据库”

在本书后面会深入讲解Hadoop，但在此之前，让我们先消除这样的误区——Hadoop仅仅是数据分析师使用的工具。因为对于那些熟悉数据库查询的人，Hadoop工具（如Hive和实时Hadoop查询）提供了较低的门槛，所以一些人认为Hadoop仅仅是以数据库为中心的工具。

此外，如果你正在试图解决的问题超出了数据分析的范畴，并涉及到真正的“科学数据”的问题，这时，SQL数据挖掘技术将明显变得不再实用。例如，大多数问题的解决，需要用到线性代数和其它复杂的数学应用程序，然而，这些问题都不能用SQL很好地解决。

这意味着，使用Hadoop工具是解决这类问题的最好办法。利用Hadoop的MapReduce编程模型，不但解决了数据科学的问题，而且明显简化了企业级应用创建和部署的过程。可以通过多种方式做到这一点——可以使用一些工具，这些工具往往要求开发者具备软件开发技能。例如，通过使用基于Oozie的应用程序进行协调（在本书后面将详细介绍Oozie），可以简化多个应用程序的汇集过程，并非常灵活地链接来自多个工具的任务。在本书中，你会看到Hadoop在企业中的实际应用，以及什么时候使用这些工具。

目前Hadoop的开发，主要是为了更好地支持数据科学家。Hadoop提供了一个强大的计算平台，拥有高扩展性和并行执行能力，非常适合应用于新一代功能强大的数据科学和企业级应用。并且，Hadoop还提供了可伸缩的分布式存储和MapReduce编程模式。企业正在使用Hadoop解决相关业务问题，主要集中在以下几个方面：

为银行和信用卡公司增强欺诈性检测——公司正在利用Hadoop检测交易过程中的欺诈行为。银行通过使用Hadoop，建立大型集群，进行数据分析；并将分析模型应用于银行交易过程，从而提供实时的欺诈行为检测。
社交媒体市场分析——公司目前正在使用Hadoop进行品牌管理、市场推广活动和品牌保护。互联网充满了各种资源，例如博客、版面、新闻、推特和社会媒体数据等。公司利用Hadoop监测、收集、汇聚这些信息，并提取、汇总自身的产品和服务信息，以及竞争对手的相关信息，发掘内在商业模式，或者预测未来的可能趋势，从而更加了解自身的业务。
零售行业购物模式分析——在零售行业，通过使用Hadoop分析商店的位置和它周围人口的购物模式，来确定商店里哪些产品最畅销。
城市发展的交通模式识别——城市发展往往需要依赖交通模式，来确定道路网络扩展的需求。通过监控在一天内不同时间的交通状况，发掘交通模型，城市规划人员就可以确定交通瓶颈。从而决定是否需要增加街道或者车道，来避免在高峰时段的交通拥堵。
内容优化和内容参与——企业越来越专注于优化内容，将其呈现在不同的设备上，并支持不同格式。因此，许多媒体公司需要处理大量的不同的格式的内容。所以，必须规划内容参与模式，才能进行反馈和改进。
网络分析和调解——针对交易数据、网络性能数据、基站数据、设备数据以及其他形式的后台数据等，进行大数据实时分析，能够降低公司运营成本，增强用户体验。
大数据转换——纽约时报要将1100万篇文章（1851至1980年）转换成PDF文件，这些文章都是从报纸上扫描得到的图片。利用Hadoop技术，这家报社能够在24小时内，将4TB的扫描文章转换为1.5TB的PDF文档。

类似的例子数不胜数。企业正在逐步使用Hadoop进行数据分析，从而作出更好的战略决策。总而言之，数据科学已经进入了商界。

不仅仅是针对商业的大数据工具

虽然这里的大多数例子针对于商业，但是Hadoop也被广泛应用在科学界和公有企业。

最近一项由美国科技基金会进行的研究指出，医疗研究人员已经证明，大数据分析可以被用于分析癌症患者的信息，以提高治疗效果（比如，苹果创始人乔布斯的治疗过程）。警察部门正在使用大数据工具，来预测犯罪可能的发生时间和地点，从而降低了犯罪率。同样的调查也表明，能源方面的官员正在利用大数据工具，分析相关的能量损耗和潜在的电网故障问题。

通过分析大数据可以发现模型和趋势，提高效率，从而用新方法来作出更好的决策。

1.2 Hadoop生态圈

架构师和开发人员通常会使用一种软件工具，用于其特定的用途软件开发。例如，他们可能会说，Tomcat是Apache Web服务器，MySQL是一个数据库工具。

然而，当提到Hadoop的时候，事情变得有点复杂。Hadoop包括大量的工具，用来协同工作。因此，Hadoop可用于完成许多事情，以至于，人们常常根据他们使用的方式来定义它。

对于一些人来说，Hadoop是一个数据管理系统。他们认为Hadoop是数据分析的核心，汇集了结构化和非结构化的数据，这些数据分布在传统的企业数据栈的每一层。对于其他人，Hadoop是一个大规模并行处理框架，拥有超级计算能力，定位于推动企业级应用的执行。还有一些人认为Hadoop作为一个开源社区，主要为解决大数据的问题提供工具和软件。因为Hadoop可以用来解决很多问题，所以很多人认为Hadoop是一个基本框架。

虽然Hadoop提供了这么多的功能，但是仍然应该把它归类为多个组件组成的Hadoop生态圈，这些组件包括数据存储、数据集成、数据处理和其它进行数据分析的专门工具。

1.3 HADOOP核心部件

随着时间的推移，Hadoop生态圈越来越大，图1-1给出了Hadoop核心组件。

图1：Hadoop生态圈的核心组成组件

从图1-1的底部开始，Hadoop生态圈由以下内容组成：

HDFS—— Hadoop生态圈的基本组成部分是Hadoop分布式文件系统（HDFS）。HDFS是一种数据分布式保存机制，数据被保存在计算机集群上。数据写入一次，读取多次。HDFS为HBase等工具提供了基础。
MapReduce——Hadoop的主要执行框架是MapReduce，它是一个分布式、并行处理的编程模型。MapReduce把任务分为map(映射)阶段和reduce(化简)。开发人员使用存储在HDFS中数据（可实现快速存储），编写Hadoop的MapReduce任务。由于MapReduce工作原理的特性， Hadoop能以并行的方式访问数据，从而实现快速访问数据。
Hbase——HBase是一个建立在HDFS之上，面向列的NoSQL数据库，用于快速读/写大量数据。HBase使用Zookeeper进行管理，确保所有组件都正常运行。
Zookeeper ——用于Hadoop的分布式协调服务。Hadoop的许多组件依赖于Zookeeper，它运行在计算机集群上面，用于管理Hadoop操作。
Oozie——Oozie是一个可扩展的工作体系，集成于Hadoop的堆栈，用于协调多个MapReduce作业的执行。它能够管理一个复杂的系统，基于外部事件来执行，外部事件包括数据的定时和数据的出现。
Pig——它是MapReduce编程的复杂性的抽象。Pig平台包括运行环境和用于分析Hadoop数据集的脚本语言(Pig Latin)。其编译器将Pig Latin翻译成MapReduce程序序列。
Hive ——Hive类似于SQL高级语言，用于运行存储在Hadoop上的查询语句，Hive让不熟悉MapReduce开发人员也能编写数据查询语句，然后这些语句被翻译为Hadoop上面的MapReduce任务。像Pig一样，Hive作为一个抽象层工具，吸引了很多熟悉SQL而不是Java编程的数据分析师。

Hadoop的生态圈还包括以下几个框架，用来与其它企业融合：

Sqoop是一个连接工具，用于在关系数据库、数据仓库和Hadoop之间转移数据。Sqoop利用数据库技术描述架构，进行数据的导入/导出；利用MapReduce实现并行化运行和容错技术。
Flume提供了分布式、可靠、高效的服务，用于收集、汇总大数据，并将单台计算机的大量数据转移到HDFS。它基于一个简单而灵活的架构，并提供了数据流的流。它利用简单的可扩展的数据模型，将企业中多台计算机上的数据转移到Hadoop。

除了在图1-1所示的核心部件外，Hadoop生态圈正在不断增长，以提供更新功能和组件，如以下内容：

Whirr——Whirr是一组用来运行云服务的Java类库，使用户能够轻松地将Hadoop集群运行于Amazon EC2、Rackspace等虚拟云计算平台。
Mahout——Mahout是一个机器学习和数据挖掘库，它提供的MapReduce包含很多实现，包括聚类算法、回归测试、统计建模。通过使用 Apache Hadoop 库，可以将Mahout有效地扩展到云中。
BigTop —— BigTop作为Hadoop子项目和相关组件，是一个用于打包和互用性测试的程序和框架。
Ambari——Ambar通过为配置、管理和监控Hadoop集群提供支持，简化了Hadoop的管理。

Hadoop家族成员正在逐步增加。在本书中，主要涉及到了三个新的Apache Hadoop孵化项目。

孵化项目演变到Apach项目的过程

下面将会简要介绍Apache基金会的运作方式，以及Apache各种项目及其彼此之间的联系。Apache的个人会员共同治理整个组织，Apache提供项目的创建、成熟和回收。

新的项目开始于“孵化器”。建立Apache孵化器，是为了帮助新项目加入Apache。Apache提供管理和检验，经过筛选后，再建立新的项目或者子项目。在创建孵化项目后，Apache会评估项目的成熟度，并负责将孵化器中的项目“毕业”到Apache项目或子项目。孵化器也会由于各种原因而终止一些项目。

要查看孵化器中项目（当前的、孵化成功的、暂时停止的和回收的）的完整列表，可以通过此网址：http://incubator.apache.org/projects/index.html。

当今大多数的Hadoop方面的书籍，要么专注于Hadoop生态圈中某个独立组件的描述，要么介绍如何使用Hadoop业务分析工具（如Pig和Hive）。尽管这些方面也很重要，但是这些书籍通常没有进行深入的描述，并不能帮助架构师建立基于Hadoop的企业级应用或复杂应用。

1.4 Hadoop发行版本

虽然Hadoop是开源的Apache（和现在GitHub）项目，但是在Hadoop行业，仍然出现了大量的新兴公司，以帮助人们更方便地使用Hadoop为目标。这些企业大多将Hadoop发行版进行打包、改进，以确保所有的软件一起工作，并提供技术支持。现在，Apache自己也在开发更多的工具来简化Hadoop的使用，并扩展其功能。这些工具是专有的，并有所差异。有的工具成为了Apache Hadoop家族中新项目的基础。其中，有些是经过Apache2许可的开源GitHub项目。尽管所有这些公司都基于Apache Hadoop发行版，但是他们都与Hadoop的愿景有了细微的不同——应该选取哪个方向，怎样完成它。

这些公司之间最大的区别是：Apache源代码的使用。除了MapR公司之外，都认为Hadoop应该由Apache项目的代码定义。相反，MapR认为Apache的代码只是实施参考，可以基于Apache提供的API来实现自己的需求。这种方法使得MapR做出了很大的创新，特别是在HDFS和HBase方面，MapR让这两个基本Hadoop的存储机制更加可靠、更加高性能。MapR还推出了高速网络文件系统（NFS），可以访问HDFS，从而大大简化了一些企业级应用的集成。

有两个关注度较高的Hadoop发行版，分别由亚马逊和微软发布。两者都提供Hadoop的预安装版本，运行于相应的云服务平台（Amazon or Azure），提供PaaS服务。它们都提供了扩展服务，允许开发人员不仅能够利用Hadoop的本地HDFS，也可以通过HDFS映射利用微软和雅虎的数据存储机制（Amazon的S3，和Azure的Windows Azure存储机制）。亚马逊还提供了，在S3上面保存和恢复HBase内容的功能。

表1-1展示了主要的Hadoop发行版的主要特点。

表1：不同的Hadoop供应商

供应商	HADOOP特性
Cloudera CDH，个人版和企业版	CDH基于Hadoop2，（撰写本文时为4.1.2版本）包括HDFS，YARN，HBas，MapReduce，Hive, Pig, Zookeeper, Oozie, Mahout, Hue以及其他开源工具（包括实时查询引擎Impala）。Cloudera的个人免费版包括所有CDH工具，和支持高达50个节点的集群管理器。Cloudera企业版提供了更复杂的管理器，支持无限数量的集群节点，能够主动监控，并额外提供了数据分析工具。
Hortonworks数据平台	发行版（Alpha 2.0版）基于Hadoop2，包括HDFS，YARN, HBase, MapReduce, Hive, Pig, HCatalog, Zookeeper, Oozie, Mahout, Hue, Ambari, Tez，实时版Hive（Stinger）和其他开源工具。Hortonworks提供了高可用性支持、高性能的Hive ODBC驱动和针对大数据的Talend Open Studio。
MapR	基于Hadoop1，发行版（撰写本文时为版本M7）包括HDFS, HBase, MapReduce, Hive, Mahout, Oozie, Pig, ZooKeeper, Hue以及其他开源工具。它还包括直接NFS访问、快照、“高实用性”镜像、专有的HBase实现，与Apache完全兼容的API和一个MapR管理控制台。
IBM InfoSphere BigInsights	基于Hadoop1，提供了两个版本。基本版包括HDFS, Hbase, MapReduce, Hive, Mahout, Oozie, Pig, ZooKeeper, Hue以及其他一些开源工具。并提供IBM的安装程序和数据访问工具的基本版本。企业版增加了复杂的作业管理工具、集成了数据源的数据访问层和BigSheets（类似电子表格的界面，用来操作集群中的数据）。
GreenPlum的Pivotal HD	在撰写本文时，最新版基于Hadoop2，包括HDFS, MapReduce, Hive, Pig, HBase, Zookeeper, Sqoop, Flume和其他开源工具。Pivotal HD企业级还增加了先进的HAWQ数据库服务（ADS），和丰富、成熟、并行的SQL处理工具。
亚马逊弹性MapReduce（EMR）	在撰写本文时，最新版基于Hadoop1。亚马逊EMR是一个web服务，能够使用户方便且经济高效地处理海量的数据。它采用Hadoop框架，运行在亚马逊弹性计算云EC2和简单存储服务S3之上。包括HDFS（S3支持），HBase（专有的备份恢复），MapReduce，, Hive (Dynamo的补充支持), Pig, and Zookeeper.
Windows Azure的HDlnsight	HDlnsight基于Hortonworks数据平台（Hadoop1），运行在Azure云。它集成了微软管理控制台，易于部署，易于System Center的集成。通过使用Excel插件，可以整合Excel数据。通过Hive开放式数据库连接（ODBC）驱动程序，可以集成Microsoft SQL Server分析服务（SSAS）、PowerPivot和Power View。Azure Marketplace授权客户连接数据、智能挖掘算法以及防火墙之外的人。Windows Azure Marketplace从受信任的第三方供应商中，提供了数百个数据集。

当然，大量的发行版让你疑惑“我应该使用哪个发行版？”当公司/部门决定采用一个具体的版本时，应该考虑以下几点：

技术细节——包括Hadoop的版本、组件、专有功能部件等等。

易于部署——使用工具箱来实现管理的部署、版本升级、打补丁等等。

易于维护——主要包括集群管理、多中心的支持、灾难恢复支持等等。

成本——包括针发行版的实施成本、计费模式和许可证。

企业集成的支持——Hadoop应用程序与企业中其他部分的集成。

版本的选择依赖于，你打算利用Hadoop来解决哪些问题。本书中的讨论与版本无关，因为笔者看中的是每个发行版提供的价值。

1.5 用Hadoop开发企业级应用

为了满足大数据带来的新挑战，需要重新思考构建数据分析的程序的方式。传统的在数据库中存储数据，构建应用程序的方法，对于大数据处理将不再有效。主要因为：

传统的应用程序基于事务处理型数据库，这种数据库将不再被Hadoop支持。
随着存储在Hadoop上的数据量增大，实时访问仅仅能够访问到集群上的一部分数据。
Hadoop的海量数据存储功能可以存储更多的数据集版本，不会像传统方法一样覆盖原始数据。

因此，一个典型的基于Hadoop的企业级应用如图1-2所示。在这些应用中，包括数据存储层、数据处理层、实时访问层和安全层。要实现这种体系结构，不仅需要理解Hadoop组件所涉及的API，而且需要理解他们的功能和局限性，以及每个组件在整体架构中的作用。

如图1-2所示，数据存储层包括源数据和中间数据。源数据主要来自这些外部数据源，外部数据源包括企业应用程序、外部数据库、执行日志和其它数据源。中间数据结果来自Hadoop的执行过程，它们被Hadoop的实时应用程序使用，并交付给其他应用程序和终端用户。

图1-2： Hadoop企业级应用

可以使用不同的机制将源数据转移到Hadoop，包括：Sqoop，Flume，直接安装HDFS作为一个网络文件系统（NFS），或者利用Hadoop的实时服务和应用程序。在HDFS中，新的数据不会覆盖现有数据，而是新建一个数据版本。这一点很重要，因为HDFS是一个“写一次”的文件系统。

对于数据处理层，Oozie预处理源数据，并将其转换为中间数据。不同于源数据，中间数据会被覆盖，没有多个版本，所以中间数据量不会很大。

对于实时访问层，Hadoop的实时应用程序既支持直接数据访问，也支持基于数据集的访问。这些应用程序读取基于Hadoop的中间数据，并将源数据存储在Hadoop。该应用程序也可以用于服务用户，或者用于其它企业的Hadoop集成。

源数据用来存储和初步处理数据，中间数据用于传递和整合数据。因为采用了源数据和中间数据完全分离的结构，所以允许开发人员在没有任何事务处理需求的情况下，构建任何虚拟和复杂的应用程序。通过中间预处理过程，明显减少了服务数据量，使得实时数据访问更加灵活。

HADOOP扩充性

虽然许多文章认为，对于开发人员来讲，Hadoop隐藏了底层的复杂性。但是，其实是这些文章没有充分认识到Hadoop的可扩展。

通过设计Hadoop的实现方式，可以使开发人员轻松、无缝地集成新的功能到Hadoop中执行。Hadoop明确指定一些类库来负责MapReduce执行的不同阶段。通过这种方式，满足了开发者执行特定问题的要求，从而确保每一个作业以最低成本、最高性能性能来执行。

可以自定义Hadoop执行的以下内容：

自定义Hadoop并行执行问题的方式，包括被分割的方式和执行的位置
支持新的输入数据类型和数据定位
支持新的输出数据类型
自定义输出数据的位置

本书有一部分内容，在他人工作成果的基础上，对自定义方法，以及实现方式进行了专门的描述。

本书涵盖了Hadoop企业级应用的所有主要层，如图1-2所示。

第2章介绍了构建数据层的方法，包括HDFS和HBase（架构和API）。然后，对两者进行对比分析，以及如何将HDFS和HBase相结合。本章还介绍了Avro（Hadoop的新的序列化框架），以及它在存储或访问数据中的作用。最后，你将了解HCatalog，以及用它来做广告和访问数据的方式。

本书将对数据处理进行了大量的描述。对于应用程序的数据处理部分，笔者建议使用MapReduce和Oozie。

在本书中，为什么以MapReduce源码为核心？

你可能会问，为什么本书将重点放在MapReduce源码上，而不是可以让MapReduce编程变得更简单的高级语言上面。你可以在网上或者Hadoop社区内，找到很多关于这方面的讨论。在这些讨论中给出的解释是，MapReduce源码量（就代码行数而言）比提供相同的功能的Pig源码量通常要多很多。尽管这是一个不争的事实，不过还有一些其他因素：

并不是什么都可以描述为一种高级语言。有些任务，更适合使用传统的Java代码来执行。
如果你写的代码仅需要执行一次，那么代码的行数可能对你很重要。但是，如果你正在编写企业级应用，那么你应该考虑其他标准，包括性能、可靠性和安全性。通常情况下，MapReduce源码提供了更多的途径，从而更容易实现这些特质。
MapReduce通过自定义方式，为用户提供的更多功能，以进一步提高应用程序的性能、可靠性和安全性。

在第3章中，您将了解MapReduce的架构、主要构成和编程模型。本章介绍了MapReduce的应用程序设计、设计模式和MapReduce注意事项。本章还讲介绍MapReduce的执行是如何实现的。正如所提到的，MapReduce最强的特征之一是它可以自定义执行。第4章会介绍自定义选项的详细信息，并举例说明。第5章通过演示实例，对MapReduce进一步讨论，构建可靠的MapReduce应用。

尽管MapReduce功能很强大，但是对于一个切实可行的解决方案，通常需要将多个MapReduce应用集合到在一起。这个过程非常复杂，通过使用Hadoop的Workflow/Coordinator（工作流/协调员）引擎，可以被大大简化MapReduce应用的集成。

Oozie的价值

Oozie是Hadoop中最容易被低估的组件。很少有人（甚至没有）在Hadoop书籍讨论这个极其重要的组件。本书不但彰显了Oozie什么可以做，而且还提供了一个端到端的例子，用来展示如何利用Oozie功能来解决实际问题。类似于Hadoop的其余部分，Oozie的功能也具有很好的扩展性。开发者可以通过不同的方法来扩展Oozie的功能。

在Hadoop中，最容易被低估的挑战是：将Hadoop执行与企业处理的其余部分进行整合。使用Oozie来协调MapReduce应用，并通过公开Oozie API的方式公开了Hadoop进程。通过这种方式，你会很容易就找到更好的集成方法，对Hadoop处理和企业处理部分进行集成。

第6章描述了Oozie是什么，Oozie的体系结构、主要组成、编程语言和执行模型。为了更好地解释每个Oozie组件的功能和角色，第7章通过使用Oozie应用解决端到端的实际问题。第8章中，通过展示Oozie的一些高级功能，对Oozie进一步描述。这些高级功能包括自定义Workflow活动、动态生成Workflow和支持超级JAR文件（一个包含了所有的包及其依赖关系的JAR文件）。

第9章主要讲解实时访问层。该章首先介绍了一个工业中实时Hadoop应用实例，然后针对实现方式提出了整体架构。接着，介绍了建立这种实现的三种主要方法——基于HBase的应用程序、实时查询以及基于流的处理。本章介绍了总体架构，并提供了基于HBase实时应用的两个例子。然后，描述了一个实时查询体系结构，并讨论了两个具体的实现——Apache Drill 和 Cloudera’s Impala。还介绍了实时查询和MapReduce的对比。最后，您将了解基于Hadoop的复杂事件处理，以及两个具体的实现——Strom和HFlame。

开发企业级应用需要大量的规划，以及信息安全方面的策略。第10章将重点讲解Hadoop的安全模型。

随着云计算的发展，许多企业尝试将他们的Hadoop运行在云上。第11章的重点是，通过使用EMR实现，在亚马逊的云上运行Hadoop应用；并且介绍了其它AWS服务（如S3），用来补充Hadoop的功能。本章还介绍了，通过使用不同的方法来运行云上的Hadoop，并讨论了最佳实践方案。

除了Hadoop自身的安全问题外，通常Hadoop还需要集成其他企业的组件，来实现数据的导入和导出。第12章将重点介绍，如何才能维护好那些使用了Hadoop的企业级应用，并提供了示例和最佳安全实践，来确保所有Hadoop企业级应用的安全运行。

1.6 总结

本章高度概括了大数据和Hadoop之间的关系。并介绍了大数据及其价值，还介绍了企业面临的大数据挑战，包括数据存储和处理的挑战。通过本章，你还了解了Hadoop及其历史。

通过本章，你了解了Hadoop特点，并知道了为什么Hadoop如此适合大数据处理。本章还概述了Hadoop的主要组件，并介绍了一些例子，用来展示Hadoop如何简化数据科学，简化创建企业应用程序的过程。

本章介绍了关于Hadoop发行版本的基础知识，以及为什么许多企业倾向于选择特定供应商的发行版。因为他们不希望处理Apache项目中的兼容问题，或者他们需要供应商的技术支持。

最后，本章讨论了一种分层的方法和模型，用于开发基于Hadoop的企业级应用。

第2章开始将深入讲解Hadoop的细节，以及如何存储你的数据。

你可能感兴趣的:(Hadoop专业解决方案-第1章大数据和Hadoop生态圈)

通信之光纤和光缆的对比玖Yee 信息与通信
光纤和光缆是通信领域中常用的两种传输介质。结构光纤：是一种由玻璃或塑料制成的纤维，一般由纤芯、包层和涂覆层组成。纤芯是光信号的传输通道，包层用于将光信号限制在纤芯内，涂覆层则起到保护光纤的作用。光缆：由多根光纤或光纤束加上加强芯和护套等组成。加强芯用于提高光缆的机械强度，护套则保护光纤免受外界环境的影响。功能光纤：主要功能是传输光信号，利用光在光纤内的全反射原理，实现光信号的高效传输，具有低损耗、
Leetcode Hot100 第40题 297.二叉树的序列化和反序列化 onlyzzr 暑期实习刷题记录 leetcode 深度优先算法
/***Definitionforabinarytreenode.*structTreeNode{*intval;*TreeNode*left;*TreeNode*right;*TreeNode(intx):val(x),left(NULL),right(NULL){}*};*/classCodec{public:intindex;//Encodesatreetoasinglestring.str
计算机网络原理第七章,北大计算机网络原理第七章.pdf weixin_39716043 计算机网络原理第七章
北大计算机网络原理第七章计算机网络计算机网络北京大学计算中北京大学计算中心王竹威王竹威zhuweiw@zhuweiw@第七章应用层应用层要做什么？应用层要做什么？180zhuweiw@第七章应用层应用层概述应用层概述应用进程交互方式应用进程交互方式在在IInternet应用层中应用层中,最主要的应用进程交最主要的应用进程交互方式就是客户—服务器(client/server,C/S)C/S)模式模式
otsu算法_OTSU(大津法最大类间方差法) weixin_39996742 otsu算法
OTSU基本介绍OTSU是一种确定图像二值化分割阈值的算法，由日本学者大津于1979年提出，被誉为是图像分割中全局阈值选择的最佳方法。OTSU按照图像的灰度特性，将图像分成前景和背景两部分。因为方差可以看成是灰度分布均匀的一种度量，故前景和背景之间的类间方差越大，说明构成图像两部分的差别越大，当部分前景错分为背景或者部分背景被错分为前景时，都会导致两部分的差别变小。使用类间方差最大的分割一位置错分
海量数据查询加速：Presto、Trino、Apache Arrow 晴天彩虹雨 apache 大数据 hive 数据仓库
1.引言在大数据分析场景下，查询速度往往是影响业务决策效率的关键因素。随着数据量的增长，传统的行存储数据库难以满足低延迟的查询需求，因此，基于列式存储、向量化计算等技术的查询引擎应运而生。本篇文章将深入探讨Presto、Trino、ApacheArrow三种主流的查询优化工具，剖析其核心机制，并通过案例分析展示它们在实际业务中的应用。2.Presto：分布式SQL查询引擎2.1Presto介绍Pr
二叉树的所有路径（leetcode 257 JohnFF leetcode linux 算法
leetcode系列文章目录一、核心操作二、外层配合操作三、核心模式代码总结使用递归法一、核心操作1.判断是不是叶子节点（该节点的左右子节点都为空2.收获该路径（将储存的节点一个一个拿出来，用->连接if(cur->left==nullptr&&cur->right==nullptr){stringspath;for(inti=0;i";}spath+=to_string(path[path.si
合并二叉树迭代（leetcode 617 JohnFF leetcode 算法职场和发展
leetcode系列文章目录一、核心操作二、外层配合操作三、核心模式代码总结一、核心操作1.将右树的值加到左树上2.对两棵树的子节点进行筛选，如果都有则都加进去，如果左树没有则将右数的节点指针赋给左树，如果左树有右树没有则不用管提示：小白个人理解，如有错误敬请谅解！二、外层配合操作1.确保root1和root2都有值，所以当一棵树为空则返回另外一棵树三、核心模式代码代码如下：classSoluti
数组总和（leetcode 40 JohnFF leetcode 算法职场和发展
leetcode系列文章目录一、核心操作二、外层配合操作三、核心模式代码总结去重方式和之前三数之和一样，也可以用used数组去重，但本次尝试使用set去重一、核心操作如果count为0了，则证明正好减到了0，就可以收获，并返回建立unordered_set开始循环，如果在set中能够搜寻到当前的数字，说明已经重复了，则直接进行下一次的循环，如果没有找到，则说明这是一个没有重复的新数字，将其加入se
leetcode1005:K次取反后最大化的数组和 0cfjg0 leetcode 算法 java 数据结构
K次取反后最大化的数组和给你一个整数数组nums和一个整数k，按以下方法修改该数组：选择某个下标i并将nums[i]替换为-nums[i]。重复这个过程恰好k次。可以多次选择同一个下标i。以这种方式修改数组后，返回数组可能的最大和。publicintlargestSumAfterKNegations(int[]nums,intk){intmin;intindex;while(true){min=I
UNet 改进：添加Transformer注意力机制增强捕捉长距离依赖关系的能力听风吹等浪起 AI 改进系列 transformer 深度学习人工智能
目录1.Transformer注意力机制2.Unet改进3.代码1.Transformer注意力机制TransformerBlock是Transformer模型架构的基本组件，广泛应用于机器翻译、文本摘要和情感分析等自然语言处理任务。TransformerBlock是一个由两个子组件组成的构建块：多头注意力机制和前馈神经网络。这两个组件协同工作，处理和转换输入序列。多头注意力机制负责从输入序列中捕
Vue动态组件完全指南：原理、使用场景与最佳实践北辰alk 前端 vue vue.js javascript 前端
文章目录一、什么是动态组件？核心特性：二、基本使用方式1.基础语法2.组件注册方式3.动态组件生命周期三、六大典型应用场景1.标签页切换系统2.多步骤表单流程3.动态仪表盘4.权限驱动视图5.插件系统集成6.服务端驱动界面四、高级使用技巧1.状态保持方案2.动态Props传递3.异步组件加载4.过渡动画支持五、性能优化策略1.缓存策略对比2.代码分割配置3.内存管理示例六、常见问题解决方案1.组件
Kubernetes集群版本升级程序员Realeo Java后端 kubernetes 容器云原生
集群升级注意事项升级集群版本建议逐步升级，比如v1.20.1–>v1.21.1–>v1.22.1–>v1.23.1–>v1.24.1，不能跨度过大，否则会报错。升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane,maste
【2025年饿了么春招-3月14日-第二题（200分）- 小红的排列构造】（题目+思路+Java&C++&Python解析+在线测试) 塔子哥学算法 java c++python 算法数据结构饿了么
题目内容小红希望你构造一个长度为nnn的排列，满足∑i=1n∗i\sum_{i
Spring Cache的基本使用奇怪的大象面试学习路线阿里巴巴 spring java 后端
文章目录一、概述二、SpringCache的使用2.1环境搭建2.2缓存的读模式@Cacheable2.3自定义缓存配置[email protected]@CacheEvict删除缓存2.6@Caching多个操作三、SpringCache的不足一、概述常见的缓存的框架有Redis、Memcached、Guava、Caffeine等等，各有各的优势。如果我们的程序想要使用缓存，就要与这些框架耦合。聪明
docker启动报错：Job for docker. service failed because the control process exited with error code 奇怪的大象 java docker 容器运维 intellij-idea java
1、在使用systemctlstartdocker时，一直报错，如下图。试了网上的方法：**a、修改docker.service文件；b、在daemon.json中增加代码，**都不能解决我遇到的情况。2、经过不懈努力，终于找到办法。在/etc/docker文件目录下，找到daemon.json，这个文件是我们在安装时创建的，如果没有的话，使用mkdir/etc/docker&&touchdaem
【动态规划1】 m0_46150269 动态规划算法
力扣509.斐波那契数链接:link思路这是一道经典的动态规划DP题，做动态有5步：1.确定dp[i]含义，表示第i个数的斐波那契数值是dp[i]2.dp数组初始化3.确定递推公式4.确定遍历顺序，从递推公式可以知道dp[i]是依赖dp[i-1]和dp[i-2]，那么遍历的顺序一定是从前到后遍历的5.举例推导，草稿完成classSolution{publicintfib(intn){if(n<=1
【算法学习day10】 m0_46150269 算法学习
力扣202.快乐数链接:link思路这道题可能会遇到无限循环的情况，如何跳出循环是关键，我们可以用哈希表快速查询是否重复出现之前遇到的结果来结束循环。另外对数字的拆解也是解这道题的关键，下面来看题解吧。解：classSolution{publicbooleanisHappy(intn){Setset1=newHashSet0){inttemp=n%10;sum+=temp*temp;n/=10;}
【考研计算机网络】课堂笔记4 第四章网络层_Network Layer 刘鑫磊up #操作系统计算机网络计算机网络
文章目录：一：网络层的功能1.异构网络互联2.路由与转发功能3.拥塞控制二：数据交换方式三：路由算法1.静态路由与动态路由1.1静态路由算法（又称非自适应路由算法）1.2动态路由算法（又称自适应路由算法)2.动态路由算法2.1距离-向量路由算法2.2链路状态路由算法2.3层次路由四：IPV41.概述2.IPV4分组2.1IPV4分组格式2.2IP数据报分片2.3网络层转发分组的流程3IPV4地址与
理解 Retrofit 请求头与 GsonConverterFactory 的自动处理机制居然是阿宋 retrofit
在现代Web开发中，特别是在与RESTfulAPI进行交互时，我们经常会遇到JSON格式的数据交换。为了确保请求的正确解析和响应的准确返回，通常需要通过HTTP请求头明确指定请求体的数据类型。而Content-Type:application/json就是用来告诉服务器，当前请求体中的数据格式是JSON。为什么需要明确指定Content-Type:application/json？数据格式的明确性
Leetcode1005:k次取反后最大化的数组和(贪心算法) immortalize leetcode算法题解答 java 算法贪心算法 leetcode
Leetcode1005:k次取反后最大化的数组和题目：给你一个整数数组nums和一个整数k，按以下方法修改该数组：选择某个下标i并将nums[i]替换为-nums[i]。重复这个过程恰好k次。可以多次选择同一个下标i。以这种方式修改数组后，返回数组可能的最大和。思路：贪心算法代码如下：classSolution{publicintlargestSumAfterKNegations(int[]nu
塑料制品制造业现状 LIMS系统革新塑料制品检测流程白码低代码 lims 实验室管理系统
塑料制品制造业作为现代工业的重要组成部分，其产品质量直接关系到下游应用的安全和性能。随着市场竞争的加剧，制造商们对产品质量的要求越来越高，内检实验室成为确保产品质量的关键环节。然而，传统的实验室管理方式往往存在数据孤岛、效率低下等问题，难以满足现代化生产的需求。在这样的背景下，内检实验室LIMS系统应运而生，为塑料制品制造企业带来了革命性的改变。白码内检LIMS实验室管理系统作为行业内的佼佼者，以
BigDecimal只覆盖整数部分或小数部分支持未来 java 算法开发语言
有个特殊处理需要把BigDecimal的整数部分和小数部分分开计算publicclassBdTest{publicstaticvoidmain(String[]args){BdBeanbt=newBdBean();bt.setBdA(4);System.out.println(bt.getB());bt.setBdA(0);System.out.println(bt.getB());bt.setB
内网通改修对话框左侧聊天列表宽度支持未来开源
使用内网通，由于组织要求，大家名称都加了前缀，最后导致大家名字都显示不全。内网通还无法动态调整这个宽度。可以通过改修内网通安装的文件来改修这个长度1，找到内网通安装目录\Nwt\res\ShiYeLine\layout\ChatDialog.xml2，编辑这个文件2-1.ChatListViewLayoutWidth="150"改宽2-2.SkinLineAlignParentLeft="149"
JButton追加事件监听支持未来 JAVA ActionList
画面和按钮生成publicclassmainTestClass{publicstaticJFramemain=newJFrame("テスト画面");//publicstaticJTextAreaResult=newJTextArea("",4,40);//publicstaticJButtonSubmit=newJButton("開始");/***メイン関数**@paramargs*/public
贪心算法在背包问题上的运用（Python） MATLAB卡尔曼智能算法的MATLAB实现贪心算法 python 算法
背包问题有n个物品，它们有各自的体积和价值，现有给定容量的背包，如何让背包里装入的物品具有最大的价值总和？这就是典型的背包问题(又称为0-1背包问题)，也是具体的、没有经过任何延伸的背包问题模型。背包问题的传统求解方法较为复杂，现定义有一个可以载重为8kg的背包，另外还有4个物品，物品的价值和质量数据如下表，不考虑背包的容量。4个物品的总质量大于8kg，所以要想在有限载重的背包携带更多质量的物品，
NVIDIA显卡型号有哪些？怎么知道自己电脑的型号？可靠的豆包蟹同志杂烩积累经验分享
NVIDIA显卡型号显卡分N卡和A卡，这个N卡指的是英伟达（NVIDIA），A卡之前是ATI（后来被AMD收购），现在的A卡指的就是AMD显卡。如果是为了玩游戏或者是学深度学习，选显卡肯定是要选N卡，因为A卡对于游戏优化的没有N卡好。（1）图中的GTX表示是英伟达的一个系列名称，全称叫GeForceGTX，GTX定位高端显卡系列，从低到高排名：GS/GT/GTS/GTX/RTX/Ultra，从20
Apache OFBiz路径遍历漏洞(CVE-2024-36104) WuY1nSec 漏洞复现 apache
0x01漏洞描述ApacheOFBiz是美国阿帕奇（Apache）基金会的一套企业资源计划（ERP）系统。该系统提供了一整套基于Java的Web应用程序组件和工具。ApacheOFBiz18.12.14之前版本存在命令执行漏洞，该漏洞源于ControlFilter对路径限制不当导致用户能够访问ProgramExport导出功能执行Groovy代码。0x02影响版本ApacheOFBiz<18.12
Spring框架快速入门手册 Uncoverlove spring mysql mybatis java 后端
说明：本文试图将Spring框架的知识体系进行整合分析，并冠以自己的理解，为初学Spring框架的同学，提供一个快速入门手册。同时呢，也是为了总结一下工作学习中遇到的问题和经验，以免发生遗漏！文末将附上Spring的学习资料，以供大家学习~（申明一下：纯小白一枚，由于工作需要自学的Spring，或许某些理解会出现偏差，烦请各位斧正！不慎感激！！）快速入门推荐阅读书籍（欢迎补充）：1、《JavaEE
大模型架构记录7-langchain 处女座_三月 LLM langchain
一Langchain的应用目录：langchain的overviewprompttemplatemodelsandoutputparsers1.什么是langchain,为什么需要langchain?问题：如何没有langchain会怎么样？一个项目可能会包括：调用多个不同的大模型（gpt4,视频生成...)向量数据库数据类型（读取，trunk的切分...)langchain是面于大模型开发的框架
【CMake指南】第3篇：编写可维护的构建脚本（变量与作用域管理） JuicyActiveGilbert CMake指南开发语言 c++CMake 教程
源码及CMakeLists.txt沿用第1篇或第2篇的均可，本文沿用第2篇的相关文件1.CMake变量的基础操作1.1定义与修改变量在CMakeLists.txt后面加入如下代码：#定义普通变量set(MY_VAR"HelloWorld")#修改变量值set(MY_VAR"NewValue")#列表变量（分号分隔）set(MY_LISTa.cppb.cppc.cpp)#或显式列表set(MY_LI
JAVA中的Enum 周凡杨 java enum 枚举
Enum是计算机编程语言中的一种数据类型---枚举类型。在实际问题中，有些变量的取值被限定在一个有限的范围内。例如，一个星期内只有七天我们通常这样实现上面的定义： public String monday; public String tuesday; public String wensday; public String thursday
赶集网mysql开发36条军规 Bill_chen mysql 业务架构设计 mysql调优 mysql性能优化
(一)核心军规 (1)不在数据库做运算 cpu计算务必移至业务层； (2)控制单表数据量 int型不超过1000w，含char则不超过500w；合理分表；限制单库表数量在300以内； (3)控制列数量字段少而精，字段数建议在20以内
Shell test命令 daizj shell 字符串 test 数字文件比较
Shell test命令 Shell中的 test 命令用于检查某个条件是否成立，它可以进行数值、字符和文件三个方面的测试。数值测试参数说明 -eq 等于则为真 -ne 不等于则为真 -gt 大于则为真 -ge 大于等于则为真 -lt 小于则为真 -le 小于等于则为真实例演示： num1=100 num2=100if test $[num1]
XFire框架实现WebService(二) 周凡杨 java webservice
有了XFire框架实现WebService(一)，就可以继续开发WebService的简单应用。 Webservice的服务端(WEB工程)：两个java bean类： Course.java package cn.com.bean; public class Course { private
重绘之画图板朱辉辉33 画图板
上次博客讲的五子棋重绘比较简单，因为只要在重写系统重绘方法paint（）时加入棋盘和棋子的绘制。这次我想说说画图板的重绘。画图板重绘难在需要重绘的类型很多，比如说里面有矩形，园，直线之类的，所以我们要想办法将里面的图形加入一个队列中，这样在重绘时就
Java的IO流西蜀石兰 java
刚学Java的IO流时，被各种inputStream流弄的很迷糊，看老罗视频时说想象成插在文件上的一根管道，当初听时觉得自己很明白，可到自己用时，有不知道怎么代码了。。。每当遇到这种问题时，我习惯性的从头开始理逻辑，会问自己一些很简单的问题，把这些简单的问题想明白了，再看代码时才不会迷糊。 IO流作用是什么？答：实现对文件的读写，这里的文件是广义的； Java如何实现程序到文件
No matching PlatformTransactionManager bean found for qualifier 'add' - neither 林鹤霄
java.lang.IllegalStateException: No matching PlatformTransactionManager bean found for qualifier 'add' - neither qualifier match nor bean name match! 网上找了好多的资料没能解决，后来发现：项目中使用的是xml配置的方式配置事务，但是
Row size too large (> 8126). Changing some columns to TEXT or BLOB aigo column
原文：http://stackoverflow.com/questions/15585602/change-limit-for-mysql-row-size-too-large 异常信息： Row size too large (> 8126). Changing some columns to TEXT or BLOB or using ROW_FORMAT=DYNAM
JS 格式化时间 alxw4616 JavaScript
/** * 格式化时间 2013/6/13 by 半仙 [email protected] * 需要 pad 函数 * 接收可用的时间值. * 返回替换时间占位符后的字符串 * * 时间占位符:年 Y 月 M 日 D 小时 h 分 m 秒 s 重复次数表示占位数 * 如 YYYY 4占4位 YY 占2位<p></p> * MM DD hh mm
队列中数据的移除问题百合不是茶队列移除
队列的移除一般都是使用的remov();都可以移除的,但是在昨天做线程移除的时候出现了点问题,没有将遍历出来的全部移除, 代码如下; // package com.Thread0715.com; import java.util.ArrayList; public class Threa
Runnable接口使用实例 bijian1013 java thread Runnable java多线程
Runnable接口 a. 该接口只有一个方法：public void run(); b. 实现该接口的类必须覆盖该run方法 c. 实现了Runnable接口的类并不具有任何天
oracle里的extend详解 bijian1013 oracle 数据库 extend
扩展已知的数组空间，例： DECLARE TYPE CourseList IS TABLE OF VARCHAR2(10); courses CourseList; BEGIN -- 初始化数组元素，大小为3 courses := CourseList('Biol 4412 ', 'Psyc 3112 ', 'Anth 3001 '); --
【httpclient】httpclient发送表单POST请求 bit1129 httpclient
浏览器Form Post请求浏览器可以通过提交表单的方式向服务器发起POST请求，这种形式的POST请求不同于一般的POST请求 1. 一般的POST请求，将请求数据放置于请求体中，服务器端以二进制流的方式读取数据，HttpServletRequest.getInputStream()。这种方式的请求可以处理任意数据形式的POST请求，比如请求数据是字符串或者是二进制数据 2. Form
【Hive十三】Hive读写Avro格式的数据 bit1129 hive
1. 原始数据 hive> select * from word; OK 1 MSN 10 QQ 100 Gtalk 1000 Skype 2. 创建avro格式的数据表 hive> CREATE TABLE avro_table(age INT, name STRING)STORE
nginx+lua+redis自动识别封解禁频繁访问IP ronin47
在站点遇到攻击且无明显攻击特征，造成站点访问慢，nginx不断返回502等错误时，可利用nginx+lua+redis实现在指定的时间段内，若单IP的请求量达到指定的数量后对该IP进行封禁，nginx返回403禁止访问。利用redis的expire命令设置封禁IP的过期时间达到在指定的封禁时间后实行自动解封的目的。一、安装环境： CentOS x64 release 6.4(Fin
java-二叉树的遍历-先序、中序、后序（递归和非递归）、层次遍历 bylijinnan java
import java.util.LinkedList; import java.util.List; import java.util.Stack; public class BinTreeTraverse { //private int[] array={ 1, 2, 3, 4, 5, 6, 7, 8, 9 }; private int[] array={ 10,6,
Spring源码学习-XML 配置方式的IoC容器启动过程分析 bylijinnan java spring IOC
以FileSystemXmlApplicationContext为例，把Spring IoC容器的初始化流程走一遍： ApplicationContext context = new FileSystemXmlApplicationContext ("C:/Users/ZARA/workspace/HelloSpring/src/Beans.xml&q
[科研与项目]民营企业请慎重参与军事科技工程 comsci 企业
军事科研工程和项目并非要用最先进，最时髦的技术，而是要做到“万无一失” 而民营科技企业在搞科技创新工程的时候，往往考虑的是技术的先进性，而对先进技术带来的风险考虑得不够，在今天提倡军民融合发展的大环境下，这种“万无一失”和“时髦性”的矛盾会日益凸显。。。。。。所以请大家在参与任何重大的军事和政府项目之前，对
spring 定时器-两种方式 cuityang spring quartz 定时器
方式一：间隔一定时间运行 <bean id="updateSessionIdTask" class="com.yang.iprms.common.UpdateSessionTask" autowire="byName" /> <bean id="updateSessionIdSchedule
简述一下关于BroadView站点的相关设计 damoqiongqiu view
终于弄上线了，累趴，戳这里http://www.broadview.com.cn 简述一下相关的技术点前端：jQuery+BootStrap3.2+HandleBars，全站Ajax（貌似对SEO的影响很大啊！怎么破？），用Grunt对全部JS做了压缩处理，对部分JS和CSS做了合并（模块间存在很多依赖，全部合并比较繁琐，待完善）。后端：U
运维 PHP问题汇总 dcj3sjt126com windows2003
1、Dede(织梦)发表文章时,内容自动添加关键字显示空白页解决方法：后台>系统>系统基本参数>核心设置>关键字替换（是/否），这里选择“是”。后台>系统>系统基本参数>其他选项>自动提取关键字，这里选择“是”。 2、解决PHP168超级管理员上传图片提示你的空间不足网站是用PHP168做的，反映使用管理员在后台无法
mac 下安装php扩展 - mcrypt dcj3sjt126com PHP
MCrypt是一个功能强大的加密算法扩展库，它包括有22种算法，phpMyAdmin依赖这个PHP扩展，具体如下：下载并解压libmcrypt-2.5.8.tar.gz。在终端执行如下命令： tar zxvf libmcrypt-2.5.8.tar.gz cd libmcrypt-2.5.8/ ./configure --disable-posix-threads --
MongoDB更新文档 [四] eksliang mongodb Mongodb更新文档
MongoDB更新文档转载请出自出处：http://eksliang.iteye.com/blog/2174104 MongoDB对文档的CURD，前面的博客简单介绍了，但是对文档更新篇幅比较大，所以这里单独拿出来。语法结构如下： db.collection.update( criteria, objNew, upsert, multi) 参数含义参数
Linux下的解压，移除，复制，查看tomcat命令 y806839048 tomcat
重复myeclipse生成webservice有问题删除以前的，干净 1、先切换到：cd usr/local/tomcat5/logs 2、tail -f catalina.out 3、这样运行时就可以实时查看运行日志了 Ctrl+c 是退出tail命令。有问题不明的先注掉 cp /opt/tomcat-6.0.44/webapps/g
Spring之使用事务缘由(3-XML实现) ihuning spring
用事务通知声明式地管理事务事务管理是一种横切关注点。为了在 Spring 2.x 中启用声明式事务管理，可以通过 tx Schema 中定义的 <tx:advice> 元素声明事务通知，为此必须事先将这个 Schema 定义添加到 <beans> 根元素中去。声明了事务通知后，就需要将它与切入点关联起来。由于事务通知是在 <aop:
GCD使用经验与技巧浅谈啸笑天 GC
前言 GCD(Grand Central Dispatch)可以说是Mac、iOS开发中的一大“利器”，本文就总结一些有关使用GCD的经验与技巧。 dispatch_once_t必须是全局或static变量这一条算是“老生常谈”了，但我认为还是有必要强调一次，毕竟非全局或非static的dispatch_once_t变量在使用时会导致非常不好排查的bug，正确的如下： 1
linux（Ubuntu）下常用命令备忘录1 macroli linux 工作 ubuntu
在使用下面的命令是可以通过--help来获取更多的信息1,查询当前目录文件列表：ls ls命令默认状态下将按首字母升序列出你当前文件夹下面的所有内容，但这样直接运行所得到的信息也是比较少的，通常它可以结合以下这些参数运行以查询更多的信息： ls / 显示/.下的所有文件和目录 ls -l 给出文件或者文件夹的详细信息 ls -a 显示所有文件，包括隐藏文
nodejs同步操作mysql qiaolevip 学习永无止境每天进步一点点 mysql nodejs
// db-util.js var mysql = require('mysql'); var pool = mysql.createPool({ connectionLimit : 10, host: 'localhost', user: 'root', password: '', database: 'test', port: 3306 });
一起学Hive系列文章 superlxw1234 hive Hive入门
[一起学Hive]系列文章目录贴，入门Hive，持续更新中。 [一起学Hive]之一—Hive概述，Hive是什么 [一起学Hive]之二—Hive函数大全-完整版 [一起学Hive]之三—Hive中的数据库(Database)和表(Table) [一起学Hive]之四-Hive的安装配置 [一起学Hive]之五-Hive的视图和分区 [一起学Hive
Spring开发利器：Spring Tool Suite 3.7.0 发布 wiselyman spring
Spring Tool Suite(简称STS)是基于Eclipse，专门针对Spring开发者提供大量的便捷功能的优秀开发工具。在3.7.0版本主要做了如下的更新：将eclipse版本更新至Eclipse Mars 4.5 GA Spring Boot(JavaEE开发的颠覆者集大成者，推荐大家学习)的配置语言YAML编辑器的支持(包含自动提示，

Hadoop专业解决方案-第1章 大数据和Hadoop生态圈

第一章 大数据和Hadoop生态圈