Atlas

用 Hadoop 进行分布式数据处理，从入门、进阶到应用开发

入门

简介：本文是讨论 Hadoop 的系列中的第一篇。本文介绍 Hadoop 框架，包括 Hadoop 文件系统 (HDFS) 等基本元素和常用的节点类型。学习如何安装和配置单节点 Hadoop 集群，然后研究 MapReduce 应用程序。最后，学习使用核心 Web 界面监视和管理 Hadoop 的方法。

尽管 Hadoop 是一些大型搜索引擎数据缩减功能的核心部分，但是它实际上是一个分布式数据处理框架。搜索引擎需要收集数据，而且是数量极大的数据。作为分布式框架，Hadoop 让许多应用程序能够受益于并行数据处理。

本文并不打算介绍 Hadoop 及其架构，而是演示一个简单的 Hadoop 设置。在参考资料中，可以找到关于 Hadoop 架构、组件和操作理论的更多信息。现在，我们来讨论 Hadoop 的安装和配置。

初始设置

对于本文中的示例，我们使用 Cloudera Hadoop 发行版。Cloudera 提供对各种 Linux® 发行版的支持，所以很适合初学者。

本文假设您的系统上已经安装了 Java™（至少是 1.6 版）和 cURL。如果还没有，需要先安装它们（更多信息见参考资料）。

因为我运行 Ubuntu（Intrepid 版），所以使用 apt 实用程序获取 Hadoop 发行版。这个过程非常简单，我可以获取二进制包，而不需要下载并构建源代码。首先，告诉 apt Cloudera 站点的信息。然后，在 /etc/apt/sources.list.d/cloudera.list 中创建一个新文件并添加以下文本：

deb http://archive.cloudera.com/debian intrepid-cdh3 contrib
deb-src http://archive.cloudera.com/debian intrepid-cdh3 contrib

如果您运行 Jaunty 或其他版本，只需把 intrepid 替换为您的版本名（当前支持 Hardy、Intrepid、Jaunty、Karmic 和 Lenny）。

接下来，从 Cloudera 获取 apt-key 以检查下载的包：

$ curl -s http://archive.cloudera.com/debian/archive.key | \
sudo apt-key add - sudo apt-get update

然后，安装采用伪分布式配置的 Hadoop（所有 Hadoop 守护进程在同一个主机上运行）：

$ sudo apt-get install hadoop-0.20-conf-pseudo
$

注意，这个配置大约 23MB（不包括 apt 可能下载的其他包）。这个配置非常适合体验 Hadoop 以及了解它的元素和界面。

最后，我设置了不需要密码的 SSH。如果打算使用 ssh localhost 并请求密码，就需要执行以下步骤。我假设这是专用的 Hadoop 机器，因为这个步骤对安全性有影响（见清单 1）。

清单1：设置不需要密码的SSH

$ sudo su -
# ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

最后，需要确保主机上有供 datanode使用的足够存储空间（缓存）。存储空间不足会导致系统表现异常（比如出现无法把数据复制到节点的错误）。

启动Hadoop

现在可以启动 Hadoop 了，这实际上要启动每个 Hadoop 守护进程。但是，首先使用 hadoop 命令对 Hadoop File System (HDFS) 进行格式化。hadoop 命令有许多用途，稍后讨论其中一部分。

首先，请求 namenode 对 DFS 文件系统进行格式化。在安装过程中完成了这个步骤，但是了解是否需要生成干净的文件系统是有用的。

# hadoop-0.20 namenode -format

在确认请求之后，文件系统进行格式化并返回一些信息。接下来，启动 Hadoop 守护进程。Hadoop 在这个伪分布式配置中启动 5 个守护进程：namenode、secondarynamenode、datanode、jobtracker 和 tasktracker。在启动每个守护进程时，会看到一些相关信息（指出存储日志的位置）。每个守护进程都在后台运行。图 1 说明完成启动之后伪分布式配置的架构。

图1伪分布式hadoop配置

Hadoop 提供一些简化启动的辅助工具。这些工具分为启动（比如 start-dfs）和停止（比如 stop-dfs）两类。下面的简单脚本说明如何启动 Hadoop 节点：

# /usr/lib/hadoop-0.20/bin/start-dfs.sh
# /usr/lib/hadoop-0.20/bin/start-mapred.sh
#

要想检查守护进程是否正在运行，可以使用 jps 命令（这是用于 JVM 进程的 ps 实用程序）。这个命令列出 5 个守护进程及其进程标识符。

既然 Hadoop 守护进程已经在运行了，现在看看每个守护进程在 Hadoop 框架中的作用。namenode 是 Hadoop 中的主服务器，它管理文件系统名称空间和对集群中存储的文件的访问。还有一个 secondary namenode，它不是 namenode 的冗余守护进程，而是提供周期检查点和清理任务。在每个 Hadoop 集群中可以找到一个 namenode 和一个 secondary namenode。

datanode 管理连接到节点的存储（一个集群中可以有多个节点）。每个存储数据的节点运行一个 datanode 守护进程。

最后，每个集群有一个 jobtracker，它负责调度 datanode 上的工作。每个 datanode 有一个 tasktracker，它们执行实际工作。jobtracker 和 tasktracker 采用主-从形式，jobtracker 跨 datanode 分发工作，而 tasktracker 执行任务。jobtracker 还检查请求的工作，如果一个 datanode 由于某种原因失败，jobtracker 会重新调度以前的任务。

在这个简单的配置中，所有节点都驻留在同一个主机上（见图 1）。但是，通过前面的讨论很容易看出 Hadoop 如何提供并行处理。尽管架构很简单，但是 Hadoop 能够方便地实现数据分发、负载平衡以及以容错的方式并行处理大量数据。

检查hdfs

可以通过几个检查确认 Hadoop（至少是 namenode）已经启动并正常运行。确认所有进程都在运行之后，可以使用 hadoop 命令检查本地名称空间（见清单 2）。

清单2检查对hdfs的访问

				
# hadoop-0.20 fs -ls /
Found 2 items
drwxr-xr-x   - root supergroup          0 2010-04-29 16:38 /user
drwxr-xr-x   - root supergroup          0 2010-04-29 16:28 /var
#

可以看出 namenode 已经启动，能够为本地名称空间提供服务。注意，使用 hadoop-0.20 命令检查文件系统。这个实用程序用于与 Hadoop 集群交互，包括检查文件系统、在集群中运行作业等等。请注意命令的结构：指定 hadoop-0.20 实用程序之后，定义一个命令（在这里是通用文件系统 shell）以及一个或多个选项（在这里使用 ls 请求文件列表）。因为 hadoop-0.20 是 Hadoop 集群的主要接口之一，您会看到本文中多次使用这个实用程序。清单 3 提供另外几个文件系统操作示例（创建子目录 test，列出它的内容，然后删除它），可以通过它们进一步了解这个接口。

清单3hdfs中文件系统操作

# hadoop-0.20 fs -mkdir test
# hadoop-0.20 fs -ls test
# hadoop-0.20 fs -rmr test
Deleted hdfs://localhost/user/root/test
#

既然已经安装了 Hadoop 并测试了文件系统的基本接口，现在就该在真实的应用程序中测试 Hadoop 了。在这个示例中，我们使用 MapReduce 处理一个小数据集。map（映射） 和 reduce（缩减） 源自函数式编程中的函数名，但是这个应用程序的核心功能是数据缩减。映射是指把大量输入处理成更小的子问题集（然后把这些子问题分发给并行的工作系统）。缩减是指把子问题的答案组合成单一输出集。注意，这里没有定义处理的含义，因为框架允许您自己定义什么是处理。典型的 MapReduce 示例是计算单词在文档集中出现的频率。

根据前面的讨论，我们需要一个输入集并产生一个输出集。第一步是在文件系统中创建一个 input 子目录，工作将放在这个目录中。使用以下命令：

# hadoop-0.20 fs -mkdir input

接下来，在 input 目录中放一些工作。在这里，使用 put 命令把文件从本地文件系统转移到 HDFS 中（见清单 4）。注意，下面的命令格式把源文件转移到 HDFS 子目录 (input) 中。完成之后，在 HDFS 中就有两个文本文件等待处理。

清单4把文件转移到hdfs中

				
# hadoop-0.20 fs -put /usr/src/linux-source-2.6.27/Doc*/memory-barriers.txt  input
# hadoop-0.20 fs -put /usr/src/linux-source-2.6.27/Doc*/rt-mutex-design.txt  input
#

接下来，使用 ls 命令检查文件是否存在（见清单 5）。

清单5 检查hdfs中的文件

# hadoop-0.20 fs -ls input
Found 2 items
-rw-r--r--  1 root supergroup 78031 2010-04-29 17:35 /user/root/input/memory-barriers.txt
-rw-r--r--  1 root supergroup 33567 2010-04-29 17:36 /user/root/input/rt-mutex-design.txt 
#

确认工作已经放在 HDFS 中之后，就可以执行 MapReduce 函数了。这个函数只需要一个命令，但是需要很长的请求，见清单 6。这个命令请求执行一个 JAR。它实际上实现许多功能，但是这个示例只使用 wordcount。jobtracker 守护进程请求 datanode 执行 MapReduce 作业，这会产生相当多的输出（这里的输出比较少是因为只处理两个文件）。它显示 map 和 reduce 函数的进度，然后提供与文件系统的 I/O 和记录处理相关的统计数据。

清单6执行计算单词频率的MapReduce程序

# hadoop-0.20 jar /usr/lib/hadoop-0.20/hadoop-0.20.2+228-examples.jar \
wordcount input output
10/04/29 17:36:49 INFO input.FileInputFormat: Total input paths to process : 2
10/04/29 17:36:49 INFO mapred.JobClient: Running job: job_201004291628_0009
10/04/29 17:36:50 INFO mapred.JobClient:  map 0% reduce 0%
10/04/29 17:37:00 INFO mapred.JobClient:  map 100% reduce 0%
10/04/29 17:37:06 INFO mapred.JobClient:  map 100% reduce 100%
10/04/29 17:37:08 INFO mapred.JobClient: Job complete: job_201004291628_0009
10/04/29 17:37:08 INFO mapred.JobClient: Counters: 17
10/04/29 17:37:08 INFO mapred.JobClient:   Job Counters 
10/04/29 17:37:08 INFO mapred.JobClient:     Launched reduce tasks=1
10/04/29 17:37:08 INFO mapred.JobClient:     Launched map tasks=2
10/04/29 17:37:08 INFO mapred.JobClient:     Data-local map tasks=2
10/04/29 17:37:08 INFO mapred.JobClient:   FileSystemCounters
10/04/29 17:37:08 INFO mapred.JobClient:     FILE_BYTES_READ=47556
10/04/29 17:37:08 INFO mapred.JobClient:     HDFS_BYTES_READ=111598
10/04/29 17:37:08 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=95182
10/04/29 17:37:08 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=30949
10/04/29 17:37:08 INFO mapred.JobClient:   Map-Reduce Framework
10/04/29 17:37:08 INFO mapred.JobClient:     Reduce input groups=2974
10/04/29 17:37:08 INFO mapred.JobClient:     Combine output records=3381
10/04/29 17:37:08 INFO mapred.JobClient:     Map input records=2937
10/04/29 17:37:08 INFO mapred.JobClient:     Reduce shuffle bytes=47562
10/04/29 17:37:08 INFO mapred.JobClient:     Reduce output records=2974
10/04/29 17:37:08 INFO mapred.JobClient:     Spilled Records=6762
10/04/29 17:37:08 INFO mapred.JobClient:     Map output bytes=168718
10/04/29 17:37:08 INFO mapred.JobClient:     Combine input records=17457
10/04/29 17:37:08 INFO mapred.JobClient:     Map output records=17457
10/04/29 17:37:08 INFO mapred.JobClient:     Reduce input records=3381

处理结束之后，检查结果。这个作业的作用是计算单词在输入文件中出现的次数。输出是一个包含元组的文件，元组表示单词和它在输入中出现的次数。找到输出文件之后，可以通过 hadoop-0.20 实用程序使用 cat 命令查看数据（见清单 7）。

清单7 检查MapReduce计算wordcount的输出结果

# hadoop-0.20 fs -ls /user/root/output
Found 2 items
drwxr-xr-x   - root supergroup          0 2010-04-29 17:36 /user/root/output/_logs
-rw-r--r--   1 root supergroup      30949 2010-04-29 17:37 /user/root/output/part-r-00000
#  
# hadoop-0.20 fs -cat output/part-r-00000 | head -13
!= 1
"Atomic 2
"Cache 2
"Control 1
"Examples 1
"Has 7
"Inter-CPU 1
"LOAD 1
"LOCK" 1
"Locking 1
"Locks 1
"MMIO 1
"Pending 5
#

还可以使用 hadoop-0.20 实用程序从 HDFS 中提取文件（见清单 8）。只需使用 get 实用程序（它与前面在 HDFS 中写文件所用的put 相似）。对于 get 操作，指定 HDFS 中要提取的文件（来自 output 子目录）和在本地文件系统中要写的文件 (output.txt)。

清单8 从hdfs中提取输出

# hadoop-0.20 fs -get output/part-r-00000 output.txt
# cat output.txt | head -5
!= 1
"Atomic 2
"Cache 2
"Control 1
"Examples 1
#

我们再来看一个示例，它使用相同的 JAR，但是目的不同（在这里要试验并行的 grep）。对于这个测试，仍然使用现有的输入文件，但是要删除 output 子目录以便在测试时重新创建它：

# hadoop-0.20 fs -rmr output
Deleted hdfs://localhost/user/root/output

接下来，请求用于执行 grep 的 MapReduce 作业。在这种情况下，并行执行 grep（映射），然后组合 grep 的结果（缩减）。清单 9 给出这个使用模型的输出（为了简短，这里删除了一些输出）。注意，这里的命令请求是一个 grep，它从 input 子目录获取输入，把结果放在 output 子目录中。最后一个参数是要搜索的字符串（在这里是 'kernel'）。

清单9执行单词计数的搜索mapreduce作业（grep）

# hadoop-0.20 jar /usr/lib/hadoop/hadoop-0.20.2+228-examples.jar \
grep input output 'kernel'
10/04/30 09:22:29 INFO mapred.FileInputFormat: Total input paths to process : 2
10/04/30 09:22:30 INFO mapred.JobClient: Running job: job_201004291628_0010
10/04/30 09:22:31 INFO mapred.JobClient:  map 0% reduce 0%
10/04/30 09:22:42 INFO mapred.JobClient:  map 66% reduce 0%
10/04/30 09:22:45 INFO mapred.JobClient:  map 100% reduce 0%
10/04/30 09:22:54 INFO mapred.JobClient:  map 100% reduce 100%
10/04/30 09:22:56 INFO mapred.JobClient: Job complete: job_201004291628_0010
10/04/30 09:22:56 INFO mapred.JobClient: Counters: 18
10/04/30 09:22:56 INFO mapred.JobClient:   Job Counters 
10/04/30 09:22:56 INFO mapred.JobClient:     Launched reduce tasks=1
10/04/30 09:22:56 INFO mapred.JobClient:     Launched map tasks=3
10/04/30 09:22:56 INFO mapred.JobClient:     Data-local map tasks=3
10/04/30 09:22:56 INFO mapred.JobClient:   FileSystemCounters
10/04/30 09:22:56 INFO mapred.JobClient:     FILE_BYTES_READ=57
10/04/30 09:22:56 INFO mapred.JobClient:     HDFS_BYTES_READ=113144
10/04/30 09:22:56 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=222
10/04/30 09:22:56 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=109
...
10/04/30 09:23:14 INFO mapred.JobClient:     Map output bytes=15
10/04/30 09:23:14 INFO mapred.JobClient:     Map input bytes=23
10/04/30 09:23:14 INFO mapred.JobClient:     Combine input records=0
10/04/30 09:23:14 INFO mapred.JobClient:     Map output records=1
10/04/30 09:23:14 INFO mapred.JobClient:     Reduce input records=1
#

作业完成之后，检查 output 目录，找到结果文件，然后通过执行文件系统 cat 操作查看其内容（见清单 10）。

清单10检查MapReduce的输出结果

# hadoop-0.20 fs -ls output
Found 2 items
drwxr-xr-x  - root supergroup    0 2010-04-30 09:22 /user/root/output/_logs
-rw-r--r--  1 root supergroup   10 2010-04-30 09:23 /user/root/output/part-00000
# hadoop-0.20 fs -cat output/part-00000
17 kernel
#

基于web的界面

您已经知道如何检查 HDFS 了，但是如果要寻找 Hadoop 的操作的相关信息，会发现 Web 界面很有用。位于 Hadoop 集群最上层的是 namenode，它管理 HDFS。可以通过 http://localhost:50070 查看文件系统的高层信息（比如可用空间、已用空间和可用的 datanode）以及正在运行的作业。可以通过 http://localhost:50030 深入检查 jobtracker（作业状态）。注意，在这两种情况下都引用 localhost，因为所有守护进程都在同一个主机上运行。

进阶

分布式Hadoop的架构

根据用 Hadoop 进行分布式数据处理，第 1 部分：入门，所有 Hadoop 守护进程都在同一个主机上运行。尽管不运用 Hadoop 的并行性，这个伪分布式配置提供一种简单的方式来以最少的设置测试 Hadoop 的功能。现在，让我们使用机器集群探讨一下 Hadoop 的并行性。

根据第 1 部分，Hadoop 配置定义了让所有 Hadoop 守护进程在一个节点上运行。因此，让我们首先看一下如何自然分布 Hadoop 来执行并行操作。在一个分布式 Hadoop 设置中，您有一个主节点和一些从节点（见图 1）。

图1 hadoop主从节点的分解

如图 1 所示，主节点包括名称节点、从属名称节点和 jobtracker 守护进程（即所谓的主守护进程）。此外，这是您为本演示管理集群所用的节点（使用 Hadoop 实用程序和浏览器）。从节点包括 tasktracker 和数据节点（从属守护进程）。两种设置的不同之处在于，主节点包括提供 Hadoop 集群管理和协调的守护进程，而从节点包括实现 Hadoop 文件系统（HDFS）存储功能和 MapReduce 功能（数据处理功能）的守护进程。

对于该演示，在一个 LAN 上创建一个主节点和两个从节点。设置如图 2 所示。现在，我们来探讨用于多节点分布的 Hadoop 的安装和配置。

图2 hadoop集群设计

为简化部署，要运用虚拟化技术，该技术有几个好处。尽管在该设置中使用虚拟化技术看不出性能优势，但是它可以创建一个 Hadoop 安装，然后为其他节点克隆该安装。为此，您的 Hadoop 集群应显示如下：在一个主机上的虚拟机监控程序上下文中将主从节点作为虚拟机（VM）运行（见图 3）。

图3虚拟环境中的hadoop配置

升级hadoop

在用 Hadoop 进行分布式数据处理，第 1 部分：入门中，我们安装了在一个节点上运行的 Hadoop 的一个特殊分布（伪配置）。在本文中，我们要更新分布式配置。如果您没有看过本系列的第 1 部分，那么请阅读第 1 部分，了解如何首先安装 Hadoop 伪配置。

在伪配置中，您没有进行任何配置，因为单个节点已经过预先配置。现在，您需要更新配置。首先，使用 update-alternatives 命令检查当前配置，如清单 1 所示。该命令告诉您，配置在使用 conf.pseudo（最高优先级）。

清单1检查当前hadoop配置

$ update-alternatives --display hadoop-0.20-conf
hadoop-0.20-conf - status is auto.
 link currently points to /etc/hadoop-0.20/conf.pseudo
/etc/hadoop-0.20/conf.empty - priority 10
/etc/hadoop-0.20/conf.pseudo - priority 30
Current `best' version is /etc/hadoop-0.20/conf.pseudo.
$

下一步，通过复制现有配置（本例中为 conf.empty，如清单 1 所示）创建一个新配置：

$ sudo cp -r /etc/hadoop-0.20/conf.empty /etc/hadoop-0.20/conf.dist
$

最后，激活并检查新配置：

清单2 激活并检查hadoop配置

$ sudo update-alternatives --install /etc/hadoop-0.20/conf hadoop-0.20-conf \
  /etc/hadoop-0.20/conf.dist 40
$ update-alternatives --display hadoop-0.20-conf
hadoop-0.20-conf - status is auto.
 link currently points to /etc/hadoop-0.20/conf.dist
/etc/hadoop-0.20/conf.empty - priority 10
/etc/hadoop-0.20/conf.pseudo - priority 30
/etc/hadoop-0.20/conf.dist - priority 40
Current `best' version is /etc/hadoop-0.20/conf.dist.
$

现在，您有一个名为 conf.dist 的新配置，您要将其用于您的新分布式配置。此时该节点运行于一个虚拟环境中，将该节点克隆到另外两个要充当数据节点的节点中。

配置hadoop以实现分布式操作

下一步是要使所有节点互联互通。这可以 /etc/hadoop-0.20/conf.dist/ 中的两个名为 masters 和 slaves 的文件中实现。本例中的三个节点的 IP 地址是静态分配的，如清单 3 所示（来自 /etc/hosts）：

清单3 改设置的hadoop节点

master 192.168.108.133
slave1 192.168.108.134
slave2 192.168.108.135

因此，在主节点上，更新 /etc/hadoop-0.20/conf.dist/masters 来确定主节点，如下所示：

master

然后在 /etc/hadoop-0.20/conf.dist/slaves 中确定从节点，其中包括以下两行：

slave1
slave2

接下来，从每个节点上，将 Secure Shell (ssh) 连接到所有其他节点，确保 pass-phraseless ssh 在运行。所有这些文件（masters，slaves）都由本系列第 1 部分中使用过的 Hadoop 启动和停止工具使用。

下一步，在 /etc/hadoop-0.20/conf.dist 子目录中继续进行 Hadoop 配置。以下变更需要应用于所有节点（主节点和从节点），如同 Hadoop 文档中所定义的。首先，在 core-site.xml 文件（清单 4）中确定 HDFS 主节点，它定义名称节点的主机和端口（注意主节点的 IP 地址的使用）。core-site.xml 文件定义 Hadoop 的核心属性。

清单 4 在core-site.xml中定义主节点



  
    fs.default.name
    hdfs://master:54310
    The name and URI of the default FS.

下一步，确认 MapReduce jobtracker。jobtracker 位于其自己的节点上，但对于本配置，将其放在主节点上，如清单 5 所示。mapred-site.xml 文件包含 MapReduce 属性。

清单5 在mapred-site.xml中确认mapreduce



  
    mapred.job.tracker
    master:54311
    Map Reduce jobtracker

最后，定义默认复制因子（清单 6）。该值定义将创建的副本数，一般小于 3。在本例中，将其定义为 2（数据节点的数量）。该值在包含 HDFS 属性的 hdfs-site.xml 中定义。

清单6 在hdfs-site.xml中定义默认数据副本



  
    dfs.replication
    2
    Default block replication

配置项如清单 4 所示，分布式设置所需的元素见清单 5 和清单 6。Hadoop 在这里提供大量配置选项，支持您按需定制整个环境。参考资料部分含有关于这些选项的更多信息。

完成配置之后，下一步是要格式化名称节点（HDFS 主节点）。对于该操作，使用 hadoop-0.20 实用程序指定名称节点和操作（-format）：

清单7 格式化名称节点

user@master:~# sudo su -
root@master:~# hadoop-0.20 namenode -format
10/05/11 18:39:58 INFO namenode.NameNode: STARTUP_MSG: 
/************************************************************
STARTUP_MSG: Starting NameNode
STARTUP_MSG:   host = master/127.0.1.1
STARTUP_MSG:   args = [-format]
STARTUP_MSG:   version = 0.20.2+228
STARTUP_MSG:   build =  -r cfc3233ece0769b11af9add328261295aaf4d1ad; 
************************************************************/
10/05/11 18:39:59 INFO namenode.FSNamesystem: fsOwner=root,root
10/05/11 18:39:59 INFO namenode.FSNamesystem: supergroup=supergroup
10/05/11 18:39:59 INFO namenode.FSNamesystem: isPermissionEnabled=true
10/05/11 18:39:59 INFO common.Storage: Image file of size 94 saved in 0 seconds.
10/05/11 18:39:59 INFO common.Storage: 
  Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted.
10/05/11 18:39:59 INFO namenode.NameNode: SHUTDOWN_MSG: 
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at master/127.0.1.1
************************************************************/
root@master:~#

格式化名称节点之后，就可以启动 Hadoop 守护进程了。可以对第 1 部分中的伪分布式配置执行同样的操作，但进程为分布式配置完成同样的工作。注意，这里的代码启动名称节点和从属名称节点（正如 jps 命令所指示）：

清单8 启动名称节点

root@master:~# /usr/lib/hadoop-0.20/bin/start-dfs.sh
starting namenode, logging to 
  /usr/lib/hadoop-0.20/bin/../logs/hadoop-root-namenode-mtj-desktop.out
192.168.108.135: starting datanode, logging to 
  /usr/lib/hadoop-0.20/bin/../logs/hadoop-root-datanode-mtj-desktop.out
192.168.108.134: starting datanode, logging to 
  /usr/lib/hadoop-0.20/bin/../logs/hadoop-root-datanode-mtj-desktop.out
192.168.108.133: starting secondarynamenode, 
  logging to /usr/lib/hadoop-0.20/logs/hadoop-root-secondarynamenode-mtj-desktop.out
root@master:~# jps
7367 NameNode
7618 Jps
7522 SecondaryNameNode
root@master:~#

现在，如果使用 jps 节点检测其中一个从节点（数据节点），您会看到每个节点上都有一个数据节点守护进程：

清单9 访问其中一个从节点的数据节点

root@slave1:~# jps
10562 Jps
10451 DataNode
root@slave1:~#

下一步是要启动 MapReduce 守护进程（jobtracker 和 tasktracker）。如清单 10 所示执行该操作。注意，脚本启动主节点上的 jobtracker（正如配置所定义的；参见清单 5）和每个从节点上的 tasktrackers。主节点上的一个 jps 命令显示 jobtracker 正在运行。

清单10 启动MapReduce守护进程

root@master:~# /usr/lib/hadoop-0.20/bin/start-mapred.sh
starting jobtracker, logging to 
  /usr/lib/hadoop-0.20/logs/hadoop-root-jobtracker-mtj-desktop.out
192.168.108.134: starting tasktracker, logging to 
  /usr/lib/hadoop-0.20/bin/../logs/hadoop-root-tasktracker-mtj-desktop.out
192.168.108.135: starting tasktracker, logging to 
  /usr/lib/hadoop-0.20/bin/../logs/hadoop-root-tasktracker-mtj-desktop.out
root@master:~# jps
7367 NameNode
7842 JobTracker
7938 Jps
7522 SecondaryNameNode
root@master:~#

最后，使用 jps 检查一个从节点。这里您可以看到，一个 tasktracker 守护进程将数据节点守护进程联接到每个从数据节点上：

清单11 检测其中一个从节点上的数据节点

root@slave1:~# jps
7785 DataNode
8114 Jps
7991 TaskTracker
root@slave1:~#

启动脚本、节点和启动的守护进程之间的关系如图 4 所示。如您所见，start-dfs 脚本启动名称节点和数据节点，而 start-mapred 脚本启动 jobtracker 和 tasktrackers。

图4 每个节点的启动进程和守护进程的关系

测试HDFS

既然 Hadoop 已经开始在整个集群中运行了，您可以运行一些测试来确保其正常运作（见清单 12）。首先，通过 hadoop-0.20 实用程序发出一个文件系统命令（fs），并请求一个 df（disk free）操作。与在 Linux® 中一样，该命令仅确定特定设备的已用空间和可用空间。因此，对于新格式化的文件系统，就没有已用空间。下一步，在 HDFS 的根上执行一个 ls 操作，创建一个子目录，列出其内容，并删除它。最后，在 hadoop-0.20 实用程序内，您可以使用 fsck 命令在 HDFS 上执行一个 fsck（文件系统检查）。这一切 — 以及各种其他信息（比如检测到两个数据节点）— 都告诉您文件系统是正常的。

清单12 检查HDFS

root@master:~# hadoop-0.20 fs -df
File system		Size	Used	Avail		Use%
/		16078839808	73728	3490967552	0%
root@master:~# hadoop-0.20 fs -ls /
Found 1 items
drwxr-xr-x   - root supergroup          0 2010-05-12 12:16 /tmp
root@master:~# hadoop-0.20 fs -mkdir test
root@master:~# hadoop-0.20 fs -ls test
root@master:~# hadoop-0.20 fs -rmr test
Deleted hdfs://192.168.108.133:54310/user/root/test
root@master:~# hadoop-0.20 fsck /
.Status: HEALTHY
 Total size:	4 B
 Total dirs:	6
 Total files:	1
 Total blocks (validated):	1 (avg. block size 4 B)
 Minimally replicated blocks:	1 (100.0 %)
 Over-replicated blocks:	0 (0.0 %)
 Under-replicated blocks:	0 (0.0 %)
 Mis-replicated blocks:		0 (0.0 %)
 Default replication factor:	2
 Average block replication:	2.0
 Corrupt blocks:		0
 Missing replicas:		0 (0.0 %)
 Number of data-nodes:		2
 Number of racks:		1

The filesystem under path '/' is HEALTHY
root@master:~#

执行一个MapReduce作业

下一步是执行一个 MapReduce 作业，以验证整个设置运作正常（见清单 13）。该进程的第一步是要引入一些数据。因此，首先创建一个目录来容纳您的输入数据（称为 input），创建方式是使用 hadoop-0.20 实用程序的 mkdir 命令。然后，使用 hadoop-0.20 的put 命令将两个文件放到 HDFS 中。您可以使用 Hadoop 实用程序的 ls 命令检查输入目录的内容。

清单13 生成输入数据

				
root@master:~# hadoop-0.20 fs -mkdir input
root@master:~# hadoop-0.20 fs -put \
  /usr/src/linux-source-2.6.27/Doc*/memory-barriers.txt input
root@master:~# hadoop-0.20 fs -put \
  /usr/src/linux-source-2.6.27/Doc*/rt-mutex-design.txt input
root@master:~# hadoop-0.20 fs -ls input
Found 2 items
-rw-r--r--  2 root supergroup  78031 2010-05-12 14:16 /user/root/input/memory-barriers.txt
-rw-r--r--  2 root supergroup  33567 2010-05-12 14:16 /user/root/input/rt-mutex-design.txt
root@master:~#

下一步，启动 wordcount MapReduce 作业。与在伪分布式模型中一样，指定输入子目录（包含输入文件）和输出目录（不存在，但会由名称节点创建并用结果数据填充）：

清单14 在集群上运行MapReduce wordcount计数

root@master:~# hadoop-0.20 jar \
  /usr/lib/hadoop-0.20/hadoop-0.20.2+228-examples.jar wordcount input output
10/05/12 19:04:37 INFO input.FileInputFormat: Total input paths to process : 2
10/05/12 19:04:38 INFO mapred.JobClient: Running job: job_201005121900_0001
10/05/12 19:04:39 INFO mapred.JobClient:  map 0% reduce 0%
10/05/12 19:04:59 INFO mapred.JobClient:  map 50% reduce 0%
10/05/12 19:05:08 INFO mapred.JobClient:  map 100% reduce 16%
10/05/12 19:05:17 INFO mapred.JobClient:  map 100% reduce 100%
10/05/12 19:05:19 INFO mapred.JobClient: Job complete: job_201005121900_0001
10/05/12 19:05:19 INFO mapred.JobClient: Counters: 17
10/05/12 19:05:19 INFO mapred.JobClient:   Job Counters 
10/05/12 19:05:19 INFO mapred.JobClient:     Launched reduce tasks=1
10/05/12 19:05:19 INFO mapred.JobClient:     Launched map tasks=2
10/05/12 19:05:19 INFO mapred.JobClient:     Data-local map tasks=2
10/05/12 19:05:19 INFO mapred.JobClient:   FileSystemCounters
10/05/12 19:05:19 INFO mapred.JobClient:     FILE_BYTES_READ=47556
10/05/12 19:05:19 INFO mapred.JobClient:     HDFS_BYTES_READ=111598
10/05/12 19:05:19 INFO mapred.JobClient:     FILE_BYTES_WRITTEN=95182
10/05/12 19:05:19 INFO mapred.JobClient:     HDFS_BYTES_WRITTEN=30949
10/05/12 19:05:19 INFO mapred.JobClient:   Map-Reduce Framework
10/05/12 19:05:19 INFO mapred.JobClient:     Reduce input groups=2974
10/05/12 19:05:19 INFO mapred.JobClient:     Combine output records=3381
10/05/12 19:05:19 INFO mapred.JobClient:     Map input records=2937
10/05/12 19:05:19 INFO mapred.JobClient:     Reduce shuffle bytes=47562
10/05/12 19:05:19 INFO mapred.JobClient:     Reduce output records=2974
10/05/12 19:05:19 INFO mapred.JobClient:     Spilled Records=6762
10/05/12 19:05:19 INFO mapred.JobClient:     Map output bytes=168718
10/05/12 19:05:19 INFO mapred.JobClient:     Combine input records=17457
10/05/12 19:05:19 INFO mapred.JobClient:     Map output records=17457
10/05/12 19:05:19 INFO mapred.JobClient:     Reduce input records=3381
root@master:~#

最后一步是探索输出数据。由于您运行了 wordcount MapReduce 作业，结果是一个文件（从已处理映射文件缩减而来）。该文件包含一个元组列表，表示输入文件中找到的单词和它们在所有输入文件中出现的次数：

清单15 检测mapreduce的输出

root@master:~# hadoop-0.20 fs -ls output
Found 2 items
drwxr-xr-x   - root supergroup          0 2010-05-12 19:04 /user/root/output/_logs
-rw-r--r--   2 root supergroup      30949 2010-05-12 19:05 /user/root/output/part-r-00000
root@master:~# hadoop-0.20 fs -cat output/part-r-00000 | head -13
!=	1
"Atomic	2
"Cache	2
"Control	1
"Examples	1
"Has	7
"Inter-CPU	1
"LOAD	1
"LOCK"	1
"Locking	1
"Locks	1
"MMIO	1
"Pending	5
root@master:~#

尽管 hadoop-0.20 实用程序的功能极其丰富，但有时使用一个 GUI 会更方便。在执行文件系统检测时，您可以通过 http://master:50070 链接到名称节点，通过 http://master:50030 连接到 jobtracker 。您可以通过名称节点检测 HDFS，如图 5 所示，在这里您检测输入目录（包含输入数据 — 见上面清单 13）。

图5 通过名称节点检测HDFS

通过 jobtracker，您可以检测运行中或已完成的作业。在图 6 中，您可以看到对最后一个作业的检测（来自清单 14）。该图展示了作为 Java 存档（JAR）请求的输出发出的各种数据，以及任务的状态和数量。注意，这里执行了两个映射任务（每个输入文件一个映射）和一个缩减任务（用于缩减两个映射输入）。

图6 检测一个已完成作业的状态

最后，您可以通过名称节点检查数据节点的状态。名称节点主页确定活动节点和死节点（作为链接）的数量，且允许您进一步检测它们。图 7 所示的页面显示了活动数据节点以及每个节点的统计数据。

图7 检查活动数据节点的状态

通过名称节点和 jobtracker Web 界面，可以查看许多其他视图，但出于简洁，只显示该样例集。在名称节点和 jobtracker Web 页面内，您会找到大量链接，从而引导您获取有关 Hadoop 配置和操作的其他信息（包括运行时日志）。

此系列的文章专注于单节点和多节点集群的 Hadoop 安装及配置。最后这篇文章探索了 Hadoop 编程 — 特别是在 Ruby 语言中 map 和 reduce 应用程序开发。我之所以选择 Ruby，首先是因为，它是一个您应该知道的很棒的面向对象的脚本语言，其次，您将在参考资料部分发现很多参考，其中包括解决 Java™ 和 Python 语言的教程。通过这种 MapReduce 编程的探索，将向您介绍流式应用程序编程接口（Application Programming Interface，API）。此 API 提供方法以便在 Java 语言以外的多种语言中开发应用程序。

让我们开始简要介绍一下 map 和 reduce（从功能的角度考虑），然后再进一步钻研 Hadoop 编程模型及其体系结构和用来雕刻、分配、管理工作的元素。

第 3 部分: 应用程序开发

maphe reduce的起源

是什么功能性元素激发了 MapReduce 编程范例的创立？在 1958 年，John McCarthy 发明了名为 Lisp 的语言，其实现了数值和符号计算，但在递归形式下此语言非常不同于现在所使用的大多数语言。（在维基百科全书上记述着 Lisp 那段迷人的历史，同时包括一个有用的教程 — 值得您花费时间来阅读。）Lisp 最先是在 IBM® 704 中实现的，IBM® 704 是第一种大规模生产的计算机，也支持其他旧的语言，如 FORTRAN。

map 函数，源于功能性语言（如 Lisp）但如今在其他语言中也很常见，其中包含了一系列元素的函数的应用程序。这意味着什么？清单 1 通过 Scheme Shell (SCSH) 提供解释会话，即一个 Lisp 衍生。第一行定义一个名为 square 的函数，该函数可接受参数并发出其平方根。下一行说明 map 函数的使用。如图所示，通过 map，为已应用的函数提供您的函数和一系列元素。结果是一个包含平方元素的新列表。

清单1 SCSH上的map函数演示

> (define square (lambda (x) (* x x)))
> (map square '(1 3 5 7))
'(1 9 25 49)
>

Reduce 也适用于列表但是通常将列表缩减为标量值。清单 2中提供的示例说明用于将列表缩减为标量的其他 SCSH 函数 — 在这种情况下，用 (1 + (2 + (3 + (4 + (5))))) 的格式汇总值的列表。请注意这是典型的功能性编程，取决于迭代上的递归。

清单2 SCSH上的reduce函数演示

> (define (list-sum lis) (if (null? lis) 0 (+ (car lis) (list-sum (cdr lis)))))
> (list-sum '(1 2 3 4 5))
15
>

有趣的是要注意递归与迭代在命令性语言中同样高效，因为递归在幕后被转化成迭代。

hadoop的编程模型

Google 引用 MapReduce 的概念作为处理或生成大型数据集的编程模型。在规范模型中，map 函数处理键值对，这将得出键值对的中间集。然后 reduce 函数会处理这些中间键值对，并合并相关键的值（请参考图 1）。输入数据使用这样一种方法进行分区，即在并行处理的计算机集群中分区的方法。使用相同的方法，已生成的中间数据将被并行处理，这是处理大量数据的理想方法。

图1 MapReduce的处理的简化流程

对于快速刷新器来说，查看图 1 的体系结构，从 map 和 reduce 角度来进行字数统计（因为您将在本文中开发 map 和 reduce 应用程序)。在提供输入数据时（进入 Hadoop 文件系统 [HDFS]），首先分段，然后分配给 map 工作线程（通过作业跟踪器）。虽然图 2 中的示例显示了一个被分段的简短语句，但是分段的工作数量通常在 128MB 范围内，其原因是建立工作只需要很少的时间，因为有更多的工作要做，以便最大限度地减少这种开销。map 工作线程（在规范的示例中）将工作分割成包含已标记单词和初始值（在此情况下是 1）的单个矢量。在 map 任务完成时（如通过任务跟踪器在 Hadoop 中所定义的），提供工作给 reduce 工作线程。通过代表所发现的键的数量的值，reduce 工作线程将许多键缩减为一个惟一的集合。

图2 简单的maprecduce流程

请注意此过程可在相同的或不同的计算机中出现或者使用不同的数据分区来按顺序或并行完成，且结果仍然是相同的。

虽然规范的视图（用于使用字数统计生成搜索索引）是一种用来查看 Hadoop 方法，但结果是此计算模型被常规地应用到可计算问题上，正如您将要看到的那样。

hadoop的灵活性

从图 2 中所示的简单示例看，需注意 map 和 reduce 过程这两个主要元素。虽然这里存在一个这些过程如何工作的传统视图，但是它不是 map 和 reduce 体系结构所需要的。这就是 Hadoop 的真实力量 — 其灵活性用来实现在某种程度上活动的 map 和 reduce 过程，这解决了一个特定的应用程序。虽然字数统计示例对于大量的问题是有用且适用的，但是其他的模型仍然在此总体框架内适用。所需的就是使 map 和 reduce 应用程序的开发过程对于 Hadoop 可见。

在其他的应用程序中，Hadoop 已经被用于实现包括神经网络算法的计算机学习应用程序，支持矢量计算机以及 k-means 集群（要获得更多信息，请参考参考资料部分）。

数据流

虽然 Hadoop 是一个基于 Java 的框架，但是其有可能在 Java 语言以外的语言中编写 msp 和 reduce 应用程序。Hadoop 内的 流 实用工具实现了一种数据流胶的类型。通过 流 实用工具，您可以定义您自己的可执行 map 和 reduce（使用每一个从标准输入 [stdin] 提取的输入和每一个通过标准输出 [stdout] 提供的输出），且 流 实用工具可适当地读取和写入数据，根据需要调用您的应用程序（请参考清单 3）。

清单3 使用hadoop流工具

				
hadoop jar $HADOOP_HOME/hadoop-流.jar \
	-input inputData
	-output outputData
	-mapper map_exec
	-reducer reduce_exec

清单 3 说明如何在 Hadoop 内使用 流 实用工具，图 3 图形化地显示了如何定义流。请注意这是一个流使用的简单示例。大量的选项可用于制定如何解析数据、制定如何调用图像、为分区器和合成器指定替换图像以及调整其他配置（要获得更多信息，请参考参考资料部分）。

图3 图形流示例

Ruby示例

通过已经获得的在 流 实用工具基本理解上的经验，您已经准备编写一个简单的 Ruby map 和 reduce 应用程序并查看如何在 Hadoop 框架中使用过程。虽然此处的示例伴随着规范的 MapReduce 应用程序，但是稍后您将看到其他的应用程序（取决于您将如何用 map 和 reduce 格式实现它们）。

首选是 mapper。此脚本从 stdin 提取文本输入，首先标记它，然后将一系列键值对发送到 stdout。像大多数面向对象的脚本语言一样，这个任务几乎太简单了。如清单 4 中所示的 mapper 脚本（通过一些注释和空白区域可给与其大一点的大小）。此程序使用一个迭代器来从 stdin 中读取一行，同时另一个迭代器将该行分割成单个的标记。使用为 1 的相关值（通过选项卡分隔）将每一个标记（单词）发送到 stdout。

清单4 map ruby脚本

#!/usr/bin/env ruby

# Our input comes from STDIN
STDIN.each_line do |line|

  # Iterate over the line, splitting the words from the line and emitting
  # as the word with a count of 1.
  line.split.each do |word|
    puts "#{word}\t1"
  end

end

下一步，查看 reduce 应用程序。虽然此应用程序稍微有些复杂，但是使用 Ruby hash（关联阵列）可简化 reduce 操作（请参考清单 5）。此脚本可通过来自 stdin （通过 流 实用工具传递）的输入数据再次工作且将该行分割成一个单词或值。而后该 hash 会检查该单词；如果发现，则将计数添加到元素。否则，您需要在该单词的 hash 中创建新的条目，然后加载计数（应该是来自 mapper 过程的 1）。在所有输入都被处理以后，通过 hash 可简单迭代且将键值对发送到 stdout。

清单5 ruby reduce 脚本

#!/usr/bin/env ruby

# Create an empty word hash
wordhash = {}

# Our input comes from STDIN, operating on each line
STDIN.each_line do |line|

  # Each line will represent a word and count
  word, count = line.strip.split

  # If we have the word in the hash, add the count to it, otherwise
  # create a new one.
  if wordhash.has_key?(word)
    wordhash[word] += count.to_i
  else
    wordhash[word] = count.to_i
  end

end

# Iterate through and emit the word counters
wordhash.each {|record, count| puts "#{record}\t#{count}"}

随着 map 和 reduce 脚本的完成，需从命令行测试它们。记得要使用 chmod +x 将这些文件更改为可执行。通过生成输入文件来启动，如清单 6 所示。

清单6 生成输入文件

# echo "Hadoop is an implementation of the map reduce framework for " \
	"distributed processing of large data sets." > input
#

通过单词输入，现在您可以测试您的 mapper 脚本，如清单 7 所示。回想此脚本简单地将输入标记到键值对，此处每个值都将是1（非惟一输入）。

清单7 测试mapper脚本

# cat input | ruby map.rb
Hadoop	1
is	1
an	1
implementation	1
of	1
the	1
map	1
reduce	1
framework	1
for	1
distributed	1
processing	1
of	1
large	1
data	1
sets.	1
#

到目前为止，一切都很顺利。现在，在原始流格式中将整个应用程序一起调出。在清单 8 中，通过 map 脚本传递您的输入、排序输出（可选步骤）、然后通过 reduce 脚本传递由此产生的中间数据。

清单8 使用linux管道的简单mapreduce

# cat input | ruby map.rb | sort | ruby reduce.rb
large	1
of	2
framework	1
distributed	1
data	1
an	1
the	1
reduce	1
map	1
sets.	1
Hadoop	1
implementation	1
for	1
processing	1
is	1
#

使用hadoop的ruby

在 shell 环境中您的 map 和 reduce 脚本按预期工作，通过 Hadoop 将它们放入测试中。我将会跳过 Hadoop 安装任务（参考本系列的用 Hadoop 进行分布式数据处理，第 1 部分：入门或用 Hadoop 进行分布式数据处理，第 2 部分：进阶以便建立 Hadoop 并使其运行）。

第一步将要在 HDFS 内为您的输入信息创建输入字典，然后提供一个将测试您脚本的简单文件。清单 9 说明了此步骤（有关这些步骤的更多信息，请参考本系列的用 Hadoop 进行分布式数据处理，第 1 部分：入门或用 Hadoop 进行分布式数据处理，第 2 部分：进阶）。

清单9 为mapreduce过程创建输入文件

# hadoop fs -mkdir input
# hadoop dfs -put /usr/src/linux-source-2.6.27/Documentation/memory-barriers.txt input
# hadoop fs -ls input
Found 1 items
-rw-r--r--  1 root supergroup  78031 2010-06-04 17:36 /user/root/input/memory-barriers.txt
#

下一步，使用 流 实用工具，通过自定义脚本来调用 Hadoop，简化输出的输入数据和位置（请参考清单 10）。在此示例中请注意 -file 选项会简单地告诉 Hadoop 来打包您的 Ruby 脚本作为部分作业提交。

请单10 使用ruby mapreduce脚本使用hadoop流

# hadoop jar /usr/lib/hadoop-0.20/contrib/streaming/hadoop-0.20.2+228-streaming.jar \
  -file /home/mtj/ruby/map.rb -mapper /home/mtj/ruby/map.rb \
  -file /home/mtj/ruby/reduce.rb -reducer /home/mtj/ruby/reduce.rb \
  -input input/* -output output
packageJobJar: [/home/mtj/ruby/map.rb, /home/mtj/ruby/reduce.rb, /var/lib/hadoop-0.20/...
10/06/04 17:42:38 INFO mapred.FileInputFormat: Total input paths to process : 1
10/06/04 17:42:39 INFO streaming.StreamJob: getLocalDirs(): [/var/lib/hadoop-0.20/...
10/06/04 17:42:39 INFO streaming.StreamJob: Running job: job_201006041053_0001
10/06/04 17:42:39 INFO streaming.StreamJob: To kill this job, run:
10/06/04 17:42:39 INFO streaming.StreamJob: /usr/lib/hadoop-0.20/bin/hadoop job ...
10/06/04 17:42:39 INFO streaming.StreamJob: Tracking URL: http://localhost:50030/...
10/06/04 17:42:40 INFO streaming.StreamJob:  map 0%  reduce 0%
10/06/04 17:43:17 INFO streaming.StreamJob:  map 100%  reduce 0%
10/06/04 17:43:26 INFO streaming.StreamJob:  map 100%  reduce 100%
10/06/04 17:43:29 INFO streaming.StreamJob: Job complete: job_201006041053_0001
10/06/04 17:43:29 INFO streaming.StreamJob: Output: output
#

最后，通过 hadoop 实用工具使用 cat 文件系统操作来探索输出（请参考清单 11）。

清单11 exploring hadoop output

# hadoop fs -ls /user/root/output
Found 2 items
drwxr-xr-x  - root supergroup      0 2010-06-04 17:42 /user/root/output/_logs
-rw-r--r--  1 root supergroup  23014 2010-06-04 17:43 /user/root/output/part-00000
# hadoop fs -cat /user/root/output/part-00000 | head -12
+--->|	4
immediate	2
Alpha)	1
enable	1
_mandatory_	1
Systems	1
DMA.	2
AMD64	1
{*C,*D},	2
certainly	2
back	2
this	23
#

在不到 30 行的脚本中，您已经在 Hadoop 框架内实现了 map 和 reduce 元素并演示了它们的执行。虽然是一个简单的示例，但是通过自定义的和专有的算法说明了 Hadoop 背后真实的力量以及为什么 Hadoop 正在成为一种用于处理大型数据集的流行框架。

hadoop其他的应用程序

Hadoop 可用于许多应用程序上，其已超越了为大型数据集简单计算字数的工作。所有这一切的需要就是用矢量格式表达 Hadoop 基础设施可以使用的数据。虽然规范的示例使用矢量表达作为键和值，但是并没有限制您如何来定义值（例如一些值的汇总）。在更加丰富的应用程序集中此灵活性可以为 Hadoop 创造新的机会。

一个一直适合 MapReduce 字数统计模型的有趣的应用程序正在把 Web 服务器访问的频率制表（在开创性 Google 文章中讨论）。对于此应用程序来说，URL 作为键来服务（从 Web 服务器访问日志摄取）。reduce 过程的结果是基于 Web 服务器日志的给定 Web 站点的每次 URL 访问的总数。

在计算机学习用户程序中，Hadoop 已经作为处理大量 GA 个体的规模遗传算法的一种方法（潜在解决方案）。map 过程执行传统的遗传算法，从本地池中搜索最佳单个解决方案。然后 reduce 应用程序成为来自 map 阶段的单个解决方案的集成。这会允许单个节点识别最佳解决方案，然后允许这些解决方案在最适于生存的分布式显示的 reduce 阶段中相互竞争。

另外一个有趣的应用程序被创建用于识别僵尸网络的垃圾邮件。此过程的第一步将会为减少垃圾邮件为目的而对电子邮件按来自给定组织而进行分类（基于一组指纹）。根据过滤的这些数据，对以特定方式（例如参考电子邮件正文中的相同链接）连接的邮件生成一个图表。然后这些相关电子邮件会减少至主机（静态或动态 IP 地址）以识别有问题的僵尸网络。

在应用程序之外通过 map 和 reduce 基元来查看世界，Hadoop 作为在计算机集群之间分配工作的方式非常有用。 Map 和 reduce 并非必须强制某种特定类型的应用程序。相反地，Hadoop 可以被视为一种可以同时将数据和算法分配到主机以获得更快速的并行处理速度的方法。

hadoop应用程序生态环境

虽然 Hadoop 提供了一个灵活的架构，但也可以使用其他应用程序转换与其他应用程序的界面。一个有趣的示例称为 Hive，它是一个具有自己特定查询语言（称为 Hive QL）的数据仓库基础结构。Hive 使得 Hadoop 更加熟悉结构化查询语言 (SQL) 背景，同时还支持传统的 MapReduce 基础结构来进行数据处理。

HBase 是另外一种位于 HDFS 顶部的有趣的应用程序。它是一个类似于 Google BigTable 的高性能数据库系统。代替传统的文件处理，HBase 使数据库将 MapReduce 处理的输入和输出格式列表。

最后，Pig 是 Hadoop 中用于分析大型数据集的平台。Pig 提供可编译 map 和 reduce 应用程序的高级语言。

这是 Hadoop 系列的最后一篇文章，探索了在适用于 Hadoop 框架的 Ruby 中开发 map 和 reduce 应用程序。希望从这篇文章您可以看到 Hadoop 的真正力量。虽然 Hadoop 将您限制在一个特定的编程模型中，但是这种模型是灵活的且可被应用到大量的应用程序上。

参考文献：

MapReduce：大型集群中的简化数据处理是有关 MapReduce 的开创性文章，其由 Jeff Dean 和 Sanjay Ghemawat 于 2004 年编写。本文仍是一个令人愉快的阅读物。
本文探索了 Hadoop 的 流 实用工具，其允许在 Java 语言以外的多种语言中开发 map 和 reduce 脚本。Apache 为 流 提供了一套非常好的资源，包括 Hadoop 流文档和流 wiki（为各种命令行选项提供了很好的介绍）。
Wikipedia 为 Lisp 和 Scheme 语言提供了很好的介绍以及为功能性编程概念提供了一般介绍（和 MapReduce）。
要演示 map 和 reduce 的功能性编程元素，本文使用了 Scheme shell。如果您曾经想尝试 Scheme，则 SCSH 是一个很好的沙盒去尝试这种强大的语言。您也可以在 Tim 的文章用 Guile 编写脚本（developerWorks，2009 年 1 月）中学习有关 Scheme 和通过 C 编写脚本，或阅读一个很好的 Scheme 介绍。
在文章 Map-Reduce for Machine Learning on Multicore 中，MapReduce 模型被用于为多核处理器实现各种不同的计算机学习算法。这是一个有趣的阅读用来探索 MapReduce 模型如何应用到各种不同的可计算算法。
配置单元是一个建立在 Hadoop 顶部的数据舱库基础结构。其在 Hadoop 数据上提供查询语言，此语言支持传统的 Hadoop 编程模型。HBase 是数据库在 Hadoop 的 HDFS 上的表现，在简单文件上执行 MapReduce 以操作数据库表。最后，Pig 是一个包括适用于 Hadoop 编程的高级语言的大型数据库集分析的平台。
Ruby 语言是最新的面向对象的脚本语言。其动态关注程序员工作效率。
检查学术文章中的 Mapreduce 和 Hadoop 算法的列表。此站点提供有关 Hadoop 如何用于各种不同的应用程序的有趣观点（来自科学、计算机学习、web 服务，等等）。
Yahoo! 在开发人员网络中提供了很好的 Hadoop 资源集。特别是，Yahoo! Hadoop 教程介绍了 Hadoop 并提供其使用与配置的详细讨论。
在 developerWorks Linux 专区寻找为 Linux 开发人员（包括 Linux 新手入门）准备的更多参考资料，查阅我们最受欢迎的文章和教程。
在 developerWorks 上查阅所有 Linux 技巧和 Linux 教程。
随时关注 developerWorks 技术活动和网络广播。
观看 developerWorks 演示中心，其范围从适用于初学者的产品安装和设置演示到适用于有经验的开发人员的高级功能。

Yahoo! 的 Doug Cutting（现在在 Cloudera）为支持 Nutch 搜索引擎的分发开发了 Hadoop。
用于 Hadoop 开发的主站点是一个 Apache 项目。
Cloudera 提供预打包的 Hadoop 和 VM，简化了 Hadoop 的安装。
查看 Google 最近授予 Hadoop 的许可证，这个许可证让用户可以放心地使用 Hadoop，不需要担心法律问题。Google 拥有 Hadoop 的思想的专利（专利 7,650,331 中定义的高效大规模数据处理）。
阅读 “使用 Linux 和 Hadoop 进行分布式计算”（developerWorks，2008 年 12 月）和最近的 "用 Linux 和 Apache Hadoop 进行云计算"（developerWorks，2009 年 10 月），了解 Hadoop 及其架构的更多信息。
阅读 Google 的开创性文章 MapReduce: Simplified Data Processing on Large Clusters，了解这种函数式编程风格。
查看 Wikipedia 上对 MapReduce 的介绍。
在 Apache 网站上查看 Hadoop 实用程序的命令。
了解 Hadoop on the horizon 和 IBM 的 jStart（新兴技术项目）。在 jStart，还可以了解 BigSheets，这是通过 Web 数据扩展业务智能化的 IBM mashup。
在 developerWorks Linux 专区寻找为 Linux 开发人员（包括 Linux 新手入门）准备的更多参考资料，查阅我们最受欢迎的文章和教程。
在 developerWorks 上查阅所有 Linux 技巧和 Linux 教程。
随时关注 developerWorks 技术活动和网络广播。
观看 developerWorks 演示中心，包括面向初学者的产品安装和设置演示，以及为经验丰富的开发人员提供的高级功能。

本系列的第 1 部分，用 Hadoop 进行分布式数据处理，第 1 部分：入门（developerWorks，2010 年 5 月）向您展示了如何为实现伪分布式配置而安装 Hadoop（即在一个节点上运行所有守护进程）。
本系列文章使用的 Cloudera 分布带有大量外形因子，从可安装包到源或 VM。您可以在 Cloudera 主页上了解更多相关内容。Cloudera 还有一套精致的 Hadoop 安装和使用文档（除了 Pig 和 Hive，Hadoop 的大型数据集操作语言和构建于 Hadoop 上的数据仓库基础设施）。
在 Apache.org 上查看集群设置，获取 core-site.xml、mapred-site.xml 和 hdfs-site.xml 的完整属性列表。
参阅 Michael Noll 有关如何使用 Hadoop 的有用资源以及其他有趣主题。
Yahoo! 在开发人员网络上提供了一整套 Hadoop 资源。特别是 Yahoo! Hadoop Tutorial，该教程介绍了 Hadoop 并详细讨论了其使用和配置。
阅读 “使用 Linux 和 Hadoop 进行分布式计算”（developerWorks，2008 年 12 月）和最近的 “用 Linux 和 Apache Hadoop 进行云计算”（developerWorks，2009 年 10 月），了解 Hadoop 及其架构的更多信息。
在 developerWorks Linux 专区寻找为 Linux 开发人员（包括 Linux 新手入门）准备的更多参考资料，查阅我们最受欢迎的文章和教程。
在 developerWorks 上查阅所有 Linux 技巧和 Linux 教程。
随时关注 developerWorks 技术活动和网络广播。
观看 developerWorks 演示中心，包括面向初学者的产品安装和设置演示，以及为经验丰富的开发人员提供的高级功能。

你可能感兴趣的:(hadoop)

浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
Hadoop 傲雪凌霜，松柏长青后端大数据 hadoop 大数据分布式
ApacheHadoop是一个开源的分布式计算框架，主要用于处理海量数据集。它具有高度的可扩展性、容错性和高效的分布式存储与计算能力。Hadoop核心由四个主要模块组成，分别是HDFS（分布式文件系统）、MapReduce（分布式计算框架）、YARN（资源管理）和HadoopCommon（公共工具和库）。1.HDFS（HadoopDistributedFileSystem）HDFS是Hadoop生
Hadoop架构 henan程序媛 hadoop 大数据分布式
一、案列分析1.1案例概述现在已经进入了大数据(BigData)时代，数以万计用户的互联网服务时时刻刻都在产生大量的交互，要处理的数据量实在是太大了，以传统的数据库技术等其他手段根本无法应对数据处理的实时性、有效性的需求。HDFS顺应时代出现，在解决大数据存储和计算方面有很多的优势。1.2案列前置知识点1.什么是大数据大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的大量数据集合，
分享一个基于python的电子书数据采集与可视化分析 hadoop电子书数据分析与推荐系统 spark大数据毕设项目（源码、调试、LW、开题、PPT) 计算机源码社 Python项目大数据大数据 python hadoop 计算机毕业设计选题计算机毕业设计源码数据分析 spark毕设
作者：计算机源码社个人简介：本人八年开发经验，擅长Java、Python、PHP、.NET、Node.js、Android、微信小程序、爬虫、大数据、机器学习等，大家有这一块的问题可以一起交流！学习资料、程序开发、技术解答、文档报告如需要源码，可以扫取文章下方二维码联系咨询Java项目微信小程序项目Android项目Python项目PHP项目ASP.NET项目Node.js项目选题推荐项目实战|p
hbase介绍 CrazyL- 云计算+大数据 hbase
hbase是一个分布式的、多版本的、面向列的开源数据库hbase利用hadoophdfs作为其文件存储系统，提供高可靠性、高性能、列存储、可伸缩、实时读写、适用于非结构化数据存储的数据库系统hbase利用hadoopmapreduce来处理hbase、中的海量数据hbase利用zookeeper作为分布式系统服务特点：数据量大：一个表可以有上亿行，上百万列（列多时，插入变慢）面向列：面向列（族）的
大数据毕业设计hadoop+spark+hive知识图谱租房数据分析可视化大屏租房推荐系统 58同城租房爬虫房源推荐系统房价预测系统计算机毕业设计机器学习深度学习人工智能 2401_84572577 程序员大数据 hadoop 人工智能
做了那么多年开发，自学了很多门编程语言，我很明白学习资源对于学一门新语言的重要性，这些年也收藏了不少的Python干货，对我来说这些东西确实已经用不到了，但对于准备自学Python的人来说，或许它就是一个宝藏，可以给你省去很多的时间和精力。别在网上瞎学了，我最近也做了一些资源的更新，只要你是我的粉丝，这期福利你都可拿走。我先来介绍一下这些东西怎么用，文末抱走。（1）Python所有方向的学习路线（
Spark集群的三种模式 MelodyYN #Spark spark hadoop big data
文章目录1、Spark的由来1.1Hadoop的发展1.2MapReduce与Spark对比2、Spark内置模块3、Spark运行模式3.1Standalone模式部署配置历史服务器配置高可用运行模式3.2Yarn模式安装部署配置历史服务器运行模式4、WordCount案例1、Spark的由来定义：Hadoop主要解决，海量数据的存储和海量数据的分析计算。Spark是一种基于内存的快速、通用、可
月度总结 | 2022年03月 | 考研与就业的抉择 | 确定未来走大数据开发路线「已注销」个人总结 hadoop
一、时间线梳理3月3日，寻找到同专业的就业伙伴3月5日，着手准备Java八股文，决定先走Java后端路线3月8月，申请到了校图书馆的考研专座，决定暂时放弃就业，先准备考研，买了数学和408的资料书3月9日-3月13日，因疫情原因，宿舍区暂封，这段时间在准备考研，发现内容特别多3月13日-3月19日，大部分时间在刷Hadoop、Zookeeper、Kafka的视频，同时在准备实习的项目3月20日，退
HBase介绍 mingyu1016 数据库
概述HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtable：一个结构化数据的分布式存储系统》。HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。HBase的表结构HBase以表的形式存储数据。表有行和列组成。列划分为
Java中的大数据处理框架对比分析省赚客app开发者 java 开发语言
Java中的大数据处理框架对比分析大家好，我是微赚淘客系统3.0的小编，是个冬天不穿秋裤，天冷也要风度的程序猿！今天，我们将深入探讨Java中常用的大数据处理框架，并对它们进行对比分析。大数据处理框架是现代数据驱动应用的核心，它们帮助企业处理和分析海量数据，以提取有价值的信息。本文将重点介绍ApacheHadoop、ApacheSpark、ApacheFlink和ApacheStorm这四种流行的
Hadoop windows intelij 跑 MR WordCount piziyang12138
一、软件环境我使用的软件版本如下:IntellijIdea2017.1Maven3.3.9Hadoop分布式环境二、创建maven工程打开Idea,file->new->Project,左侧面板选择maven工程。(如果只跑MapReduce创建java工程即可，不用勾选Creatfromarchetype，如果想创建web工程或者使用骨架可以勾选)image.png设置GroupId和Artif
Hadoop学习第三课（HDFS架构--读、写流程）小小程序员呀~ 数据库 hadoop 架构 big data
1.块概念举例1：一桶水1000ml，瓶子的规格100ml=>需要10个瓶子装完一桶水1010ml，瓶子的规格100ml=>需要11个瓶子装完一桶水1010ml，瓶子的规格200ml=>需要6个瓶子装完块的大小规格，只要是需要存储，哪怕一点点，也是要占用一个块的块大小的参数：dfs.blocksize官方默认的大小为128M官网：https://hadoop.apache.org/docs/r3.
hadoop启动HDFS命令 m0_67401228 java 搜索引擎 linux 后端
启动命令：/hadoop/sbin/start-dfs.sh停止命令：/hadoop/sbin/stop-dfs.sh
【计算机毕设-大数据方向】基于Hadoop的电商交易数据分析可视化系统的设计与实现程序员-石头山大数据实战案例大数据 hadoop 毕业设计毕设
博主介绍：✌全平台粉丝5W+,高级大厂开发程序员，博客之星、掘金/知乎/华为云/阿里云等平台优质作者。【源码获取】关注并且私信我【联系方式】最下边感兴趣的可以先收藏起来，同学门有不懂的毕设选题，项目以及论文编写等相关问题都可以和学长沟通，希望帮助更多同学解决问题前言随着电子商务行业的迅猛发展，电商平台积累了海量的数据资源，这些数据不仅包括用户的基本信息、购物记录，还包括用户的浏览行为、评价反馈等多
分布式离线计算—Spark—基础介绍测试开发abbey 人工智能—大数据
原文作者：饥渴的小苹果原文地址：【Spark】Spark基础教程目录Spark特点Spark相对于Hadoop的优势Spark生态系统Spark基本概念Spark结构设计Spark各种概念之间的关系Executor的优点Spark运行基本流程Spark运行架构的特点Spark的部署模式Spark三种部署方式Hadoop和Spark的统一部署摘要：Spark是基于内存计算的大数据并行计算框架Spar
spark常用命令我是浣熊的微笑 spark
查看报错日志：yarnlogsapplicationIDspark2-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME目录，输入bin/spark-submit--help可以得到该命令的使用帮助。hadoop@wyy:/app/hadoop/spark100$bin/spark-submit--
spark启动命令学不会又听不懂 spark 大数据分布式
hadoop启动：cd/root/toolssstart-dfs.sh，只需在hadoop01上启动stop-dfs.sh日志查看：cat/root/toolss/hadoop/logs/hadoop-root-datanode-hadoop03.outzookeeper启动：cd/root/toolss/zookeeperbin/zkServer.shstart，三台都要启动bin/zkServ
编程常用命令总结 Yellow0523 Linux BigData 大数据
编程命令大全1.软件环境变量的配置JavaScalaSparkHadoopHive2.大数据软件常用命令Spark基本命令Spark-SQL命令Hive命令HDFS命令YARN命令Zookeeper命令kafka命令Hibench命令MySQL命令3.Linux常用命令Git命令conda命令pip命令查看Linux系统的详细信息查看Linux系统架构(X86还是ARM，两种方法都可)端口号命令L
Hadoop常见面试题整理及解答叶青舟 Linux hdfs 大数据 hadoop linux
Hadoop常见面试题整理及解答一、基础知识篇：1.把数据仓库从传统关系型数据库转到hadoop有什么优势？答：（1）关系型数据库成本高，且存储空间有限。而Hadoop使用较为廉价的机器存储数据，且Hadoop可以将大量机器构建成一个集群，并在集群中使用HDFS文件系统统一管理数据，极大的提高了数据的存储及处理能力。（2）关系型数据库仅支持标准结构化数据格式，Hadoop不仅支持标准结构化数据格式
2025毕业设计指南：如何用Hadoop构建超市进货推荐系统？大数据分析助力精准采购计算机编程指导师 Java实战集 Python实战集大数据实战集课程设计 hadoop 数据分析 spring boot java 进货 python
✍✍计算机编程指导师⭐⭐个人介绍：自己非常喜欢研究技术问题！专业做Java、Python、小程序、安卓、大数据、爬虫、Golang、大屏等实战项目。⛽⛽实战项目：有源码或者技术上的问题欢迎在评论区一起讨论交流！⚡⚡Java实战|SpringBoot/SSMPython实战项目|Django微信小程序/安卓实战项目大数据实战项目⚡⚡文末获取源码文章目录⚡⚡文末获取源码基于hadoop的超市进货推荐系
Hadoop Common 之序列化机制小解猫君之上 #Apache Hadoop
1.JavaSerializable序列化该序列化通过ObjectInputStream的readObject实现序列化，ObjectOutputStream的writeObject实现反序列化。这不过此种序列化虽然跨病态兼容性强，但是因为存储过多的信息，但是传输效率比较低，所以hadoop弃用它。（序列化信息包括这个对象的类，类签名，类的所有静态，费静态成员的值，以及他们父类都要被写入）publ
深入理解hadoop(一)----Common的实现----Configuration maoxiao_jsd 深入理解----hadoop
属本人个人原创，转载请注明,希望对大家有帮助！！一,hadoop的配置管理a,hadoop通过独有的Configuration处理配置信息Configurationconf=newConfiguration();conf.addResource("core-default.xml");conf.addResource("core-site.xml");后者会覆盖前者中未final标记的相同配置项b
hadoop 0.22.0 部署笔记 weixin_33701564 大数据 java 运维
为什么80%的码农都做不了架构师？>>>因为需要使用hbase，所以开始对hbase进行学习。hbase是部署在hadoop平台上的NOSql数据库，因此在部署hbase之前需要先部署hadoop。环境：redhat5、hadoop-0.22.0.tar.gz、jdk-6u13-linux-i586.zipip192.168.1.128hostname：localhost.localdomain（
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(4) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！org.apache.hadoophadoop-com
解决Windows环境下hadoop集群的运行_window运行hadoop,unknown hadoop01(3) 2401_84160087 大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！xmlns:xsi="http://www.w3.or
深入解析HDFS：定义、架构、原理、应用场景及常用命令 CloudJourney hdfs 架构 hadoop
引言Hadoop分布式文件系统（HDFS，HadoopDistributedFileSystem）是Hadoop框架的核心组件之一，它提供了高可靠性、高可用性和高吞吐量的大规模数据存储和管理能力。本文将从HDFS的定义、架构、工作原理、应用场景以及常用命令等多个方面进行详细探讨，帮助读者全面深入地了解HDFS。1.HDFS的定义1.1什么是HDFSHDFS是Hadoop生态系统中的一个分布式文件系
Hadoop的搭建流程 lzhlizihang hadoop 大数据分布式
文章目录一、配置IP二、配置主机名三、配置主机映射四、关闭防火墙五、配置免密六、安装jdk1、第一步：2、第二步：3、第三步：4、第四步：5、第五步：七、安装hadoop1、上传2、解压3、重命名4、开始配置环境变量5、刷新配置文件6、验证hadoop命令是否可以识别八、全分布搭建7、修改配置文件core-site.xml8、修改配置文件hdfs-site.xml9、修改配置文件hadoop-en
hive搭建 -----内嵌模式和本地模式 lzhlizihang hive hadoop
文章目录一、内嵌模式（使用较少）1、上传、解压、重命名2、配置环境变量3、配置conf下的hive-env.sh4、修改conf下的hive-site.xml5、启动hadoop集群6、给hdfs创建文件夹7、修改hive-site.xml中的非法字符8、初始化元数据9、测试是否成功10、内嵌模式的缺点二、本地模式（最常用）1、检查mysql是否正常2、上传、解压、重命名3、配置环境变量4、修改c
Hadoop之mapreduce -- WrodCount案例以及各种概念 lzhlizihang hadoop mapreduce 大数据
文章目录一、MapReduce的优缺点二、MapReduce案例--WordCount1、导包2、Mapper方法3、Partitioner方法（自定义分区器）4、reducer方法5、driver（main方法）6、Writable（手机流量统计案例的实体类）三、关于片和块1、什么是片，什么是块？2、mapreduce启动多少个MapTask任务？四、MapReduce的原理五、Shuffle过
IAAS: IT公司去IOE-Alibaba系统构架解读 wishchin 心理学/职业 BigDataMini Spark PaaS
从Hadoop到自主研发，技术解读阿里去IOE后的系统架构原地址：......................云计算阿里飞天摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。【导读】互联网的普及，智能终端的增加，大数据时代悄然而至。在这个数据为王的时代，数十倍、数百倍的数据给各
Dom 周华华 JavaScript html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
【Spark九十六】RDD API之combineByKey bit1129 spark
1. combineByKey函数的运行机制 RDD提供了很多针对元素类型为(K,V)的API，这些API封装在PairRDDFunctions类中，通过Scala隐式转换使用。这些API实现上是借助于combineByKey实现的。combineByKey函数本身也是RDD开放给Spark开发人员使用的API之一首先看一下combineByKey的方法说明：
msyql设置密码报错：ERROR 1372 (HY000): 解决方法详解 daizj mysql 设置密码
MySql给用户设置权限同时指定访问密码时，会提示如下错误： ERROR 1372 (HY000): Password hash should be a 41-digit hexadecimal number；问题原因：你输入的密码是明文。不允许这么输入。解决办法：用select password('你想输入的密码');查询出你的密码对应的字符串，然后
路漫漫其修远兮吾将上下而求索周凡杨学习思索
王国维在他的《人间词话》中曾经概括了为学的三种境界古今之成大事业、大学问者，罔不经过三种之境界。“昨夜西风凋碧树。独上高楼，望尽天涯路。”此第一境界也。“衣带渐宽终不悔，为伊消得人憔悴。”此第二境界也。“众里寻他千百度，蓦然回首，那人却在灯火阑珊处。”此第三境界也。学习技术，这也是你必须经历的三种境界。第一层境界是说，学习的路是漫漫的，你必须做好充分的思想准备，如果半途而废还不如不要开始。这里，注
Hadoop(二)对话单的操作朱辉辉33 hadoop
Debug： 1、 A = LOAD '/user/hue/task.txt' USING PigStorage(' ') AS (col1,col2,col3); DUMP A; //输出结果前几行示例： (>ggsnPDPRecord(21),,) (-->recordType(0),,) (-->networkInitiation(1),,)
web报表工具FineReport常用函数的用法总结（日期和时间函数）老A不折腾 finereport 报表工具 web开发
web报表工具FineReport常用函数的用法总结（日期和时间函数）说明：凡函数中以日期作为参数因子的，其中日期的形式都必须是yy/mm/dd。而且必须用英文环境下双引号(" ")引用。 DATE DATE(year,month,day):返回一个表示某一特定日期的系列数。 Year:代表年，可为一到四位数。 Month:代表月份。
c++ 宏定义中的##操作符墙头上一根草 C++
#与##在宏定义中的--宏展开 #include <stdio.h> #define f(a,b) a##b #define g(a) #a #define h(a) g(a) int main() { &nbs
分析Spring源代码之，DI的实现 aijuans spring DI 现源代码
(转) 分析Spring源代码之，DI的实现 2012/1/3 by tony 接着上次的讲，以下这个sample [java] view plain copy print
for循环的进化 alxw4616 JavaScript
// for循环的进化 // 菜鸟 for (var i = 0; i < Things.length ; i++) { // Things[i] } // 老鸟 for (var i = 0, len = Things.length; i < len; i++) { // Things[i] } // 大师 for (var i = Things.le
网络编程Socket和ServerSocket简单的使用百合不是茶网络编程基础 IP地址端口
网络编程;TCP/IP协议网络:实现计算机之间的信息共享,数据资源的交换协议:数据交换需要遵守的一种协议,按照约定的数据格式等写出去端口:用于计算机之间的通信每运行一个程序，系统会分配一个编号给该程序，作为和外界交换数据的唯一标识 0~65535 查看被使用的
JDK1.5 生产消费者 bijian1013 java thread 生产消费者 java多线程
ArrayBlockingQueue：一个由数组支持的有界阻塞队列。此队列按 FIFO（先进先出）原则对元素进行排序。队列的头部是在队列中存在时间最长的元素。队列的尾部是在队列中存在时间最短的元素。新元素插入到队列的尾部，队列检索操作则是从队列头部开始获得元素。 ArrayBlockingQueue的常用方法：
JAVA版身份证获取性别、出生日期及年龄 bijian1013 java 性别出生日期年龄
工作中需要根据身份证获取性别、出生日期及年龄，且要还要支持15位长度的身份证号码，网上搜索了一下，经过测试好像多少存在点问题，干脆自已写一个。 CertificateNo.java package com.bijian.study; import java.util.Calendar; import
【Java范型六】范型与枚举 bit1129 java
首先，枚举类型的定义不能带有类型参数，所以，不能把枚举类型定义为范型枚举类，例如下面的枚举类定义是有编译错的 public enum EnumGenerics<T> { //编译错，提示枚举不能带有范型参数 OK, ERROR; public <T> T get(T type) { return null;
【Nginx五】Nginx常用日志格式含义 bit1129 nginx
1. log_format 1.1 log_format指令用于指定日志的格式，格式： log_format name(格式名称) type(格式样式) 1.2 如下是一个常用的Nginx日志格式： log_format main '[$time_local]|$request_time|$status|$body_bytes
Lua 语言 15 分钟快速入门 ronin47 lua 基础
- - 单行注释 - - [[ [多行注释] - - ]] - - - - - - - - - - - 1. 变量 & 控制流 - - - - - - - - - - num = 23 - - 数字都是双精度 str = 'aspythonstring'
java-35.求一个矩阵中最大的二维矩阵 ( 元素和最大 ) bylijinnan java
the idea is from: http://blog.csdn.net/zhanxinhang/article/details/6731134 public class MaxSubMatrix { /**see http://blog.csdn.net/zhanxinhang/article/details/6731134 * Q35 求一个矩阵中最大的二维
mongoDB文档型数据库特点开窍的石头 mongoDB文档型数据库特点
MongoDD: 文档型数据库存储的是Bson文档-->json的二进制特点：内部是执行引擎是js解释器，把文档转成Bson结构，在查询时转换成js对象。 mongoDB传统型数据库对比传统类型数据库：结构化数据，定好了表结构后每一个内容符合表结构的。也就是说每一行每一列的数据都是一样的文档型数据库：不用定好数据结构，
[毕业季节]欢迎广大毕业生加入JAVA程序员的行列 comsci java
一年一度的毕业季来临了。。。。。。。。正在投简历的学弟学妹们。。。如果觉得学校推荐的单位和公司不适合自己的兴趣和专业，可以考虑来我们软件行业，做一名职业程序员。。。软件行业的开发工具中，对初学者最友好的就是JAVA语言了，网络上不仅仅有大量的
PHP操作Excel – PHPExcel 基本用法详解 cuiyadll PHP Excel
导出excel属性设置//Include classrequire_once('Classes/PHPExcel.php');require_once('Classes/PHPExcel/Writer/Excel2007.php');$objPHPExcel = new PHPExcel();//Set properties 设置文件属性$objPHPExcel->getProperties
IBM Webshpere MQ Client User Issue (MCAUSER) darrenzhu IBM jms user MQ MCAUSER
IBM MQ JMS Client去连接远端MQ Server的时候，需要提供User和Password吗？答案是根据情况而定，取决于所定义的Channel里面的属性Message channel agent user identifier (MCAUSER)的设置。 http://stackoverflow.com/questions/20209429/how-mca-user-i
网线的接法 dcj3sjt126com
一、PC连HUB (直连线)A端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。 B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。二、PC连PC （交叉线）A端：(568A)：白绿，绿，白橙，蓝，白蓝，橙，白棕，棕； B端：（标准568B）：白橙，橙，白绿，蓝，白蓝，绿，白棕，棕。三、HUB连HUB&nb
Vimium插件让键盘党像操作Vim一样操作Chrome dcj3sjt126com chrome vim
什么是键盘党？键盘党是指尽可能将所有电脑操作用键盘来完成，而不去动鼠标的人。鼠标应该说是新手们的最爱，很直观，指哪点哪，很听话！不过常常使用电脑的人，如果一直使用鼠标的话，手会发酸，因为操作鼠标的时候，手臂不是在一个自然的状态，臂肌会处于绷紧状态。而使用键盘则双手是放松状态，只有手指在动。而且尽量少的从鼠标移动到键盘来回操作，也省不少事。在chrome里安装 vimium 插件
MongoDB查询（2）——数组查询[六] eksliang mongodb MongoDB查询数组
MongoDB查询数组转载请出自出处：http://eksliang.iteye.com/blog/2177292 一、概述 MongoDB查询数组与查询标量值是一样的，例如，有一个水果列表，如下所示： > db.food.find() { "_id" : "001", "fruits" : [ "苹
cordova读写文件（1） gundumw100 JavaScript Cordova
使用cordova可以很方便的在手机sdcard中读写文件。首先需要安装cordova插件：file 命令为： cordova plugin add org.apache.cordova.file 然后就可以读写文件了，这里我先是写入一个文件，具体的JS代码为： var datas=null;//datas need write var directory=&
HTML5 FormData 进行文件jquery ajax 上传到又拍云 ileson jquery Ajax html5 FormData
html5 新东西：FormData 可以提交二进制数据。页面test.html <!DOCTYPE> <html> <head> <title> formdata file jquery ajax upload</title> </head> <body> <
swift appearanceWhenContainedIn:(version1.2 xcode6.4) 啸笑天 version
swift1.2中没有oc中对应的方法： + (instancetype)appearanceWhenContainedIn:(Class <UIAppearanceContainer>)ContainerClass, ... NS_REQUIRES_NIL_TERMINATION; 解决方法：在swift项目中新建oc类如下： #import &
java实现SMTP邮件服务器 macroli java 编程
电子邮件传递可以由多种协议来实现。目前，在Internet 网上最流行的三种电子邮件协议是SMTP、POP3 和 IMAP，下面分别简单介绍。　　◆ SMTP 协议　　简单邮件传输协议(Simple Mail Transfer Protocol,SMTP)是一个运行在TCP/IP之上的协议，用它发送和接收电子邮件。SMTP 服务器在默认端口25上监听。SMTP客户使用一组简单的、基于文本的
mongodb group by having where 查询sql qiaolevip 每天进步一点点学习永无止境 mongo 纵观千象
SELECT cust_id, SUM(price) as total FROM orders WHERE status = 'A' GROUP BY cust_id HAVING total > 250 db.orders.aggregate( [ { $match: { status: 'A' } }, { $group: {
Struts2 Pojo（六） Luob. POJO strust2
注意：附件中有完整案例 1.采用POJO对象的方法进行赋值和传值 2.web配置 <?xml version="1.0" encoding="UTF-8"?> <web-app version="2.5" xmlns="http://java.sun.com/xml/ns/javaee&q
struts2步骤 wuai struts
1、添加jar包 2、在web.xml中配置过滤器 <filter> <filter-name>struts2</filter-name> <filter-class>org.apache.st

用 Hadoop 进行分布式数据处理，从 入门、进阶到应用开发

入门