hadoop系列第8页

Hadoop系列之三：函数式编程语言和MapReduce

1、MapReduce和大数据问题海量数据并行处理的核心思想无非是将一个较大的问题进行“分割包围、逐个歼灭”。然而其难点和关键点在于如何将一个大的问题分分割成多个可以分别在不同的CPU上或不同的主机上进行处理的独立小问题，而且这些独立进行处理的小问题所产生的中间结果又该如何合并成最终结果并予以输出。因此，看似简单的化整为零的处理思想却不得不面临如下的难题：(1)如何将大问题分割为小任务？进一步地，

马誉·2013-03-12 10:16

Hadoop系列之三：函数式编程语言和MapReduce

1、MapReduce和大数据问题海量数据并行处理的核心思想无非是将一个较大的问题进行“分割包围、逐个歼灭”。然而其难点和关键点在于如何将一个大的问题分分割成多个可以分别在不同的CPU上或不同的主机上进行处理的独立小问题，而且这些独立进行处理的小问题所产生的中间结果又该如何合并成最终结果并予以输出。因此，看似简单的化整为零的处理思想却不得不面临如下的难题：(1)如何将大问题分割为小任务？进一步地，

马誉·2013-03-12 10:16

Hadoop系列之二：大数据、大数据处理模型及MapReduce

1、大数据(bigdata)什么是大数据？wikipedia上面给出了这样的定义：Ininformationtechnology,bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataproce

马誉·2013-03-12 10:45

Hadoop系列之一：大数据存储及处理平台产生的背景

传统的关系型数据库中的表通常由一个或多个字段组成，每个字段都预先定义了其可存储数据的格式及约束等，这类的数据就是结构化数据(structureddata)。一个设计良好的数据库在其schema中定义这些格式或约束，并由相应的RDBMS为这些提供实现保证。相应地，非结构化数据(unstructuredData)就是指那些没有一个预定义的数据模型或不适于存储在RDBMS中的数据，这些数据没有额外的描述

马誉·2013-03-12 10:02

Hadoop系列之一：大数据存储及处理平台产生的背景

传统的关系型数据库中的表通常由一个或多个字段组成，每个字段都预先定义了其可存储数据的格式及约束等，这类的数据就是结构化数据(structureddata)。一个设计良好的数据库在其schema中定义这些格式或约束，并由相应的RDBMS为这些提供实现保证。相应地，非结构化数据(unstructuredData)就是指那些没有一个预定义的数据模型或不适于存储在RDBMS中的数据，这些数据没有额外的描述

马誉·2013-03-12 10:02

HBase设计：看上去很美

缘起随着hadoop系列的兴起，基于HDFS的大规模KV存储系统HBase也进入“大规模使用阶段”。网上的Hbase资料很多，学习成本正在下降。

cometwo·2013-03-02 18:45

[置顶] 【Apache Hadoop系列】Hadoop1.0.4+zookeeper3.5.4+hbase0.94.5分布式部署

一、HADOOP安装配置步骤1.1、服务器的准备四台Redhat服务器192.168.130.170master 192.168.130.168dd1 192.168.130.162dd2 192.168.130.248dd31.2、安装和配置JDK环境安装JDK1.6，并在/etc/profile设置好环境变量具体步骤：1.2.1、下载地址：http://www.oracle.com/techn

WeiJonathan·2013-02-19 14:00

测试眼里的Hadoop系列之Terasort

TeraSort是Hadoop的测试中很有用的一个工具，但以前只是粗略的知道它的功能和用法，简单的用它做了几个测试用例。实际上，对于这种比较通用的工具，如果能够了解它更多一些的话，对于理解Hadoop是很有帮助的，同时也可以更好的利用它来帮助测试。最近有点时间，就了解了一些它的背景，代码实现原理等等，就先记录下来吧。1. Hadoop与SortBenchmarksSortBenchmark(htt

anzelin_ruc·2013-01-30 15:00

关于Hadoop系列文章

Hadoop整个系列文章还要涉及到以下话题：1、HDFS命令行接口的使用；2、完全分布式Hadoop；3、Hadoop硬件选型；4、Hadoop调优；5、Hadoop调度方法、常用参数、调优；6、Hadoop集群维护(增减节点等)；7、Hadoop安全：基于Kerberos认证；8、Hadoop集群监控；9、HadoopI/O；Flume、Scribe和sqoop；关于HBase:1、NoSQL的

马哥教育·2013-01-09 22:06

关于Hadoop系列文章

Hadoop整个系列文章还要涉及到以下话题：1、HDFS命令行接口的使用；2、完全分布式Hadoop；3、Hadoop硬件选型；4、Hadoop调优；5、Hadoop调度方法、常用参数、调优；6、Hadoop集群维护(增减节点等)；7、Hadoop安全：基于Kerberos认证；8、Hadoop集群监控；9、HadoopI/O；Flume、Scribe和sqoop；关于HBase:1、NoSQL的

马哥教育·2013-01-09 22:06

Hadoop系列之十：Hadoop配置文件及常用配置参数详解(未完成)

1、Hadoop的配置文件 hadoop-env.sh:用于定义hadoop运行环境相关的配置信息，比如配置JAVA_HOME环境变量、为hadoop的JVM指定特定的选项、指定日志文件所在的目录路径以及master和slave文件的位置等； core-site.xml:用于定义系统级别的参数，如HDFSURL、Hadoop的临时目录以及用于rack-aware集群中的配置文件的配置等，此中的参数

马哥教育·2013-01-08 21:29

Hadoop系列之十：Hadoop配置文件及常用配置参数详解(未完成)

1、Hadoop的配置文件hadoop-env.sh:用于定义hadoop运行环境相关的配置信息，比如配置JAVA_HOME环境变量、为hadoop的JVM指定特定的选项、指定日志文件所在的目录路径以及master和slave文件的位置等；core-site.xml:用于定义系统级别的参数，如HDFSURL、Hadoop的临时目录以及用于rack-aware集群中的配置文件的配置等，此中的参数定义

马哥教育·2013-01-08 21:29

Hadoop系列之九：Hadoop集群伪分布式模式的实现详解

1、Hadoop依赖软件Hadoop基于Java语言开发，因此其运行严重依赖于JDK(JavaDevelopmentKit)，并且Hadoop的许多功能依赖于Java6及以后的版本才提供的特性。Hadoop可以良好地运行于经过测试的各JDK，如SunJDK、OpenJDK、OracleJRockit、IBMJDK各自实现的某些版本。但迄今为止，HotSpotJVM仍是性能最好且与Hadoop搭配运

马哥教育·2013-01-05 16:47

Hadoop系列之九：Hadoop集群伪分布式模式的实现详解

1、Hadoop依赖软件Hadoop基于Java语言开发，因此其运行严重依赖于JDK(JavaDevelopmentKit)，并且Hadoop的许多功能依赖于Java6及以后的版本才提供的特性。Hadoop可以良好地运行于经过测试的各JDK，如SunJDK、OpenJDK、OracleJRockit、IBMJDK各自实现的某些版本。但迄今为止，HotSpotJVM仍是性能最好且与Hadoop搭配运

马哥教育·2013-01-05 16:47

Hadoop系列之八：Hadoop集群

1、合并MapReduce集群与HDFS集群在调度运行一个作业时，将map任务等直接运行于要处理的数据所存储的HDFS的数据节点上，可避免大量的数据传输，实现数据处理的本地性，进而大大提高整个过程的完成效率，这也正是Hadoop集群的部署方式。如下图所示。在一个小于50个节点的小规模集群中，可以将NameNode与JobTracker合并于同一个节点上运行。而整个集群共有5类运行的核心进程，它们是

马哥教育·2013-01-05 11:14

Hadoop系列之八：Hadoop集群

1、合并MapReduce集群与HDFS集群在调度运行一个作业时，将map任务等直接运行于要处理的数据所存储的HDFS的数据节点上，可避免大量的数据传输，实现数据处理的本地性，进而大大提高整个过程的完成效率，这也正是Hadoop集群的部署方式。如下图所示。在一个小于50个节点的小规模集群中，可以将NameNode与JobTracker合并于同一个节点上运行。而整个集群共有5类运行的核心进程，它们是

马哥教育·2013-01-05 11:14

Hadoop系列之七：分布式文件系统HDFS(2)

1、访问HDFS文件系统HDFS是工作于用户空间的文件系统，它的树状文件系统是独立的，不能像传统上工作于内核空间的文件系统一样挂载至当前操作系统的目录树上对HDFS进行访问，传统上实现文件或目录管理的命令如ls、cat等此处也无法正常使用。对HDFS文件系统上的文件进行访问，需要通过HDFS的API或者由hadoop提供的命令行工具进行。1.1HDFS用户接口(1)hadoopdfs命令行接口；(

马哥教育·2013-01-04 14:12

Hadoop系列之七：分布式文件系统HDFS(2)

1、访问HDFS文件系统HDFS是工作于用户空间的文件系统，它的树状文件系统是独立的，不能像传统上工作于内核空间的文件系统一样挂载至当前操作系统的目录树上对HDFS进行访问，传统上实现文件或目录管理的命令如ls、cat等此处也无法正常使用。对HDFS文件系统上的文件进行访问，需要通过HDFS的API或者由hadoop提供的命令行工具进行。1.1HDFS用户接口(1)hadoopdfs命令行接口；(

马哥教育·2013-01-04 14:12

Hadoop系列之六：分布式文件系统HDFS

1、MapReduce与分布式文件系统前面的讨论中，我们已经得知，Hadoop中实现的MapReduce是一个编程模型和运行框架，它能够通过JobTracker接收客户提交的作业而后将其分割为多个任务后并行运行在多个TaskTracker上。而问题是，这些TaskTracker如何高效获取所要处理的数据？在传统的高性能集群中，计算节点和存储节点是各自独立的，它们之间通过高速网络完成互联，然而，在

马哥教育·2013-01-04 12:52

Hadoop系列之六：分布式文件系统HDFS

1、MapReduce与分布式文件系统前面的讨论中，我们已经得知，Hadoop中实现的MapReduce是一个编程模型和运行框架，它能够通过JobTracker接收客户提交的作业而后将其分割为多个任务后并行运行在多个TaskTracker上。而问题是，这些TaskTracker如何高效获取所要处理的数据？在传统的高性能集群中，计算节点和存储节点是各自独立的，它们之间通过高速网络完成互联，然而，在面

马哥教育·2013-01-04 12:52

Hadoop系列之五：MapReduce进阶(2)

1、MapReduce作业、集群及其逻辑架构前文已经描述，MapReduce是一个编程框架，它为程序员提供了一种快速开发海量数据处理程序的编程环境，并能够让基于这种机制开发出的处理程序以稳定、容错的方式并行运行于由大量商用硬件组成的集群上。同时，MapReduce又是一个运行框架，它需要为基于MapReduce机制开发出的程序提供一个运行环境，并透明管理运行中的各个细节。每一个需要由MapRed

马哥教育·2013-01-03 23:34

Hadoop系列之五：MapReduce进阶(2)

1、MapReduce作业、集群及其逻辑架构前文已经描述，MapReduce是一个编程框架，它为程序员提供了一种快速开发海量数据处理程序的编程环境，并能够让基于这种机制开发出的处理程序以稳定、容错的方式并行运行于由大量商用硬件组成的集群上。同时，MapReduce又是一个运行框架，它需要为基于MapReduce机制开发出的程序提供一个运行环境，并透明管理运行中的各个细节。每一个需要由MapRedu

马哥教育·2013-01-03 23:34

Hadoop系列之四：MapReduce进阶

1、mapper和reducerMapReduce对数据的处理分为两个阶段：map阶段和reduce阶段，这两个阶段分别由用户开发的map函数和reduce函数完成，在MapReduce运行环境中运行时，它们也分别被称为mapper和reducer。键值对(key-valuepair)是MapReduce的基础数据结构，mapper和reducer读入和输出的数据均为键值对。MapReduce中，

马哥教育·2013-01-02 16:22

Hadoop系列之四：MapReduce进阶

1、mapper和reducerMapReduce对数据的处理分为两个阶段：map阶段和reduce阶段，这两个阶段分别由用户开发的map函数和reduce函数完成，在MapReduce运行环境中运行时，它们也分别被称为mapper和reducer。键值对(key-valuepair)是MapReduce的基础数据结构，mapper和reducer读入和输出的数据均为键值对。MapReduce中，

马哥教育·2013-01-02 16:22

Hadoop系列之三：函数式编程语言和MapReduce

1、MapReduce和大数据问题海量数据并行处理的核心思想无非是将一个较大的问题进行“分割包围、逐个歼灭”。然而其难点和关键点在于如何将一个大的问题分分割成多个可以分别在不同的CPU上或不同的主机上进行处理的独立小问题，而且这些独立进行处理的小问题所产生的中间结果又该如何合并成最终结果并予以输出。因此，看似简单的化整为零的处理思想却不得不面临如下的难题：(1)如何将大问题分割为小任务？进一步地，

马哥教育·2013-01-02 13:03

Hadoop系列之三：函数式编程语言和MapReduce

1、MapReduce和大数据问题海量数据并行处理的核心思想无非是将一个较大的问题进行“分割包围、逐个歼灭”。然而其难点和关键点在于如何将一个大的问题分分割成多个可以分别在不同的CPU上或不同的主机上进行处理的独立小问题，而且这些独立进行处理的小问题所产生的中间结果又该如何合并成最终结果并予以输出。因此，看似简单的化整为零的处理思想却不得不面临如下的难题：(1)如何将大问题分割为小任务？进一步地

马哥教育·2013-01-02 13:03

Hadoop系列之二：大数据、大数据处理模型及MapReduce

1、大数据(bigdata)什么是大数据？wikipedia上面给出了这样的定义：Ininformationtechnology,bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataproce

马哥教育·2013-01-01 23:27

Hadoop系列之二：大数据、大数据处理模型及MapReduce

1、大数据(bigdata)什么是大数据？wikipedia上面给出了这样的定义：Ininformationtechnology,bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataproce

马哥教育·2013-01-01 23:27

Hadoop系列之一：大数据存储及处理平台产生的背景

传统的关系型数据库中的表通常由一个或多个字段组成，每个字段都预先定义了其可存储数据的格式及约束等，这类的数据就是结构化数据(structureddata)。一个设计良好的数据库在其schema中定义这些格式或约束，并由相应的RDBMS为这些提供实现保证。相应地，非结构化数据(unstructuredData)就是指那些没有一个预定义的数据模型或不适于存储在RDBMS中的数据，这些数据没有额外的描述

马哥教育·2012-12-27 15:03

Hadoop系列之一：大数据存储及处理平台产生的背景

传统的关系型数据库中的表通常由一个或多个字段组成，每个字段都预先定义了其可存储数据的格式及约束等，这类的数据就是结构化数据(structureddata)。一个设计良好的数据库在其schema中定义这些格式或约束，并由相应的RDBMS为这些提供实现保证。相应地，非结构化数据(unstructuredData)就是指那些没有一个预定义的数据模型或不适于存储在RDBMS中的数据，这些数据没有额外的描述

马哥教育·2012-12-27 15:03

菜鸟学习Hadoop系列一----安装Hadoop

一前期准备安装linux系统。这地方就不具体介绍了。网络上的博文很多。我一直使用的是Fedora12（32bit）.我的实验采用的系统就是这个了。以下的操作也都是基于该系统的。下载jdk，这个在官网（http://www.oracle.com/technetwork/java/javase/downloads/index.html）上很容易就可以找到。目前提供的是1.7.0.9版本。下载hadoo

W170532934·2012-12-16 13:00

[置顶] 【Apache Hadoop系列】hadoop1.0.4 eclipse插件编译

一、所需工具 eclipse-java-juno-SR1-win32.zip jdk-6u37-linux-x64.bin apache-ant-1.8.4-bin.zip hadoop-1.0.4二、Ant安装将Ant解压放在合适目录：比如D盘。配置Ant环境变量，在Path中添加：F:\hadoop\ant\bin。控制台中输入echo%PAHT%使环境变量生

WeiJonathan·2012-12-11 15:00

HBase很美

HBase:看上去很美2012-11-1311:54byzhenjing,1035阅读, 6 评论, 收藏, 编辑缘起随着hadoop系列的兴起，基于HDFS的大规模KV存储系统HBase也进入“大规模使用阶段

·2012-11-13 17:00

Hadoop系列之学习笔记（一）

HBase学习笔记（一） 1.HTable是HBase与用户接口交互的最核心的类. org.apache.hadoop.hbase.client.HTable 2.HTable-->HTablePool 3.Bytes Class的常用方法有 1).byte[] toBytes(String s); 2).byte[] toBytes(b

cansoft·2012-10-24 18:00

Hadoop系列相关优秀网站收集

Hadoop技术论坛：http://www.hadoopor.com HBase相关技术收集：http://hbase.info/ 趋势科技中国研发中心 SPN研发团队技术博客：http://www.spnguru.com/ 淘宝搜索技术博客：http://www.searchtb.com/ Alex的个人博客：http://www.gemini5201314.net/ 逖靖寒的世界：h

wuce7758·2012-05-25 17:00

hadoop系列A：多文件输出

package org.myorg; import java.io.DataOutputStream; import java.io.IOException; import java.io.UnsupportedEncodingException; import org.apache.hadoop.io.NullWritable; import org.apac

jlins_you·2012-04-14 21:00

HBase在淘宝的应用和优化小结

由于淘宝拥有也许是国内最大的单一Hadoop集群(云梯)，因此对Hadoop系列的产品有比较深入的了解，也就自然

wws5201985·2012-04-06 17:09

Hbase初探

understanding-hbase.html 数据平台团队的HBase介绍，也很详细 http://www.tbdata.org/archives/1509 现在几乎大部分的互联网公司都在用hadoop

hill007299·2012-03-10 21:00

Hadoop系列之一：hadoop部署安装

简述：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序

dwlinux·2011-11-23 12:57

Hadoop系列之一：hadoop部署安装

简述：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序

elain2012·2011-09-26 09:08

Hadoop系列之一：hadoop部署安装

简述：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序

elain2012·2011-09-26 09:08

论文：Hadoop在Facebook的实时应用

fengzanfeng·2011-07-15 10:00

论文：Hadoop在Facebook的实时应用

nosqlfan Adam·2011-07-05 05:00

Hadoop的mapreduce

事实上MapReduce应该是分开来读的Map/Reduce,网上也有一些关于MapReduce的文章，不过讲的都不是很明晰透彻，所以才有了本文，本文是云框架Hadoop系列又一力作，后续还有关于云框架

易成11·2010-04-24 10:03

Hadoop的mapreduce

事实上MapReduce应该是分开来读的Map/Reduce,网上也有一些关于MapReduce的文章，不过讲的都不是很明晰透彻，所以才有了本文，本文是云框架Hadoop系列又一力作，后续还有关于云框架

解占辉·2010-04-24 10:03

Hadoop的mapreduce

事实上MapReduce应该是分开来读的Map/Reduce,网上也有一些关于MapReduce的文章，不过讲的都不是很明晰透彻，所以才有了本文，本文是云框架Hadoop系列又一力作，后续还有关于云框架

解占辉·2010-04-24 10:03

[hadoop系列]Pig的安装和简单示例

inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。（来源：http://blog.csdn.net/inkfish）Pig是Yahoo!捐献给Apache的一个项目，目前还在Apache孵化器（incubator）阶段，目前版本是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-like语言叫PigLat

inkfish·2010-01-18 10:00

[hadoop系列]hadoop-gpl-compression的安装和编译

inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。从Hadoop0.20.X开始，由于lzo压缩格式GPL形式授权的影响，lzo压缩从hadoop发布包中取消，转而成为GoogleCode中的一个项目hadoop-gpl-compression。本文介绍hadoop-gpl-compression的安装和编译。这里之所以叫安装和编译，

inkfish·2010-01-15 16:00

[Hadoop系列]Hadoop的MapReduce中多文件输出

inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。Hadoop默认的输出是TextOutputFormat，输出文件名不可定制。hadoop0.19.X中有一个org.apache.hadoop.mapred.lib.MultipleOutputFormat，可以输出多份文件且可以自定义文件名，但是从hadoop0.20.x中Mult

inkfish·2010-01-08 11:00

[Hadoop系列]Hadoop的安装-3.完全分布模式

inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。Hadoop是Apache基金会下的一个开源云计算平台项目。当前最新版本是hadoop0.20.1。下面就hadoop0.20.1为蓝本，介绍在UbuntuLinux9.10下安装hadoop的方法。（来源：http://blog.csdn.net/inkfish）支持的平台：（来源：

inkfish·2010-01-07 14:00

推荐频道

hadoop系列

Hadoop系列之三：函数式编程语言和MapReduce

Hadoop系列之三：函数式编程语言和MapReduce

Hadoop系列之二：大数据、大数据处理模型及MapReduce

Hadoop系列之一：大数据存储及处理平台产生的背景

Hadoop系列之一：大数据存储及处理平台产生的背景

HBase设计：看上去很美

[置顶] 【Apache Hadoop系列】Hadoop1.0.4+zookeeper3.5.4+hbase0.94.5分布式部署

测试眼里的Hadoop系列 之Terasort

关于Hadoop系列文章

关于Hadoop系列文章

Hadoop系列之十：Hadoop配置文件及常用配置参数详解(未完成)

Hadoop系列之十：Hadoop配置文件及常用配置参数详解(未完成)

Hadoop系列之九：Hadoop集群伪分布式模式的实现详解

Hadoop系列之九：Hadoop集群伪分布式模式的实现详解

Hadoop系列之八：Hadoop集群

Hadoop系列之八：Hadoop集群

Hadoop系列之七：分布式文件系统HDFS(2)

Hadoop系列之七：分布式文件系统HDFS(2)

Hadoop系列之六：分布式文件系统HDFS

Hadoop系列之六：分布式文件系统HDFS

Hadoop系列之五：MapReduce进阶(2)

Hadoop系列之五：MapReduce进阶(2)

Hadoop系列之四：MapReduce进阶

Hadoop系列之四：MapReduce进阶

Hadoop系列之三：函数式编程语言和MapReduce

Hadoop系列之三：函数式编程语言和MapReduce

Hadoop系列之二：大数据、大数据处理模型及MapReduce

Hadoop系列之二：大数据、大数据处理模型及MapReduce

Hadoop系列之一：大数据存储及处理平台产生的背景

Hadoop系列之一：大数据存储及处理平台产生的背景

菜鸟学习Hadoop系列一----安装Hadoop

[置顶] 【Apache Hadoop系列】hadoop1.0.4 eclipse插件编译

HBase很美

Hadoop系列之学习笔记（一）

Hadoop系列相关优秀网站收集

hadoop系列A：多文件输出

HBase在淘宝的应用和优化小结

Hbase初探

Hadoop系列之一：hadoop部署安装

Hadoop系列之一：hadoop部署安装

Hadoop系列之一：hadoop部署安装

论文：Hadoop在Facebook的实时应用

论文：Hadoop在Facebook的实时应用

Hadoop的mapreduce

Hadoop的mapreduce

Hadoop的mapreduce

[hadoop系列]Pig的安装和简单示例

[hadoop系列]hadoop-gpl-compression的安装和编译

[Hadoop系列]Hadoop的MapReduce中多文件输出

[Hadoop系列]Hadoop的安装-3.完全分布模式

测试眼里的Hadoop系列之Terasort