大数据编程hadoop系列第10页

Hadoop系列之五：MapReduce进阶(2)

1、MapReduce作业、集群及其逻辑架构前文已经描述，MapReduce是一个编程框架，它为程序员提供了一种快速开发海量数据处理程序的编程环境，并能够让基于这种机制开发出的处理程序以稳定、容错的方式并行运行于由大量商用硬件组成的集群上。同时，MapReduce又是一个运行框架，它需要为基于MapReduce机制开发出的程序提供一个运行环境，并透明管理运行中的各个细节。每一个需要由MapRed

马哥教育·2013-01-03 23:34

Hadoop系列之五：MapReduce进阶(2)

1、MapReduce作业、集群及其逻辑架构前文已经描述，MapReduce是一个编程框架，它为程序员提供了一种快速开发海量数据处理程序的编程环境，并能够让基于这种机制开发出的处理程序以稳定、容错的方式并行运行于由大量商用硬件组成的集群上。同时，MapReduce又是一个运行框架，它需要为基于MapReduce机制开发出的程序提供一个运行环境，并透明管理运行中的各个细节。每一个需要由MapRedu

马哥教育·2013-01-03 23:34

Hadoop系列之四：MapReduce进阶

1、mapper和reducerMapReduce对数据的处理分为两个阶段：map阶段和reduce阶段，这两个阶段分别由用户开发的map函数和reduce函数完成，在MapReduce运行环境中运行时，它们也分别被称为mapper和reducer。键值对(key-valuepair)是MapReduce的基础数据结构，mapper和reducer读入和输出的数据均为键值对。MapReduce中，

马哥教育·2013-01-02 16:22

Hadoop系列之四：MapReduce进阶

1、mapper和reducerMapReduce对数据的处理分为两个阶段：map阶段和reduce阶段，这两个阶段分别由用户开发的map函数和reduce函数完成，在MapReduce运行环境中运行时，它们也分别被称为mapper和reducer。键值对(key-valuepair)是MapReduce的基础数据结构，mapper和reducer读入和输出的数据均为键值对。MapReduce中，

马哥教育·2013-01-02 16:22

Hadoop系列之三：函数式编程语言和MapReduce

1、MapReduce和大数据问题海量数据并行处理的核心思想无非是将一个较大的问题进行“分割包围、逐个歼灭”。然而其难点和关键点在于如何将一个大的问题分分割成多个可以分别在不同的CPU上或不同的主机上进行处理的独立小问题，而且这些独立进行处理的小问题所产生的中间结果又该如何合并成最终结果并予以输出。因此，看似简单的化整为零的处理思想却不得不面临如下的难题：(1)如何将大问题分割为小任务？进一步地，

马哥教育·2013-01-02 13:03

Hadoop系列之三：函数式编程语言和MapReduce

1、MapReduce和大数据问题海量数据并行处理的核心思想无非是将一个较大的问题进行“分割包围、逐个歼灭”。然而其难点和关键点在于如何将一个大的问题分分割成多个可以分别在不同的CPU上或不同的主机上进行处理的独立小问题，而且这些独立进行处理的小问题所产生的中间结果又该如何合并成最终结果并予以输出。因此，看似简单的化整为零的处理思想却不得不面临如下的难题：(1)如何将大问题分割为小任务？进一步地

马哥教育·2013-01-02 13:03

Hadoop系列之二：大数据、大数据处理模型及MapReduce

1、大数据(bigdata)什么是大数据？wikipedia上面给出了这样的定义：Ininformationtechnology,bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataproce

马哥教育·2013-01-01 23:27

Hadoop系列之二：大数据、大数据处理模型及MapReduce

1、大数据(bigdata)什么是大数据？wikipedia上面给出了这样的定义：Ininformationtechnology,bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataproce

马哥教育·2013-01-01 23:27

Hadoop系列之一：大数据存储及处理平台产生的背景

传统的关系型数据库中的表通常由一个或多个字段组成，每个字段都预先定义了其可存储数据的格式及约束等，这类的数据就是结构化数据(structureddata)。一个设计良好的数据库在其schema中定义这些格式或约束，并由相应的RDBMS为这些提供实现保证。相应地，非结构化数据(unstructuredData)就是指那些没有一个预定义的数据模型或不适于存储在RDBMS中的数据，这些数据没有额外的描述

马哥教育·2012-12-27 15:03

Hadoop系列之一：大数据存储及处理平台产生的背景

传统的关系型数据库中的表通常由一个或多个字段组成，每个字段都预先定义了其可存储数据的格式及约束等，这类的数据就是结构化数据(structureddata)。一个设计良好的数据库在其schema中定义这些格式或约束，并由相应的RDBMS为这些提供实现保证。相应地，非结构化数据(unstructuredData)就是指那些没有一个预定义的数据模型或不适于存储在RDBMS中的数据，这些数据没有额外的描述

马哥教育·2012-12-27 15:03

菜鸟学习Hadoop系列一----安装Hadoop

一前期准备安装linux系统。这地方就不具体介绍了。网络上的博文很多。我一直使用的是Fedora12（32bit）.我的实验采用的系统就是这个了。以下的操作也都是基于该系统的。下载jdk，这个在官网（http://www.oracle.com/technetwork/java/javase/downloads/index.html）上很容易就可以找到。目前提供的是1.7.0.9版本。下载hadoo

W170532934·2012-12-16 13:00

[置顶] 【Apache Hadoop系列】hadoop1.0.4 eclipse插件编译

一、所需工具 eclipse-java-juno-SR1-win32.zip jdk-6u37-linux-x64.bin apache-ant-1.8.4-bin.zip hadoop-1.0.4二、Ant安装将Ant解压放在合适目录：比如D盘。配置Ant环境变量，在Path中添加：F:\hadoop\ant\bin。控制台中输入echo%PAHT%使环境变量生

WeiJonathan·2012-12-11 15:00

HBase很美

HBase:看上去很美2012-11-1311:54byzhenjing,1035阅读, 6 评论, 收藏, 编辑缘起随着hadoop系列的兴起，基于HDFS的大规模KV存储系统HBase也进入“大规模使用阶段

·2012-11-13 17:00

Hadoop系列之学习笔记（一）

HBase学习笔记（一） 1.HTable是HBase与用户接口交互的最核心的类. org.apache.hadoop.hbase.client.HTable 2.HTable-->HTablePool 3.Bytes Class的常用方法有 1).byte[] toBytes(String s); 2).byte[] toBytes(b

cansoft·2012-10-24 18:00

Hadoop系列相关优秀网站收集

Hadoop技术论坛：http://www.hadoopor.com HBase相关技术收集：http://hbase.info/ 趋势科技中国研发中心 SPN研发团队技术博客：http://www.spnguru.com/ 淘宝搜索技术博客：http://www.searchtb.com/ Alex的个人博客：http://www.gemini5201314.net/ 逖靖寒的世界：h

wuce7758·2012-05-25 17:00

hadoop系列A：多文件输出

package org.myorg; import java.io.DataOutputStream; import java.io.IOException; import java.io.UnsupportedEncodingException; import org.apache.hadoop.io.NullWritable; import org.apac

jlins_you·2012-04-14 21:00

HBase在淘宝的应用和优化小结

由于淘宝拥有也许是国内最大的单一Hadoop集群(云梯)，因此对Hadoop系列的产品有比较深入的了解，也就自然

wws5201985·2012-04-06 17:09

Hbase初探

understanding-hbase.html 数据平台团队的HBase介绍，也很详细 http://www.tbdata.org/archives/1509 现在几乎大部分的互联网公司都在用hadoop

hill007299·2012-03-10 21:00

Hadoop系列之一：hadoop部署安装

简述：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序

dwlinux·2011-11-23 12:57

Hadoop系列之一：hadoop部署安装

简述：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序

elain2012·2011-09-26 09:08

Hadoop系列之一：hadoop部署安装

简述：一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（highthroughput）来访问应用程序

elain2012·2011-09-26 09:08

论文：Hadoop在Facebook的实时应用

fengzanfeng·2011-07-15 10:00

论文：Hadoop在Facebook的实时应用

nosqlfan Adam·2011-07-05 05:00

Hadoop的mapreduce

事实上MapReduce应该是分开来读的Map/Reduce,网上也有一些关于MapReduce的文章，不过讲的都不是很明晰透彻，所以才有了本文，本文是云框架Hadoop系列又一力作，后续还有关于云框架

易成11·2010-04-24 10:03

Hadoop的mapreduce

事实上MapReduce应该是分开来读的Map/Reduce,网上也有一些关于MapReduce的文章，不过讲的都不是很明晰透彻，所以才有了本文，本文是云框架Hadoop系列又一力作，后续还有关于云框架

解占辉·2010-04-24 10:03

Hadoop的mapreduce

事实上MapReduce应该是分开来读的Map/Reduce,网上也有一些关于MapReduce的文章，不过讲的都不是很明晰透彻，所以才有了本文，本文是云框架Hadoop系列又一力作，后续还有关于云框架

解占辉·2010-04-24 10:03

[hadoop系列]Pig的安装和简单示例

inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。（来源：http://blog.csdn.net/inkfish）Pig是Yahoo!捐献给Apache的一个项目，目前还在Apache孵化器（incubator）阶段，目前版本是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台，它提供的SQL-like语言叫PigLat

inkfish·2010-01-18 10:00

[hadoop系列]hadoop-gpl-compression的安装和编译

inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。从Hadoop0.20.X开始，由于lzo压缩格式GPL形式授权的影响，lzo压缩从hadoop发布包中取消，转而成为GoogleCode中的一个项目hadoop-gpl-compression。本文介绍hadoop-gpl-compression的安装和编译。这里之所以叫安装和编译，

inkfish·2010-01-15 16:00

[Hadoop系列]Hadoop的MapReduce中多文件输出

inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。Hadoop默认的输出是TextOutputFormat，输出文件名不可定制。hadoop0.19.X中有一个org.apache.hadoop.mapred.lib.MultipleOutputFormat，可以输出多份文件且可以自定义文件名，但是从hadoop0.20.x中Mult

inkfish·2010-01-08 11:00

[Hadoop系列]Hadoop的安装-3.完全分布模式

inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。Hadoop是Apache基金会下的一个开源云计算平台项目。当前最新版本是hadoop0.20.1。下面就hadoop0.20.1为蓝本，介绍在UbuntuLinux9.10下安装hadoop的方法。（来源：http://blog.csdn.net/inkfish）支持的平台：（来源：

inkfish·2010-01-07 14:00

[Hadoop系列]Hadoop的安装-2.伪分布模式

inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。Hadoop是Apache基金会下的一个开源云计算平台项目。当前最新版本是hadoop0.20.1。下面就hadoop0.20.1为蓝本，介绍在UbuntuLinux9.10下安装hadoop的方法。（来源：http://blog.csdn.net/inkfish）支持的平台：（来源：

inkfish·2010-01-07 13:00

[Hadoop系列]Hadoop的安装-1.本地模式

inkfish原创，请勿商业性质转载，转载请注明来源（http://blog.csdn.net/inkfish）。Hadoop是Apache基金会下的一个开源云计算平台项目。当前最新版本是hadoop0.20.1。下面就hadoop0.20.1为蓝本，介绍在UbuntuLinux9.10下安装hadoop的方法。（来源：http://blog.csdn.net/inkfish）支持的平台：（来源：

inkfish·2010-01-07 13:00

[Hadoop系列]Changes of Hadoop 0.20笔记

最近学习hadoop0.20.1，网上找到一篇文章《What’sNewinHadoopCore0.20》，非完整的给翻译了一下，为以后检索方便，发上来保存一份。如果能读懂英文的，千万不要看下面的中文。 HadoopCore0.20.0在2009年4月22日发布。这一发布相对0.19发布，有很多用户使用层面上的改变。CoreHadoop中两个主要的组件是分布式文件系统（HDFS）和MapReduce

inkfish·2009-11-24 18:00

Hadoop系列：在Linux下部署hadoop 0.20.1

两台测试虚机，系统为REHL5.3x64，正常安装最新版本的JDK，正确设置SSH无密码登录。服务器一：192.168.56.101dev1服务器二：192.168.56.102dev2从http://apache.freelamp.com/hadoop/core/hadoop-0.20.1/下载hadoop-0.20.1.tar.gz，把hadoop-0.20.1.tar.gz拷贝到dev1的“

·2009-10-26 21:00

Hadoop系列－IPC之代码实现

整体结构：在IPC包中，最重要的3个类是Server，Client和RPC，它们具有层次化的结构。RPC类是对Server、Client的具体化。在RPC类中规定，客户程序发出请求调用时，参数类型必须是Invocation；从服务器返回的值类型必须是ObjectWritable。为了加强理解，可以查看测试类TestIPC。在那里，规定的参数类型与返回值类型都是LongWritable。RPC类是对

iteye_21054·2007-06-02 06:04

Hadoop系列－IPC之代码实现

zhangyu8374·2007-06-02 06:00

Hadoop系列－IPC之代码实现

zhangyu8374·2007-06-02 06:00

Hadoop系列－fs包之代码实现

zhangyu8374·2007-06-02 06:00

Hadoop系列－fs包之代码实现

zhangyu8374·2007-06-02 06:00

Hadoop系列－fs包之代码实现

在此包中，最重要的是FileSystem抽象类。它定义了文件系统中涉及的一些基本操作，如：create，rename，delete...另外包括一些分布式文件系统具有的操作：copyFromLocalFile,copyToLocalFile,...类似于Ftp中put和get操作。LocalFileSystem和DistributedFileSystem，继承于此类，分别实现了本地文件系统和分布式

zhangyu8374·2007-06-02 06:00

Hadoop系列－IPC之代码实现

整体结构：在IPC包中，最重要的3个类是Server，Client和RPC，它们具有层次化的结构。RPC类是对Server、Client的具体化。在RPC类中规定，客户程序发出请求调用时，参数类型必须是Invocation；从服务器返回的值类型必须是ObjectWritable。为了加强理解，可以查看测试类TestIPC。在那里，规定的参数类型与返回值类型都是LongWritable。RPC类是对

zhangyu8374·2007-06-02 06:00

Hadoop系列－IPC模型

zhangyu8374·2007-06-02 06:00

Hadoop系列－IPC模型

IPC实现RPC的一种方法，具有快速、简单的特点。它不像Sun公司提供的标准RPC包，基于Java序列化。IPC无需创建网络stubs和skeletons。IPC中的方法调用要求参数和返回值的数据类型必须是Java的基本类型，String和Writable接口的实现类，以及元素为以上类型的数组。接口方法应该只抛出IOException异常。使用模型采用客户/服务器模型Server：它把Java接口

zhangyu8374·2007-06-02 06:00

Hadoop系列－IPC模型

zhangyu8374·2007-06-02 06:00

推荐频道

大数据编程hadoop系列

Hadoop系列之五：MapReduce进阶(2)

Hadoop系列之五：MapReduce进阶(2)

Hadoop系列之四：MapReduce进阶

Hadoop系列之四：MapReduce进阶

Hadoop系列之三：函数式编程语言和MapReduce

Hadoop系列之三：函数式编程语言和MapReduce

Hadoop系列之二：大数据、大数据处理模型及MapReduce

Hadoop系列之二：大数据、大数据处理模型及MapReduce

Hadoop系列之一：大数据存储及处理平台产生的背景

Hadoop系列之一：大数据存储及处理平台产生的背景

菜鸟学习Hadoop系列一----安装Hadoop

[置顶] 【Apache Hadoop系列】hadoop1.0.4 eclipse插件编译

HBase很美

Hadoop系列之学习笔记（一）

Hadoop系列相关优秀网站收集

hadoop系列A：多文件输出

HBase在淘宝的应用和优化小结

Hbase初探

Hadoop系列之一：hadoop部署安装

Hadoop系列之一：hadoop部署安装

Hadoop系列之一：hadoop部署安装

论文：Hadoop在Facebook的实时应用

论文：Hadoop在Facebook的实时应用

Hadoop的mapreduce

Hadoop的mapreduce

Hadoop的mapreduce

[hadoop系列]Pig的安装和简单示例

[hadoop系列]hadoop-gpl-compression的安装和编译

[Hadoop系列]Hadoop的MapReduce中多文件输出

[Hadoop系列]Hadoop的安装-3.完全分布模式

[Hadoop系列]Hadoop的安装-2.伪分布模式

[Hadoop系列]Hadoop的安装-1.本地模式

[Hadoop系列]Changes of Hadoop 0.20笔记

Hadoop系列：在Linux下部署hadoop 0.20.1

Hadoop系列－IPC之代码实现

Hadoop系列－IPC之代码实现

Hadoop系列－IPC之代码实现

Hadoop系列－fs包之代码实现

Hadoop系列－fs包之代码实现

Hadoop系列－fs包之代码实现

Hadoop系列－IPC之代码实现

Hadoop系列－IPC模型

Hadoop系列－IPC模型

Hadoop系列－IPC模型