E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据编程hadoop系列
Hadoop系列
之五:MapReduce进阶(2)
1、MapReduce作业、集群及其逻辑架构 前文已经描述,MapReduce是一个编程框架,它为程序员提供了一种快速开发海量数据处理程序的编程环境,并能够让基于这种机制开发出的处理程序以稳定、容错的方式并行运行于由大量商用硬件组成的集群上。同时,MapReduce又是一个运行框架,它需要为基于MapReduce机制开发出的程序提供一个运行环境,并透明管理运行中的各个细节。每一个需要由MapRed
马哥教育
·
2013-01-03 23:34
mapreduce
hadoop
大数据
hbase
hdfs
Hadoop系列
之五:MapReduce进阶(2)
1、MapReduce作业、集群及其逻辑架构前文已经描述,MapReduce是一个编程框架,它为程序员提供了一种快速开发海量数据处理程序的编程环境,并能够让基于这种机制开发出的处理程序以稳定、容错的方式并行运行于由大量商用硬件组成的集群上。同时,MapReduce又是一个运行框架,它需要为基于MapReduce机制开发出的程序提供一个运行环境,并透明管理运行中的各个细节。每一个需要由MapRedu
马哥教育
·
2013-01-03 23:34
hadoop
大数据
hbase
mapreduce
hdfs
云计算相关
Hadoop系列
之四:MapReduce进阶
1、mapper和reducerMapReduce对数据的处理分为两个阶段:map阶段和reduce阶段,这两个阶段分别由用户开发的map函数和reduce函数完成,在MapReduce运行环境中运行时,它们也分别被称为mapper和reducer。键值对(key-valuepair)是MapReduce的基础数据结构,mapper和reducer读入和输出的数据均为键值对。MapReduce中,
马哥教育
·
2013-01-02 16:22
mapreduce
hadoop
大数据
hbase
hdfs
Hadoop系列
之四:MapReduce进阶
1、mapper和reducerMapReduce对数据的处理分为两个阶段:map阶段和reduce阶段,这两个阶段分别由用户开发的map函数和reduce函数完成,在MapReduce运行环境中运行时,它们也分别被称为mapper和reducer。键值对(key-valuepair)是MapReduce的基础数据结构,mapper和reducer读入和输出的数据均为键值对。MapReduce中,
马哥教育
·
2013-01-02 16:22
mapreduce
hadoop
hbase
云计算相关
Hadoop系列
之三:函数式编程语言和MapReduce
1、MapReduce和大数据问题海量数据并行处理的核心思想无非是将一个较大的问题进行“分割包围、逐个歼灭”。然而其难点和关键点在于如何将一个大的问题分分割成多个可以分别在不同的CPU上或不同的主机上进行处理的独立小问题,而且这些独立进行处理的小问题所产生的中间结果又该如何合并成最终结果并予以输出。因此,看似简单的化整为零的处理思想却不得不面临如下的难题:(1)如何将大问题分割为小任务?进一步地,
马哥教育
·
2013-01-02 13:03
hadoop
大数据
hbase
map
Hadoop系列
之三:函数式编程语言和MapReduce
1、MapReduce和大数据问题 海量数据并行处理的核心思想无非是将一个较大的问题进行“分割包围、逐个歼灭”。然而其难点和关键点在于如何将一个大的问题分分割成多个可以分别在不同的CPU上或不同的主机上进行处理的独立小问题,而且这些独立进行处理的小问题所产生的中间结果又该如何合并成最终结果并予以输出。因此,看似简单的化整为零的处理思想却不得不面临如下的难题:(1)如何将大问题分割为小任务?进一步地
马哥教育
·
2013-01-02 13:03
mapreduce
hadoop
大数据
hbase
hdfs
Hadoop系列
之二:大数据、大数据处理模型及MapReduce
1、大数据(bigdata)什么是大数据?wikipedia上面给出了这样的定义:Ininformationtechnology,bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataproce
马哥教育
·
2013-01-01 23:27
mapreduce
hadoop
大数据
hbase
hdfs
Hadoop系列
之二:大数据、大数据处理模型及MapReduce
1、大数据(bigdata)什么是大数据?wikipedia上面给出了这样的定义:Ininformationtechnology,bigdataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtoolsortraditionaldataproce
马哥教育
·
2013-01-01 23:27
hadoop
大数据
hbase
map
Hadoop系列
之一:大数据存储及处理平台产生的背景
传统的关系型数据库中的表通常由一个或多个字段组成,每个字段都预先定义了其可存储数据的格式及约束等,这类的数据就是结构化数据(structureddata)。一个设计良好的数据库在其schema中定义这些格式或约束,并由相应的RDBMS为这些提供实现保证。相应地,非结构化数据(unstructuredData)就是指那些没有一个预定义的数据模型或不适于存储在RDBMS中的数据,这些数据没有额外的描述
马哥教育
·
2012-12-27 15:03
mapreduce
hadoop
大数据
hbase
hdfs
Hadoop系列
之一:大数据存储及处理平台产生的背景
传统的关系型数据库中的表通常由一个或多个字段组成,每个字段都预先定义了其可存储数据的格式及约束等,这类的数据就是结构化数据(structureddata)。一个设计良好的数据库在其schema中定义这些格式或约束,并由相应的RDBMS为这些提供实现保证。相应地,非结构化数据(unstructuredData)就是指那些没有一个预定义的数据模型或不适于存储在RDBMS中的数据,这些数据没有额外的描述
马哥教育
·
2012-12-27 15:03
mapreduce
hadoop
hbase
菜鸟学习
Hadoop系列
一----安装Hadoop
一前期准备安装linux系统。这地方就不具体介绍了。网络上的博文很多。我一直使用的是Fedora12(32bit).我的实验采用的系统就是这个了。以下的操作也都是基于该系统的。下载jdk,这个在官网(http://www.oracle.com/technetwork/java/javase/downloads/index.html)上很容易就可以找到。目前提供的是1.7.0.9版本。下载hadoo
W170532934
·
2012-12-16 13:00
[置顶] 【Apache
Hadoop系列
】hadoop1.0.4 eclipse插件编译
一、所需工具 eclipse-java-juno-SR1-win32.zip jdk-6u37-linux-x64.bin apache-ant-1.8.4-bin.zip hadoop-1.0.4二、Ant安装 将Ant解压放在合适目录:比如D盘。 配置Ant环境变量,在Path中添加:F:\hadoop\ant\bin。 控制台中输入echo%PAHT%使环境变量生
WeiJonathan
·
2012-12-11 15:00
eclipse
hadoop
eclipse插件
HBase很美
HBase:看上去很美2012-11-1311:54byzhenjing,1035阅读, 6 评论, 收藏, 编辑缘起随着
hadoop系列
的兴起,基于HDFS的大规模KV存储系统HBase也进入“大规模使用阶段
·
2012-11-13 17:00
jvm
性能
hadoop
GC
测试
hbase
设计
leveldb
Hadoop系列
之学习笔记(一)
HBase学习笔记(一) 1.HTable是HBase与用户接口交互的最核心的类. org.apache.hadoop.hbase.client.HTable 2.HTable-->HTablePool 3.Bytes Class的常用方法有 1).byte[] toBytes(String s); 2).byte[] toBytes(b
cansoft
·
2012-10-24 18:00
hadoop
hbase
Hadoop系列
相关优秀网站收集
Hadoop技术论坛:http://www.hadoopor.com HBase相关技术收集:http://hbase.info/ 趋势科技中国研发中心 SPN研发团队技术博客:http://www.spnguru.com/ 淘宝搜索技术博客:http://www.searchtb.com/ Alex的个人博客:http://www.gemini5201314.net/ 逖靖寒的世界:h
wuce7758
·
2012-05-25 17:00
hadoop
hadoop系列
A:多文件输出
package org.myorg; import java.io.DataOutputStream; import java.io.IOException; import java.io.UnsupportedEncodingException; import org.apache.hadoop.io.NullWritable; import org.apac
jlins_you
·
2012-04-14 21:00
hadoop
Hadoop入门
hadoop教程
HBase在淘宝的应用和优化小结
由于淘宝拥有也许是国内最大的单一Hadoop集群(云梯),因此对
Hadoop系列
的产品有比较深入的了解,也就自然
wws5201985
·
2012-04-06 17:09
优化
Google
Facebook
淘宝
实际应用
Hbase初探
understanding-hbase.html 数据平台团队的HBase介绍,也很详细 http://www.tbdata.org/archives/1509 现在几乎大部分的互联网公司都在用
hadoop
hill007299
·
2012-03-10 21:00
hadoop
hbase
存储系统
lsm
Hadoop系列
之一:hadoop部署安装
简述:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序
dwlinux
·
2011-11-23 12:57
hadoop
职场
休闲
Hadoop系列
之一:hadoop部署安装
简述:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序
elain2012
·
2011-09-26 09:08
hadoop
职场
云计算
虚拟化
休闲
Hadoop系列
之一:hadoop部署安装
简述:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序
elain2012
·
2011-09-26 09:08
职场
虚拟化
休闲
虚拟化与云计算
论文:Hadoop在Facebook的实时应用
Facebook在其最新的消息系统中使用了HBase,这已经不是什么新闻了,而HBase与其基础设施HDFS也因此越来越受追捧,下面是Facebook在SIGMOD2011大会上发表的论文,描述了
Hadoop
fengzanfeng
·
2011-07-15 10:00
论文:Hadoop在Facebook的实时应用
Facebook在其最新的消息系统中使用了HBase,这已经不是什么新闻了,而HBase与其基础设施HDFS也因此越来越受追捧,下面是Facebook在SIGMOD2011大会上发表的论文,描述了
Hadoop
nosqlfan Adam
·
2011-07-05 05:00
hadoop
hbase
Facebook
realtime
Hadoop&HBase
Hadoop的mapreduce
事实上MapReduce应该是分开来读的Map/Reduce,网上也有一些关于MapReduce的文章,不过讲的都不是很明晰透彻,所以才有了本文,本文是云框架
Hadoop系列
又一力作,后续还有关于云框架
易成11
·
2010-04-24 10:03
职场
休闲
mapreduce
云端计算
Hadoop的mapreduce
事实上MapReduce应该是分开来读的Map/Reduce,网上也有一些关于MapReduce的文章,不过讲的都不是很明晰透彻,所以才有了本文,本文是云框架
Hadoop系列
又一力作,后续还有关于云框架
解占辉
·
2010-04-24 10:03
mapreduce
hadoop
职场
休闲
Hadoop的mapreduce
事实上MapReduce应该是分开来读的Map/Reduce,网上也有一些关于MapReduce的文章,不过讲的都不是很明晰透彻,所以才有了本文,本文是云框架
Hadoop系列
又一力作,后续还有关于云框架
解占辉
·
2010-04-24 10:03
mapreduce
hadoop
职场
休闲
[
hadoop系列
]Pig的安装和简单示例
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish)。(来源:http://blog.csdn.net/inkfish)Pig是Yahoo!捐献给Apache的一个项目,目前还在Apache孵化器(incubator)阶段,目前版本是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫PigLat
inkfish
·
2010-01-18 10:00
java
mapreduce
hadoop
exception
String
pig
[
hadoop系列
]hadoop-gpl-compression的安装和编译
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish)。从Hadoop0.20.X开始,由于lzo压缩格式GPL形式授权的影响,lzo压缩从hadoop发布包中取消,转而成为GoogleCode中的一个项目hadoop-gpl-compression。本文介绍hadoop-gpl-compression的安装和编译。这里之所以叫安装和编译,
inkfish
·
2010-01-15 16:00
java
maven
hadoop
ant
gcc
compression
[
Hadoop系列
]Hadoop的MapReduce中多文件输出
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish)。Hadoop默认的输出是TextOutputFormat,输出文件名不可定制。hadoop0.19.X中有一个org.apache.hadoop.mapred.lib.MultipleOutputFormat,可以输出多份文件且可以自定义文件名,但是从hadoop0.20.x中Mult
inkfish
·
2010-01-08 11:00
mapreduce
hadoop
String
Class
Path
newline
[
Hadoop系列
]Hadoop的安装-3.完全分布模式
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish)。Hadoop是Apache基金会下的一个开源云计算平台项目。当前最新版本是hadoop0.20.1。下面就hadoop0.20.1为蓝本,介绍在UbuntuLinux9.10下安装hadoop的方法。(来源:http://blog.csdn.net/inkfish)支持的平台:(来源:
inkfish
·
2010-01-07 14:00
hadoop
windows
linux
服务器
ssh
平台
[
Hadoop系列
]Hadoop的安装-2.伪分布模式
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish)。Hadoop是Apache基金会下的一个开源云计算平台项目。当前最新版本是hadoop0.20.1。下面就hadoop0.20.1为蓝本,介绍在UbuntuLinux9.10下安装hadoop的方法。(来源:http://blog.csdn.net/inkfish)支持的平台:(来源:
inkfish
·
2010-01-07 13:00
java
hadoop
windows
linux
ssh
平台
[
Hadoop系列
]Hadoop的安装-1.本地模式
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish)。Hadoop是Apache基金会下的一个开源云计算平台项目。当前最新版本是hadoop0.20.1。下面就hadoop0.20.1为蓝本,介绍在UbuntuLinux9.10下安装hadoop的方法。(来源:http://blog.csdn.net/inkfish)支持的平台:(来源:
inkfish
·
2010-01-07 13:00
[
Hadoop系列
]Changes of Hadoop 0.20笔记
最近学习hadoop0.20.1,网上找到一篇文章《What’sNewinHadoopCore0.20》,非完整的给翻译了一下,为以后检索方便,发上来保存一份。如果能读懂英文的,千万不要看下面的中文。 HadoopCore0.20.0在2009年4月22日发布。这一发布相对0.19发布,有很多用户使用层面上的改变。CoreHadoop中两个主要的组件是分布式文件系统(HDFS)和MapReduce
inkfish
·
2009-11-24 18:00
mapreduce
hadoop
api
object
authorization
compression
Hadoop系列
:在Linux下部署hadoop 0.20.1
两台测试虚机,系统为REHL5.3x64,正常安装最新版本的JDK,正确设置SSH无密码登录。服务器一:192.168.56.101dev1服务器二:192.168.56.102dev2从http://apache.freelamp.com/hadoop/core/hadoop-0.20.1/下载hadoop-0.20.1.tar.gz,把hadoop-0.20.1.tar.gz拷贝到dev1的“
·
2009-10-26 21:00
hadoop
Hadoop系列
-IPC之代码实现
整体结构:在IPC包中,最重要的3个类是Server,Client和RPC,它们具有层次化的结构。RPC类是对Server、Client的具体化。在RPC类中规定,客户程序发出请求调用时,参数类型必须是Invocation;从服务器返回的值类型必须是ObjectWritable。为了加强理解,可以查看测试类TestIPC。在那里,规定的参数类型与返回值类型都是LongWritable。RPC类是对
iteye_21054
·
2007-06-02 06:04
hadoop
Hadoop系列
-IPC之代码实现
阅读更多整体结构:在IPC包中,最重要的3个类是Server,Client和RPC,它们具有层次化的结构。RPC类是对Server、Client的具体化。在RPC类中规定,客户程序发出请求调用时,参数类型必须是Invocation;从服务器返回的值类型必须是ObjectWritable。为了加强理解,可以查看测试类TestIPC。在那里,规定的参数类型与返回值类型都是LongWritable。RP
zhangyu8374
·
2007-06-02 06:00
Hadoop
工作
Hadoop系列
-IPC之代码实现
阅读更多整体结构:在IPC包中,最重要的3个类是Server,Client和RPC,它们具有层次化的结构。RPC类是对Server、Client的具体化。在RPC类中规定,客户程序发出请求调用时,参数类型必须是Invocation;从服务器返回的值类型必须是ObjectWritable。为了加强理解,可以查看测试类TestIPC。在那里,规定的参数类型与返回值类型都是LongWritable。RP
zhangyu8374
·
2007-06-02 06:00
Hadoop
工作
Hadoop系列
-fs包之代码实现
阅读更多在此包中,最重要的是FileSystem抽象类。它定义了文件系统中涉及的一些基本操作,如:create,rename,delete...另外包括一些分布式文件系统具有的操作:copyFromLocalFile,copyToLocalFile,...类似于Ftp中put和get操作。LocalFileSystem和DistributedFileSystem,继承于此类,分别实现了本地文件系统
zhangyu8374
·
2007-06-02 06:00
Hadoop
Linux
Unix
Windows
Hadoop系列
-fs包之代码实现
阅读更多在此包中,最重要的是FileSystem抽象类。它定义了文件系统中涉及的一些基本操作,如:create,rename,delete...另外包括一些分布式文件系统具有的操作:copyFromLocalFile,copyToLocalFile,...类似于Ftp中put和get操作。LocalFileSystem和DistributedFileSystem,继承于此类,分别实现了本地文件系统
zhangyu8374
·
2007-06-02 06:00
Hadoop
Linux
Unix
Windows
Hadoop系列
-fs包之代码实现
在此包中,最重要的是FileSystem抽象类。它定义了文件系统中涉及的一些基本操作,如:create,rename,delete...另外包括一些分布式文件系统具有的操作:copyFromLocalFile,copyToLocalFile,...类似于Ftp中put和get操作。LocalFileSystem和DistributedFileSystem,继承于此类,分别实现了本地文件系统和分布式
zhangyu8374
·
2007-06-02 06:00
linux
hadoop
windows
unix
Hadoop系列
-IPC之代码实现
整体结构:在IPC包中,最重要的3个类是Server,Client和RPC,它们具有层次化的结构。RPC类是对Server、Client的具体化。在RPC类中规定,客户程序发出请求调用时,参数类型必须是Invocation;从服务器返回的值类型必须是ObjectWritable。为了加强理解,可以查看测试类TestIPC。在那里,规定的参数类型与返回值类型都是LongWritable。RPC类是对
zhangyu8374
·
2007-06-02 06:00
hadoop
工作
Hadoop系列
-IPC模型
阅读更多IPC实现RPC的一种方法,具有快速、简单的特点。它不像Sun公司提供的标准RPC包,基于Java序列化。IPC无需创建网络stubs和skeletons。IPC中的方法调用要求参数和返回值的数据类型必须是Java的基本类型,String和Writable接口的实现类,以及元素为以上类型的数组。接口方法应该只抛出IOException异常。使用模型采用客户/服务器模型Server:它把Ja
zhangyu8374
·
2007-06-02 06:00
Hadoop
Java
BBS
thread
SUN
Hadoop系列
-IPC模型
IPC实现RPC的一种方法,具有快速、简单的特点。它不像Sun公司提供的标准RPC包,基于Java序列化。IPC无需创建网络stubs和skeletons。IPC中的方法调用要求参数和返回值的数据类型必须是Java的基本类型,String和Writable接口的实现类,以及元素为以上类型的数组。接口方法应该只抛出IOException异常。使用模型采用客户/服务器模型Server:它把Java接口
zhangyu8374
·
2007-06-02 06:00
java
thread
hadoop
sun
bbs
Hadoop系列
-IPC模型
阅读更多IPC实现RPC的一种方法,具有快速、简单的特点。它不像Sun公司提供的标准RPC包,基于Java序列化。IPC无需创建网络stubs和skeletons。IPC中的方法调用要求参数和返回值的数据类型必须是Java的基本类型,String和Writable接口的实现类,以及元素为以上类型的数组。接口方法应该只抛出IOException异常。使用模型采用客户/服务器模型Server:它把Ja
zhangyu8374
·
2007-06-02 06:00
Hadoop
Java
BBS
thread
SUN
上一页
3
4
5
6
7
8
9
10
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他