hadoopmapreduce 第15页

如何用Spark来实现已有的MapReduce程序

在HadoopMapReduce中，我们首先使用一个Mapper，生成为以行的长度作为key，1作为value的键值对。

tanj123·2016-04-26 16:00

MapReduce编程模型

MapReduce/HadoopMapReduce是目前云计算中最广泛使用的计算模型，由Google于2004年提出，谷歌关于云计算有三篇著名的论文：《Bigtable_ADistributedStorageSystemforStructuredData

esc_ai·2016-04-26 13:12

MapReduce编程模型

MapReduce/HadoopMapReduce是目前云计算中最广泛使用的计算模型，由Google于2004年提出，谷歌关于云计算有三篇著名的论文：《Bigtable_ADistributedStorageSystemforStructuredData

napoay·2016-04-26 13:00

Hadoop2.x的解析和Yarn模块解析

22.1Hadoop的介绍22.2本章小结.23Hadoop2.x33.1Hadoop2.x的四大模块33.1.1HadoopCommon33.1.2HDFS33.1.3HadoopYarn43.1.4HadoopMapReduce43.2

cloud_510·2016-04-23 09:56

初识hbase

HBase利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的

hsl_1990_08_15·2016-04-17 18:00

Hadoop MapReduce 配置加载机制

前言我们运行HadoopMapReduce程序之前，都会配置job对象，通常的程序入口如下编写：publicstaticvoidmain(String[]args)throwsException{ Configurationconf

xuxiuning·2016-04-14 20:00

HBase简介

HBase:是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统,位于结构化存储层，HadoopHDFS为HBase提供了高可靠性的底层存储支持，HadoopMapReduce

wang_ying_198·2016-04-13 15:00

Hadoop2.6.0官方MapReduce文档翻译之一

一、前提条件： 1、已经安装了Hadoop，并且正确配置了运行环境，Hadoop已经正常运行中；二、概述： HadoopMapReduce是一套软件框架，可以轻松编写程序处理大数据集（几千兆的数据集

Veechange·2016-04-10 18:00

Spark高效的分布式管理

概述什么是SparkSpark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架，Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce

wpsing·2016-04-08 02:00

HBase表及其数据存储的理解

HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。

BabyFish13·2016-04-05 11:00

大数据，商业智能的挑战

系统的演变过程6.建设大数据BI系统的思考大数据的4V1.数据量大(Volume)2.速度快(Velocity)3.类型多(Variety)4.价值密度低(Value)开源大数据生态圈1.HadoopHDFS、HadoopMapReduce

丁山·2016-04-01 16:47

hbase shell基础和常用命令详解

HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBa

zygzzp·2016-03-31 17:00

Spark快速入门指南 – Spark安装与基础使用

Spark正如其名，最大的特点就是快（Lightning-fast），可比HadoopMapReduce的处理速度快100倍。

u012877472·2016-03-28 19:00

高效分布式计算系统：Spark

Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架，Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点

fanyun_01·2016-03-18 11:00

MapReduce on HBase

很好理解本文前提是你对HadoopMapReduce有一定的了解。

Xw_Classmate·2016-03-17 20:00

别再比较Hadoop和Spark了，那不是设计人员的初衷

将HadoopMapReduce与Spark作一番比较来得更明智，因为它们作为数据处理引擎更具有可比性。过去几年，随着数据科学趋于成熟，也日益需要用一种不同的方法来处理大数据。Hadoop在一些

勿忘初心321·2016-03-10 11:00

HBase 基础

HBase利用HadoopHDFS作为其文件存储系统；利用HadoopMapReduce来处理HBase中的海量数据；利用ZooKeeper作为协调工具。如何分

lanchunhui·2016-03-06 18:00

Spark快速入门指南 – Spark安装与基础使用

Spark正如其名，最大的特点就是快（Lightning-fast），可比HadoopMapReduce的处理速度快100倍。

LLy_Alex·2016-02-28 13:00

Hadoop链式MapReduce、多维排序、倒排索引、自连接算法、二次排序、Join性能优化、处理员工信息Join实战、URL流量分析、TopN及其排序、求平均值和最大最小值、数据清洗ETL、分析气

HadoopMapreduce算法汇总第52课：Hadoop链式MapReduce编程实战...1第51课：HadoopMapReduce多维排序解析与实战...2第50课：HadoopMapReduce

duan_zhihua·2016-02-28 06:00

第51课：HadoopMapReduce多维排序解析与实战

基于以下的失败过程，我们修改了数据文件再测试了一次，将tab分割改成了逗号“，”，相应的程序里面也进行了修改String[]splited=data.split(",");，再次运行，测试ok数据文件[root@masterIMFdatatest]#hadoopdfs-cat/library/dataForMutipleSorting.txtDEPRECATED:Useofthisscriptto

段智华·2016-02-26 23:26

第51课：HadoopMapReduce多维排序解析与实战

基于以下的失败过程，我们修改了数据文件再测试了一次，将tab分割改成了逗号“，”，相应的程序里面也进行了修改String[]splited=data.split(",");，再次运行，测试ok数据文件[root@masterIMFdatatest]#hadoopdfs-cat/library/dataForMutipleSorting.txtDEPRECATED:Useofthisscriptto

duan_zhihua·2016-02-26 23:00

Spark：一个高效的分布式计算系统

概述什么是Spark◆Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架，Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce

皎陽·2016-02-26 14:00

第50课：HadoopMapReduce倒排索引解析与实战

1数据文件[root@masterinvertedindex]#catfile1.txtSparkissopowerful[root@masterinvertedindex]#catfile2.txtSparkisthemostexcitingthinghappeninginbigdatatoday[root@masterinvertedindex]#catfile3.txtHelloSparkH

duan_zhihua·2016-02-23 21:00

Spark的分布式计算

与MapReduce不同在什么地方3.Spark为什么比Hadoop灵活4.Spark局限是什么5.什么情况下适合使用Spark 什么是SparkSpark是UCBerkeleyAMPlab所开源的类HadoopMapReduce

HackerVirus·2016-02-18 22:00

Spark的分布式计算

与MapReduce不同在什么地方3.Spark为什么比Hadoop灵活4.Spark局限是什么5.什么情况下适合使用Spark 什么是SparkSpark是UCBerkeleyAMPlab所开源的类HadoopMapReduce

HackerVirus·2016-02-18 22:00

Hadoop MapReduce 初级入门算法总结

HadoopMapReduce初级入门算法总结：前提知识点：1、掌握HadoopHDFS文件系统（文件上传、下载等基本操作）2、理解HadoopMapReduce的Map、Redcue的原理及过程3、

duan_zhihua·2016-02-16 12:00

对比 Spark 和 MapReduce

带着比HadoopMapReduce速度要快100倍的承诺以及更加灵活方便的API，一些人认为这或许预示着HadoopMapReduce的终结。

chenxing888·2016-02-03 21:33

Hadoop日志存放位置

然而，对于Hadoop而言，当遇到错误时，第一时间应该是查看日志，日志里通常会有详细的错误原因提示，本文将总结HadoopMapReduce日志存放位置，帮助初学者定位自己遇到的错误。

importdate·2016-01-31 18:00

jstorm系列-1：入门

一、 Storm整体介绍Storm是一个类似HadoopMapReduce的系统，用户按照指定的接口实现一个任务，然后将这个任务递交给JStorm系统，Jstorm将这个任务跑起来

2BiTT·2016-01-28 16:00

Hadoop mapreduce 自定义分区 HashPartitioner

hadooppatition分区简介和自定义http://chengjianxiaoxue.iteye.com/blog/2164473Hadoopmapreduce自定义分区HashPartitionerhttp

八戒_o·2016-01-27 22:00

『青云志』QingCloud Spark 服务新增 1.6.0 版本

它是一个基于内存、容错型的分布式计算引擎，与HadoopMapReduce相比，计算速度要快100倍。

u013424982·2016-01-22 20:00

hbase shell基础和常用命令详解

HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。

Hyacinth_Yuan·2016-01-20 16:00

spark join

在HadoopMapReduce中，map-sidejoin是借助DistributedCache

sungyang·2016-01-20 10:00

跟上大数据的步伐：快速搭建Spark集群

Spark是UCBerkeleyAMPlab开源的类HadoopMapReduce的通用的并行计算框架，Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点

shurenyun·2016-01-12 19:00

大数据计算平台Spark内核全面解读

2014年11月，Spark在DaytonaGraySort100TBBenchmark竞赛中打破了由HadoopMapReduce保持的排序记录。Spark利用1/10的节点数，把

longzhun·2016-01-06 10:00

机器学习（三）--- spark学习笔记

Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架，Spark，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中

china1000·2016-01-04 00:00

Hadoop MapReduce

HadoopMapReduce是一个用于处理海量数据的分布式计算框架。

尧山少侠·2015-12-23 13:00

Hadoop运行流程分析

1.概述HadoopMapReduce基于“分而治之”的思想，将计算任务抽象成map和reduce两个计算过程，计算流程如下：map过程包括：1).从磁盘读入数据2).运行map任务3).写结果到磁盘reduce

尧山少侠·2015-12-23 13:00

Spark + ansj 对大数据量中文进行分词

目前的分词器大部分都是单机服务器进行分词，或者使用hadoopmapreduce对存储在hdfs中大量的数据文本进行分词。由于mapreduce的速度较慢，相对spark来说代码书写较繁琐。

xiao_jun_0820·2015-12-21 10:00

Spark本地模式运行

1.Spark介绍Spark是基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写

ksfzhaohui·2015-12-19 12:00

Spark 是什么？

什么是SparkSpark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架，Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce

江中炼·2015-12-13 14:00

使用FileSystem自带的api读取hdfs中的文件

创建hadoopMapReduce项目输入项目名称3.创建好的项目初始化状态如下4.编写java类import java.io.IOException; import java.io.InputStream

sixtrees·2015-12-08 20:00

mac下配置eclipse的hadoop环境

macosx-cocoa-x86_64.tar右键显示包内容，将hadoop-eclipse-plugin-2.6.0.jar拷入到刚显示的包的plugin文件夹中打开eclipse，点击菜单Eclipse–偏好设置–HadoopMapReduce

ggz631047367·2015-11-22 17:00

Hadoop 新 MapReduce 框架 Yarn 详解

原HadoopMapReduce框架的问题对于业界的大数据存储及分布式处理系统来说，Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架，对于Hadoop框架的介绍在此不再累述，读者可参考Hadoop

俯身吻你·2015-11-19 17:03

Spark RCFile的那些“坑”

目前平台的计算引擎正逐步由HadoopMapReduce迁移至Spark，存储方面我们依然想利用RCFile的优势，但是具体实践中遇到那么几个“坑”。数据分析师使用PySpark构建Spa

yurun·2015-11-11 15:00

Spark RCFile的那些“坑”

目前平台的计算引擎正逐步由HadoopMapReduce迁移至Spark，存储方面我们依然想利用RCFile的优势，但是具体实践中遇到那么几个“坑”。数据分析师使用PySpark构建Spar

demigelemiao·2015-11-11 15:00

Spark SQL利器：cacheTable/uncacheTable

Spark相对于HadoopMapReduce有一个很显著的特性就是“迭代计算”（作为一个MapReduce的忠实粉丝，能这样说，大家都懂了吧），这在我们的业务场景里真的是非常有用。

yurun·2015-11-04 17:00

Spark SQL利器：cacheTable/uncacheTable

Spark相对于HadoopMapReduce有一个很显著的特性就是“迭代计算”（作为一个MapReduce的忠实粉丝，能这样说，大家都懂了吧），这在我们的业务场景里真的是非常有用。

demigelemiao·2015-11-04 17:00

HBase 命令详解

HBase是GoogleBigtable的开源实现，它利用HadoopHDFS作为其文件存储系统，利用HadoopMapReduce来处理HBase中的海量数据，利用Zookeeper作为协同服务。

miketom155·2015-10-21 16:00

整合 Tachyon 运行 Hadoop MapReduce(译)

整合 Tachyon运行HadoopMapReduce本指南描述如何使Tachyon与HadoopMapReduce结合运行，这样你可以很容易运行hadoop MapReduce程序文件存储在Tachyon

Rayn-瑞恩·2015-10-20 15:00

推荐频道

hadoopmapreduce

如何用Spark来实现已有的MapReduce程序

MapReduce编程模型

MapReduce编程模型

Hadoop2.x的解析和Yarn模块解析

初识hbase

Hadoop MapReduce 配置加载机制

HBase简介

Hadoop2.6.0官方MapReduce文档翻译 之 一

Spark高效的分布式管理

HBase表及其数据存储的理解

大数据，商业智能的挑战

hbase shell基础和常用命令详解

Spark快速入门指南 – Spark安装与基础使用

高效分布式计算系统：Spark

MapReduce on HBase

别再比较Hadoop和Spark了，那不是设计人员的初衷

HBase 基础

Spark快速入门指南 – Spark安装与基础使用

Hadoop链式MapReduce、多维排序、倒排索引、自连接算法、二次排序、Join性能优化、处理员工信息Join实战、URL流量分析、TopN及其排序、求平均值和最大最小值、数据清洗ETL、分析气

第51课：HadoopMapReduce多维排序解析与实战

第51课：HadoopMapReduce多维排序解析与实战

Spark：一个高效的分布式计算系统

第50课：HadoopMapReduce倒排索引解析与实战

Spark的分布式计算

Spark的分布式计算

Hadoop MapReduce 初级入门算法总结

对比 Spark 和 MapReduce

Hadoop日志存放位置

jstorm系列-1：入门

Hadoop mapreduce 自定义分区 HashPartitioner

『青云志』QingCloud Spark 服务新增 1.6.0 版本

hbase shell基础和常用命令详解

spark join

跟上大数据的步伐：快速搭建Spark集群

大数据计算平台Spark内核全面解读

机器学习（三）--- spark学习笔记

Hadoop MapReduce

Hadoop运行流程分析

Spark + ansj 对大数据量中文进行分词

Spark本地模式运行

Spark 是什么？

使用FileSystem自带的api读取hdfs中的文件

mac下配置eclipse的hadoop环境

Hadoop 新 MapReduce 框架 Yarn 详解

Spark RCFile的那些“坑”

Spark RCFile的那些“坑”

Spark SQL利器：cacheTable/uncacheTable

Spark SQL利器：cacheTable/uncacheTable

HBase 命令详解

整合 Tachyon 运行 Hadoop MapReduce(译)

Hadoop2.6.0官方MapReduce文档翻译之一