map-reduce 第8页

Hadoop Yarn初探

mapReduce的结构如下：从上图中可以清楚的看出原MapReduce程序的流程及设计思路：1.用户程序(JobClient)提交了一个job，job的信息会发送到JobTracker中，JobTracker是Map-reduce

kevinjqy·2017-10-06 15:50

开源大数据查询分析引擎现状

weitao1026·2017-09-23 11:00

开源大数据查询分析引擎现状

weitao1026·2017-09-22 03:00

【Java面试知识】Java6-Java7-Java8各个版本的新特性

Fork-Join池某种程度上实现Java版的Map-reduce。允许Switch中有String变量和

LYZ0907·2017-08-24 15:16

Hadoop、HBase、Hive、Spark分布式系统架构

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用户分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hba

纤尘22·2017-08-14 10:45

hive数据表清洗

hive数据表的数据清洗，hive中的查询都是基于map-reduce，一般向hive中导入数据的方式主要有四种：1将本地的文件内容导入到hive中，2:将HDFS系统中的文件导入到hive表中，3：从别的表中查询出数据导入到表中

小鱼人儿·2017-08-02 20:45

实例详解Spring Data JPA的使用

什么是SpringDataJPASpringData项目的目的是为了简化构建基于Spring框架应用的数据访问计数,包括非关系数据库、Map-Reduce框架、云数据服务等等;另外也包含对关系数据库的访问支持

l1357852347·2017-06-25 16:14

Hive本地模式

一、原理本地运行map-reduce作业。这对于在小型数据集上运行查询非常有用-在这种情况下，本地模式的执行通常比向大型集群提交作业要快得多。从HDFS透明地访问数据。

lishengping_max·2017-06-09 15:13

Hive——巧用transform处理复杂的字符串问题

相比于Map-Reduce，Hive对数据的处理相对简单，但是Hive本身提供的函数，对于处理复杂的字符串问题，就显得不是很方便，此时，可以借助transform，引入外界的Python程序对字符串进行处理

google19890102·2017-05-25 14:00

Hive简易教程 - 数据分析

Hive是一个HDFS上的sql执行引擎，它将sql语句转化为Hadoop上的map-reduce任务来执行。

八刀一闪·2017-05-16 22:32

分布式sparkSQL引擎应用：从远程通过thriftServer连接spark集群处理hive中的数据

实现原理：客户端(java程序)与thriftServer连接，thriftServer再代理客户端转换成spark的操作流程，再加载hive的数据到spark的worker节点，并运行Map-Reduce

Tony_仔·2017-05-02 14:10

python 实现周志华机器学习书中 k-means 算法

hello，all上节采用python实现了决策树，本节使用python实现k-means算法，后一节将会采用map-reduce实现k-means算法算法程序如下：算法代码如下：#coding=utf

cqychen·2017-05-02 00:00

hadoop1.0 和hadoop2.0 任务处理架构比较

Hadoop1.0从上图中可以清楚的看出原MapReduce程序的流程及设计思路：首先用户程序(JobClient)提交了一个job，job的信息会发送到JobTracker中，JobTracker是Map-reduce

stuming_zeng·2017-03-13 17:00

利用Python搭建的简易排序搜索引擎

首先来介绍一下PageRank网页排序算法（注：转自PageRank算法简介及Map-Reduce实现，详情点击链接）：PageRank对网页排名的算法，曾是Google发家致富的法宝。

chenjia0831·2017-02-16 00:05

ES中的MR

文章记录一下在es2.2.0版本中使用ScriptedMetricAggregation（也就是牛X的map-reduce）的方法。

chenmingang·2017-02-09 21:35

SpringData 作用简介

pringData项目的目的是为了简化构建基于Spring框架应用的数据访问计数，包括非关系数据库、Map-Reduce框架、云数据服务等等；另外也包含对关系数据库的访问支持。

chuck_kui·2017-02-05 08:10

MapReduce 过程简单介绍

1、MapReduce中数据流动（1）最简单的过程：map-reduce（2）定制了partitioner以将map的结果送往指定reducer的过程：map-partition-reduce（3）增加了在本地先进性一次

Phoenixul·2016-12-21 23:54

hadoop2 YARN/Mv2中 ApplicationMaster相关问题及介绍

ApplicationMaster是一个框架特殊的库，对于Map-Reduce计算模型而言有它自己的ApplicationMaster实现，对于其他的想要运行在yarn上的计算模型而言，必须得实现针对该计算模型的

Beeman_xia·2016-12-08 11:51

could't create native thread的问题跟踪

unabletocreatenewnativethread设置了Xss参数，见http://zouqingyun.blog.51cto.com/782246/1879975nodeManager仍然出现该异常，同时map-reduce

zouqingyun·2016-12-06 14:19

URLSession 之map-reduce操作

importPlaygroundSupportPlaygroundPage.current.needsIndefiniteExecution=truefuncdebug(_t:Any?...,function:String=#function,line:Int=#line,file:String=#file){print(t,(fileasNSString).lastPathComponent,f

穿靴子的阿拉丁·2016-11-22 12:08

Hadoop、HBase、Hive、Spark分布式系统架构

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用户分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hbase是分布式kv系统，看似互不相关的他们却都是基于相同的

0o失魂鱼o0·2016-10-31 22:17

Intellij idea开发Hadoop MapReduce程序

apache/hadoop/common/二、打开Idea新建一个java项目三、项目配置File----ProjectStructure1.SDK的配置2.加入Hadoop的jar包依赖3.打包配置4.开发map-reduce

thinkhui·2016-10-25 10:22

MapReduce 原理与 Python 实践

MapReduce原理与Python实践1.MapReduce原理以下是个人在MongoDB和Redis实际应用中总结的Map-Reduce的理解Hadoop的MapReduce是基于Google-MapReduce

kyrin·2016-10-12 23:00

一文读懂hadoop、hbase、hive、spark分布式系统架构

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用于分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hbase是分布式kv系统，看似互不相关的他们却都是基于相同的

小飞侠-2·2016-09-30 15:01

一文读懂hadoop、hbase、hive、spark分布式系统架构

机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统，hadoop用于分布式存储和map-reduce计算，spark用于分布式机器学习，hive是分布式数据库，hbase是分布式kv系统，看似互不相关的他们却都是基于相同的

小飞侠-2·2016-09-30 15:00

大数据学习(二)：Hadoop源码分析

概述本文主要从一次完整的Map-Reduce作业提交运行入手分析这个过程中涉及到的Hadoop源码架构，此外本文基于的Hadoop版本是2.6.4总体流程上图给出了Hadoop在运行一次Map-Reduce

zhangchen2449·2016-09-24 11:00

[Java 8] (10) 使用Lambda完成函数组合，Map-Reduce以及并行化

CallRock·2016-09-18 10:13

Hive vs HBase

HQL是一种类SQL语言，最终转换为Map-Reduce任务。Hive本身不存储数据，数据都存储于HDFS上，因此Hive上面的表都是逻辑表，只是表的元数据。

post_yuan·2016-08-24 09:10

深入浅出学Spring Data JPA

其主要目标是使得对数据的访问变得方便快捷，并支持map-reduce框架和云计算数据服务。

dragonpeng2008·2016-08-22 09:49

spring data jpa使用详解

其主要目标是使得对数据的访问变得方便快捷，并支持map-reduce框架和云计算数据服务。SpringData包含多个子项目：Commons-提供共享的基础框架，适合各个子项目使用，支

牛奋lch·2016-07-27 09:40

Hadoop之Map-Reduce

应用场景高容错高扩展编程简单适合大数据离线批量计算处理（注意，MB级别的数据直接用Java处理，PB级别以上的才有必要使用mapreduce）有延迟（需要实时处理数据用Hbase或storm）原理图imagemap任务处理读取输入文件内容，解析成key,value对。对输入文件的每一行，解析成key,value对。每一个键值对调用一次map函数写自己的逻辑，处理输入的key,value，转成新的k

王中阳·2016-07-18 17:33

Spring Data 系列之JPA（一）

其主要目标是使得数据库的访问变得方便快捷，并支持map-reduce框架和云计算数据服务。对于拥有海量数据的项目，可以用SpringData来简化项目的开发。

守望麦香花开·2016-07-15 10:00

hadoop源码分析(2)：Map-Reduce的过程解析

一、客户端Map-Reduce的过程首先是由客户端提交一个任务开始的。

popsuper1982·2016-06-14 20:00

ssh系列：Spring JPA

其主要目标是使得对数据的访问变得方便快捷，并支持map-reduce框架和云计算数据服务。2.SpringDateJPA开发步聚：2.1.声明持久层的接口，该接口继承Repository。

gaosililn·2016-06-12 14:00

学习MongoDB 十： MongoDB聚合（Map-Reduce）（二）

MapReduce要实现两个函数：Map和Reduce。Map函数调用emit(key,value)遍历一个或多个集合中所有的记录,进行分组（groupby），然后将key与value传给Reduce函数进行处理，输出结果。（1）MapReduce使用自定义JavaScript函数执行map和reduce操作，所以是基于js引擎，单线程执行，效率不高，比Aggregation复杂，适合用做后台统计

zhengcongyi·2016-05-21 17:36

关于 Hadoop 的那些事

本文首先介绍Hadoop的架构和原理，侧重于Map-Reduce计算部分。再以简单示例带大家入门。

xjtuhit·2016-05-13 17:04

地铁译：Spark for python developers --- 搭建Spark虚拟环境2

理解SparkHadoop随着数据的增长水平扩展，可以运行在普通的硬件上,所以是低成本的.数据密集型应用利用可扩展的分布处理框架在大规模商业集群上分析PB级的数据.Hadoop是第一个map-reduce

wireless_com·2016-05-09 20:00

极简代码（三）—— 向量加法

Python中的Map-Reduce函数式编程的利器。Python中的map函数第一个参数接受函数对象，其他参数可以任意长度，作为可变参数。

lanchunhui·2016-04-28 23:00

词频统计Map-Reduce过程

hdfs原始数据：helloahellobmap阶段：输入数据：key-value对，key为偏移量(一个字符一个偏移量，换行也算一个)输出数据：context上下文，存储输出的数据（伪代码如下）map(key,value,context){Stringline=value;//helloaString[]words=value.split("\t");for(Stringword:words){

Just_for_fun_208·2016-04-28 10:50

MapReduce源码分析之InputFormat

InputFormat描述了一个Map-Reduce作业中的输入规范。

lipeng_bigdata·2016-04-19 19:00

Hadoop Mapreduce分区、分组、二次排序过程详解

1、MapReduce中数据流动（1）最简单的过程： map-reduce （2）定制了partitioner以将map的结果送往指定reducer的过程：map-partition-reduce

张欢19933·2016-04-07 19:00

Map-Reduce核心之shuffle过程

重点内容！！！需要熟记：80%-90%会问一个切片split对应一个mapper，mapper将数据写到环形缓冲区，这个环形缓冲区默认是100M，当它达到80%阀值，它会将数据溢写到磁盘。溢写并不是简单的溢写，而是先进行分区，然后对每个分区进行合并，最后它会将数据合并成一个大文件，相同分区号中的数据进行合并，合并完成之后每个分区里面的数据再按照key2进行合并。计算完成之后，向它的上级领导(tas

u014726937·2016-04-05 15:00

JPA

其主要目标是使得对数据的访问变得方便快捷，并支持map-reduce框架和云计算数据服务。

yangxujia·2016-03-28 18:00

复杂事件处理技术概览（一）

不像map-reduce模型，google的论文非常清楚的描述了它的场景；或者disruptor框架，原作者清晰地解释了它为什么会快。

Binhua Liu·2016-03-27 12:00

Hadoop的Mapreduce运行原理详解

[-]Map-Reduce的逻辑过程Map-Reduce数据流dataflow任务提交任务初始化任务分配任务执行 Map的过程 Reduce的过程任务结束我们通过下面这个天气数据处理的例子来说明

clerk0324·2016-03-23 16:00

三、 Hive 逻辑算子及其生成(中)

如在Map-Reduce框架中，table数据的读取由Hadoop提供的InputFormat类完成。TS内部实现仅仅将从底层计算引擎输入的数据输出给子节点处理。2、SEL算子的实现SE

jiayuanv_127·2016-03-20 14:03

MapReduce性能调优记录

MapReduce原理要知道怎么对MapReduce作业进行调优前提条件是需要对Map-Reduce的过程了然于胸。

qq1010885678·2016-03-18 13:00

SQL到MongoDB的映射表（术语概率、CURD、aggregate聚合、Map-Reduce）

一、SQL和MongoDB的术语概率区分SQL术语/概念MongoDB术语/概念database（数据库）database（数据库）table（表）collection（集合）row（行）documentorbsondocument（文档/bson文档）column（列）field（字段）index（索引）index（索引）tablejoin（表连接）embeddeddocumentsandlin

Dreyer·2016-03-12 21:00

hadoop介绍

Hadoophadoop官网：http://hadoop.apache.org/ Hadoop的思想之源：Google面对的数据和计算难题大量的网页怎么存储搜索算法带给我们的关键技术和思想 GFS Map-Reduce

qq_25371579·2016-03-04 22:00

PageRank算法简介及Map-Reduce实现

一、什么是pagerankPageRank的Page可是认为是网页，表示网页排名，也可以认为是LarryPage(google产品经理)，因为他是这个算法的发明者之一，还是googleCEO（^_^）。PageRank算法计算每一个网页的PageRank值，然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者，上网者首先随机选择一个网页打开，然后在这个网页上呆了几分钟后，跳转

Sean-x·2016-02-24 11:00

推荐频道

map-reduce

Hadoop Yarn初探

开源大数据查询分析引擎现状

开源大数据查询分析引擎现状

【Java面试知识】Java6-Java7-Java8各个版本的新特性

Hadoop、HBase、Hive、Spark分布式系统架构

hive数据表清洗

实例详解Spring Data JPA的使用

Hive本地模式

Hive——巧用transform处理复杂的字符串问题

Hive简易教程 - 数据分析

分布式sparkSQL引擎应用：从远程通过thriftServer连接spark集群处理hive中的数据

python 实现周志华 机器学习书中 k-means 算法

hadoop1.0 和hadoop2.0 任务处理架构比较

利用Python搭建的简易排序搜索引擎

ES中的MR

SpringData 作用简介

MapReduce 过程简单介绍

hadoop2 YARN/Mv2中 ApplicationMaster相关问题及介绍

could't create native thread的问题跟踪

URLSession 之map-reduce操作

Hadoop、HBase、Hive、Spark分布式系统架构

Intellij idea开发Hadoop MapReduce程序

MapReduce 原理与 Python 实践

一文读懂hadoop、hbase、hive、spark分布式系统架构

一文读懂hadoop、hbase、hive、spark分布式系统架构

大数据学习(二)：Hadoop源码分析

[Java 8] (10) 使用Lambda完成函数组合，Map-Reduce以及并行化

Hive vs HBase

深入浅出学Spring Data JPA

spring data jpa使用详解

Hadoop之Map-Reduce

Spring Data 系列之JPA（一）

hadoop源码分析(2)：Map-Reduce的过程解析

ssh系列：Spring JPA

学习MongoDB 十： MongoDB聚合（Map-Reduce）（二）

关于 Hadoop 的那些事

地铁译：Spark for python developers --- 搭建Spark虚拟环境2

极简代码（三）—— 向量加法

词频统计Map-Reduce过程

MapReduce源码分析之InputFormat

Hadoop Mapreduce分区、分组、二次排序过程详解

Map-Reduce核心之shuffle过程

JPA

复杂事件处理技术概览（一）

Hadoop的Mapreduce运行原理详解

三、 Hive 逻辑算子及其生成(中)

MapReduce性能调优记录

SQL到MongoDB的映射表（术语概率、CURD、aggregate聚合、Map-Reduce）

hadoop介绍

PageRank算法简介及Map-Reduce实现

python 实现周志华机器学习书中 k-means 算法