E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
mapreduce运行日志
MapReduce
论文读书笔记
[
MapReduce
:SimplifiedDataProcessingonLargeClusters](https://static.googleusercontent.com/media/research.google.com
svenke
·
2023-03-22 06:32
日志相关
日志的种类一般来说,日志有这几种:部署日志、启动日志以及
运行日志
。部署日志我们的应用服务要部署到服务器的时候,会有一系列的打包,编译,上传等过程,这个过程中产生的日志我
糖豆的大魔王
·
2023-03-22 02:10
java大数据之spark
Spark基于
mapreduce
算法模式实现的分布式计算,拥有Hadoop
MapReduce
所具有的优点;但不同于Hadoop
MapReduce
的是Job中间输出和结果可以保存在内存中,从而不再需要读写
这一刻_776b
·
2023-03-22 02:17
大数据综合笔记
mapreduce
分析参考文章Hadoop-2.4.1源码分析--
MapReduce
作业(job)提交源码跟踪Hadoop-2.4.1源码分析--
MapReduce
作业切片(Split)过程hadoop
等酒香醇V
·
2023-03-21 19:53
从产品的角度看数仓
技术的角度:很热的词:用Hadoop做底层,
MapReduce
来做存储,还有一些很技术的词数据抽取工具:kafka、flume、syn
泛舟垂钓
·
2023-03-20 11:21
大数据技术之Hadoop(Yarn)
第1章Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而
MapReduce
等运算程序则相当于运行于操作系统之上的应用程序。
DK_521
·
2023-03-20 08:13
大数据
hadoop
大数据
分布式
大数据技术之Hive
第1章Hive基本概念1.1Hive1.1.1Hive的产生背景在那一年的大数据开源社区,我们有了HDFS来存储海量数据、
MapReduce
来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度
DK_521
·
2023-03-20 08:43
大数据
大数据
hive
hadoop
观向数据:想从事大数据行业?大数据行业最令人垂涎的大数据职位
大数据基础阶段需掌握的技术有:Linux、Docker、KVM、MySQL基础、Oracle基础、MongoDB、redis以及hadoop
mapreduce
hdfsyarn等。第二个数据存储层,比如
智海观向
·
2023-03-20 05:27
Hadoop分布式计算架构流程分析-Hadoop商业环境实战
1.Hadoop分布式计算架构流程分析1)在
MapReduce
程序读取文件的输入目录上存放相应的文件。2)客户端程序在submit()方法执行前,获取待处理的数据信息,然后根据集群中参数的配置形成一
开心技术社区
·
2023-03-20 03:29
从源码角度分析
MapReduce
运作_三.Reduce阶段
一.目录本系列文章对Hadoop知识进行复盘。分为四个阶段,Copy阶段,Merge阶段,Sort阶段,Reduce阶段。如下为ReduceTask类的runNewReducer方法privatevoidrunNewReducer(JobConfjob,finalTaskUmbilicalProtocolumbilical,finalTaskReporterreporter,RawKeyValue
scott_alpha
·
2023-03-19 15:37
笔记presto、Druid、kylin和flink的应用场景
基于内存,不使用
mapreduce
,能够连接多个数据源,跨数据源表查询适合场景:适合如count,avg聚合运算,边计算边清内存,支持GB到PB,主要用来处理秒级场景。
ask_baidu
·
2023-03-19 11:13
kylin
flink
大数据
hadoop
高效性:在
MapReduce
的思想下,Hadoop的并行工作的,比加快任务处理速度。高容错性:能够自动将失败的任务重新分配。Hadoop组成image.pngHDFS架构概述NameNode(nn):
Demons_LLL
·
2023-03-19 08:05
hadoop的YARN、
MapReduce
组件伪分布式搭建
1、YARN配置$cd/opt/software/hadoop-2.8.1/etc/hadoop$viyarn-site.xml2、
MapReduce
配置$cpmapred-site.xml.templatemapred-site.xml
刘子栋
·
2023-03-18 23:30
浅谈Hadoop
Hadoop生态系统是指以大数据分布式存储(HDFS),分布式计算(
MapReduce
)和资源调度(YARN)为基础联合其他各种组件在内的一整套软件。Hadoop生态
夜丨雨
·
2023-03-18 21:10
Spark Shuffle
1HadoopShuffle过程在
MapReduce
框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段需要跨节点去拉取其它节点上的
博弈史密斯
·
2023-03-18 16:42
MapReduce
提交job处理过程及yarn框架机制
处理过程:1.mp程序产生RunJar进程向resourcemanager申请执行一个job2.resourcemanager返回job相关资源提交的路径staging-dir和为本job生成的jobID3.mp程序向HDFS提交资源到对于的staging-dir路径下4.mp程序向resourcemanager反馈提交结果5.resourcemanager将job加入任务队列中,并指定此job分
MOOJ
·
2023-03-18 14:43
Hadoop3.x集群安装教程
Hadoop
MapReduce
,分布式计算
文景大大
·
2023-03-18 10:11
大数据Hadoop原理介绍+安装+实战操作(HDFS+YARN+
MapReduce
)
一、Hadoop概述Hadoop是Apache软件基金会下一个开源分布式计算平台,以HDFS(HadoopDistributedFileSystem)、
MapReduce
(Hadoop2.0加入了YARN
大数据老司机
·
2023-03-17 20:38
大数据学习之Hadoop——08
Mapreduce
执行过程详解
://blog.csdn.net/bingque6535本文转载于:https://blog.csdn.net/yangshaojun1992/article/details/85003668一、分析
MapReduce
Jiang锋时刻
·
2023-03-17 09:42
hadoop开发应用
文件夹下#hadoopfs-putdat0102.dat/input/二、查询指定字符串出现次数1.编写代码如果忘记了,可以查看:$HADOOP_HOME/share/doc/hadoop/hadoop-
mapreduce
-client
hello高world
·
2023-03-17 06:37
Java 海量数据处理方法总结
Java程序员面试宝典笔记Hash法Bit-map法Bloomfilter法数据库优化法倒排索引法外排序法Trie树堆双层桶法
MapReduce
法Hash法散列hash函数尽可能简单函数的值域必须在散列表的范围内尽可能减少冲突
bananafish
·
2023-03-17 02:50
MIT 6.824 Day2
w1
MapReduce
MapReduce
Lab1Part1:Map/Reduceinputandoutput1.完成sequentialimplementation1.1functionthatdividesuptheoutputofamaptask
非典型IT
·
2023-03-16 22:35
spark-shuffle原理&调优
spark-shuffleShuffle就是对数据进行重组,由于分布式计算的特性和要求,在实现细节上更加繁琐和复杂在
MapReduce
框架,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过
LancerLin_LX
·
2023-03-16 21:25
Hadoop介绍——HA与联邦
Hadoop1.0中HDFS和
MapReduce
在高可用、扩展性等方面存在问题:–HDFS存在的问题•NameNode单点故障,难以应用于在线场景HA•NameNode压力过大,且内存受限,影扩展性F–
MapReduce
南宫萧言
·
2023-03-16 20:45
【读书笔记】《大数据技术体系详解:原理、架构与实践》01~02.概述和数据收集
资源管理与服务协调、计算引擎、数据分析和数据可视化大数据架构的6层Hadoop与Spark开源大数据技术栈:Hadoop与Spark开源大数据技术栈大数据架构:LambdaArchitectureHadoop
MapReduce
粥一样温柔
·
2023-03-16 16:05
[转]Java Fork/Join 框架
这种思想和
MapReduce
很像(input-->split-->map-->reduce-->output)主要有两步:第一、任务切分;第二、结果合并它的模型大致是这样的:线程池中的每个线程都有自己的工作队列
fansys
·
2023-03-16 10:23
Spark 从零到开发(一)初识
Spark是
MapReduce
的替代方案,而且兼容HDFS、Hive,可融入Hadoop的生态系统,以弥补
MapReduce
的不足。1.特性参考:http://spa
FantJ
·
2023-03-16 10:04
声明式编程和命令式编程
declarative(声明式的)imperative(命令式的)描述的是一种编程理念声明式倾向于描述结论命令式倾向于描述过程声明式的更加结构化一些,尽量写声明式的代码声明式主要需要的函数
mapreduce
lixiaoshuai
·
2023-03-16 06:36
Hadoop伪分布式环境配置与启动
1.环境准备在一台linux机器上,安装好hadoop运行环境,安装方式请查看:HADOOP运行环境搭建2.启动HDFS并运行
MapReduce
程序2.1.配置集群配置:hadoop-env.shLinux
代良晨_Lancer
·
2023-03-16 03:25
大数据学习之Hadoop——05
MapReduce
概念(感觉没写什么, 后面再补充)
欢迎关注我的CSDN:https://blog.csdn.net/bingque6535一.基本概念1.为什么需要
MapReduce
海量数据在单机上处理因为硬件资源限制,无法胜任而一旦将单机版程序扩展到集群来分布式运行
Jiang锋时刻
·
2023-03-15 17:37
【Hive】MR 工作流程(数据流转)
Hive定义了一个类似于SQL的查询语言:HQL,能够将用户编写的QL转化为相应的
Mapreduce
程序基于Hadoop执行。
CLOcean
·
2023-03-15 16:59
jupyter笔记本_如何为Jupyter笔记本电脑设置PySpark
由于内存中的操作,它速度很快(比传统的Hadoop
MapReduce
快100倍)。通过诸如MLlib和GraphX的补充软件包,它与机器学习和图形分析世界完美地集成在一起。
cumj63710
·
2023-03-15 12:05
编程语言
大数据
python
java
人工智能
怎样高效使用spark?
[toc]背景知识:Spark与Hadoop差异Spark是在借鉴了
MapReduce
之上发展而来的,继承了其分布式并行计算的优点并改进了
MapReduce
明显的缺陷,具体如下:基于内存运算,DAG减少
柠樂helen
·
2023-03-15 09:01
Hive SQL mapper数调优
众所周知,Hive会将SQL翻译转换成对应的
MAPREDUCE
任务,通过执行
MAPREDUCE
任务来获得最终想要的结果(执行引擎限定为mr时)。
一米的光年
·
2023-03-15 06:55
Hadoop 之
MapReduce
作业初体验
简单的
MapReduce
作业,需要一个map函数,一个reduce函数和一些用来运行作业的代码//Mapperimportjava.io.IOException;importorg.apache.hadoop.io.IntWritable
Grits
·
2023-03-15 04:21
Flink-双十一神话的基石
单日数据处理量达到970PB;支撑起这个双十一狂欢神话是阿里强悍的数据云上系统,这其中阿里的数据计算云引擎Blink功不可没,而Blink正是由Apache的顶级项目Flink经过"阿里化“而来;四代计算引擎:
MapReduce
SUSUR_28f6
·
2023-03-15 02:38
JUC 高并发编程(10):Fork/join 架构
这种思想和
MapReduce
很像(input-->split-->map-->reduce-->output)主要有两步:第一、任务切分;第二、结果合并它的模型大致是这样的:线程池中的每个线程都有自己的工作队列
Mr_tianyanxiaobai
·
2023-03-15 01:25
JUC
高并发编程
java基础
Java复习
多线程
Flink流式计算里的时间和watermark机制
一流计算对“批计算”的优势:“流计算”是相对于“批计算”来的,
MapReduce
,Spark底层的计算方式是目前主流的“批计算”实现方式,很多公司在使用这种方式做大数据处理。
flywind800
·
2023-03-14 17:31
1-大数据技术概览
数据产生接入过来,存储在分布式的集群当中,然后再通过
MapReduce
(或者替换其他的计算框架)计算,存储以及计算都是一些分布式架构2.基于大数据的实时流处理实时流
小帅明3号
·
2023-03-14 13:35
2、大数据技术架构:核心原理与应用实践(上)
1.了解了大数据的前世今生谷歌的三篇论文,开启了大数据时代,俗称三架马车,三架马车分别是HDFS存储、
MapReduce
大数据计算、Yarn资源调度。如图1所示为大数据系统全栈技术组件图。
朗如行玉山_5b30
·
2023-03-14 11:42
推荐系统从入门到入门(3)——基于MapReuduce与Spark的分布式推荐系统构建
目录系列文章梗概系列文章目录三、
MapReduce
1.
MapReduce
详解1.1
MapReduce
简介1.2
MapReduce
背景1.3
MapReduce
全流程详解1.3.1
MapReduce
原理1.3.2
MapReduce
@李忆如
·
2023-03-14 10:03
机器学习实践
spark
大数据
分布式
hadoop
算法
MapReduce
之简单排序类应用
应用需求通常在数据文件中包含大量的记录,每条记录中包含了这个事物的某个属性,需要根据这个属性对数据进行排序。解决方案map函数对每条记录的事物和属性按照特定的规则进行计算,获得属性值,并以属性为key,value为原数据值。reduce函数对同组的排序值进行排序后按顺序输出。应用案例对输入文件中数据进行排序。输入文件中的每行内容均为一个数字,即一个数据。要求在输出中每行有两个间隔的数字,其中,第一
跟着大数据和AI去旅行
·
2023-03-13 14:30
【HBase】HBase 协处理器
[TOC]一、协处理器的产生HBase和
MapReduce
有很高的集成,可以使用MR对存储在HBase中的数据进行分布式计算,但是:有些情况,例如简单的加法计算或者聚合操作(求和、计数等),如果能够将这些计算推送到
w1992wishes
·
2023-03-13 11:30
大数据|Hadoop系统
目录Hadoop介绍Hadoop优点Hadoop的体系结构HDFS的体系结构
MapReduce
的体系结构HDFS和
MapReduce
的协同作用Hadoop与分布式开发
MapReduce
计算模型Hadoop
啦啦右一
·
2023-03-13 07:40
大数据管理与分析
大数据
hadoop
hdfs
mapreduce
Hive 跑
mapReduce
任务时候卡住的两种情况
情况1:Inordertochangetheaverageloadforareducer(inbytes):sethive.exec.reducers.bytes.per.reducer=Inordertolimitthemaximumnumberofreducers:sethive.exec.reducers.max=Inordertosetaconstantnumberofreducers:s
Kris林
·
2023-03-13 03:20
Hive 入门
imageHive处理的数据存储在HDFSHive分析数据底层的实现是
MapReduce
执行程序运行在Yarn上1.2Hive的优缺点优点:操作接口采用类SQL语法,提供快速开发的能力避免
djm猿
·
2023-03-13 01:30
Hadoop之
MapReduce
学习总结
优点
MapReduce
易于编程,仅仅实现一些简单的接口,就可以完成一个分布式程序。并且部署到廉价的服务器上。
GetIdea
·
2023-03-12 18:29
大数据架构
MapReduce
我的丁一之旅
·
2023-03-12 01:26
Hadoop学习之路(六)
MapReduce
的核心运行原理
1.
MapReduce
流程图1.1从WordCount讲起word_count.png套路图.png
shine_rainbow
·
2023-03-11 09:52
Spark入门及环境搭建
Spark借鉴了
MapReduce
的思想发展而来,保留了其分布式并行计算的优点,
文景大大
·
2023-03-11 09:12
上一页
53
54
55
56
57
58
59
60
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他