E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
mapreduce运行日志
基于
MapReduce
对hadoop进行调优
一、Map阶段
mapreduce
.task.io.sort.mb增大环形缓冲区的大小。
cluse_ld
·
2022-08-10 11:07
MapReduce
hadoop
mapreduce
大数据
Flink on Yarn 部署Session-Cluster和Per-Job-Cluster
这种模式的好处是可以充分利用集群资源,提高集群机器的利用率,并且只需要1套Hadoop集群,就可以执行
MapReduce
、Spark和Flink任务,操作非常方便,运维方面也很轻松。FlinkonYa
like that elf
·
2022-08-09 10:00
Flink
flink
yarn
Pre-Job-Cluster
Session-Cluster
gozero
mapreduce
源码分析和简单实现
Mapreduce
Mapreduce
是一种分布式并行编程模型,在一个函数或者一次接口调用中会出现大量的计算或者大量的调用第三方接口的情况。
·
2022-08-03 23:13
gomapreduce源码分析
【Hadoop】
MapReduce
原理
Hadoop
MapReduce
:基于YARN的系统,用于并行处理大型数据集。之前已经学习过YARN:Yarn
和风与影
·
2022-08-02 09:04
Hadoop
大数据
hadoop
mapreduce
大数据
Hadoop原理之——HDFS原理
Hadoop3个核心组件:分布式文件系统:Hdfs——实现将文件分布式存储在很多的服务器上(hdfs是一个基于Linux本地文件系统上的文件系统)分布式运算编程框架:
Mapreduce
——实现在很多机器上分布式并行运算分布式资源调度平台
三级骑士
·
2022-08-02 09:33
HDFS
hadoop
Hadoop学习笔记(1)
1.2Hadoop发展历史1.3Hadoop三大发行版本(了解)1.4Hadoop的优势1.5Hadoop1.x、2.x、3.x区别2、Hadoop组成2.1HDFS架构概述2.2YARN架构概述2.3
MapReduce
默萧756
·
2022-08-02 09:02
hadoop
学习
大数据
分布式系列分布式计算框架Hadoop核心组件概述
Hadoop作为成熟的分布式计算框架在大数据生态领域已经使用多年,本文简要介绍Hadoop的核心组件
MapReduce
、YARN和HDFS,以加深了解。
solihawk
·
2022-08-02 09:32
分布式系列
hadoop
hadoop
分布式
mapreduce
Hadoop HDFS 运行原理
在大数据系统中主要为各类分布式的运算框架(如:
mapreduce
、spark等)提供数据存储服务。2.HDFS的概念及特性首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录
harveybd
·
2022-08-02 09:00
Hadoop
hadoop
hdfs
大数据
hdfs-读写
【Hadoop】HDFS 原理
Hadoop
MapReduce
:基于YARN的系统,用于并行处理大型数据集。之前已经学习过YARN和MapR
和风与影
·
2022-08-02 09:30
大数据
Hadoop
hadoop
hdfs
大数据
数据湖:流计算处理框架Flink概述
系列专题:数据湖系列文章大数据计算引擎分为离线计算和实时计算,离线计算就是我们通常说的批计算,代表是Hadoop
MapReduce
、Hive等大数据技术。
YoungerChina
·
2022-08-02 09:29
数据湖
flink
大数据
数据湖
流批一体计算
Spark: Cluster Computing with Working Sets
摘要
MapReduce
及其各种
wzyy
·
2022-08-01 14:00
Hadoop——Hadoop优势、组成、大数据技术生态体系、系统框架图
文章目录1.4Hadoop优势(4高)1.5Hadoop组成(面试重点)1.5.1HDFS架构概述1.5.2YARN架构概述1.5.3
MapReduce
架构概述1.5.4HDFS、YARN、
MapReduce
胖虎不秃头
·
2022-08-01 10:29
Hadoop
大数据
hadoop
mapreduce
大数据(4):
MapReduce
上一篇《大数据(3):HDFS》分析了Hadoop的分布式存储框架HDFS,这一篇将分析Hadoop的分布式并行计算框架——
MapReduce
。〇、起源
MapReduce
源于Google一篇论文。
小道萧兮
·
2022-07-31 21:12
mySQL和Hive的区别
不支持数据的改写和添加,是在加载的时候就已经确定好了;数据库可以CRUD;3、索引:Hive无索引,每次扫描所有数据,底层是MR,并行计算,适用于大数据量;MySQL有索引,适合在线查询数据;4、执行:Hive底层是
MapReduce
m0_67391401
·
2022-07-30 11:22
面试
学习路线
阿里巴巴
android
前端
后端
【SQL】SQL的基础语法
数仓建模过程中用到Hive,其实也是通过写类SQL的语句,通过底层的引擎将其翻译成
MapReduce
程序,减少了程序员的开发量。除此之外,Spark、Flink等计算框架也支持使用SQL来实现查询。
和风与影
·
2022-07-29 19:51
大数据
SQL
sql
mysql
Hadoop总结
目录大数据概述Hadoop大数据开发平台资源管理YARN分布式文件系统HDFS非关系型数据库NOSQL分布式数据库HBASE批处理和
MapReduce
数据仓库查询分析和Hive基于内存计算的Spark流计算和
m0_67403240
·
2022-07-29 19:09
面试
学习路线
阿里巴巴
android
前端
后端
spark的基本工作原理和RDD
1.spark的基本工作原理1>迭代式计算:Spark与
MapReduce
最大的不用在于其迭代式计算模型:1)
MapReduce
,分为两个阶段,map和reduce,两个阶段完成,就结束了。
VectorYang
·
2022-07-29 09:48
spark
spark
图文详解
MapReduce
工作流程
本专栏目录结构和参考文献请见1000个问题搞定大数据技术体系正文
MapReduce
编程模型
MapReduce
编程模型开发简单且功能强大,专门为并行处理大规模数据量而设计,接下来,通过一张图来描述
MapReduce
Shockang
·
2022-07-29 09:46
大数据技术体系
大数据
mapreduce
Hadoop总结
目录大数据概述Hadoop大数据开发平台资源管理YARN分布式文件系统HDFS非关系型数据库NOSQL分布式数据库HBASE批处理和
MapReduce
数据仓库查询分析和Hive基于内存计算的Spark流计算和
m0_54853420
·
2022-07-28 11:51
面试
学习路线
阿里巴巴
android
前端
后端
Hadoop-
MapReduce
文章目录一、
MapReduce
概述1.
MapReduce
定义2.
MapReduce
优缺点1)优点2)缺点3.核心思想4.
MapReduce
进程5.常用数据序列化类型6.
MapReduce
编程规范1)Mapper2
一名小码农
·
2022-07-26 16:42
大数据
hadoop
mapreduce
big
data
Hive详解——基本操作归纳
文章目录一、Hive基本概念1.什么是Hive1)hive简介2)Hive本质:将HQL转化成
MapReduce
程序2.Hive的优缺点1)优点2)缺点3.Hive架构原理4.Hive和数据库比较1)查询语言
一名小码农
·
2022-07-26 16:42
大数据
hadoop
hive
大数据
mysql
hql
HBase笔记-体系结构梳理
文章目录Hbase发展历史HBase架构原理安装部署shell常用命令小结Hbase发展历史要说清楚HBase的来龙去脉,还得从Google当年风靡一时的“三篇论文”——GFS、
MapReduce
、BigTable
freesOcean
·
2022-07-26 10:53
大数据
hbase
mapreduce
hadoop
Still have 1 requests outstanding when connection from slaveX/X.X.X.X:33202 is closed
ERRORTransportResponseHandler:Stillhave1requestsoutstandingwhenconnectionfromisclosed我加了如下的参数spark.driver.memory=4gspark.hadoop.
mapreduce
.input.fileinputformat.split.maxsize
格格巫 MMQ!!
·
2022-07-25 16:30
hadoop
liunx
zooper
spark
scala
大数据
hadoop——day5、6、7、8、9、10、11、12、13(
MapReduce
)
MapReduce
1.概述1)定义:
MapReduce
是一个分布式运算程序的编程框架核心功能:将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。
大概是犬青
·
2022-07-25 12:24
Hadoop
hadoop
idea
hadoop yarn应用程序开发要点
yarn应用程序比如
MapReduce
,spark等都是运行于yarn资源管理器上面的应用程序,这些运行于yarn上的应用程序的开发都是类似的,以下介绍下开发运行于yarn上面的自定义应用程序的要点:一客户端的开发客户端的开发的主要目的是和
lixia0417mul2
·
2022-07-25 11:18
yarn
hadoop
大数据
分布式
yarn
推荐系统基础架构以及项目介绍
系统学习《推荐系统》--基础架构一、通用推荐系统框架数据收集ETL
MapReduce
SparkFlink数据存储HiveHBaseMySQLRedis持久化存储收集数据通常按照数据的冷热,结构化和非结构化等特征分布存储算法召回热门协同过滤内容画像替补将海量的数据集
迪赛尔
·
2022-07-22 07:05
推荐系统
人工智能
spark
数据分析
python
flink
Hadoop 3.x|第七天|
MapReduce
概述
目录
MapReduce
定义优点缺点核心思想(概述,以WordCount为例)进程阅读官方WordCount源码下载并反编译序列化类型
MapReduce
编程概述Mapper阶段Reducer阶段Driver
z754916067
·
2022-07-21 18:53
数据仓库
leetcode
redis 哨兵实现高可用以及哨兵常见问题处理
redis6/vimsentinel.conf#绑定授权IPbind0.0.0.0#sentinel监听端口port26379#开启后台运行daemonizeyes#日志等文件保存目录dir"/tmp"#将
运行日志
保存在
单车登月
·
2022-07-21 12:59
Redis
redis
Hadoop之
MapReduce
理论篇01
2019独角兽企业重金招聘Python工程师标准>>>1.Writable序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,heade
weixin_33923762
·
2022-07-21 07:58
大数据
java
python
rdd与mysql表 join_Spark 之RDD
RDD网上资料很多,这里我给罗列出来,许多的迭代算法和交互式数据挖掘工具,这些应用场景的共同点是:在不同的运行阶段或者说是计算阶段,都会重用中间结果,即一个阶段的输出会作为下一个输出,而Hadoop的
mapreduce
一把儿韭菜
·
2022-07-20 18:57
rdd与mysql表
join
spark输出rdd数据_使用Spark RDD进行快速数据处理
Hadoop
MapReduce
很好地满足了用户的批处理需求,但由于渴望开发更灵活的大数据工具来进行实时处理,催生了大数据宝贝ApacheSpark。
雯雯呀
·
2022-07-20 18:26
spark输出rdd数据
Hadoop生态之Hadoop体系架构(一)
Hadoop的框架最核心的设计就是:HDFS和
MapReduce
。HDFS为海量的数据提供了存储,而
MapReduce
则为海量的数据提供了计算。
ansap
·
2022-07-18 13:15
思普大数据技术
java大数据生态圈
hadoop
大数据
Hadoop生态圈(一)- Hadoop详解
1.2Hadoop发展简史1.2Hadoop三大发行版本1.3Hadoop优势1.4Hadoop的组成1.4.1Hadoop1.x、2.x、3.x区别1.4.2HDFS架构概述1.4.3YARN架构概述1.4.4
MapReduce
一位木带感情的码农
·
2022-07-18 13:44
Hadoop生态圈
hadoop
mapreduce
big
data
hdfs
yarn
Hadoop生态圈介绍
hadoop生态:1、hadoop的核心组件:(hdfs)分布式存储、(
mapReduce
)分布式计算、(Yarn)资源调度与任务管理、Common2、Lucene:索引检索工具包3、Nutch:开源的搜索引擎
月疯
·
2022-07-18 13:07
【hadoop】
hadoop
hdfs
big
data
【细节拉满】Hadoop课程设计项目,使用idea编写基于
MapReduce
的学生成绩分析系统(附带源码、项目文件下载地址)
目录1数据源(学生成绩.csv)2hadoop平台上传数据源3idea代码3.1工程框架3.2导入依赖3.3系统主入口(menu)3.4六个
mapreduce
3.4.1计算每门成绩的最高分、最低分、平均分
扎哇太枣糕
·
2022-07-18 08:07
课程设计
intellij-idea
mapreduce
java
hadoop
spark源码阅读总纲
这些概念或多或少都了解一些,但是对于其任务的提交,driver、application的调度与注册,资源的分配,executor的创建,job到stage再到task的切分过程,hdfs文件数据的读写操作,RDD本身的
mapreduce
Interest1_wyt
·
2022-07-17 12:11
源码系列
spark
big
data
hadoop
集群计算——Spark-Spark Core 、Spark Streaming、Spark SQL、MLlib、Spark集群管理器
Spark扩展了
MapReduce
计算模型,并且高效的支持更多的计算模式。由于速度很快,这意味着可以交互式的数据操作(否则每次操作就需要等待数分钟甚至数个小时)。
阿洋太爱大数据
·
2022-07-16 15:01
big
data
spark
big
data
大数据
apache
spark
Spark Streaming与流处理
Hadoop采用HDFS进行数据存储,采用
MapReduce
进行数据查询或分析,这就是典型的静态数据处理架构。1.2流处理而流处理则是直接对运动中的数据的处理,在接收数据时直接计算数据。
Keven He
·
2022-07-16 15:00
#
Spark
spark
big
data
scala
大数据
hadoop
Spark总结(SparkCore,SparkSQL,SparkStreaming)
hadoop是一个分布式计算开源框架,包含分布式文件系统HDFS、
MapReduce
分布式计算的软件架构和Yarn资源管理调度系统。
ambitfly
·
2022-07-16 15:58
大数据
大数据
spark
hadoop
java
数据仓库
大数据基础课第三课 spark_core、Spark_sql&Spark_streaming
2、为什么要学习spark
MapReduce
框架局限性1,Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据2,任务调度和
办公模板库 素材蛙
·
2022-07-16 15:28
大数据
教程
spark
大数据
hive入门到魔改-阶段一(hive概念&安装&初步使用)
Hive简介官网:ApacheHiveHive是一个构建在Hadoop之上的数据仓库,它可以将结构化的数据文件映射成表,并提供类SQL查询功能,用于查询的SQL语句会被转化为
MapReduce
作业,然后提交到
顶尖高手养成计划
·
2022-07-16 15:56
hive
大数据
Spark3.x入门到精通-阶段一(入门&yarn集群&java和scale双语开发)
相对于
MapReduce
的批处理计算,Spark可以带来上百倍的性能提升,因此它成为继
MapReduce
之后,最为广泛使用的分布式计算框架。
顶尖高手养成计划
·
2022-07-16 15:56
spark
大数据
Hadoop原理之——HDFS原理
Hadoop原理之——HDFS原理Hadoop3个核心组件:分布式文件系统:Hdfs——实现将文件分布式存储在很多的服务器上(hdfs是一个基于Linux本地文件系统上的文件系统)分布式运算编程框架:
Mapreduce
zhangbijun1230
·
2022-07-14 15:48
大数据分析
Hadoop系列(三)——MapReudce总结
三、
MapReduce
1、简介
MapReduce
是一个基于集群的高性能并行计算平台(ClusterInfrastructure)
MapReduce
是一个并行计算与运行软件框架(SoftwareFramework
气运联盟
·
2022-07-14 15:47
大数据
hadoop
mapreduce
大数据
Hadoop系列(二)——YARN总结
二、YARN–资源管理1、HadoopYarn简介ApacheHadoopYARN(YetAnotherResourceNegotiator)在古老的Hadoop1.0中,
MapReduce
的JobTracker
气运联盟
·
2022-07-14 15:47
大数据
hadoop
大数据
hdfs
MapReduce
shuffle过程详解!
目录一、MR的shuffle过程二、Mapshuffle三、Reduceshuffle四、
MapReduce
shuffle阶段配置详解(1)Combiner配置详解(1)Combiner概述(2)Combiner
<一蓑烟雨任平生>
·
2022-07-14 15:46
Hadoop
Hadoop(hdfs, yarn,
mapreduce
)理论详解
Hadoop(hdfs,yarn,
mapreduce
)理论详解理论指导实践,hadoop的原理是当前大数据技术的理论基础。
大宁哥
·
2022-07-14 15:45
大数据组件应用
Hadoop
hadoop
hdfs
mapreduce
Hadoop存储——HDFS
文章目录Hadoop存储——HDFS1、HDFS架构(1)名称节点(NameNode)(2)数据节点(DataNode)(3)第二名称节点(SecondaryNameNode)2、HDFS文件上传3、
MapReduce
Jarvis数据之路
·
2022-07-14 15:45
hdfs
hadoop
hadoop
hdfs
大数据
Hadoop生态之
Mapreduce
今天给大家带来的是Hadoop生态中的
Mapreduce
,看到这里诸佬们可能就有疑惑了呢,啥是
Mapreduce
?小小的脑袋大大的疑惑。
小滴杂货铺
·
2022-07-14 15:44
hadoop
mapreduce
大数据
Hadoop核心HDFS——HDFS概念及优缺点
Hadoop:Hadoop是一个开源的大数据框架Hadoop是一个分布式计算的解决方案Hadoop=HDFS(分布式文件系统)+
MapReduce
(分布式计算)Hadoop核心HDFS分布式文件系统:存储是大数据技术的基础
南瓜数据客栈
·
2022-07-14 15:14
大数据
HDFS
hadoop
大数据
上一页
70
71
72
73
74
75
76
77
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他