E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据计算-MapReduce
Hadoop3教程(二十):
MapReduce
的工作机制总结
文章目录(109)MapTask工作机制(110)ReduceTask工作机制&并行度ReduceTask工作机制MapTask和ReduceTask的并行度决定机制(122)
MapReduce
开发总结参考文献
经年藏殊
·
2023-10-18 03:09
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(二十一):
MapReduce
中的压缩
文章目录(123)压缩概述在Map阶段启用在Reduce阶段启用(124)压缩案例实操如何在Map输出端启用压缩如何在Reduce端启用压缩参考文献(123)压缩概述压缩也是MR中比较重要的一环,其可以应用于Map阶段,比如说Map端输出的文件,也可以应用于Reduce阶段,如最终落地的文件。压缩的好处,是减少磁盘的IO以及存储空间。缺点也很明显,就是极大增加了CPU的开销(频繁计算带来的频繁压缩
经年藏殊
·
2023-10-18 03:09
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十八):
MapReduce
之MapJoin案例分析
文章目录(118)MapJoin案例需求分析ReduceJoin的问题如何解决ReduceJoin的问题如何将一个文件主动缓存到集群的内存里(119)MapJoin案例代码实现参考文献(118)MapJoin案例需求分析ReduceJoin的问题在ReduceJoin中,合并的操作是在Reduce阶段进行的,所以相比Map阶段,Reduce阶段的处理压力过大。另外,相同的产品ID的数据会进入同一个
经年藏殊
·
2023-10-18 03:38
大数据技术
mapreduce
大数据
hadoop
大数据之Hadoop(
MapReduce
):数据清洗(ETL)
目录1.数据清洗(ETL)2.数据清洗案例实操2.1:需求2.2:需求分析2.3:实现代码1.数据清洗(ETL)在运行核心业务
MapReduce
程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据
浊酒南街
·
2023-10-18 03:08
大数据系列一
hadoop之
mapreduce
教程+案例学习(三)之数据清洗案例
3.9数据清洗(ETL)目录3.9数据清洗(ETL)3.9.1数据清洗案例实操-简单解析版3.9.2数据清洗案例实操-复杂解析版3.10
MapReduce
开发总结在运行核心业务
MapReduce
程序之前
菜瓜技术联盟
·
2023-10-18 03:06
Hadoop
大数据
数据清洗
数据清洗案例
hadoop
mapreduce
mr
【Hadoop学习之
MapReduce
】_25MR之数据清洗案例(ETL)
数据清洗(ETL):提取-转换-装载(Extract-Transform-Load)在运行核心业务
MapReduce
程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。
easy_sir
·
2023-10-18 03:05
Hadoop学习笔记
大数据
hadoop
mapreduce
java
121-124-Hadoop-
MapReduce
-etl:
121-Hadoop-
MapReduce
-etl-压缩-总结:ETL“ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform
镇魂Boby
·
2023-10-18 03:35
hadoop
大数据
hadoop
mapreduce
etl
【大数据之Hadoop】十七、
MapReduce
之数据清洗ETL
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将分散、零乱、标准不统一的数据整合到一起,为决策提供分析依据。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。1ETL体系结构ETL主要是用来实现异构数据源数据集成的。多种数据源的所有原始数据大部分未作修改就被载人ETL。无论数据源在关系型数据库、非关系型数据库,还是外部文件,集成后的数据都将被置于数据库的数据表
阿宁呀
·
2023-10-18 03:04
hadoop
大数据
hadoop
mapreduce
etl
MapReduce
之数据清洗(ETL)案例,倒排索引案例,ReduceTask 工作机制,Hadoop 数据压缩简介
一:简介在运行核心业务
Mapreduce
程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行mapper程序,不需要运行reduce程序。
爱上口袋的天空
·
2023-10-18 03:33
hadoop2.X
hadoop
Hadoop3教程(十九):
MapReduce
之ETL清洗案例
文章目录(121)ETL数据清洗案例参考文献(121)ETL数据清洗案例ETL,即Extract-Transform-Load的缩写,用来描述数据从源端,经过抽取(Extract)、转换(transform),最后加载(load)到目标端的处理过程。ETL主要应用于数据仓库,但不只是应用于数据仓库,毕竟这个更像是一类思想。在运行核心的MR程序之前,往往要对数据进行清理,清除掉不符合用户要求的数据,
经年藏殊
·
2023-10-18 03:01
大数据技术
mapreduce
大数据
hadoop
【读书笔记】码出高效:Java开发手册
第一章计算机基础走进0与1的世界计算机就是晶体管、电路板组装起来的电子设备,无论是图形图像的渲染、网络远程共享,还是
大数据计算
,归根到底都是0与1的信号处理。
我永远吹着泡泡
·
2023-10-17 22:46
读书笔记
Hadoop分布式计算框架-
MapReduce
本文所有代码链接:https://download.csdn.net/download/shangjg03/884373131.
MapReduce
概述Hadoop
MapReduce
是一个分布式计算框架,
shangjg3
·
2023-10-17 19:29
大数据计算引擎
Hadoop
大数据
数据仓库
hadoop
java
Apache Spark 的基本概念和在大数据分析中的应用
它是基于内存的计算框架,比传统的基于磁盘的Hadoop
MapReduce
框架要快得多。
Roc-xb
·
2023-10-17 19:38
AI文章
spark
数据分析
大数据
hadoop初探--性能分析2
MapReduce
不是号称是云计算的基石么?性能怎会如此之差?经过分析,发现12G的这个“TestTable”表的数据在4个节点是如下分布的。
weixin_33674976
·
2023-10-17 15:51
大数据
运维
2.3 初探Hadoop世界
处理大数据三大技术2、Hadoop如何诞生3、Hadoop主要发展历程(二)Hadoop的优势1、扩容能力强2、成本低3、高效率4、可靠性5、高容错性(三)Hadoop的生态体系1、HDFS分布式文件系统2、
MapReduce
howard2005
·
2023-10-17 14:15
数据清洗和预处理
大数据离线分析
hadoop
大数据
分布式
大数据开发复习(1)
大数据开发复习课程课程安排day01就业岗位介绍面试流程最重要的是简历基础复习JavamysqlLinuxday02HDFS
MapReduce
hive(sqlboy)HBASEday03kafkaredisesday04scalasparkflinkday05etl
小码上线
·
2023-10-17 09:55
JavaSE
java
10. 大数据基础
这里的快一般是指相对
mapreduce
快,所以这里的为什么主要是和
mapreduce
进行对比。
_诉说
·
2023-10-17 07:02
Flink内存管理
Flink内存管理1.简介自从2003-2006年,Google发表了三篇著名的大数据相关论文(GoogleFS,
MapReduce
,BigTable)后,内存问题一直困扰大数据工程师们。
寇寇寇先森
·
2023-10-17 04:03
Hadoop3教程(十六):
MapReduce
中的OutputFormat
文章目录(105)OutputFormat概述(106)自定义OutputFormat案例需求分析(107/108)自定义OutputFormat案例实现自定义Mapper自定义Reducer自定义OutputFormatDriver参考文献(105)OutputFormat概述我们之前讲过了Map阶段的InputFormat,对应的,Reduce阶段也有自己的OutputFormat。Reduc
经年藏殊
·
2023-10-17 03:51
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十七):
MapReduce
之ReduceJoin案例分析
文章目录(113)ReduceJoin案例需求分析(114)ReduceJoin案例代码实操-TableBean(115)ReduceJoin案例代码实操-TableMapper(116)ReduceJoin案例代码实操-Reducer及Driver参考文献(113)ReduceJoin案例需求分析现在有两个文件:orders.txt,存放的是订单ID、产品ID、产品数量pd.txt,这是一个产品
经年藏殊
·
2023-10-17 03:51
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十四):
MapReduce
中的排序
文章目录(99)WritableComparable排序什么是排序什么时候需要排序排序有哪些分类如何实现自定义排序(100)全排序案例案例需求思路分析实际代码(101)二次排序案例(102)区内排序案例参考文献(99)WritableComparable排序什么是排序排序是MR中最重要的操作之一,也是面试中可能被问到的重点。MapTask和ReduceTask中都会对数据按照KEY来排序,主要是为
经年藏殊
·
2023-10-17 03:50
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十五):
MapReduce
中的Combiner
文章目录(103)Combiner概述什么是CombinerCombiner有什么用处Combiner有什么特点如何自定义Combiner(104)Combiner合并案例实操如何从日志里查看Combiner如果不存在Reduce阶段,会发生什么自定义Combiner的两种方式参考文献(103)Combiner概述什么是CombinerCombiner(即合并)是MR里shuffle的一项可选流程
经年藏殊
·
2023-10-17 03:45
大数据技术
mapreduce
数据库
hadoop
Mapreduce
运行异常Container exited with a non-zero exit code 1
文章目录Hadoop版本3.3.1问题描述解决方案Hadoop版本3.3.1问题描述用idea编写
mapreduce
读写hbase,并打包jar放到集群服务器上运行时出现下面错误:解决方案hadoopclasspath
寅月十八
·
2023-10-16 07:50
mapreduce
hadoop
big
data
【大数据】 Hive安装 【学习笔记】
8、Hive-介绍Hive-介绍-Hive教程|编程字典(codingdict.com)8.1Hive-介绍Hive:它是一个用来开发SQL类型脚本来执行
MapReduce
操作的平台。
一个平凡de人
·
2023-10-16 06:31
大数据
hadoop
hive
大数据
Hive-SQL学习笔记
在Hive中,本质上是将SQL转换成为
MapReduce
程序。Hive的基本操作与传统的数据库
Sais_Z
·
2023-10-16 06:00
数据库相关
大数据相关
hive
大数据
数据库
大数据--hive学习笔记
特性使用HDFS作为数据存储通过
MapReduce
完成数据运算提供类似SQL的语言(HQL)HQL灵活的可扩展性(UDF、UDAF、UDTF)适合进行离线
TaroLee
·
2023-10-16 06:29
大数据系列
hive
hadoop
大数据
Hadoop未来展望
本文分为技术篇、产业篇、应用篇、展望篇四部分技术篇2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和
MapReduce
。
贾诩是也
·
2023-10-16 06:19
Big
DATA
Hadoop3教程(十三):
MapReduce
中的分区
文章目录(96)默认HashPartitioner分区(97)自定义分区案例(98)分区数与Reduce个数的总结参考文献(96)默认HashPartitioner分区分区,是Shuffle里核心的一环,不同分区的数据最终会被送进不同的ReduceTask去处理。之前的几个小节里也都讲过分区。Hadoop里默认的分区方式是HashPartitioner分区,核心代码:publicclassHash
经年藏殊
·
2023-10-16 06:34
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十):
MapReduce
中的InputFormat
文章目录(87)切片机制与MapTask并行度决定机制(90)切片源码总结(91)FileInputFormat切片机制(92)TextInputFormat及其他实现类一览(93)CombineTextInputFormat切片机制原理案例讲解参考文献(87)切片机制与MapTask并行度决定机制什么是MapTask的并行度?即在一个MR程序里,需要并行开启多少个MapTask,来处理数据。并行
经年藏殊
·
2023-10-16 06:04
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十一):
MapReduce
的详细工作流程
文章目录(94)MR工作流程Map阶段Reduce阶段参考文献(94)MR工作流程本小节将展示一下整个
MapReduce
的全工作流程。
经年藏殊
·
2023-10-16 06:04
大数据技术
mapreduce
数据库
大数据
hadoop
Hadoop3教程(十二):
MapReduce
中Shuffle机制的概述
文章目录(95)Shuffle机制什么是shuffle?Map阶段Reduce阶段参考文献(95)Shuffle机制面试的重点什么是shuffle?Map方法之后,Reduce方法之前的这段数据处理过程,就叫做shuffle,中文直译"洗牌"。参考上一小节的MR工作流程,整个shuffle的工作流程如下图,可以理解成shuffle横跨map和reduce阶段:Map阶段1)Map()处理之后的数据
经年藏殊
·
2023-10-16 06:01
大数据技术
mapreduce
大数据
数据库
hadoop
hadoop组成
在hadoop1.x时代,Hadoop中的
MapReduce
同时处理业务逻辑运算和资源调度,耦合性较大;在hadoop2.x时代,新增了yarn,主要负责资源的调度,
MapReduce
仅负责运算;在hadoop3
jiedaodezhuti
·
2023-10-16 03:53
大数据技术
hadoop
一种不同网络环境下HBase数据备份及恢复方法
这里我们引入Hbase的一个API,hbaseorg.apache.hadoop.hbase.
mapreduce
.Export,该A
莫叫石榴姐
·
2023-10-15 20:06
Hbase
hadoop
hadoop
mapreduce
大数据
记一次Hbase2.1.x历史数据数据迁移方案
的快照snapshot'vaas_dwm:DWM_TRIP_PART','dwm_trip_part_snapshot'3.统计待迁移表数据总数hbaseorg.apache.hadoop.hbase.
mapreduce
.RowCounter'vaas_dwm
日复一日伐树的熊哥
·
2023-10-15 20:32
跟着熊哥学大数据hadoop
hadoop
hbase
hbase数据迁移
snapshot
cdh
Hive函数
在执行过程中Hive将SQL转换为
MapReduce
程序,在执行过程当中在执行我们的UDF函数。HiveUDF类型Hive中有3种UDF:UDF:操作
DancingBUG
·
2023-10-15 18:47
MapReduce
Shuffle 和 Spark Shuffle
而在
MapReduce
中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。
longLiveData
·
2023-10-15 13:55
大数据技术之Hadoop(第3章
MapReduce
框架原理)
这里写目录标题3.8计数器应用3.9数据清洗(ETL)3.10数据清洗案例实操3.10.1简单解析版3.10.2复杂解析版3.11
MapReduce
开发总结第4章Hadoop数据压缩4.1概述4.2MR
西边的虫虫
·
2023-10-15 13:26
hadoop
大数据
mapreduce
数据清洗
信息压缩
大数据框架之Hadoop:
MapReduce
(一)
MapReduce
概述
1.1
MapReduce
定义
MapReduce
是一个分布式计算框架,用于编写批处理应用程序,是用户开发“基于Hadoop的数据分析应用”的核心框架。
yiluohan0307
·
2023-10-15 13:26
大数据框架之Hadoop
hadoop
mapreduce
大数据
Hadoop三大组件之
MapReduce
文章目录1.概述2.编程思想3.执行原理4.优缺点1.概述
MapReduce
是Hadoop内提供的分布式计算的组件,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上
不忘初欣丶
·
2023-10-15 13:56
hadoop
hadoop
mapreduce
大数据
Hadoop框架之
MapReduce
(一) :
MapReduce
概述
MapReduce
概述1.什么是
MapReduce
呢?
小菠萝的IT之旅
·
2023-10-15 13:25
mapreduce
hadoop
大数据
Java
MapReduce概述
大数据之Hadoop(
MapReduce
):
MapReduce
概述
目录1:
MapReduce
定义2:
MapReduce
优缺点优点缺点1:
MapReduce
定义
MapReduce
是一个分布式运算程序的编程框架,将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序
浊酒南街
·
2023-10-15 13:25
大数据系列一
Hadoop:
MapReduce
总结
MapReduce
1、架构MRAppMaster:负责整个成都的过程调度及状态协调;MapTask:负责map阶段的整个数据处理流程;ReduceTask:负责reduce阶段的整个数据处理流程;2、数据类型除了
YF_raaiiid
·
2023-10-15 13:24
mapreduce
hadoop
big
data
Hadoop基础学习---6、
MapReduce
框架原理
1、
MapReduce
框架原理1.1InputFormat数据输入1.1.1切片与MapTask并行度决定机制1、问题引出MapTask的并行度决定Map阶段的任务处理并发度,进而影响到整个job的处理速度
星光下的赶路人star
·
2023-10-15 13:23
Hadoop
hadoop
mapreduce
学习
Hadoop三大框架之
MapReduce
工作流程
一、
MapReduce
基础
MapReduce
的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,把复杂的任务分解为若干个“简单的任务”来并行处理。
five小点心
·
2023-10-15 13:53
#
MapReduce
hadoop
mapreduce
大数据
Hadoop:
MapReduce
概述、WordCount
MapReduce
概述
MapReduce
是Hadoop的两大核心技术之一,HDFS解决了大数据存取问题,而
MapReduce
是对大数据的高效并行编程模型。
瞧德
·
2023-10-15 13:23
Hadoop
hadoop
mapreduce
Hadoop3教程(九):
MapReduce
框架原理概述
文章目录简介参考文献简介这属于整个MR中最核心的一块,后续小节会展开描述。整个MR处理流程,是分为Map阶段和Reduce阶段。一般,我们称Map阶段的进程是MapTask,称Reduce阶段是ReduceTask。其完整的工作流程如图:Map阶段具体的工作任务是啥呢?1)map阶段决定,根据数据源,可以选择根据什么方式来读取数据;默认情况下,map阶段读数据,是按行读,读取到的KV里,K是偏移量
经年藏殊
·
2023-10-15 13:52
大数据技术
mapreduce
大数据
hadoop
大数据技术Hive详解
本质是:将HQL转化成
MapReduce
程序。说明:Hive处理的数据存储在HDFS;Hive分析数据底层的实现是
MapReduce
;执行程序运行在Yarn上;1.分布式文件系统HDFS存储架构与
wespten
·
2023-10-15 12:04
Hadoop
Hive
Spark
大数据安全
hive
大数据
hadoop
Hadoop学习笔记:
MapReduce
(1)
一.
MapReduce
核心思想1)分布式运算程序往往需要分成Map和Reduce两个阶段2)第一个阶段的MapTask并发实例,完全并行运行,互不相干3)第二个阶段的ReduceTask并发实例同样互不相干
X6ZT
·
2023-10-15 12:24
Hadoop学习笔记
hadoop
mapreduce
大数据
hadoop:
MapReduce
(Writable)输出结果中文乱码解决
hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的UTF-8文件时,输出的结果为乱码,只能由UE或者记事本打开才能正常显示。因此将hadoop默认输出编码更改为GBK成为非常常见的需求。自定义TextOutputFormat.class子类TextOutp
花和尚也有春天
·
2023-10-15 12:52
hadoop
mapReduce
hadoop
MapperReduce
mr
Writable
乱码
【Hadoop】——
MapReduce
:序列化
1.什么是序列化序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。2.优势结构紧凑,存储空间少传输快速互操作性3.自定义bean对象序列化步骤实现Writable接口无参构造函数反序列化时,需要反射调用空参数构造函数,所以必须有无参构造函数重写序列化方法重写
那时的样子_
·
2023-10-15 12:49
BigDate
java
面向对象
hadoop
mapreduce
大数据
上一页
21
22
23
24
25
26
27
28
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他