E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Mapreduce
2019-06-16
准备写一个大数据Hadoop
Mapreduce
教程:如何在不会JAVA语言的情况下快速完成Hadoop的
MapReduce
大作业,纪念我这学期的生活。
Rosyyyy
·
2023-10-19 00:51
Hive
同时,这个语言也允许熟悉
MapReduce
开发者的开发自定义的mapper和reducer来处理内建的mapper和reducer无
两只手
·
2023-10-18 20:23
MapReduce
MapReduce
介绍在Hadoop中计算模型使用的是
MapReduce
。
spraysss
·
2023-10-18 17:18
Hive编程指南:调优
(1)使用explain在查询语句前加上explain,可以帮助看hive如何将查询转化成
mapreduce
任务:一个hive任务会包含有一个或多个stage(阶段),不同的stage间会存在着依赖关系
luogps9
·
2023-10-18 16:41
大数据 | 实验一:大数据系统基本实验 |
MapReduce
初级编程
文章目录实验目的实验平台实验内容编程实现文件的合并和去重编程实现对输入文件的排序对指定的表格进行信息挖掘实验目的1)通过实验掌握基本的
MapReduce
编程方法。
啦啦右一
·
2023-10-18 14:28
大数据与数据分析
#
大数据管理与分析实验
大数据
mapreduce
hadoop
ubuntu16.04 spark连接hadoop配置
share/hadoop/hadoop-2.7.7/etc/hadoop配置yarn-site.xmlsudovimyarn-site.xmlyarn.nodemanager.aux-services
mapreduce
_shuffleyarn.nodemanager.aux-service
WJXZ
·
2023-10-18 13:05
Spark核心概念(一)
1.什么是分布式计算分布式程序:
Mapreduce
,Spark程序1)多进程:一个程序由多个进程共同实现,不同进程可以运行在不同的机器上2)每个进程负责计算的数据是不一样的,都是整体数据的某一部分分布式资源
在上树的路上
·
2023-10-18 07:57
Spark
大数据
hadoop
yarn
spark
mapreduce
[ Spark ] Spark核心概念
Hadoop的
MapReduce
和Spark同为计算框架,使用时如何选择?
bone_ds
·
2023-10-18 07:25
Spark
spark
big
data
hadoop
MapReduce
运行环境
System.setProperty("HADOOP_USER_NAME","root");MR执行环境有两种:本地测试环境,服务器环境本地测试环境(windows):在windows的hadoop目录bin目录有一个winutils.exe1、在windows下配置hadoop的环境变量2、拷贝debug工具(winutils.ext)到HADOOP_HOME/bin3、修改hadoop的源码,
qimogao
·
2023-10-18 06:39
Hadoop3教程(二十):
MapReduce
的工作机制总结
文章目录(109)MapTask工作机制(110)ReduceTask工作机制&并行度ReduceTask工作机制MapTask和ReduceTask的并行度决定机制(122)
MapReduce
开发总结参考文献
经年藏殊
·
2023-10-18 03:09
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(二十一):
MapReduce
中的压缩
文章目录(123)压缩概述在Map阶段启用在Reduce阶段启用(124)压缩案例实操如何在Map输出端启用压缩如何在Reduce端启用压缩参考文献(123)压缩概述压缩也是MR中比较重要的一环,其可以应用于Map阶段,比如说Map端输出的文件,也可以应用于Reduce阶段,如最终落地的文件。压缩的好处,是减少磁盘的IO以及存储空间。缺点也很明显,就是极大增加了CPU的开销(频繁计算带来的频繁压缩
经年藏殊
·
2023-10-18 03:09
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十八):
MapReduce
之MapJoin案例分析
文章目录(118)MapJoin案例需求分析ReduceJoin的问题如何解决ReduceJoin的问题如何将一个文件主动缓存到集群的内存里(119)MapJoin案例代码实现参考文献(118)MapJoin案例需求分析ReduceJoin的问题在ReduceJoin中,合并的操作是在Reduce阶段进行的,所以相比Map阶段,Reduce阶段的处理压力过大。另外,相同的产品ID的数据会进入同一个
经年藏殊
·
2023-10-18 03:38
大数据技术
mapreduce
大数据
hadoop
大数据之Hadoop(
MapReduce
):数据清洗(ETL)
目录1.数据清洗(ETL)2.数据清洗案例实操2.1:需求2.2:需求分析2.3:实现代码1.数据清洗(ETL)在运行核心业务
MapReduce
程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据
浊酒南街
·
2023-10-18 03:08
大数据系列一
hadoop之
mapreduce
教程+案例学习(三)之数据清洗案例
3.9数据清洗(ETL)目录3.9数据清洗(ETL)3.9.1数据清洗案例实操-简单解析版3.9.2数据清洗案例实操-复杂解析版3.10
MapReduce
开发总结在运行核心业务
MapReduce
程序之前
菜瓜技术联盟
·
2023-10-18 03:06
Hadoop
大数据
数据清洗
数据清洗案例
hadoop
mapreduce
mr
【Hadoop学习之
MapReduce
】_25MR之数据清洗案例(ETL)
数据清洗(ETL):提取-转换-装载(Extract-Transform-Load)在运行核心业务
MapReduce
程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。
easy_sir
·
2023-10-18 03:05
Hadoop学习笔记
大数据
hadoop
mapreduce
java
121-124-Hadoop-
MapReduce
-etl:
121-Hadoop-
MapReduce
-etl-压缩-总结:ETL“ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(Extract)、转换(Transform
镇魂Boby
·
2023-10-18 03:35
hadoop
大数据
hadoop
mapreduce
etl
【大数据之Hadoop】十七、
MapReduce
之数据清洗ETL
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将分散、零乱、标准不统一的数据整合到一起,为决策提供分析依据。ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。1ETL体系结构ETL主要是用来实现异构数据源数据集成的。多种数据源的所有原始数据大部分未作修改就被载人ETL。无论数据源在关系型数据库、非关系型数据库,还是外部文件,集成后的数据都将被置于数据库的数据表
阿宁呀
·
2023-10-18 03:04
hadoop
大数据
hadoop
mapreduce
etl
MapReduce
之数据清洗(ETL)案例,倒排索引案例,ReduceTask 工作机制,Hadoop 数据压缩简介
一:简介在运行核心业务
Mapreduce
程序之前,往往要先对数据进行清洗,清理掉不符合用户要求的数据。清理的过程往往只需要运行mapper程序,不需要运行reduce程序。
爱上口袋的天空
·
2023-10-18 03:33
hadoop2.X
hadoop
Hadoop3教程(十九):
MapReduce
之ETL清洗案例
文章目录(121)ETL数据清洗案例参考文献(121)ETL数据清洗案例ETL,即Extract-Transform-Load的缩写,用来描述数据从源端,经过抽取(Extract)、转换(transform),最后加载(load)到目标端的处理过程。ETL主要应用于数据仓库,但不只是应用于数据仓库,毕竟这个更像是一类思想。在运行核心的MR程序之前,往往要对数据进行清理,清除掉不符合用户要求的数据,
经年藏殊
·
2023-10-18 03:01
大数据技术
mapreduce
大数据
hadoop
Hadoop分布式计算框架-
MapReduce
本文所有代码链接:https://download.csdn.net/download/shangjg03/884373131.
MapReduce
概述Hadoop
MapReduce
是一个分布式计算框架,
shangjg3
·
2023-10-17 19:29
大数据计算引擎
Hadoop
大数据
数据仓库
hadoop
java
Apache Spark 的基本概念和在大数据分析中的应用
它是基于内存的计算框架,比传统的基于磁盘的Hadoop
MapReduce
框架要快得多。
Roc-xb
·
2023-10-17 19:38
AI文章
spark
数据分析
大数据
hadoop初探--性能分析2
MapReduce
不是号称是云计算的基石么?性能怎会如此之差?经过分析,发现12G的这个“TestTable”表的数据在4个节点是如下分布的。
weixin_33674976
·
2023-10-17 15:51
大数据
运维
2.3 初探Hadoop世界
处理大数据三大技术2、Hadoop如何诞生3、Hadoop主要发展历程(二)Hadoop的优势1、扩容能力强2、成本低3、高效率4、可靠性5、高容错性(三)Hadoop的生态体系1、HDFS分布式文件系统2、
MapReduce
howard2005
·
2023-10-17 14:15
数据清洗和预处理
大数据离线分析
hadoop
大数据
分布式
大数据开发复习(1)
大数据开发复习课程课程安排day01就业岗位介绍面试流程最重要的是简历基础复习JavamysqlLinuxday02HDFS
MapReduce
hive(sqlboy)HBASEday03kafkaredisesday04scalasparkflinkday05etl
小码上线
·
2023-10-17 09:55
JavaSE
java
10. 大数据基础
这里的快一般是指相对
mapreduce
快,所以这里的为什么主要是和
mapreduce
进行对比。
_诉说
·
2023-10-17 07:02
Flink内存管理
Flink内存管理1.简介自从2003-2006年,Google发表了三篇著名的大数据相关论文(GoogleFS,
MapReduce
,BigTable)后,内存问题一直困扰大数据工程师们。
寇寇寇先森
·
2023-10-17 04:03
Hadoop3教程(十六):
MapReduce
中的OutputFormat
文章目录(105)OutputFormat概述(106)自定义OutputFormat案例需求分析(107/108)自定义OutputFormat案例实现自定义Mapper自定义Reducer自定义OutputFormatDriver参考文献(105)OutputFormat概述我们之前讲过了Map阶段的InputFormat,对应的,Reduce阶段也有自己的OutputFormat。Reduc
经年藏殊
·
2023-10-17 03:51
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十七):
MapReduce
之ReduceJoin案例分析
文章目录(113)ReduceJoin案例需求分析(114)ReduceJoin案例代码实操-TableBean(115)ReduceJoin案例代码实操-TableMapper(116)ReduceJoin案例代码实操-Reducer及Driver参考文献(113)ReduceJoin案例需求分析现在有两个文件:orders.txt,存放的是订单ID、产品ID、产品数量pd.txt,这是一个产品
经年藏殊
·
2023-10-17 03:51
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十四):
MapReduce
中的排序
文章目录(99)WritableComparable排序什么是排序什么时候需要排序排序有哪些分类如何实现自定义排序(100)全排序案例案例需求思路分析实际代码(101)二次排序案例(102)区内排序案例参考文献(99)WritableComparable排序什么是排序排序是MR中最重要的操作之一,也是面试中可能被问到的重点。MapTask和ReduceTask中都会对数据按照KEY来排序,主要是为
经年藏殊
·
2023-10-17 03:50
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十五):
MapReduce
中的Combiner
文章目录(103)Combiner概述什么是CombinerCombiner有什么用处Combiner有什么特点如何自定义Combiner(104)Combiner合并案例实操如何从日志里查看Combiner如果不存在Reduce阶段,会发生什么自定义Combiner的两种方式参考文献(103)Combiner概述什么是CombinerCombiner(即合并)是MR里shuffle的一项可选流程
经年藏殊
·
2023-10-17 03:45
大数据技术
mapreduce
数据库
hadoop
Mapreduce
运行异常Container exited with a non-zero exit code 1
文章目录Hadoop版本3.3.1问题描述解决方案Hadoop版本3.3.1问题描述用idea编写
mapreduce
读写hbase,并打包jar放到集群服务器上运行时出现下面错误:解决方案hadoopclasspath
寅月十八
·
2023-10-16 07:50
mapreduce
hadoop
big
data
【大数据】 Hive安装 【学习笔记】
8、Hive-介绍Hive-介绍-Hive教程|编程字典(codingdict.com)8.1Hive-介绍Hive:它是一个用来开发SQL类型脚本来执行
MapReduce
操作的平台。
一个平凡de人
·
2023-10-16 06:31
大数据
hadoop
hive
大数据
Hive-SQL学习笔记
在Hive中,本质上是将SQL转换成为
MapReduce
程序。Hive的基本操作与传统的数据库
Sais_Z
·
2023-10-16 06:00
数据库相关
大数据相关
hive
大数据
数据库
大数据--hive学习笔记
特性使用HDFS作为数据存储通过
MapReduce
完成数据运算提供类似SQL的语言(HQL)HQL灵活的可扩展性(UDF、UDAF、UDTF)适合进行离线
TaroLee
·
2023-10-16 06:29
大数据系列
hive
hadoop
大数据
Hadoop未来展望
本文分为技术篇、产业篇、应用篇、展望篇四部分技术篇2006年项目成立的一开始,“Hadoop”这个单词只代表了两个组件——HDFS和
MapReduce
。
贾诩是也
·
2023-10-16 06:19
Big
DATA
Hadoop3教程(十三):
MapReduce
中的分区
文章目录(96)默认HashPartitioner分区(97)自定义分区案例(98)分区数与Reduce个数的总结参考文献(96)默认HashPartitioner分区分区,是Shuffle里核心的一环,不同分区的数据最终会被送进不同的ReduceTask去处理。之前的几个小节里也都讲过分区。Hadoop里默认的分区方式是HashPartitioner分区,核心代码:publicclassHash
经年藏殊
·
2023-10-16 06:34
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十):
MapReduce
中的InputFormat
文章目录(87)切片机制与MapTask并行度决定机制(90)切片源码总结(91)FileInputFormat切片机制(92)TextInputFormat及其他实现类一览(93)CombineTextInputFormat切片机制原理案例讲解参考文献(87)切片机制与MapTask并行度决定机制什么是MapTask的并行度?即在一个MR程序里,需要并行开启多少个MapTask,来处理数据。并行
经年藏殊
·
2023-10-16 06:04
大数据技术
mapreduce
大数据
hadoop
Hadoop3教程(十一):
MapReduce
的详细工作流程
文章目录(94)MR工作流程Map阶段Reduce阶段参考文献(94)MR工作流程本小节将展示一下整个
MapReduce
的全工作流程。
经年藏殊
·
2023-10-16 06:04
大数据技术
mapreduce
数据库
大数据
hadoop
Hadoop3教程(十二):
MapReduce
中Shuffle机制的概述
文章目录(95)Shuffle机制什么是shuffle?Map阶段Reduce阶段参考文献(95)Shuffle机制面试的重点什么是shuffle?Map方法之后,Reduce方法之前的这段数据处理过程,就叫做shuffle,中文直译"洗牌"。参考上一小节的MR工作流程,整个shuffle的工作流程如下图,可以理解成shuffle横跨map和reduce阶段:Map阶段1)Map()处理之后的数据
经年藏殊
·
2023-10-16 06:01
大数据技术
mapreduce
大数据
数据库
hadoop
hadoop组成
在hadoop1.x时代,Hadoop中的
MapReduce
同时处理业务逻辑运算和资源调度,耦合性较大;在hadoop2.x时代,新增了yarn,主要负责资源的调度,
MapReduce
仅负责运算;在hadoop3
jiedaodezhuti
·
2023-10-16 03:53
大数据技术
hadoop
一种不同网络环境下HBase数据备份及恢复方法
这里我们引入Hbase的一个API,hbaseorg.apache.hadoop.hbase.
mapreduce
.Export,该A
莫叫石榴姐
·
2023-10-15 20:06
Hbase
hadoop
hadoop
mapreduce
大数据
记一次Hbase2.1.x历史数据数据迁移方案
的快照snapshot'vaas_dwm:DWM_TRIP_PART','dwm_trip_part_snapshot'3.统计待迁移表数据总数hbaseorg.apache.hadoop.hbase.
mapreduce
.RowCounter'vaas_dwm
日复一日伐树的熊哥
·
2023-10-15 20:32
跟着熊哥学大数据hadoop
hadoop
hbase
hbase数据迁移
snapshot
cdh
Hive函数
在执行过程中Hive将SQL转换为
MapReduce
程序,在执行过程当中在执行我们的UDF函数。HiveUDF类型Hive中有3种UDF:UDF:操作
DancingBUG
·
2023-10-15 18:47
MapReduce
Shuffle 和 Spark Shuffle
而在
MapReduce
中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。
longLiveData
·
2023-10-15 13:55
大数据技术之Hadoop(第3章
MapReduce
框架原理)
这里写目录标题3.8计数器应用3.9数据清洗(ETL)3.10数据清洗案例实操3.10.1简单解析版3.10.2复杂解析版3.11
MapReduce
开发总结第4章Hadoop数据压缩4.1概述4.2MR
西边的虫虫
·
2023-10-15 13:26
hadoop
大数据
mapreduce
数据清洗
信息压缩
大数据框架之Hadoop:
MapReduce
(一)
MapReduce
概述
1.1
MapReduce
定义
MapReduce
是一个分布式计算框架,用于编写批处理应用程序,是用户开发“基于Hadoop的数据分析应用”的核心框架。
yiluohan0307
·
2023-10-15 13:26
大数据框架之Hadoop
hadoop
mapreduce
大数据
Hadoop三大组件之
MapReduce
文章目录1.概述2.编程思想3.执行原理4.优缺点1.概述
MapReduce
是Hadoop内提供的分布式计算的组件,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上
不忘初欣丶
·
2023-10-15 13:56
hadoop
hadoop
mapreduce
大数据
Hadoop框架之
MapReduce
(一) :
MapReduce
概述
MapReduce
概述1.什么是
MapReduce
呢?
小菠萝的IT之旅
·
2023-10-15 13:25
mapreduce
hadoop
大数据
Java
MapReduce概述
大数据之Hadoop(
MapReduce
):
MapReduce
概述
目录1:
MapReduce
定义2:
MapReduce
优缺点优点缺点1:
MapReduce
定义
MapReduce
是一个分布式运算程序的编程框架,将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序
浊酒南街
·
2023-10-15 13:25
大数据系列一
Hadoop:
MapReduce
总结
MapReduce
1、架构MRAppMaster:负责整个成都的过程调度及状态协调;MapTask:负责map阶段的整个数据处理流程;ReduceTask:负责reduce阶段的整个数据处理流程;2、数据类型除了
YF_raaiiid
·
2023-10-15 13:24
mapreduce
hadoop
big
data
上一页
19
20
21
22
23
24
25
26
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他