E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据计算-MapReduce
Hadoop的shuffle过程及调优
MapReduce
中的Shuffle发生在map输出到reduce输入的过程,它的中文解释是“洗牌”,顾名思义该过程涉及数据的重新分配,主要分为两部分:map任务输出的数据分组、排序,写入本地磁盘。
RainTicking
·
2023-06-18 06:30
大数据
hadoop
mapreduce
大数据
阿里云EMR自定义日志投递与使用实践分享
1►引言:开源大数据平台E-
MapReduce
(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks
Apache Spark中国社区
·
2023-06-18 05:42
阿里云
大数据
hadoop
云计算
分布式
Spark从入门到精通31:Spark SQL:Hive On Spark
其底层默认是基于
MapReduce
实现的,但是由于
MapReduce
速度实在比较慢,因此这两年,陆续出来了新的SQL查询引擎。包括SparkSQL,HiveOnTez,HiveOnSpark等。
勇于自信
·
2023-06-17 23:24
【Hadoop综合实践】手机卖场大数据综合项目分析
本文章实现了基于
MapReduce
的手机浏览日志分析文章简介:主要包含了数据生成部分,数据处理部分,数据存储部分与数据可视化部分【本文仅供参考!!
大数据小禅
·
2023-06-17 18:46
Hadoop
大数据
hadoop
智能手机
MongoDB聚合操作-02
聚合操作包含三类:单一作用聚合、聚合管道、
MapReduce
。单一作用聚合:提供了对常见聚合过程的简单访问,操作都从单个集合聚合文档。聚合管道是一个数据聚合的框架,模型基于数据处理流水线的概念。
孤单品尝寂寞
·
2023-06-17 16:01
分布式框架
mongodb
数据库
nosql
Hive学习
Hive查询操作过程严格遵守Hadoop
MapReduce
的作业执行模型,Hive将用户的HiveQL语句通过解释器转换为提交到Hadoop集群上,Had
明月清风,良宵美酒
·
2023-06-17 11:36
大数据技术栈
hive
MapReduce
将HDFS数据清洗到多个Hbase表中
最近一直在对历史数据进行清洗,原始数据是纯数据格式,现在要清洗到hbase中,方便后期跟hive进行整合查询。。可能现在基本上都使用spark来做清洗了,但是如果受机器本身硬件条件的限制的话,就没法子了,spark根本跑不动,哎,还是老老实实的写MR吧。。话不多说,直接上代码。importcom.gey.hbase.helper.HBaseHelper;importorg.apache.hadoo
LearnBigData
·
2023-06-17 09:23
[Hadoop实现Springboot之HDFS数据查询和插入 ]
例如,使用HDFS的FileSystemAPI来读取和写入文件,使用
MapReduce
来处理数
是汤圆丫
·
2023-06-17 09:35
大数据
hdfs
hive
数据库
分布式安装配置spark-3.2.3
Spark是一个基于内存的
大数据计算
框架,可以与Hadoop集成,提供更快速的数据处理能力。本文将介绍如何在三个Ubuntu系统上搭建一个Spark集群。
runepic
·
2023-06-17 08:58
分布式存储与并行处理
spark
分布式
hadoop
Hue:Hadoop 图形化用户界面
特性:一个HDFS的文件浏览器,一个
MapReduce
/YARN的Job浏览器,一个HBas的浏览器,Hive,Pig,ClouderaImpala和Sqoop2的查询编辑器。
victory0508
·
2023-06-17 06:07
hadoop/hive
从搭建hadoop开始学习大数据中分而治之的
MapReduce
(伪集群模式)
环境准备首先需要将如下四个必要的文件下载到计算机(已经附上了下载地址,点击即可下载)。VmwareWorkstation17.x【官方的下载地址】CentOS-7-x86_64-Minimal-2009【阿里云镜像站下载地址】openjdk-8u41-b04-linux-x64-14_jan_2020【开源下载地址】安装CentOS7在安装了VmwareWorkstation17后,接下来就可开始
程序小增
·
2023-06-17 05:59
hadoop
大数据
mapreduce
大数据学习之Hadoop——07
MapReduce
相关练习01(wordCount + topN)
欢迎关注我的CSDN:https://blog.csdn.net/bingque65351.编写WordCountDriver端packagecom.hjf.mr.wordcount;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.
Jiang锋时刻
·
2023-06-17 04:30
基于docker的Hadoop集群下实现最小生成树的
mapreduce
程序
01.技术背景在本文中,将为读者详细介绍如下内容:如何部署基于docker的hadoop开发环境
mapreduce
的基本开发流程与基本知识java开发的一些基本知识最小生成树算法相关的知识。
奋羊羊
·
2023-06-17 01:48
学习笔记
技术分享
hadoop
mapreduce
大数据
java
算法
Spark高频面试题(建议收藏)
它内部的组成模块,包含SparkCore,SparkSQL,SparkStreaming,SparkMLlib,SparkGraghx等...它的特点:快Spark计算速度是
MapReduce
计算速度的
无精疯
·
2023-06-16 22:12
spark
面试
java
大数据
hadoop
【Hadoop】 | 搭建HA之报错锦集
的active结点无法主备切换三、HadoopWeb端无法上传文件四、hdfs创建文件夹报错五、IDEA操作Hdfs无法初始化集群六、Java无法连接Hdfs七、找不到Hadoop家目录八、IDEA对
MapReduce
初心%
·
2023-06-16 20:22
#
Hadoop
hadoop
hdfs
大数据
Java-Spark系列1-spark概述
文章目录一.大数据技术栈二.Spark概述2.1
MapReduce
框架局限性2.2Hadoop生态圈中的各种框架2.3Spark2.3.1Spark的优势2.3.2Spark特点2.3.3SPRAK2新特性一
只是甲
·
2023-06-16 18:14
大数据和数据仓库
#
Spark
spark
big
data
Spark概述
大数据hadoop生态体系之
MapReduce
词频统计案例(12)
MapReduce
实现词频统计案例:1>定义WordMapper类继承Mapper类,重新map方法,用于读取每行数据Mapper父类参数说明:args1LoginWritable:表示每次读取文件块的一行所指的长度偏移量
welun
·
2023-06-16 15:29
大数据技术之Hadoop(Yarn)
Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而
MapReduce
等运算程序则相当于运行于操作系统之上的应用程序。
猫腻余腥
·
2023-06-16 14:29
BigData_Study
hadoop
大数据
hdfs
Apache Spark教程_编程入门自学教程_菜鸟教程-免费教程分享
Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop
MapReduce
的通用并行框架,Spark,拥有Hadoop
MapReduce
所具有的优点;但不同于
·
2023-06-16 14:56
程序员
分布式任务调度系列 - PowerJob
执行模式丰富:支持单机、广播、Map、
MapReduce
四种执行模式,其中Ma
代码的知行者
·
2023-06-16 13:02
中间件
分布式
数据库
Hadoop配置之 开启不了 8088、19888端口
8088端口(一般)对应Hadoop集群监控的ResourceManager19888端口(一般)对应
MapReduce
JobHistoryServer问题描述:分别执行start-dfs.shstart-yarn.shmr-jobhistory-damon.sh
飞花落雨
·
2023-06-16 12:54
hadoop、hive、hbase的关系
hadoop它是一个分布式计算+分布式文件系统,前者其实就是
MapReduce
,后者是HDFS。
mengml_smile
·
2023-06-16 12:49
bigdata
hadoop
大数据
hive
Spark
简介高效性基于内存Spark比
MapReduce
快100倍易用性函数式编程代码体积小通用性用于批处理、交互式查询(SparkSQL)、实时流处理(SparkStreaming)、机器学习(SparkMLlib
mengml_smile
·
2023-06-16 12:46
bigdata
spark
大数据
hadoop
大数据学习记录(hadoop hive flume azkaban sqoop)
大数据学习记录(hadoophiveflumeazkabansqoop)1.hadoop对海量数据进行分布式处理2.核心组件:HDFS(分布式文件系统)、YARN(运算资源调度系统)、
MAPREDUCE
左上晨
·
2023-06-16 10:58
大数据
hadoop
hive
flume
azkaban
【大数据面试】【项目开发经验】Hadoop、Flume、Kafka、Hive、MySQL、Sqoop、Azkaban、Spark...
主要内容:框架层面的调优、业务经验一、Hadoop1、Hadoop基准测试(HDFS的读写性能、
MapReduce
的计算能力测试)(1)测试内容:文件上传下载的时间(2)服务器有几个硬盘插槽2/4块问题
哥们要飞
·
2023-06-16 10:57
hadoop
大数据
hive
面试
flume
Spark——(Spark简介,Spark 与 Hadoop,Spark系统架构)
Spark实现了高效的DAG执行引擎,可以通过基于内存来高效处理数据流;与
MapReduce
相比,Spark基于内存的运算要快100倍以上,基于硬盘的运算也要快10倍以上。
想做CTO的任同学...
·
2023-06-16 06:44
Spark
java
开发语言
大数据
spark
系统架构
Spark基础入门
---针对大规模数据处理的统一分析引擎补充:spark是基于hadoop基础之上的改进,不同于
mapreduce
的是Jo
我家浪猫初长成
·
2023-06-16 03:00
Hive调优
1、Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用
MapReduce
计算。
码戈
·
2023-06-16 01:13
大数据技术之Hadoop(
MapReduce
)
大数据技术之Hadoop(
MapReduce
)第1章
MapReduce
概述1.1
MapReduce
定义
MapReduce
是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架
猫腻余腥
·
2023-06-15 21:12
BigData_Study
hadoop
mapreduce
大数据
hadoop(
mapreduce
) shuffle
但是在说spark之前还是很有必要把
mapreduce
的shuffle过程理一遍,以做对比。
loukey_j
·
2023-06-15 20:11
Hive_MBY_GJF
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为
MapReduce
任务进行运行。
炳烛之明科技
·
2023-06-15 20:51
Java大数据
数仓架构“瘦身”,Hologres 5000CU时免费试用
基于创新的HSAP架构,可以将您原先数仓架构中的OLAP系统(Greenplum、Presto、Impala、ClickHouse)、KV数据库/Serving系统(HBase、Redis)统一在一个
大数据计算
引擎中
阿里云大数据AI技术
·
2023-06-15 19:41
大数据
数据库
数仓架构“瘦身”,Hologres 5000CU时免费试用
基于创新的HSAP架构,可以将您原先数仓架构中的OLAP系统(Greenplum、Presto、Impala、ClickHouse)、KV数据库/Serving系统(HBase、Redis)统一在一个
大数据计算
引擎中
·
2023-06-15 15:50
大数据数据库
大数据概述
大数据概述大数据时代第三次信息化浪潮信息科技为大数据时代提供技术支撑数据产生方式的变革促成大数据时代的来临大数据的发展历程大数据概念数据量大数据类型繁多处理速度快价值密度低大数据的影响大数据的应用大数据关键技术大数据的采集导入/预处理统计与分析大数据挖掘两大核心技术
大数据计算
模式大数据产业大数据与云计算
so.far_away
·
2023-06-15 14:34
大数据技术原理与应用
大数据
数据库
python
mapreduce
异常分析:mr.MapredLocalTask: I/O error in redirector thread
分析执行日志,发现更新数据时,出现了
mapreduce
异常:2023-05-2702:06:13Startingtolaunchlocaltaskto
邢为栋
·
2023-06-15 13:34
Bigdata
mapreduce
mr
hadoop
Hive面试题十道
Hive将结构化数据映射到Hadoop的分布式文件系统(HDFS)上,并通过
MapReduce
任务执行查询操作。问题2:Hive的主要特性是什么?
MIDSUMMER_yy
·
2023-06-15 13:31
hive
大数据
一百二十五、Hive——hive性能优化
性能优化的参数设置一、hive性能优化sethive.vectorized.execution.enabled=false;sethive.auto.convert.join=false;--map阶段内存不足set
mapreduce
.map.memory.mb
天地风雷水火山泽
·
2023-06-15 13:00
Hive
hive
性能优化
大数据
基于
MapReduce
实现的Kmeans算法(非调库)
简单基于
MapReduce
实现了下KMeans。算法思路KMeans算法作为一种划分式的聚类算法,利用
MapReduce
进行实现的主要难点在于满足KMeans每次迭代划分过程的中间结果保存。
回炉重造P
·
2023-06-15 13:18
java
hadoop
java
大数据
hadoop
kmeans算法
Apache Zeppelin系列教程第九篇——Zeppelin NoteBook数据缓存
数据进行查询过程中,如果遇到非常复杂的sql,查询效率是非常慢比如:selectdt,count(*)fromtablegroupbydt做过数据开发的同学都知道,在hivesql查询过程中,hive会被转换为
MapReduce
诸葛子房_
·
2023-06-15 12:59
Apache
Zeppelin
apache
缓存
hive
Hadoop(CentOS)安装及
MapReduce
实现数据去重
Hadoop(CentOS)安装及
MapReduce
实现数据去重1.JDK安装1.1资源下载:下载地址:https://pan.quark.cn/s/17d7266205f9hadoop的安装包javajdk
拼搏的小浣熊
·
2023-06-15 12:28
java
Hadoop
MapReduce
hadoop
centos
mapreduce
Hive概念
本质是:将HQL转化成
MapReduce
程序1)Hive处理的数据存储在HDFS中,数据库将数据保存在块设备或者本地文件系统中。
小迷糊>_<
·
2023-06-15 11:18
大数据
hive
hadoop
mapreduce
Hive 概念与安装
本质是:将HQL转化成
MapReduce
程序Hive处理的数据存储在HDFSHive分析数据底层的实现是
MapReduce
执行程序运行在Yarn上2.hive的优缺点优点操作接口采用类SQL语法,提供快速开发的能力
wtzhm
·
2023-06-15 11:18
hive
HIVE
HIVE概述
hive安装
大数据技术之Hive:Hive基本概念
本质是:将HQL转化成
MapReduce
程序;1)Hive处理的数据存储在HDFS2)Hive分析数据底层的实现是
MapReduce
3)执行程序运行在Yarn上二、Hive的优缺点优点1)操作接口采用类
浊酒南街
·
2023-06-15 11:48
大数据系列二
数据仓库工具Hive概念
文章目录Hive的产生背景及概念Hive将SQL转换为MR任务的过程数据仓库的概念Hive与RDBMS区别Hive的优缺点Hive架构Hive的产生背景及概念Hive的产生背景在Hadoop中直接使用
MapReduce
想做CTO的任同学...
·
2023-06-15 11:17
Hive
hive
数据仓库
hadoop
MapReduce
编程
Hadoop的
MapReduce
计算框架概述
MapReduce
计算框架是一种计算框架,用于计算处理大规模的数据集,他将数据分成小块,然后在集群中的多个节点上并行处理这些块
MapReduce
框架是由两个组件组成
陆卿之
·
2023-06-15 11:17
大数据
mapreduce
hadoop
大数据
HIVE概念&组件&交互方式&架构
Hive概念基于Hadoop的数据仓库工具主要是将结构化的数据文件映射为数据库表,提供类sql功能本质是将SQL转换为
mapreduce
程序1、将结构化文件和数据库表建立映射关系2、将文件列和数据库表列建立映射关系
Neighbor_L
·
2023-06-15 11:46
hadoop相关
hive
hadoop
Hive的概念
Hive概述Hive是一个基于Hadoop的数据仓库系统,它提供了类似与SQL的查询语言HiveQL,可以将结构化数据存储在Hadoop分布式文件系统中,并通过
MapReduce
进行过处理。
陆卿之
·
2023-06-15 11:15
大数据
hive
hadoop
大数据
Hadoop中
MapReduce
的执行顺序
Hadoop中
MapReduce
的执行顺序如下:InputSplit(输入拆分)
MapReduce
将文件拆分成多个块,并将其分配给不同的Mapper任务进行处理。
老人笔记
·
2023-06-15 07:26
大数据
hadoop
mapreduce
大数据
MapReduce
基础
函数式编程概念
MapReduce
程序是设计用来并行计算大规模海量数据的,这需要把工作流分划到大量的机器上去,如果组件(component)之间可以任意的共享数据,那这个模型就没法扩展到大规模集群上去了(
小小哭包
·
2023-06-15 01:14
大数据
Java
计算机
hadoop
大数据
mapreduce
HBase集群部署
HBase的运行依赖于Hadoop和ZooKeeper,HBase利用HDFS作为其文件存储系统;利用
MapReduce
处理HBase中的数据;利用ZooKeeper作为分布式应用程序协调服务,同时存储
想你依然心痛
·
2023-06-14 23:17
Linux
大数据
hbase
大数据
hadoop
上一页
38
39
40
41
42
43
44
45
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他