E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据计算-MapReduce
Windows上安装Hadoop 3.x
hadoop-env.cmd2.创建数据目录3.core-site.xml4.hdfs-site.xml3.启动测试3.1namenode格式化3.2启动Hadoop3.3查看webui3.4测试hdfs3.5.测试
MapReduce
4
相国
·
2023-08-29 10:26
分布式
hadoop
大数据
Windows平台
技术实践|Hive数据迁移干货分享
它的优点是可以通过类SQL语句快速实现简单的
MapReduce
统计,不用再开发专门的
MapReduce
应用程序,从而降低学习成本,十分适合对数据仓库进行统计分析。
中电金信
·
2023-08-29 07:56
hive
hadoop
数据仓库
MIT 6.824 lab1
mapreduce
而我呢,我大概花了一周才了解了go语言,又看了一周才了解
mapreduce
,然后才开始做lab1,不得不说里面的introduction,Read,lab全是英文,真的超烦人,有时候写程序写着也会忘
小满锅lock
·
2023-08-29 07:53
MIT
6.824
hadoop学习:
mapreduce
的wordcount时候,继承mapper没有对应的
mapreduce
的包
踩坑描述:在学习hadoop的时候使用hadoop下的
mapreduce
,却发现没有
mapreduce
。
超爱慢
·
2023-08-29 06:05
hadoop
学习
mapreduce
第97篇 大数据所带来的
前言:几乎所有APP都在用
大数据计算
着,获取我们的隐私除了获取隐私的不道德外,更可怕的是这个过程,让人类渐渐失去客观判断,更以为整个世界以为的我们,构建一个不自知的世界(也可以说,逐渐变成机器人,变成大数据想让你成为的人
乐活小仙
·
2023-08-28 16:12
MapReduce
之去重计数类应用
应用需求在大数据文件中包含了大量的记录,每条记录记载了某事物的一些属性,需要根据某几个属性的组合,去除相同的重复组合,并统计其中某属性的统计值。解决方法在此类应用中,将计算过程分为两个步骤。第一步,map函数将每条记录中需要关注的属性组合作为关键字,将空字符串作为值,生成的对作为中间值输出。第二步,reduce函数则将输入的中间结果的key作为新的key,value仍然取空字符串,输出结果。因为所
跟着大数据和AI去旅行
·
2023-08-28 15:25
PySpark 相关基础知识
SparkBase1.spark的基本介绍1.1spark的基本介绍
MapReduce
:分布式计算引擎MR分布式计算引擎,可以用来处理大规模数据,主要是用于批处理,用于离线处理MR存在弊端:1-执行效率比较低
青春程序不迷路
·
2023-08-28 15:30
pyspark
spark
Python
spark
pycharm
MapReduce
为什么要排序
MapReduce
在reduce阶段需要分组,将key相同的放在一起进行规约,为了达到该目的,有两种算法:hashmap和sorthashmap算法太耗内存,而sort通过外排可对任意数据量分组,只要磁盘够大就行
遥遥晚风点点
·
2023-08-28 14:51
MapReduce
mapreduce
MapReduce
:在大型集群上简化数据处理
概要
MapReduce
是一种编程模型,它是一种用于处理和生成大型数据集的实现。用户通过指定一个用来处理键值对(Key/Value)的map函数来生成一个中间键值对集合。
java进阶程序员xx
·
2023-08-28 01:07
contOS7 Spark StandAlone HA 环境搭建
1.确定环境是否安装好搭建环境之前先确定自己的环境是否做好1.jdk1.8版本2.HDFS
MapReduce
Hadoop3.2.1+3.zookeeper4.python环境3.8+点击直接查看1,23,4
大白菜程序猿
·
2023-08-27 23:11
linux
spark
大数据
spark
big
data
hadoop
Spark3.2教程(九)CentOS7下Spark Standalone分布式搭建
local模式适合程序的开发测试Standalone模式适合小规模数据onYarn适合大数据量大,并且可能依赖于其他计算引擎,如
MapReduce
,这样可以更好的和Hadoop集成因为Spark本质上是一个计算引擎
Java朱老师
·
2023-08-27 23:09
Spark
spark
分布式
linux
Hive原理剖析
提供类似SQL的HiveQueryLanguage语言操作结构化数据,其基本原理是将HQL语言自动转换成
MapReduce
任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。
Hello.Reader
·
2023-08-27 18:33
hive
hadoop
数据仓库
大数据学习之
MapReduce
1.
MapReduce
定义
Mapreduce
是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。
在远方的你等我
·
2023-08-27 17:45
hive数据调优
在使用hive进行数据查询时,底层执行引擎主要是
MapReduce
,而
MapReduce
流程加工处理期间有数据落盘情况,会浪费大量时间,接下来整理下hive是如何确定map和reduce数量及相关优化方法
稻草人_d41b
·
2023-08-27 16:59
Hadoop之HDFS简介
Hadoop有3大核心组件,分别是HDFS、
MapReduce
和YARN,本次我们重点介绍HDFS。一、HDFS简介HDFS全称HadoopDistributedFileSystem,是一个分布
数新网络
·
2023-08-27 10:18
hadoop
大数据
hdfs
饿了么
大数据计算
引擎实践与应用
饿了么BDI-大数据平台研发团队目前共有20人左右,主要负责离线&实时Infra和平台工具开发。其中6人的离线团队需要维护大数据集群规模如下:Hadoop集群规模1300+HDFS存量数据40+PB,Read3.5PB+/天,Write500TB+/天14WMRJob/天,10WSparkJob/天,25WPresto/天此外还需要维护Hadoop、Spark、Hive、Presto等组件饿了么内
Alukar
·
2023-08-27 08:39
关于hive sql进行调优的理解
hive其实是基于hadoop的数据库管理工具,底层是基于
MapReduce
实现的,用户写的hivesql最终转换成
MapReduce
的任务运行在hadoop上,不过
MapReduce
会因为磁盘IO的问题会运行较慢
世润
·
2023-08-27 07:59
hive
hadoop
数据仓库
【大数据】图解 Hadoop 生态系统及其组件
图解Hadoop生态系统及其组件1.HDFS2.
MapReduce
3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12
G皮T
·
2023-08-27 05:27
#
Hadoop
大数据
hadoop
分布式
hdfs
mapreduce
yarn
hive
机器学习及其matlab实现竞争神经网络与SOM神经网络进阶与提高视频教程
机器学习及其matlab实现竞争神经网络与SOM神经网络进阶与提高视频教程大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Docker,
Mapreduce
,Kafka,Flume
平蝶与波澜
·
2023-08-27 01:56
大数据之Spark(5)- SparkSql
我们已经学习了Hive,它是将HiveSQL转换成
MapReduce
然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于
MapReduce
这种计算模型执行效率比较慢。所有Spar
jackyan163
·
2023-08-26 14:07
YARN资源管理框架论述
一、简介为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性,并消除早期
MapReduce
框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。
Hello.Reader
·
2023-08-26 14:24
大数据
yarn
hadoop
PyCharm整合Hive并通过SparkSQL执行引擎去操作Hive表
每一列是什么类型,以及表的数据保存在hdfs的什么位置执行HQL时,先到MySQL元数据库中查找描述信息,然后解析HQL并根据描述信息生成MR任务,简单来说Hive就是将SQL根据MySQL中元数据信息转成
MapReduce
小柒心得
·
2023-08-26 09:18
hive
pycharm
hadoop
hadoop原理和细节
一、Hadoop概述Hadoop是Google的集群系统开源实现Google的集群系统:GFS、
MapReduce
、BigTableHadoop的集群系统:HDFS、
MapReduce
、HBaseHadoop
truezqx
·
2023-08-26 05:18
Hive面试自学版
Hive是一个基于Hadoop的数据仓库工具,可以将结构化数据文件映射为一张表,同时可以将H-SQL语句转化为
MapReduce
程序在集群上运行。
叫我莫言鸭
·
2023-08-26 04:30
大数据
hive
hive
面试
hadoop
HIVE 调优—— hive.fetch.task.conversion
Fetch抓取是指,Hive中对某些情况的查询可以不必使用
MapReduce
计算。启用
MapReduce
Job是会消耗系统开销的。
Q以梦为马
·
2023-08-26 04:09
大数据——spark一文全知道
1、spark概述spark是专为大规模数据处理而设计的快速通用计算引擎,与Hadoop的
MapReduce
功能类似,但它是基于内存的分布式计算框架,存储还是采用HDFS。
AIGC人工智残
·
2023-08-25 16:20
大数据
大数据
spark
分布式
大数据-Hive
2)Hive本质Hive是一个Hadoop客户端,用于将HQL(HiveSQL)转化成
MapReduce
程序。
ONLYYD
·
2023-08-25 13:27
hive
大数据
大数据课程K7——Spark的容错&&缓存&&Checkpoint
Spark以前的集群容错处理模型,像
MapReduce
,将计算转换为一个
伟雄
·
2023-08-25 10:32
大数据
spark
分布式
hadoop yarn 报错 ERROR org.apache.hadoop.yarn.server.nodemanager.NodeManager: RECEIVED SIGNAL
运行简单的样例程序报错bin/hadoopjarshare/hadoop/
mapreduce
/hadoop-
mapreduce
-examples-2.7.2.jargrepinputoutput'dfs
gs80140
·
2023-08-25 07:21
hadoop
各种问题
hadoop
apache
大数据
【分布式系统】前言
现在的心得如下:不知道啥时候能破解哈~~内容包括部分6.824+读的论文+DDIA:DDIA
mapreduce
GFSVMwareFTRaftzookeeperchainreplication(CR)和CRAQtime
kkzz1x
·
2023-08-25 07:29
MIT6.824
+
分布式论文
唠嗑
分布式
全面解析流式大数据实时处理技术、平台及应用
Hadoop技术体系实现并优化了
MapReduce
框架。Hadoop技术体系主要
丨程序之道丨
·
2023-08-24 22:59
Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native
作者:张凯@阿里云、陳韋廷@Intel、周渊@Intel简介ApacheCeleborn(Incubating)是阿里云捐赠给Apache的通用RemoteShuffleService,旨在提升
大数据计算
引擎的性能
·
2023-08-24 17:17
后端apache
Google
MapReduce
小记
MapReduce
的本质可以说是一个模型,一个进行任务分割和结果汇总的模型。其高明之处在于使用于分布式并行计算,将大量的计算资源进行整合调配。
米切尔
·
2023-08-24 15:12
MongoDB学习(五):聚合、管道与
MapReduce
目录一.聚合&管道1.操作2.例子3.提高管道性能二.Map/Reduce聚合是MongoDB的高级查询框架,实际上在MySQL等关系数据库中,也有GROUPBY这样的类似功能。其主要作用是,从多个文档中提取、转换和整合数据,形成新的信息,可以用来发现文档间的一些关系,或者挖掘单个文档不具备的信息。例如,春节快到了,如果一家商店的店长想统计每月销售额、每种商品销售额、整年销售额,就必须以时间或商品
hbyangland
·
2023-08-24 05:05
MongoDB
mongodb
管道
聚合
aggregate
mapreduce
黑猴子的家:
MapReduce
核心思想
分布式的运算程序往往需要分成至少2个阶段2)第一个阶段的maptask并发实例,完全并行运行,互不相干3)第二个阶段的reducetask并发实例互不相干,但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出4)
MapReduce
黑猴子的家
·
2023-08-24 01:55
大数据处理技术导论(8) | Datawhale组队学习46期
10.1.4简述Spark宽窄依赖10.1.5Hadoop和Spark的相同点和不同点10.1.6Spark为什么比
MapReduce
快?
mba1398
·
2023-08-23 20:35
大数据学习之路
Datawhale
hadoop
学习
大数据
最详细的大数据之Hadoop分布式系统架构解析!没有之一!
HDFS(对于本文)的上一层是
MapReduce
引擎,该引擎由JobTrackers和TaskTrackers组成。
大数据学习01
·
2023-08-23 18:22
腾讯大佬三年大制作,大数据Hadoop和Spark的大集合
本书围绕Hadoop和Spark这两个主流技术进行讲解,主要内容包括Hadoop环境配置、分布式文件系统HDFS、分布式计算框架
MapReduce
、资源调度框架YARN与Hadoop新特性、大数据数据仓库
金光闪闪耶
·
2023-08-23 15:47
Hive3新特性
1.执行引擎变更:TEZ不用支持缓慢过时的
MapReduce
了,14年测试时TEZ比MapReduce快100%。
clive0x
·
2023-08-23 13:20
途牛科技与火山引擎数智平台合作 打造企业大数据系统“降本”新范式
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近日,南京途牛科技有限公司与火山引擎数智平台(VeDI)的合作获得新进展:途牛大数据系统全面迁移至火山引擎开源大数据平台E-
MapReduce
·
2023-08-23 12:52
大数据云服务
大数据平台架构及主流技术栈
Google的三篇论文GFS(2003),
MapReduce
(2004),Bigtable(2006)为大数据技术奠定了理论基础。随后,基于这三篇论文的开源实现Hadoop被各个互联网公司广泛使用。
飞鸡起飞
·
2023-08-23 11:06
大数据架构师之路
这个方法被称作Lambda架构,它通过批量
MapReduce
作业提供了虽有些延迟但是结果准确的计算,同时通过flink/Storm将最新数据的计算结果初步展示出来。
laogooooog
·
2023-08-23 11:04
大数据——一文熟悉HBase
Hadoop在已经有一个Hive+
MapReduce
结构的数据读写功能,为什么还要HBase呢?
AIGC人工智残
·
2023-08-23 11:02
大数据
大数据
hbase
数据库
Hadoop支持LZO压缩
在Hadoop生态系统中,LZO压缩通常用于Hadoop
MapReduce
作业的输入和输出数据,以减少存储空间和数据传输的开销。
贾斯汀玛尔斯
·
2023-08-23 07:32
hadoop
hadoop
大数据
分布式
压缩
Spark 与 Flink 的演进与区别(上)
“Hadoop中的计算框架
MapReduce
的基本思想。
zhouyanjun_
·
2023-08-23 05:48
14_flink
离线数据仓库相关
后Hadoop时代的大数据架构
适合处理非结构化数据,包括HDFS,
MapReduce
基本组件。HDFS:提供了一种跨服务器的弹性数据存储系统。
juan188
·
2023-08-23 05:46
大数据
大数据开发
程序员
spark
Linux
大数据学习
人工智能
数据分析
hadoop
大数据
大数据学习
大数据开发
大数据技术
大数据入门
HDP3.1测试
1:TestDFSIO测试HDFS的IO性能写入:hadoopjar/usr/hdp/3.1.4.0-315/hadoop-
mapreduce
/hadoop-
mapreduce
-client-jobclient
docsz
·
2023-08-23 00:14
hadoop
LeetCode 刷题集 - 分治、回溯、贪心、二分查找、BFS、DFS(3)
分治算法:谈一谈大规模计算框架
MapReduce
中的分治思想回溯算法:从电影《蝴蝶效应》中学习回溯算法的核心思想深度和广度优先搜索:如何找出社交网络中的三度好友关系?
Jacob6666
·
2023-08-22 19:45
大数据 Haddoop(二) 架构与原理
Haddoop架构与原理Hadoop架构架构概述Hadoop经典版本架构HadoopV1.0核心:HDFS
MapReduce
HadoopV2.0,引入了Yarn。
傅二毛
·
2023-08-22 17:45
全链路数据湖开发治理解决方案2.0重磅升级,全面增强数据入湖、调度和治理能力
解决方案包含开源大数据平台E-
MapReduce
(EMR),一站式大数据数据开发治理平台DataWorks,数据湖构建DLF,对象存储OSS等核心产品。
·
2023-08-22 10:13
数据湖
上一页
29
30
31
32
33
34
35
36
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他