E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【MapReduce】
区块链强国之路,从打破Google神话开始
同时,Google也公布了这个项目的目标——联合计算(FC),未来会利用类似
MapReduce
的计算框架处理日志数据,提供通用
浅谈币圈
·
2023-09-02 04:51
Spark SQL
SparkSQLSparkSQL的概述Hive的诞生,主要是因为开发
MapReduce
程序对Java要求比较高,为了让他们能够操作HDFS上的数据,推出了Hive。
奋斗的蛐蛐
·
2023-09-02 00:07
强!大数据之Hadoop伪分布式这样搭建,一次就成功了!
Hadoop原本来自于谷歌一款名为
MapReduce
的编程模型包。谷歌的
MapReduce
框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。
大数据学习05
·
2023-09-01 13:41
Spark_Spark比
mapreduce
快的原因
Spark为什么比
mapreduce
快?
高达一号
·
2023-09-01 07:17
Spark
spark
mapreduce
大数据
Spark SQL概述,DataFrames,创建DataFrames的案例,DataFrame常用操作(DSL风格语法),sql风格语法
1.2.为什么要学习SparkSQL我们已经学习了Hive,它是将HiveSQL转换成
MapReduce
然后提交到集群上执行,大大简化了编写
MapReduce
的程序的复杂性,由于MapRed
涂作权的博客
·
2023-09-01 06:03
#
Spark(大数据分析引擎)
spark
13.108.Spark 优化、Spark优化与hive的区别、SparkSQL启动参数调优、四川任务优化实践:执行效率提升50%以上
hive的区别1.1.26.SparkSQL启动参数调优1.1.27.四川任务优化实践:执行效率提升50%以上13.108.Spark优化:1.1.25.Spark优化与hive的区别先理解spark与
mapreduce
涂作权的博客
·
2023-09-01 06:24
#
Spark(大数据分析引擎)
大数据
Spark
java大数据开发训练营--Impala
款开源的针对HDFS和HBASE中的PB级别数据进⾏交互式实时查询(Impala速度快),Impala是参照⾕歌的新三篇论⽂当中的Dremel实现⽽来,其中旧三篇论⽂分别是(BigTable,GFS,
MapReduce
Laozizuiku
·
2023-09-01 04:34
java大数据
大数据
Ambari实战-1:Ambari使用场景及介绍
Ambari目前已支持大多数Hadoop组件,包括HDFS,
MapReduce
,Hive,Pig,HBase,Zookeeper,Sqoop和HCatalog等。ApacheAmbari支持H
qianmoQ
·
2023-09-01 00:24
MapReduce
之倒排索引
倒排索引介绍:即是统计每篇文章每个单词出现的次数,以此达到在搜索引擎中搜索关键字,检索出出现关键字最多的文章需求:统计每个单词在a.txt、b.txt出现的次数a.txt:hellotomhellojerryhellokittyjerryworldb.txt:hellojerryhellotomjerryworld分析:我们想达到这样的效果:hello"a.txt->3b.txt->2"jerry
博弈史密斯
·
2023-08-31 13:08
途牛科技与火山引擎数智平台合作 打造企业大数据系统“降本”新范式
更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近日,南京途牛科技有限公司与火山引擎数智平台(VeDI)的合作获得新进展:途牛大数据系统全面迁移至火山引擎开源大数据平台E-
MapReduce
·
2023-08-31 11:05
大数据云服务
大数据再出发-06Hadoop(优化&特性&HA)
1.2MR支持的压缩编码1.3压缩方式选择1.3.1Gzip压缩1.3.2Bzip2压缩1.3.3Lzo压缩1.3.4Snappy压缩1.4压缩位置选择1.5压缩参数配置二、Hadoop企业优化2.1
MapReduce
潘小磊
·
2023-08-31 07:02
大数据系列
hadoop
分布式
yarn
Hadoop小文件的优化方案
Hadoop小文件优化一、小文件的影响小文件过多会造成元数据量大的情况,因此NameNode会消耗大量内存空间用于存储小文件的元数据,过多的元数据,也会导致寻址索引速度变慢;小文件过多,会在进行
MapReduce
小猿天地
·
2023-08-31 07:02
Hadoop
hadoop
大数据
分布式
Hadoop
MapReduce
调优参数
文章目录
MapReduce
调优参数详解
MapReduce
调优参数一键复制前言:下列参数基于hadoopv3.1.3版本,共三台服务器,配置都为4核,4G内存。
月亮给我抄代码
·
2023-08-31 07:32
mapreduce
大数据
hadoop
[ hadoop ] 集群性能调优全面总结
集群性能调优全面总结_bone_ds的博客-CSDN博客_hadoop集群优化引子文章涵盖了hadoop框架的三个组成架构各自的优化方法,涉及存储,计算,故障排除等多个方面的具体调优内容,先后解决HDFS,
MapReduce
javastart
·
2023-08-31 07:27
hadoop
hdfs
mapreduce
小文件处理专题
小文件处理专题一
MapReduce
1.1小数据带来的问题在HDFS上,每个文件在NameNode上占150Byte(在内存中占用),如果小文件过多的话就占用大量的Namenode内存,并且查找元数据的速度会很慢在处理
long_World
·
2023-08-31 07:27
大数据优化专题
大数据
第六课 利用
MapReduce
将文件内容写入Hbase
org.apache.hadoophadoop-client2.8.3org.apache.hbasehbase-client1.3.1org.apache.hbasehbase-server1.3.1packagecom.neuedu;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;import
Arroganter
·
2023-08-31 05:54
MapReduce
工作流程
工作流程
MapReduce
启动的时候,最先启动的是MRAppMaster,MRAppMaster根据Job的描述信息,计算出Maptask的数量,申请相对应的Maptask进程。
spark大数据玩家
·
2023-08-31 03:18
hadoop
mapreduce
hadoop异常: org.apache.hadoop.
mapreduce
.lib.input.InvalidInputException: Input path does not exit
出现原因:集群有要操作的目录或者文件但是本地没有吧路径写全造成的。其次是集群获取分布式文件系统没有做配置,默认是本地(你电脑下的路径)所以分布式系统找不到路径。设置如下图:以WordCount为例最终结果如下
缘不易
·
2023-08-31 01:35
Hadoop
hadoop
mapreduce
的工作原理以及 hdfs 上传文件的流程
推荐两篇博文
mapreduce
的工作原理:图文详解
MapReduce
工作流程_
mapreduce
工作流程_Shockang的博客-CSDN博客hdfs上传文件的流程HDFS原理-知乎
超爱慢
·
2023-08-30 18:03
mapreduce
mapreduce
hadoop
学习
大数据
linux
hadoop学习:
mapreduce
入门案例四:partitioner 和 combiner
先简单介绍一下partitioner和combinerPartitioner类用于在Map端对key进行分区默认使用的是HashPartitioner获取key的哈希值使用key的哈希值对Reduce任务数求模决定每条记录应该送到哪个Reducer处理自定义Partitioner继承抽象类Partitioner,重写getPartition方法job.setPartitionerClass(MyP
超爱慢
·
2023-08-30 18:59
mapreduce
mapreduce
大数据
hadoop
学习
linux
黑猴子的家:Spark RDD 之 HBase的输入输出(数据读取与保存的主要方式之一)
HBase数据库由于org.apache.hadoop.hbase.
mapreduce
.TableInputFormat类的实现,Spark可以通过Hadoop输入格式访问HBase。
黑猴子的家
·
2023-08-30 15:41
大数据学习教程SD版第七篇【Hive】
MR程序Hive自带的客户端hiveclientbeelineclient特点HQL用于数据分析,但处理处理粒度粗处理大数据,但延迟高支持自定义函数架构原理Metastore元数据存储Client客户端
MapReduce
道-闇影
·
2023-08-30 08:32
hive
hadoop
big
data
Hive面试题3:底层知识
目录1.hive架构什么是HiveHive架构Hive优点Hive使用场景Hive的执行流程2.sql如何转为
mapreduce
程序的1.hive架构什么是HiveHive是由Facebook开源用于解决海量结构化日志的数据统计
mr_cuber
·
2023-08-30 08:31
hive面试题
hadoop
hive
hadoop 学习:
mapreduce
入门案例三:顾客信息与订单信息相关联(联表)
这里的知识点在于如何合并两张表,事实上这种业务场景我们很熟悉了,这就是我们在学习MySQL的时候接触到的内连接,左连接,而现在我们要学习
mapreduce
中的做法这里我们可以选择在map阶段和reduce
超爱慢
·
2023-08-29 23:45
hadoop
学习
mapreduce
hadoop学习:
mapreduce
入门案例二:统计学生成绩
这里相较于wordcount,新的知识点在于学生实体类的编写以及使用数据信息:1.Student实体类importorg.apache.hadoop.io.WritableComparable;importjava.io.DataInput;importjava.io.DataOutput;importjava.io.IOException;publicclassStudentimplements
超爱慢
·
2023-08-29 23:15
hadoop
学习
mapreduce
mapreduce
:iterable迭代只能迭代一次
在学习hadoop的
mapreduce
的时候,reduce阶段要使用iterable去迭代map阶段传过来的K:V键值对但是有个问题,iterable只能迭代一次,不能回头如果需要多次循环可以使用list
超爱慢
·
2023-08-29 23:45
mapreduce
大数据
hadoop 学习:
mapreduce
入门案例一:WordCount 统计一个文本中单词的个数
一需求这个案例的需求很简单现在这里有一个文本wordcount.txt,内容如下现要求你使用
mapreduce
框架统计每个单词的出现个数这样一个案例虽然简单但可以让新学习大数据的同学熟悉
mapreduce
超爱慢
·
2023-08-29 23:10
hadoop
学习
mapreduce
全面剖析各类大数据的处理框架
前言:说起大数据处理,一切都起源于Google公司的经典论文:《
MapReduce
:SimpliedDataProcessingonLargeClusters》。
丨程序之道丨
·
2023-08-29 19:24
hive搭建
其在Hadoop的架构体系中承担了一个SQL解析的过程,它提供了对外的入口来获取用户的指令然后对指令进行分析,解析出一个
MapReduce
程序组成可执行计划,并按照该计划生成对应的
MapReduce
任务提交给
Gavin_hello
·
2023-08-29 18:46
HDFS 集群读写压测
hadoopjar$HADOOP_HOME/share/hadoop/
mapreduce
/hadoop-
mapreduce
-cl
月亮给我抄代码
·
2023-08-29 14:03
hdfs
hadoop
大数据
Windows上安装Hadoop 3.x
hadoop-env.cmd2.创建数据目录3.core-site.xml4.hdfs-site.xml3.启动测试3.1namenode格式化3.2启动Hadoop3.3查看webui3.4测试hdfs3.5.测试
MapReduce
4
相国
·
2023-08-29 10:26
分布式
hadoop
大数据
Windows平台
技术实践|Hive数据迁移干货分享
它的优点是可以通过类SQL语句快速实现简单的
MapReduce
统计,不用再开发专门的
MapReduce
应用程序,从而降低学习成本,十分适合对数据仓库进行统计分析。
中电金信
·
2023-08-29 07:56
hive
hadoop
数据仓库
MIT 6.824 lab1
mapreduce
而我呢,我大概花了一周才了解了go语言,又看了一周才了解
mapreduce
,然后才开始做lab1,不得不说里面的introduction,Read,lab全是英文,真的超烦人,有时候写程序写着也会忘
小满锅lock
·
2023-08-29 07:53
MIT
6.824
hadoop学习:
mapreduce
的wordcount时候,继承mapper没有对应的
mapreduce
的包
踩坑描述:在学习hadoop的时候使用hadoop下的
mapreduce
,却发现没有
mapreduce
。
超爱慢
·
2023-08-29 06:05
hadoop
学习
mapreduce
MapReduce
之去重计数类应用
应用需求在大数据文件中包含了大量的记录,每条记录记载了某事物的一些属性,需要根据某几个属性的组合,去除相同的重复组合,并统计其中某属性的统计值。解决方法在此类应用中,将计算过程分为两个步骤。第一步,map函数将每条记录中需要关注的属性组合作为关键字,将空字符串作为值,生成的对作为中间值输出。第二步,reduce函数则将输入的中间结果的key作为新的key,value仍然取空字符串,输出结果。因为所
跟着大数据和AI去旅行
·
2023-08-28 15:25
PySpark 相关基础知识
SparkBase1.spark的基本介绍1.1spark的基本介绍
MapReduce
:分布式计算引擎MR分布式计算引擎,可以用来处理大规模数据,主要是用于批处理,用于离线处理MR存在弊端:1-执行效率比较低
青春程序不迷路
·
2023-08-28 15:30
pyspark
spark
Python
spark
pycharm
MapReduce
为什么要排序
MapReduce
在reduce阶段需要分组,将key相同的放在一起进行规约,为了达到该目的,有两种算法:hashmap和sorthashmap算法太耗内存,而sort通过外排可对任意数据量分组,只要磁盘够大就行
遥遥晚风点点
·
2023-08-28 14:51
MapReduce
mapreduce
MapReduce
:在大型集群上简化数据处理
概要
MapReduce
是一种编程模型,它是一种用于处理和生成大型数据集的实现。用户通过指定一个用来处理键值对(Key/Value)的map函数来生成一个中间键值对集合。
java进阶程序员xx
·
2023-08-28 01:07
contOS7 Spark StandAlone HA 环境搭建
1.确定环境是否安装好搭建环境之前先确定自己的环境是否做好1.jdk1.8版本2.HDFS
MapReduce
Hadoop3.2.1+3.zookeeper4.python环境3.8+点击直接查看1,23,4
大白菜程序猿
·
2023-08-27 23:11
linux
spark
大数据
spark
big
data
hadoop
Spark3.2教程(九)CentOS7下Spark Standalone分布式搭建
local模式适合程序的开发测试Standalone模式适合小规模数据onYarn适合大数据量大,并且可能依赖于其他计算引擎,如
MapReduce
,这样可以更好的和Hadoop集成因为Spark本质上是一个计算引擎
Java朱老师
·
2023-08-27 23:09
Spark
spark
分布式
linux
Hive原理剖析
提供类似SQL的HiveQueryLanguage语言操作结构化数据,其基本原理是将HQL语言自动转换成
MapReduce
任务,从而完成对Hadoop集群中存储的海量数据进行查询和分析。
Hello.Reader
·
2023-08-27 18:33
hive
hadoop
数据仓库
大数据学习之
MapReduce
1.
MapReduce
定义
Mapreduce
是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。
在远方的你等我
·
2023-08-27 17:45
hive数据调优
在使用hive进行数据查询时,底层执行引擎主要是
MapReduce
,而
MapReduce
流程加工处理期间有数据落盘情况,会浪费大量时间,接下来整理下hive是如何确定map和reduce数量及相关优化方法
稻草人_d41b
·
2023-08-27 16:59
Hadoop之HDFS简介
Hadoop有3大核心组件,分别是HDFS、
MapReduce
和YARN,本次我们重点介绍HDFS。一、HDFS简介HDFS全称HadoopDistributedFileSystem,是一个分布
数新网络
·
2023-08-27 10:18
hadoop
大数据
hdfs
关于hive sql进行调优的理解
hive其实是基于hadoop的数据库管理工具,底层是基于
MapReduce
实现的,用户写的hivesql最终转换成
MapReduce
的任务运行在hadoop上,不过
MapReduce
会因为磁盘IO的问题会运行较慢
世润
·
2023-08-27 07:59
hive
hadoop
数据仓库
【大数据】图解 Hadoop 生态系统及其组件
图解Hadoop生态系统及其组件1.HDFS2.
MapReduce
3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12
G皮T
·
2023-08-27 05:27
#
Hadoop
大数据
hadoop
分布式
hdfs
mapreduce
yarn
hive
机器学习及其matlab实现竞争神经网络与SOM神经网络进阶与提高视频教程
机器学习及其matlab实现竞争神经网络与SOM神经网络进阶与提高视频教程大数据,云计算,架构,数据分析师,Hadoop,Spark,Storm,Docker,
Mapreduce
,Kafka,Flume
平蝶与波澜
·
2023-08-27 01:56
大数据之Spark(5)- SparkSql
我们已经学习了Hive,它是将HiveSQL转换成
MapReduce
然后提交到集群上执行,大大简化了编写MapReduc的程序的复杂性,由于
MapReduce
这种计算模型执行效率比较慢。所有Spar
jackyan163
·
2023-08-26 14:07
YARN资源管理框架论述
一、简介为了实现一个Hadoop集群的集群共享、可伸缩性和可靠性,并消除早期
MapReduce
框架中的JobTracker性能瓶颈,开源社区引入了统一的资源管理框架YARN。
Hello.Reader
·
2023-08-26 14:24
大数据
yarn
hadoop
PyCharm整合Hive并通过SparkSQL执行引擎去操作Hive表
每一列是什么类型,以及表的数据保存在hdfs的什么位置执行HQL时,先到MySQL元数据库中查找描述信息,然后解析HQL并根据描述信息生成MR任务,简单来说Hive就是将SQL根据MySQL中元数据信息转成
MapReduce
小柒心得
·
2023-08-26 09:18
hive
pycharm
hadoop
上一页
26
27
28
29
30
31
32
33
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他