E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
【MapReduce】
hadoop知识点汇总
hadoop开源版安装流程hadoop的组成hadoop读写数据的过程描述
mapreduce
过程hadoop调度器hadoop常用端口hdfs小文件的影响hdfs常用操作命令hadoop性能调优
MapReduce
wx740851326
·
2023-07-15 16:50
大数据之路
hadoop
hdfs
mapreduce
Hadoop知识点记录
HDFS和
MapReduce
共同组成了Hadoop分布式系统体系结构的核心,HDFS在集群上实现了分布式文件系统,
MapReduce
在集群上实现了分布式计算和任务处理,HDFS在
MapReduce
任务处理过程中提供了文件操作和存储等支持
benluobo
·
2023-07-15 16:40
Hadoop
知识点总结
大数据01-Hadoop3.3.1伪分布式安装
VMware创建虚拟机安装VMwareTools共享文件夹安装JavaSSH登录权限设置Hadoop伪分布式安装安装单机版HadoopHadoop伪分布式安装HadoopWebUI管理界面测试HDFS集群以及
MapReduce
蓝净云
·
2023-07-15 11:39
大数据
大数据
分布式
hadoop
大数据开发之Windows10上运行第一个hadoop实例wordcount
第一步下载程序
MapReduce
Client.jar及数据文件input_file.txt,地址https://github.com/yjjhkyq/Hadoop-On-Window第二步以管理员身份打开
茅草屋的屋
·
2023-07-15 10:34
大数据开发教程
hadoop
大数据
hdfs
hbase基础(四)——
MapReduce
操作
目录一、前言准备工作二、HDFS——
MapReduce
操作11、Map阶段2、Reduce阶段3、Driver阶段4、结果查询三、HDFS——
MapReduce
操作21、Map阶段2、Reduce阶段3
雨诺风
·
2023-07-15 07:19
Hbase基础
hbase
mapreduce
hadoop
hdfs
大数据
hbase报错org.apache.hadoop.hbase.client.RetriesExhaustedException: Cannot get the location for replica
hbase基础(四)——
MapReduce
操作log4j:WARNNoappenderscouldbefoundforlogger(org.apache.hadoop.util.Shell)
雨诺风
·
2023-07-15 07:19
Hbase报错
hbase
hadoop
apache
大数据
java
Hadoop期末复习贴-
MapReduce
若本文对你有帮助,请记得点赞、关注我喔!从头开始看hadoop程序hhhh1)WordCountimportjava.io.IOException;importjava.util.StringTokenizer;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;importorg.apache.ha
梏十一郎
·
2023-07-15 07:47
大数据期末复习
hadoop
mapreduce
big
data
Spark 练习测试题(答案仅供参考)
编程框架的限制B.过多的磁盘操作,缺乏对分布式内存的支持C.无法高效低支持迭代式计算D.海量的数据存储3.与hadoop相比,Spark主要有以下哪些优点(ABCD)A.提供多种数据集操作类型而不仅限于
MapReduce
Aurora1217
·
2023-07-15 07:46
spark
spark
spark入门知识详解
2、为什么要学习spark
MapReduce
框架局限性1,Map结果写磁盘,Reduce写HDFS,多个MR之间通过HDFS交换数据2,任务调度和
Echo-Niu
·
2023-07-15 07:46
人工智能
spark
大数据
hadoop
hdfs
mapreduce
【Spark】简介
spark是一个用于大规模数据处理的统一分析引擎、它基于hadoop
mapreduce
并扩展了
mapreduce
模型,能
落花生@u
·
2023-07-15 07:15
大数据技术
Spark
hadoop课后题带答案(期末考试复习)
2.Hadoop三大组件包含HDFS、
MapReduce
和Yarn。3.Hadoop2.x版本中的HDFS是由NameNode、DataNode和SecondaryNameNod
闫海南
·
2023-07-15 07:42
考试复习资料
hadoop
大数据
hdfs
2023春季工信部spark高级考试大题
训练数据train:idtextlabel0"abcdespark"1.01"bd"0.02"sparkfgh"1.03"hadoop
mapreduce
"0.0测试数据text:idtext4"s
音九尘
·
2023-07-15 06:00
spark
大数据
20天学习Spark(0)之最简单版Spark入门
所谓大数据分析主要是对大量数据进行分析处理,是目前大数据开发职业必备技能一、简单介绍下面是对spark的简单介绍,嗯,主要就是说下spark有多好多好的,不想看的可以直接去第二步特点1)快:与Hadoop的
MapReduce
浩哥的技术博客
·
2023-07-15 06:59
spark
spark
scala
大数据技术之Hadoop(十一)——网站流量日志数据分析系统
目录素材:一、模块开发——数据预处理1、分析预处理的数据2、实现数据的预处理(1)创建Maven项目,添加相关依赖(2)创建JavaBean对象,封装日志记录(3)创建
MapReduce
程序,执行数据预处理二
雨诺风
·
2023-07-15 06:53
大数据技术之Hadoop学习
大数据
hadoop
分布式
hive
java
【hadoop】常见期末考试客观题大全
文章目录一、选择题二、HBase核心知识点三、HBase高级应用介绍四、关于hadoop的选择题五、
MapReduce
多选题:判断题:一、选择题以下哪一项不属于Hadoop可以运行的模式C。
lanbabela
·
2023-07-15 06:50
hadoop
hadoop
【云存储】主流分布式文件系统介绍
目录1、引言2、云存储与分布式文件系统2.1、云存储2.2、分布式文件系统3、Google的三大云计算与云存储论文3.1、TheGoogleFileSystem(谷歌文件系统)3.2、
MapReduce
dvlinker
·
2023-07-15 06:02
技术分享系列
云存储
分布式文件系统
GFS
FastDFS
HDFS
Ceph
TFS
大数据面试题Spark篇(1)
目录1.spark数据倾斜2.Spark为什么比
mapreduce
快?3.hadoop和spark使用场景?4.spark宕机怎么迅速恢复?5.RDD持久化原理?
后季暖
·
2023-07-15 02:24
大数据
spark
分布式
2023 Hive 面试宝典
先说一些废话总结一下Hive面试宝典,方便读者快速过一遍Hive面试所需要的知识点Hive的介绍Hive和Hadoop的关系Hive利用hdfs存储数据,利用
MapReduce
查询数据Hive的数据存储在
fx67ll
·
2023-07-14 20:47
大数据开发文档
hive
面试
hadoop
Hadoop和Hive的关系
Hadoop最核心的设计就是hdfs和
mapreduce
,hdfs提供存储,
mapreduce
用于计算。2.Hive是Hadoop的延申。
红乘以白
·
2023-07-14 20:32
hadoop
hive
大数据
五大步骤帮你实现Hadoop价值最大化
生产环境中使用Hadoop需要有Sqoop、Hive、Pig和
MapReduce
编程语言经验。企业在部署Hadoop时总会遇到一些问题。
大数据架构师
·
2023-07-14 14:47
ChatGLM-6B+LangChain实战
LangChain实现长文本生成摘要.方法:step1:自定义一个GLM继承LangChain中的langchain.llms.base.LLM,load自己的模型.step2:使用LangChain的
mapreduce
stay_foolish12
·
2023-07-14 13:02
python
自然语言处理
人工智能
langchain
chatglm
【Hadoop 01】简介
适合海量数据分布式存储和分布式计算Hadoop3.x的细节优化:Java改为支持8及以上HDFS支持纠删码HDFS支持多NameNodeMR任务级本地优化多重服务默认端口变更Hadoop主要包含三大组件:HDFS+
MapReduce
不菜不菜
·
2023-07-14 11:56
大数据
hadoop
大数据
分布式
Spark SQL(十):Hive On Spark
其底层默认是基于
MapReduce
实现的,但是由于
MapReduce
速度实在比较慢,因此这几年,陆续出来了新的SQL查询引擎,包括SparkSQL,HiveOnTez,HiveOnSpark等。
雪飘千里
·
2023-07-14 08:42
【搜索引擎Solr】Solr:提高批量索引的性能
mapreduce
作业扫描hbase表,通过上述分片公式计算每个文件的目
超级架构师
·
2023-07-14 07:27
搜索引擎
solr
lucene
Spark基本工作原理和RDD特性
1.spark的基本工作原理1.迭代式计算:Spark与
MapReduce
最大的不用在于其迭代式计算模型:
MapReduce
,分为两个阶段,map和reduce,两个阶段完成,就结束了。
SunnyMore
·
2023-07-14 06:57
HHU云计算期末复习(上)Google、Amazon AWS、Azure
文章目录第一章概论第二章Google云计算2.1Google文件系统(GFS)2.2
MapReduce
和Hadoop2.3分布式锁服务Chubby2.4分布式结构化数据表Bigtable存储形式主服务器子表
丸丸丸子w
·
2023-07-13 21:54
大数据
云计算
azure
阿里云
Hadoop基础——
MapReduce
1.Hadoop序列化和反序列化及自定义bean对象实现序列化?1)序列化和反序列化的含义序列化是将内存中的对象转换为字节序列,以便持久化和网络传输。反序列化就是将字节序列或者是持久化数据转换成内存中的对象。Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息,不便于在网络中高效传输,所以hadoop开发了一套序列化机制(Writable)2
YuannaY
·
2023-07-13 21:33
大数据组件
hadoop
mapreduce
大数据
Flink实现特定统计的归约聚合reduce操作
从大名鼎鼎的
MapReduce
开始,我们对reduce操作就不陌生:它可以对已有的数据进行归约处理,把每一个新输入的数据和当前已经归约出来的值,再做一个聚合计算。
·
2023-07-13 15:42
Hadoop的核心组件HDFS架构是怎样的?有什么优缺点?今天我们来聊下
就是因为这两个的存在,才会衍生出Spark、
MapReduce
、HBase等组件。今天我们就来聊下HDFS的核心原理。概念HDFS是
熊小哥~
·
2023-06-24 10:02
hadoop
hdfs
大数据
Hadoop的OutputFormat类
Hadoop的OutputFormat类介绍OutputFormat是一个用于描述
MapReduce
作业的输出格式和规范的抽象类,位于org.apache.Hadoop.
mapreduce
.OutputFormat.
Mapreduce
岁月的眸
·
2023-06-24 08:38
hadoop
mapreduce
大数据
MapReduce
分布式计算(三)
JSONJSON(JavaScriptObjectNotation)是一种轻量级的数据交换格式.JSON和Java对象的转换movie.txt{"movie":"1193","rate":"5","timeStamp":"978300760","uid":"1"}{"movie":"661","rate":"3","timeStamp":"978302109","uid":"2"}{"movie"
子非我104
·
2023-06-24 06:50
mapreduce
java
前端
MapReduce
分布式计算(四)
文件关联需求order.txtorder011u001order012u001order033u005order034u002order055u003order066u004order077u010user.txtu001,hangge,18,male,angelababyu002,huihui,58,female,ruhuau003,guanyu,16,male,chungeu004,laodu
子非我104
·
2023-06-24 06:50
数据库
大数据
Spark的核心RDD
ResilientDistributedDatasets弹性分布式数据集)铺垫1、在hadoop中一个独立的计算,例如在一个迭代过程中,除可复制的文件系统(HDFS)外没有提供其他存储的概念,这就导致在网络上进行数据复制而增加了大量的消耗,而对于两个的
MapReduce
·
2023-06-24 03:55
Spark 和
MapReduce
的对比
在此之前,我们先来了解一下
MapReduce
。
MapReduce
本质就是两个过程:Map切分和reduce聚合。一、内存计算spark将数据存储在内存中进行计算;
MapReduce
将数据存储在磁盘上。
five小点心
·
2023-06-24 00:27
#
spark
#
MapReduce
mapreduce
大数据
什么是AWS Lambda?
-----Container-------Lambda虚拟机---容器--------------serverless无服务器架构EC2(ElasticComputeCloud)EMR(Elastic
MapReduce
Data+Science+Insight
·
2023-06-23 15:12
大数据
python
数据挖掘
机器学习
深度学习
实验四:
MapReduce
初级编程实践
1.编程实现文件合并和去重操作对于两个输入文件,即文件A和文件B,编写
MapReduce
程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。
谢三公主
·
2023-06-23 12:07
mapreduce
hadoop
大数据
【Hadoop】使用
MapReduce
操作HBase
1环境准备1)成功搭建Hadoop-2.2.0开发环境2)成功启动HBase,通过HBaseShell进行测试3)使用MyEclipse作为开发工具4)使用Maven构建项目2创建项目这里我就不带大家如何创建项目了,细节可看HBaseJavaAPI练习中的操作,我们也是使用HBaseJavaAPI练习中的项目。3创建上传数据至HBase的类3.1WordCountUpLoadToHBase.cla
朝和(zixi0825)
·
2023-06-23 08:11
Hadoop
mapreduce
hbase
hadoop
《斯坦福数据挖掘教程·第三版》读书笔记(英文版) Chapter 2
MapReduce
and the New Software Stack
来源:《斯坦福数据挖掘教程·第三版》对应的公开英文书和PPTChapter2
MapReduce
andtheNewSoftwareStackComputingclustermeanslargecollectionsofcommodityhardware
皓哥好运来
·
2023-06-23 06:17
数据挖掘
笔记
数据挖掘
人工智能
Hadoop文件分片split的原理解析
1.2splitsplit是逻辑上的分片,在
MapReduce
中Map开始之前,会将输入文件按照指定大小切分为多个小片,每一部分对应一个MapTask,默认split的大小与block的大小相同,为128MB
幸运猪x
·
2023-06-23 04:44
一个例子带你了解
MapReduce
写在前面:博主是一只经过实战开发历练后投身培训事业的“小山猪”,昵称取自动画片《狮子王》中的“彭彭”,总是以乐观、积极的心态对待周边的事物。本人的技术路线从Java全栈工程师一路奔向大数据开发、数据挖掘领域,如今终有小成,愿将昔日所获与大家交流一二,希望对学习路上的你有所助益。同时,博主也想通过此次尝试打造一个完善的技术图书馆,任何与文章技术点有关的异常、错误、注意事项均会在末尾列出,欢迎大家通过
一头小山猪
·
2023-06-23 00:46
学习路上
#
大数据组件
mapreduce
hadoop
hdfs
Storm--简介(一)
随着越来越多的场景对Hadoop的
MapReduce
高延迟无法容忍,比如网站统计、推荐系统、预警系统、金融系统(高频交易、股票)等等,大数据实时处理解决方案(流计算)的应用日趋广泛,目前已是分布式技术领域最新爆发点
无剑_君
·
2023-06-22 22:42
大数据中台技术组件
一、平台搭建1.1.Amabari+HDP1.2.CM+CDH二、相关的技术栈数据存储:HDFS,HBase,Kudu等数据计算:
MapReduce
,Spark,Flink交互式查询:Impala,Presto
TURING.DT
·
2023-06-22 16:31
大数据
java
开发语言
python高阶函数map,reduce总结
MapReduce
MapReduce
主要应用与分布式中分布式思想:讲一个连续的字符串转为列表,元素类型为字符串类型,将其都变成数字类型,使用分布式思想【类似于一件事一个人干起来慢,但是如果人多呢?
joJOkoin
·
2023-06-22 09:18
Apache Spark 的基本概念重点和在大数据分析中的应用
Spark最初是由加州大学伯克利分校的AMPLab开发的,目的是为了解决Hadoop
MapReduce
在迭代计算、交互式数据挖掘以及实时数据流处理等方面的性能瓶颈。
Distantfbc
·
2023-06-22 08:48
spark
大数据
hadoop
spark
分区——合理设置Map及Reduce数、复杂文件增加Map数
1、分区(1)合理设置Map及Reduce数如果
MapReduce
数据量过少,则单个的处理数据量过大;如果
MapReduce
数据量过多,则抢资源。
Distantfbc
·
2023-06-22 08:18
大数据
mapreduce
hive
hadoop
Java Fork/Join 框架
这种思想和
MapReduce
很像(input-->split-->map-->reduce-->output)主要有两步:第一、任务切分;第二、结果合并它的模型大致是这样的:线程池中的每个线程都有自己的工作队列
肥常忧伤
·
2023-06-22 08:44
java
开发语言
java 客户端操作HDFS
1、windows上部署hadoop包部署包win版本源码包zip包lib整合:共121个jar包$HADOOP_PREFIX/share/hadoop/{common,hdfs,
mapreduce
,yarn
30岁老阿姨
·
2023-06-22 07:07
Hadoop
hdfs
java
hadoop
Hive官方文档学习
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为
MapReduce
任务进行运行。
一只当归
·
2023-06-22 07:07
MapReduce
程序基本架构
MapReduce
程序是以(键/值)对的形式来处理数据的,即可以通过以下的形式来表示:map:(K1,V1)➞list(K2,V2)reduce:(K2,list(V2))➞list(K3,V3)不令人惊奇的是
小小哭包
·
2023-06-22 07:23
大数据
计算机
Java
hadoop
mapreduce
大数据
Flink流批一体计算(3):FLink作业调度
架构所有的分布式计算引擎都需要有集群的资源管理器,例如:可以把
MapReduce
、Spark程序运行在YARN集群中、或者是Mesos中。
victory0508
·
2023-06-22 06:11
Flink
flink
大数据
java
上一页
33
34
35
36
37
38
39
40
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他