E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop3
Hive数据仓库中的数据导出到MySQL的数据表不成功
可能的原因:(1)没有下载flume和sqoop(2)权限问题:因为MySQL数据库拒绝了root用户从
hadoop3
主机的连接请求,root用户没有从
hadoop3
主机进行连接的权限解决:通过MySQL
sin2201
·
2025-01-26 04:01
出错问题
数据仓库
hive
mysql
Hadoop手把手逐级搭建 第二阶段: Hadoop完全分布式(full)
).将hadoop配置修改为完全分布式4).启动完全分布式集群5).在完全分布式集群上测试wordcount程序1.克隆4台虚拟机1.1使用hadoop0克隆4台虚拟机hadoop1,hadoop2,
hadoop3
郑大能
·
2024-02-15 04:07
Hadoop3
完全分布式搭建
一、第一台的操作搭建修改主机名使用hostnamectlset-hostname修改当前主机名关闭防火墙和SELlinux1,使用systemctlstopfirewalldsystemctldisablefirewalld关闭防火墙2,使用vim/etc/selinux/config修改为SELINUX=disabled使用NAT模式配置静态IP1,修改网络配置vim/etc/sysconfig
三木一立
·
2024-01-21 05:54
大数据
分布式
php
开发语言
Vmware虚拟机无法联通主机解决方法二
昨天在遇到了VMware虚拟机无法联通主机,导致我在CentOS-7搭建的伪
Hadoop3
服务,无法访问管理平台,使用将网络编辑器修改为“桥接”模式解决。
在奋斗的大道
·
2023-12-31 05:45
深蓝计划
系统运维
VMware
Vmware 虚拟机无法联通主机
问题描述:今天使用VmwareWorkstation创建CentOS-7虚拟机,基于CentOS-7搭建
Hadoop3
伪分布式版本,CentOS-7测试
Hadoop3
服务正常启动,通过主机连接
Hadoop3
在奋斗的大道
·
2023-12-31 05:14
VMware
虚拟机操作
系统运维
深蓝计划
linux
运维
服务器
CDH5到CDH6都更新了些什么?
CDH6是基于
Hadoop3
同时包含大量其他组件的大版本更新的发布版本,许多用户考虑到未来CDH的版本主要是基于CDH6,而CDH5会慢慢的停止更新,所以考
ClouderaHadoop
·
2023-12-30 14:18
SpringBoot 2 集成Spark 3
.*,如果还未安装相关环境,请参考:Spark初始CentOS7安装
Hadoop3
单机版SpringBoot2集成Spark3pom.xmlSpringBootCaseorg.example1.0-SNAPSHOT4.0.0SpringBoot-Spark388org.apache.sparkspark-core
在奋斗的大道
·
2023-12-26 06:12
Java架构专栏
深蓝计划
hadoop
spark
大数据
分布式
SpringBoot 3 集成Hive 3
*+MySQL8,如果还未安装相关环境,请参考:Hive一文读懂Centos7安装
Hadoop3
单机版本(伪分布式版本)SpringBoot2集成Hive3pom.xmlSpringBootCaseorg.example1.0
在奋斗的大道
·
2023-12-24 07:46
springBoot学习笔记
Java架构专栏
hadoop
hive
hadoop
数据仓库
Hadoop 1 ~ Hadoop 3 的发展史
Hadoop简介Hadoop到目前为止发展已经余年了,版本经过了无数次的更新迭代,目前市面上已经把Hadoop分为Hadoop1、Hadoop2、
Hadoop3
三个版本。
大数据狂人
·
2023-12-03 14:34
hadoop
Hadoop3
系列——(七)Hbase安装
本文基于:
Hadoop3
系列——(三)YARN环境搭建环境下搭建兼容:下载Hadoop版本对应的Hbase,hbase下载地址:http://hbase.apache.org/downloads.html
qq_41622603
·
2023-11-26 19:17
Hadoop
hadoop
win10下编译Apache版本hadoop2.10.0,附资源
今天是三月尾巴了,然后博文还没打卡,今天临时编译了一下hadoop在window上的环境包,至于版本就不要纠结了,比如问为啥不用hadoop2.6或者
hadoop3
版本而用2.10.0版本。
辅猪之王
·
2023-11-20 23:19
安装
笔记
错误干扰
windows
hadoop
大数据
hadoop3
伪分布式安装
1.环境准备最低硬件要求:CPU2核、内存:4G、硬盘:100GCentOS7最小安装JDK1.8HADOOP3.3.41.1.主机名和IP地址#编辑下方文件,修改内容为自己想要的主机名,如mitchell-101hostnamectlset-hostnamemitchell-101#修改服务器为静态IP,并配置内容vi/etc/sysconfig/network-scripts/ifcfg-en
被遗忘的优雅
·
2023-11-15 05:44
linux
hadoop
大数据
Spark中常见的错误以及修改方案
文件位置随便设置,这里是在D:\soft\
hadoop3
\bin,注意在配置路径时,bin目录不需要添加。配置完成后重启idea2、ERRORspark.SparkContext:
新手小农
·
2023-11-08 09:23
Spark
大数据
Centos8中Hadoop3.3.1安装详细过程(含图文)
目录Hadoop介绍:一、创建hadoop用户二、安装SSH、配置SSH无密码登录三、卸载jdk环境四、安装新的java版本五、安装
Hadoop3
六、配置hadoop环境变量七、Hadoop伪分布式配置
wat-999
·
2023-11-05 23:17
开发语言
hadoop
分布式
hadoop集群搭建之运行环境准备以及群启HDFS,YARN集群
hadoop入门-运行环境的搭建前期准备工作:制作了一模拟机hadoop101,然后在hadoop101的基础上,进行克隆,制作了一台hadoop102的服务器,配置好了jdk1.8以及
hadoop3
的环境变量
倔强的耗子
·
2023-11-04 11:26
hadoop
big
data
hdfs
yarn
大数据Hadoop2.x与Hadoop3.x相比较有哪些变化
Hadoop3
版本中添加了哪些新功能,
Hadoop3
中兼容的Hadoop2程序,Hadoop2和
Hadoop3
有什么区别?我们希望Hadoop2和
Hadoop3
之间的这个功能的区别将帮助回答上述问题。
尚学先生
·
2023-11-03 03:29
CentOS 搭建
Hadoop3
高可用集群
HadoopFullyDistributedMode完全分布式spark101spark102spark103192.168.171.101192.168.171.102192.168.171.103namenodenamenodejournalnodejournalnodejournalnodedatanodedatanodedatanodenodemanagernodemanagernodem
李昊哲小课
·
2023-11-02 05:58
Hadoop
大数据
数据分析
centos
linux
运维
大数据
hadoop
Hadoop3.0大数据处理学习1(Haddop介绍、部署、Hive部署)
Hadoop3.0快速入门学习步骤:三大组件的基本理论和实际操作
Hadoop3
的使用,实际开发流程结合具体问题,提供排查思路开发技术栈:Linux基础操作、Sehll脚本基础JavaSE、Idea操作MySQLHadoop
Huathy-雨落江南,浮生若梦
·
2023-10-26 07:02
Hadoop
大数据
hive
hadoop
Hadoop3
教程(三十五):(生产调优篇)HDFS小文件优化与MR集群简单压测
文章目录(168)HDFS小文件优化方法(169)MapReduce集群压测参考文献(168)HDFS小文件优化方法小文件的弊端,之前也讲过,一是大量占用NameNode的空间,二是会使得寻址速度变慢。另外,过多的小文件,在进行MR的时候,会生成过多切片,从而启动过多的MapTask,很容易造成,启动MapTask的时间比MapTask计算的时间还长,浪费资源。那怎么解决小文件问题,有这么几个解决
经年藏殊
·
2023-10-24 08:30
大数据技术
hdfs
mr
hadoop
Hadoop3
教程(三十六):(生产调优篇)企业开发场景中的参数调优案例概述
文章目录(170)企业开发场景案例HDFS参数调优MapReduce参数调优YARN参数调优执行程序参考文献(170)企业开发场景案例这章仅做兴趣了解即可。需求:从1G数据中,统计每个单词出现次数。服务器3台,每台配置4G内存,4核CPU,4线程。需求分析:1G/128m=8个MapTask;1个ReduceTask;1个mrAppMaster平均每个节点运行10个/3台≈3个任务(433)当然,
经年藏殊
·
2023-10-24 08:54
大数据技术
大数据
hadoop
Hadoop3
教程(二十六):(生产调优篇)NameNode核心参数配置与回收站的启用
文章目录(143)NameNode内存配置(144)NN心跳并发配置(145)开启回收站参考文献(143)NameNode内存配置每个文件块(的元数据等)在内存中大概占用150byte,一台服务器128G内存的话,大概能存储9.1亿个文件块。在Hadoop2.x里,如何配置NameNode内存?NameNode默认内存2000M。如果你的服务器内存是4G,那一般可以把NN内存设置成3G,留1G给服
经年藏殊
·
2023-10-23 01:01
大数据技术
大数据
hadoop
Hadoop3
教程(二十九):(生产调优篇)集群扩容及缩容(白名单与黑名单)
文章目录(150)添加白名单(151)服役新服务器(152)服务器间数据均衡(153)黑名单退役服务器参考文献这一章还算是比较重要的。(150)添加白名单白名单:在白名单里的主机IP地址,就可以用来存储数据以及互相之间的通信等。一般企业都会配置集群白名单,防止黑客攻击。相应的,集群里也有黑名单,下几节会讲。配置白名单步骤如下,仅做了解,所以直接复制的教程内容:1)在NameNode节点的/opt/
经年藏殊
·
2023-10-22 10:31
大数据技术
大数据
hadoop
Hadoop3
教程(三十):(生产调优篇)纠删码
文章目录(155)纠删码原理纠删码原理纠删码相关命令纠删码策略解释(156)纠删码案例实操参考文献(155)纠删码原理纠删码原理默认情况下,一个文件在HDFS里会保留3个副本,以此提高数据的可靠性(容灾),但也带来了2倍的存储上的冗余开销。于是Hadoop3.x引入了纠删码,采用计算的方式来提高数据的可靠性,可以节省50%左右的存储空间。如上图(黄色部分),默认情况下,对于一个300M大小的文件,
经年藏殊
·
2023-10-22 10:31
大数据技术
大数据
hadoop
Hadoop3
教程(二十八):(生产调优篇)NN、DN的多目录配置及磁盘间数据均衡
文章目录(148)NN多目录配置(149)DataNode多目录配置及磁盘间数据平衡磁盘间数据均衡参考文献(148)NN多目录配置NN多目录的意思是,本地目录可以配置成多个,且每个目录存放内容相同,这样的目的是增加可靠性。比如说下图这样:但其实生产中不常用哈,生产中要增加NN的可靠性的话,一般会开启NN的高可用,即在不同节点上开启多个NN,靠zookeeper来协调。所以本节就了解一下即可。配置的
经年藏殊
·
2023-10-22 10:56
大数据技术
hadoop
大数据
Hadoop3
教程(三十一):(生产调优篇)异构存储
文章目录(157)异构存储概述概述异构存储的shell操作(158)异构存储案例实操参考文献(157)异构存储概述概述异构存储,也叫做冷热数据分离。其中,经常使用的数据被叫做是热数据,不经常使用的数据被叫做冷数据。把冷热数据,分别存储在不同的存储介质里,从而达到对每个介质的利用率最高,从而实现整体最佳性能,或者说性价比更高(比如说高性能硬盘放经常使用的数据)。简单的说,就是这么一个问题:经常使用的
经年藏殊
·
2023-10-22 05:05
大数据技术
大数据
hadoop
Hadoop3
教程(三十二):(生产调优篇)NameNode故障恢复与集群的安全模式
文章目录(159)NameNode故障处理(160)集群安全模式&磁盘修复集群安全模式磁盘修复等待安全模式参考文献(159)NameNode故障处理如果NameNode进程挂了并且存储的数据也丢失了,如何恢复NameNode?首先,我们可以通过以下代码来模拟故障:(1)kill-9NameNode进程[atguigu@hadoop102current]$kill-919886(2)删除NameNo
经年藏殊
·
2023-10-22 05:05
大数据技术
hadoop
大数据
Hadoop3
教程(三十四):(生产调优篇)MapReduce生产经验汇总
文章目录(164)MR跑得慢的原因(165)MR常用调优参数Map阶段Reduce阶段(166)MR数据倾斜问题参考文献(164)MR跑得慢的原因MR程序执行效率的瓶颈,或者说当你觉得你的MR程序跑的比较慢的时候,可以从以下两点来分析:计算机性能节点的CPU、内存、磁盘、网络等,这种属于硬件上的检查;IO操作上的检查是否发生了数据倾斜?即单一reduce处理了绝大部分数据Map运行时间过长,导致R
经年藏殊
·
2023-10-22 05:05
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(三十三):(生产调优篇)慢磁盘监控与小文件归档
文章目录(161)慢磁盘监控(162)小文件归档小文件过多的问题如何对小文件进行归档参考文献(161)慢磁盘监控慢磁盘,是指写入数据时特别慢的一类磁盘。这种磁盘并不少见,当机器运行久了,跑任务跑的多了,磁盘的寿命到一定程度的时候,磁盘的读写性能自然就会退化,严重时就会出现写数据延迟的问题。比如说,如果正常在HDFS上创建一个目录,只需要1s左右。但是你偶尔发现创建目录时超过了1分钟或者更久,但次数
经年藏殊
·
2023-10-22 05:29
大数据技术
hadoop
大数据
Hadoop3
教程(二十五):Yarn的多队列调度器使用案例
文章目录(136)生产环境多队列创建&好处(137)容量调度器多队列提交案例如何创建多个队列如何向指定队列提交任务(138)容量调度器任务优先级(139)公平调度器案例参考文献(136)生产环境多队列创建&好处生产环境下怎么创建队列?调度器默认只会开一个default队列,这个肯定是不满足生产要求的;可以按照框架来划分队列。比如说hive/spark/flink的任务分别放在不同的队列里,不过这么
经年藏殊
·
2023-10-20 07:36
大数据技术
大数据
hadoop
yarn
Hadoop3
教程(二十四):Yarn的常用命令与参数配置实例
文章目录(132)YARN常用命令查看任务查看日志查看容器查看节点状态rmadmin更新配置查看队列(133)生产环境核心配置参数(135)生产环境核心参数配置案例(140/141)Tool接口案例参考文献本章我是仅做了解,所以很多地方并没有深入去探究,用处估计不大,可酌情参考。(132)YARN常用命令查看任务列出所有Application:yarnapplication-list根据Appli
经年藏殊
·
2023-10-19 23:55
大数据技术
大数据
hadoop
yarn
Hadoop3
教程(二十三):Yarn的三大调度器
文章目录(129)FIFO调度器(130)容量调度器特点资源分配算法(131)公平调度器特点缺额的定义队列资源分配方式基于FIFO策略基于Fair策略资源分配算法DRF策略参考文献(129)FIFO调度器教程使用的是Hadoop3.1.3版本,截止这个版本,Hadoop里的作业调度器主要有三种:FIFO(先进先出)、容量(CapacityScheduler)和公平(FairScheduler)。其
经年藏殊
·
2023-10-19 23:25
大数据技术
yarn
hadoop
大数据
Hadoop3
教程(二十二):Yarn的基础架构与工作流程
文章目录(126)基础架构(127)YARN的工作机制(128)作业全流程参考文献(126)基础架构之前基本介绍完了Hadoop的几个核心组件,接下来可以思考下,在MR程序运行过程中,整个集群的资源是如何管理的,以及每个任务该分配多少资源才合适?这就是YARN需要考虑的问题。YARN是一个资源调度平台,负责为各个任务提供运行资源。可以简单理解成YARN是windows系统,而MR等程序就是运行在这
经年藏殊
·
2023-10-19 23:22
大数据技术
大数据
hadoop
yarn
hadoop简单介绍安装和配置
hadoop简单介绍安装和配置一、hadoop简介1、hadoop介绍2、hadoop的特点3、hadoop的组成二、hadoop安装和运行模式1、安装JDK2、安装
hadoop3
、hadoop重要目录介绍
梦回pq
·
2023-10-19 04:15
大数据
hadoop
大数据
java
Hadoop3
教程(二十):MapReduce的工作机制总结
文章目录(109)MapTask工作机制(110)ReduceTask工作机制&并行度ReduceTask工作机制MapTask和ReduceTask的并行度决定机制(122)MapReduce开发总结参考文献(109)MapTask工作机制MapTask的完整工作流程如图:依图可见,MapTask一共分为5个阶段:Read阶段Map阶段Collect阶段溢写阶段Merge阶段1)Read阶段:首
经年藏殊
·
2023-10-18 03:09
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(二十一):MapReduce中的压缩
文章目录(123)压缩概述在Map阶段启用在Reduce阶段启用(124)压缩案例实操如何在Map输出端启用压缩如何在Reduce端启用压缩参考文献(123)压缩概述压缩也是MR中比较重要的一环,其可以应用于Map阶段,比如说Map端输出的文件,也可以应用于Reduce阶段,如最终落地的文件。压缩的好处,是减少磁盘的IO以及存储空间。缺点也很明显,就是极大增加了CPU的开销(频繁计算带来的频繁压缩
经年藏殊
·
2023-10-18 03:09
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(十八):MapReduce之MapJoin案例分析
文章目录(118)MapJoin案例需求分析ReduceJoin的问题如何解决ReduceJoin的问题如何将一个文件主动缓存到集群的内存里(119)MapJoin案例代码实现参考文献(118)MapJoin案例需求分析ReduceJoin的问题在ReduceJoin中,合并的操作是在Reduce阶段进行的,所以相比Map阶段,Reduce阶段的处理压力过大。另外,相同的产品ID的数据会进入同一个
经年藏殊
·
2023-10-18 03:38
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(十九):MapReduce之ETL清洗案例
文章目录(121)ETL数据清洗案例参考文献(121)ETL数据清洗案例ETL,即Extract-Transform-Load的缩写,用来描述数据从源端,经过抽取(Extract)、转换(transform),最后加载(load)到目标端的处理过程。ETL主要应用于数据仓库,但不只是应用于数据仓库,毕竟这个更像是一类思想。在运行核心的MR程序之前,往往要对数据进行清理,清除掉不符合用户要求的数据,
经年藏殊
·
2023-10-18 03:01
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(十六):MapReduce中的OutputFormat
文章目录(105)OutputFormat概述(106)自定义OutputFormat案例需求分析(107/108)自定义OutputFormat案例实现自定义Mapper自定义Reducer自定义OutputFormatDriver参考文献(105)OutputFormat概述我们之前讲过了Map阶段的InputFormat,对应的,Reduce阶段也有自己的OutputFormat。Reduc
经年藏殊
·
2023-10-17 03:51
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(十七):MapReduce之ReduceJoin案例分析
文章目录(113)ReduceJoin案例需求分析(114)ReduceJoin案例代码实操-TableBean(115)ReduceJoin案例代码实操-TableMapper(116)ReduceJoin案例代码实操-Reducer及Driver参考文献(113)ReduceJoin案例需求分析现在有两个文件:orders.txt,存放的是订单ID、产品ID、产品数量pd.txt,这是一个产品
经年藏殊
·
2023-10-17 03:51
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(十四):MapReduce中的排序
文章目录(99)WritableComparable排序什么是排序什么时候需要排序排序有哪些分类如何实现自定义排序(100)全排序案例案例需求思路分析实际代码(101)二次排序案例(102)区内排序案例参考文献(99)WritableComparable排序什么是排序排序是MR中最重要的操作之一,也是面试中可能被问到的重点。MapTask和ReduceTask中都会对数据按照KEY来排序,主要是为
经年藏殊
·
2023-10-17 03:50
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(十五):MapReduce中的Combiner
文章目录(103)Combiner概述什么是CombinerCombiner有什么用处Combiner有什么特点如何自定义Combiner(104)Combiner合并案例实操如何从日志里查看Combiner如果不存在Reduce阶段,会发生什么自定义Combiner的两种方式参考文献(103)Combiner概述什么是CombinerCombiner(即合并)是MR里shuffle的一项可选流程
经年藏殊
·
2023-10-17 03:45
大数据技术
mapreduce
数据库
hadoop
Hadoop3
教程(十三):MapReduce中的分区
文章目录(96)默认HashPartitioner分区(97)自定义分区案例(98)分区数与Reduce个数的总结参考文献(96)默认HashPartitioner分区分区,是Shuffle里核心的一环,不同分区的数据最终会被送进不同的ReduceTask去处理。之前的几个小节里也都讲过分区。Hadoop里默认的分区方式是HashPartitioner分区,核心代码:publicclassHash
经年藏殊
·
2023-10-16 06:34
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(十):MapReduce中的InputFormat
文章目录(87)切片机制与MapTask并行度决定机制(90)切片源码总结(91)FileInputFormat切片机制(92)TextInputFormat及其他实现类一览(93)CombineTextInputFormat切片机制原理案例讲解参考文献(87)切片机制与MapTask并行度决定机制什么是MapTask的并行度?即在一个MR程序里,需要并行开启多少个MapTask,来处理数据。并行
经年藏殊
·
2023-10-16 06:04
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(十一):MapReduce的详细工作流程
文章目录(94)MR工作流程Map阶段Reduce阶段参考文献(94)MR工作流程本小节将展示一下整个MapReduce的全工作流程。Map阶段首先是Map阶段:首先,我们有一个待处理文本文件的集合;客户端开始切片规划;客户端提交各种信息(如切片规划文件、代码文件及其他配置数据)到yarn;yarn接收信息,计算所需的MapTask数量(按照切片数);MapTask启动,读取输入文件,默认使用的是
经年藏殊
·
2023-10-16 06:04
大数据技术
mapreduce
数据库
大数据
hadoop
Hadoop3
教程(十二):MapReduce中Shuffle机制的概述
文章目录(95)Shuffle机制什么是shuffle?Map阶段Reduce阶段参考文献(95)Shuffle机制面试的重点什么是shuffle?Map方法之后,Reduce方法之前的这段数据处理过程,就叫做shuffle,中文直译"洗牌"。参考上一小节的MR工作流程,整个shuffle的工作流程如下图,可以理解成shuffle横跨map和reduce阶段:Map阶段1)Map()处理之后的数据
经年藏殊
·
2023-10-16 06:01
大数据技术
mapreduce
大数据
数据库
hadoop
Hadoop3
教程(九):MapReduce框架原理概述
文章目录简介参考文献简介这属于整个MR中最核心的一块,后续小节会展开描述。整个MR处理流程,是分为Map阶段和Reduce阶段。一般,我们称Map阶段的进程是MapTask,称Reduce阶段是ReduceTask。其完整的工作流程如图:Map阶段具体的工作任务是啥呢?1)map阶段决定,根据数据源,可以选择根据什么方式来读取数据;默认情况下,map阶段读数据,是按行读,读取到的KV里,K是偏移量
经年藏殊
·
2023-10-15 13:52
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(八):MapReduce中的序列化概述
文章目录(79)MR序列化概述(80)自定义序列化步骤(81)序列化案例需求分析(82)序列化案例代码参考文献(79)MR序列化概述什么是序列化,什么是反序列化?序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。为什么要序列化呢?因为存活在内存里的对象,关机
经年藏殊
·
2023-10-15 12:09
大数据技术
mapreduce
大数据
hadoop
Hadoop3
教程(四):HDFS的读写流程及节点距离计算
文章目录(55)HDFS写数据流程(56)节点距离计算(57)机架感知(副本存储节点选择)(58)HDFS读数据流程参考文献(55)HDFS写数据流程数据文件ss.avi是如何从客户端写到HDFS的?完整流程见下图,接下来我们会按顺序详细捋一下0)首先,客户端里需要有一个HDFSClient,这个HDFS客户端在创建的时候需要限制是DistributedFileSystem。(因为HDFSClie
经年藏殊
·
2023-10-15 08:55
大数据技术
hdfs
hadoop
大数据
Hadoop3
教程(六):HDFS中的DataNode
文章目录(63)DataNode工作机制(64)数据完整性(65)掉线时限参数设置参考文献(63)DataNode工作机制DataNode内部存储了一个又一个Block,每个block由数据和数据元数据组成。数据元数据包括数据长度、校验和、时间戳等。在物理的目录里,每个block的数据和数据源数据是分两个文件保存的。DataNode的工作机制如图:DataNode启动后,会向NameNode注册,
经年藏殊
·
2023-10-15 08:55
大数据技术
hdfs
hadoop
大数据
Hadoop3
教程(七):MapReduce概述
文章目录(68)MR的概述&优缺点(69)MR的核心思想MapReduce进程(70)官方WC源码&序列化类型(71)MR的编程规范MapperReducerDriver(72)WordCount案例需求分析参考文献(68)MR的概述&优缺点MapReduce是一个分布式运算程序的编程框架,简单的说,就是一个分布式计算框架,是Hadoop的核心所在。MR的核心功能,是将用户编写的业务逻辑代码和自身
经年藏殊
·
2023-10-15 08:55
大数据技术
mapreduce
大数据
hadoop
上一页
1
2
3
4
5
6
7
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他