E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据Hadoop
浅析
大数据Hadoop
之YARN架构
1.YARN本质上是资源管理系统。YARN提供了资源管理和资源调度等机制1.1原HadoopMapReduce框架对于业界的大数据存储及分布式处理系统来说,Hadoop是耳熟能详的卓越开源分布式文件存储及处理框架,对于Hadoop框架的介绍在此不再累述,读者可参考Hadoop官方简介。使用和学习过老Hadoop框架(0.20.0及之前版本)的同仁应该很熟悉如下的原MapReduce框架图:1.2H
haotian1685
·
2024-09-09 22:26
python
数据清洗
人工智能
大数据
大数据学习
深度学习
大数据
大数据学习
YARN
hadoop
Datax ETL工具源码研究
Kittle优点:与
大数据Hadoop
结合比较好,功能比较齐全,强大,支持数据库,文件数据读写,界面拖拽方式操作;缺点:
Spring1985
·
2024-02-13 01:57
java
大数据hadoop
2.9.2 hive操作
1、创建常规数据库表(1)创建表createtablet_stu2(idint,namestring,hobbymap)rowformatdelimitedfieldsterminatedby','collectionitemsterminatedby'-'mapkeysterminatedby':';(2)创建文件student.txt1,zhangsan,唱歌:非常喜欢-跳舞:喜欢-游泳:一般
crud-boy
·
2024-02-09 21:24
java大数据
大数据
hive
hadoop
java
大数据hadoop
2.9.2 Flume安装&操作
1、flume安装(1)解压缩tar-xzvfapache-flume-1.9.0-bin.tar.gzrm-rfapache-flume-1.9.0-bin.tar.gzmv./apache-flume-1.9.0-bin//usr/local/flume(2)配置cd/usr/local/flume/confcp./flume-env.sh.template./flume-env.shvifl
crud-boy
·
2024-02-09 21:54
java大数据
大数据
flume
大数据Hadoop
生态圈技术之浅析PageRank计算原理
一、什么是PageRank?——PageRank是Google提出的算法,用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。——是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的——PageRank实现了将链接价值概念作为排名因素。二、计算环境——Hadoop-2.5.2——四台主机——两台NN的HA——两台RM的HA——离线计算框架MapReduce三、计算原理(1)思考
A尚学堂Nancy老师
·
2024-02-09 10:23
HDFS执行balance报错:hdfs balance java.io.IOException: Another Balancer is running.. Exiting
现象:1、
大数据Hadoop
集群,HDFS扩容后,为了使各节点数据均衡,执行balance操作。2、启动hdfsbalance时,一直出现其他的balance在执行中,其实并没有执行。
不会吐丝的蜘蛛侠。
·
2024-02-08 08:29
Hadoop
hdfs
hadoop
java
大数据Hadoop
/Hive学习笔记一(基础概念)
大数据Hadoop
/Hive学习笔记一(基础概念)一,概念介绍:大数据:大数据一般用来描述一种数量庞大,复杂的数据集,传统数据处理应用程序难以应对。
lucky_myj
·
2024-01-25 09:46
大数据
hadoop
java
大数据hadoop
2.9.2 Linux安装mariadb和hive
一、安装mariadb版本centos71、检查Linux服务器是否已安装mariadbyumlistinstalledmariadb*2、如果安装了,想要卸载yumremovemariadbrm-rf/etc/my.cnfrm-rf/var/lib/mysql才能完全删除3、安装mariadb在线网络安装yuminstall-ymariadb-server开启服务systemctlstartma
crud-boy
·
2024-01-22 14:26
java大数据
大数据
linux
mariadb
大数据Hadoop
入门——HDFS分布式文件系统基础
HDFS总结在现代的企业环境中,海量数据超过单台物理计算机的存储能力,分布式文件系统应运而生,对数据分区存储于若干物理主机,管理网络中跨多台计算机存储的文件系统。HDFS只是分布式文件管理系统中的一种。HDFS命令基础语法:【hadoopfs具体命令、hdfsdfs具体命令】两个是完全相同的。显示文件列表#hdfsdfs-lsURL创建目录#hdfsdfs-mkdir[-p]URL使用-p参数可以
nucty
·
2024-01-20 16:00
大数据
大数据
hadoop
hdfs
java
大数据hadoop
2.92安装伪分布式文件系统
ApacheHadoop3.3.6–Hadoop:SettingupaSingleNodeCluster.1、解压缩到某个路径/usr/local/hadoop2、修改配置文件/usr/local/hadoop/etc/hadoop/hadoop-env.shexportJAVA_HOME=/usr/local/javajdk3、修改配置文件/usr/local/hadoop/etc/hadoop
crud-boy
·
2024-01-15 06:29
java大数据
大数据
java
Java
大数据hadoop
2.9.2搭建伪分布式yarn资源管理器
1、修改配置文件cd/usr/local/hadoop/etc/hadoopcp./mapred-site.xml.template./mapred-site.xmlvimapred-site.xmlmapreduce.framework.nameyarnviyarn-site.xmlyarn.nodemanager.aux-servicesmapreduce_shuffle2、重新启动hadoo
crud-boy
·
2024-01-15 06:29
java大数据
java
大数据
eclipse
java
大数据hadoop
2.92 Java连接操作
1、要想Java可以连接自己虚拟机的hadoop文件系统,需要给文件系统权限(1)需要在/usr/local/hadoop/etc/hadoop/core-site.xmlcore-site.xml文件配置具体ipfs.defaultFShdfs://ip:9000(2)文件权限hdfsdfs-chmod-R777/2、maven依赖org.apache.hadoophadoop-common2.
crud-boy
·
2024-01-15 06:29
java大数据
大数据
java
hadoop
java
大数据hadoop
2.9.2 Java编写Hadoop分析平均成绩
1、准备文件,例如score.txt,内容如下:zsk188lsk198wwk178zsk288lsk298wwk278zsk388lsk398wwk3782、创建maven项目org.apache.hadoophadoop-common2.9.2org.apache.hadoophadoop-client${hadoop.version}org.apache.hadoophadoop-hdfs$
crud-boy
·
2024-01-15 06:23
java大数据
大数据
hadoop
分布式
大数据Hadoop
3.0更新,到底改进了哪些新的特性呢
截止到目前,
大数据hadoop
已经更新到了3.0版本,那么相比较之前的版本,3.0到底在哪些方面做出了新的改变呢?到底做了哪些重大的改进呢?
尚学先生
·
2024-01-14 11:21
第一章
大数据Hadoop
学习笔记(一)
一、存储单位按顺序给出数据存储单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。一般TB、PB、EB为单位的数据为大数据。1Byte=8bit1K=1024Byte1MB=1024K1G=1024M1T=1024G1P=1024T二、大数据主要解决海量数据的采集、存储和分析计算问题。三、大数据特点(4V)Volume(大量)、Velocity(高速)、Var
Thanks.
·
2024-01-09 22:17
hadoop
学习
大数据
大数据Hadoop
入门学习线路图
Hadoop是系统学习大数据的必会知识之一,Hadoop里面包括几个组件HDFS、MapReduce和YARN,HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面,MapReduce是对数据进行处理计算的。YARN是一种新的Hadoop资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。如何入门Hadoop学习,不妨
千_锋小小千
·
2024-01-03 19:12
sqoop的导入命令详解
sqoop的背景sqoop是一个配合
大数据hadoop
做数据底层的导入导出操作,需要配合hive及分布式文件系统(hdfs或blob)一起使用,在大数据ETL应用领域,sqoop占据主流。
夜空痕
·
2023-12-31 13:55
YARN知识点总结
如果把
大数据Hadoop
集群当作一台计算机,那么HDFS=磁盘YARN=任务调度器+资源管理器所有任务都是运行在Yarn上Yarn分为两个大的模块:ResourceManagerNodeManagerResourceManager
飞有飞言
·
2023-12-26 23:16
大数据Hadoop
分布式文件系统HDFS的两类节点NameNode和DataNode
HDFS集群有两类节点,并以管理者-工作者模式运行,即一个NameNode(管理者)和多个DataNode(工作者)。HDFS官方架构图一、NameNode(NN)——基于内存存储:不会和磁盘发生交换·只存在内存中·持久化——NameNode主要功能·接受客户端的读写服务·收集DataNode汇报的Block列表信息——NameNode保存metadata信息包括·文件owership和permi
A尚学堂Nancy老师
·
2023-12-06 15:56
大数据Hadoop
集群的启动
目录1启动准备工作1.1配置操作系统的环境变量1.2创建Hadoop数据目录1.3格式化文件系统1.4启动和关闭Hadoop1.5验证Hadoop是否成功启动1.6hadoop-daemon.sh的使用2HDFS常用的操作命令3hdfs的高级使用命令3.1HDFS文件限额配置3.2数量限额3.3空间大小限额3.4HDFS的管理命令3.5hdfs的安全模式想学习架构师构建流程请跳转:Java架构师系
赵广陆
·
2023-12-05 08:13
hadoop
hadoop
big
data
hdfs
大数据Hadoop
技术的发展历史与未来前景
大数据概念火了又火,但是好多人对大数据的概念却一知半解,今天主要来细说下Hadoop:1.Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构2)主要解决,海量数据的存储和海量数据的分析问题。3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈2.Hadoop发展历史1)Lucene–DougCutting开创的开源软件,用java书写代码,
人工智能和大数据时代
·
2023-12-03 14:04
大数据
Hadoop
Hyper-v虚拟机Hadoop集群搭建
大数据Hadoop
简介Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。
真.电脑人
·
2023-11-30 16:16
hadoop
大数据
分布式
【大数据学习笔记-1】
大数据hadoop
平台基本组件
Hadoop是一个由Apache基金会所开发的分布式计算和存储架构。说人话的通俗描述:你在爱奇艺网站看过一次科幻片后,下次再登录爱奇艺,首页会把最新科幻动作片推送给你,目的是要向你多收点会员费。这背后的技术就是叫大数据的技术来自动判断你好什么口味的电影。行业描述:开源的分布式存储和计算框架,广泛用户海量数据的存储和处理,比如淘宝网的商品推送,爱奇艺视频的首页电影推送。Hadoop的主要组件:htt
工匠小能手
·
2023-11-30 15:19
相关概念和应用场景
大数据
【
大数据Hadoop
】HDFS-Namenode-format格式化的源码步骤分析
Namenodeformat流程格式化命令源码解读初始化操作格式化操作本地写VERSION文件JournalManager的格式化持久化FsImage文件流程根据配置项获取nameserviceId、namenodeId判断配置项dfs.namenode.support.allow.format是否允许格式化,一般生产环境建议配置,防止误操作格式化了已有数据。获取格式化的目录(fsImage和ed
笑起来贼好看
·
2023-11-30 10:30
Hadoop
大数据
服务运维部署
hadoop
大数据
hdfs
大数据Hadoop
-HDFS_架构、读写流程
大数据Hadoop
-HDFS基本系统架构HDFS架构包含三个部分:NameNode,DataNode,Client。NameNode:NameNode用于存储、生成文件系统的元数据。运行一个实例。
大沙头三马路
·
2023-11-30 09:48
BigDate
Linux
大数据
hadoop
hdfs
HCIA
大数据Hadoop
-HDFS_元数据持久化
大数据Hadoop
-HDFS_元数据持久化(1)在HDFS第一次格式化后,NameNode(即图中的主NameNode)就会生成fsimage和editslog两个文件;(2)备用NameNode(即图中的备
大沙头三马路
·
2023-11-30 09:14
BigDate
Linux
大数据
hadoop
hdfs
linux
大数据课程结构
1、第一阶段javaSE基础阶段-张一峰2、第二阶段-JavaWeb+数据库阶段-张3、第三阶段-大数据分布式架构-张一峰4、第四阶段-
大数据Hadoop
实战-张一峰5、第五阶段-大数据spark实战-
张一峰
·
2023-11-19 16:31
大数据
大数据
大数据hadoop
hdfs 基础环境搭建
1.需要5个软件,virtualBox,centos,hadoop(),jdk(linux),xshell(远程登录)2.virtualBox新建虚拟机LinuxRedHat64位3.安装centos,硬盘->动态分配,软件选择->基础设施服务器4.设置网络,a).设置宿主机实际联网网卡的共享b).控制面板->网络->网络连接->vitualBoxHostonlyNetwork网卡的ip设置为19
gauyeah309
·
2023-11-17 03:53
大数据Hadoop
之——部署hadoop+hive+Mysql环境(Linux)
目录一、JDK的安装1、安装jdk2、配置Java环境变量3、加载环境变量4、进行校验二、hadoop的集群搭建1、hadoop的下载安装2、配置文件设置2.1.配置hadoop-env.sh2.2.配置core-site.xml2.3.配置hdfs-site.xml2.4.配置yarn-site.xml2.5.配置mapred-site.xml2.6.配置workers(伪分布式不配置)2.7配
爱吃面的猫
·
2023-11-16 06:51
大数据
笔记
大数据Hadoop
之——Spark on Hive 和 Hive on Spark的区别与实现
文章目录一、SparkonHive和HiveonSpark的区别1)SparkonHive2)HiveonSpark(本章实现)二、HiveonSpark实现1)先下载hive源码包查看spark版本2)下载spark3)解压编译4)解压5)把sparkjar包上传到HDFS6)打包sparkjar包并上传到HDFS7)配置1、配置spark-defaults.conf2、配置spark-env.
大数据老司机
·
2023-11-10 15:22
spark
hadoop
大数据
spark
hadoop
大数据
大数据开发笔记(十):Hbase实践
✨大数据开发笔记推荐:大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试本文详细介绍
大数据hadoop
生态圈各部分知识,包括不限于hdfs、yarn、mapreduce、hive、sqoop
GoAI
·
2023-11-10 02:56
#
Hbase
大数据笔记
大数据
hadoop
mysql
zookeeper
hbase
大数据HADOOP
框架
Hadoop一、入门1、大数据定义2、Hadoop入门概念①Hadoop是什么?②Hadoop发展历史③Hadoop的三大发行版本④Hadoop的优势⑤Hadoop的组成(重点)⑥大数据技术生态体系⑦推荐系统案例3、模拟虚拟机准备①安装`epel-releaes`②安装`net-tools`③关闭防火墙,关闭防火墙开自启④创建atguigu用户,并修改atguigu用户的密码⑤配置atguigu用
FangSai_ovo
·
2023-11-06 16:18
linux
centos
java
大数据开发笔记(四):Hive分区详解
✨大数据开发笔记推荐:大数据开发面试知识点总结_GoAI的博客-CSDN博客_大数据开发面试本文详细介绍
大数据hadoop
生态圈各部分知识,包括不限于hdfs、yarn、mapreduce、hive、sqoop
GoAI
·
2023-11-05 16:08
#
Hive
大数据笔记
分区表
大数据
hive
【大数据】Hadoop (一) 入门
课程链接:尚硅谷
大数据Hadoop
3.x(入门搭建+安装调优)_哔哩哔哩_bilibili(Hadoop到底是干什么用的?
一个平凡de人
·
2023-11-04 11:27
大数据
hadoop
大数据
linux
java
大数据Hadoop
2.x与Hadoop3.x相比较有哪些变化
在这篇文章中,我们将讨论Hadoop2.x与Hadoop3.x之间的比较。Hadoop3版本中添加了哪些新功能,Hadoop3中兼容的Hadoop2程序,Hadoop2和Hadoop3有什么区别?我们希望Hadoop2和Hadoop3之间的这个功能的区别将帮助回答上述问题。Hadoop2.x与Hadoop3.x之间的功能比较本节将讲述Hadoop2.x与Hadoop3.x之间的22个差异。现在让我
尚学先生
·
2023-11-03 03:29
大数据Hadoop
面试题(二)——HDFS
1、HDFS中的block默认保存几份?默认保存3份2、HDFS默认BlockSize是多大?默认64MB3、负责HDFS数据存储的是哪一部分?DataNode负责数据存储4、SecondaryNameNode的目的是什么?他的目的使帮助NameNode合并编辑日志,减少NameNode启动时间5、文件大小设置,增大有什么影响?HDFS中的文件在物理上是分块存储(block),块的大小可以通过配置
蓦然1607
·
2023-11-02 22:53
大数据Hadoop
、Hive、Kafka、Hbase、Spark等框架面经
大数据组件学习路线:阶段1:学习绿色箭头的知识点;阶段2:学习红色箭头的知识点;阶段3:学习蓝色箭头的知识点;1Hadoop1.1Hadoop1.x与Hadoop2.x的区别1.2HDFS架构(1)NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限)、以及每个文件的块列表和块所在的DataNode;(2)DataNode:在本地文件系统存储文件
For Coding
·
2023-10-28 21:50
大数据
hadoop
hive
spark
flume
zookeeper
大数据测试v 1.0
v1.0-序:本次测试从6-12到7-12号整整历时1个月,除去休息,真正大约20个工作日,在这20个工作日里面,中途周末加过几次班,满打满算应该20多天,接触并经历了大数据功能测试、一体机性能测试、
大数据
武晓兵
·
2023-10-26 06:17
大数据
云计算
大数据Hadoop
环境安装
前言工作场景的需要,最近开始学习起了大数据相关的东西。对于我这个初学者,大数据入门就是首先得学会Hadoop环境的安装,按照步骤如遇相关问题,请指正。Hadoop环境的安装,我是用自己电脑借助VMwareworkstation构建了三个虚拟机节点,进行安装的。准备阶段准备三个虚拟机节点,我分配的资源是2核2G内存50G硬盘资源每个虚拟机节点,保证1.关闭三台虚拟机防火墙三台虚拟机必须保证内网互通(
不倒翁_z
·
2023-10-21 00:22
大数据学习
big
data
hadoop
hdfs
大数据
mapreduce
大数据Hadoop
之——部署hadoop+hive+Mysql环境(window11)
一、安装JDK8【温馨提示】对应后面安装的hadoop和hive版本,这里使用jdk8,这里不要用其他jdk了,可能会出现一些其他问题。1)JDK下载地址JavaDownloads|Oracle按正常下载是需要先登录的,这里提供一个不用登录下载的方法复制的连接如下:https://www.oracle.com/webapps/redirect/signon?nexturl=https://down
爱吃面的猫
·
2023-10-21 00:48
大数据
大数据
hadoop
hive
2019-06-16
准备写一个
大数据Hadoop
Mapreduce教程:如何在不会JAVA语言的情况下快速完成Hadoop的MapReduce大作业,纪念我这学期的生活。
Rosyyyy
·
2023-10-19 00:51
【Hadoop入门(3)】Yarn基础
【时间】2021.09.29【题目】【Hadoop入门(3)】Yarn基础一、引言本文是课程尚硅谷
大数据Hadoop
3.x的Yarn部分的思维导图。
C小C
·
2023-10-15 10:25
Hadoop入门
hadoop
big
data
Yarn
基础
大数据Hadoop
集群搭建-04安装配置HDFS
Hadoop集群搭建-03编译安装hadoopHadoop集群搭建-02安装配置ZookeeperHadoop集群搭建-01前期准备HDFS是配合Hadoop使用的分布式文件系统,分为namenode:nn1.hadoopnn2.hadoopdatanode:s1.hadoops2.hadoops3.hadoop(看不明白这5台虚拟机的请看前面01前期准备)解压配置文件[hadoop@nn1had
叫我懒猫
·
2023-10-14 04:32
Hadoop介绍与安装
因此,学习
大数据Hadoop
是绕不开的一个知识点。今年来,大数据的兴起其
EricTao2
·
2023-10-10 14:58
大数据Hadoop
生态圈-组件介绍
大数据Hadoop
生态圈-组件介绍Hadoop是目前应用最为广泛的分布式大数据处理框架,其具备可靠、高效、可伸缩等特点。Hadoop的核心组件是HDFS、MapReduce。
青社
·
2023-10-10 02:45
大数据
hadoop
大数据
hadoop
spark
hbase
hive
「大数据集群的搭建和使用」背景知识:
大数据Hadoop
生态圈介绍
目录一、Hadoop简介二、Hadoop的运行模式1.单机模式2.伪分布式模式3.完全分布式模式三、Hadoop生态圈组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.HBase7.HCatalog8.Avro9.Thrift10.Drill11.Mahout12.Sqoop13.Flume14.Ambari15.Zookeeper四、Hadoop优缺点五、Hadoop学
优秀的Athena在休息
·
2023-10-10 02:14
大数据集群的搭建和使用
大数据
hadoop
分布式
Hadoop-学习笔记-黑马程序员
2022最新黑马程序员
大数据Hadoop
入门视频教程,最适合零基础自学的
大数据Hadoop
教程_哔哩哔哩_bilibili资料链接:https://pan.baidu.com/s/11au8SBZGE-iUaWBGbg
暗河、
·
2023-10-09 05:41
大数据
hadoop
学习
分布式
大数据Hadoop
原理:
大数据Hadoop
技术原理简介
对于很多初入门或者想要学习大数据的同学们,对于
大数据Hadoop
原理想必是比较好奇的,今天我们就主要为大家分享
大数据Hadoop
技术原理。
加米谷大数据张老师
·
2023-10-08 06:05
大数据
大数据
hadoop
分布式
大数据hadoop
问题汇总【Hadoop/HDFS/Yarn篇】
2021年初的时候,关于Hadoop要退休淘汰的PR文章甚嚣尘上。其中MapReduce思想最为人所诟病,因为其并不友好的写代码方式,高昂的维护成本以及较差的运行效率。然而MapReduce作为一种编程范式,要被淘汰恐怕也没有那么容易。很多人说你看Spark速度那么快,也很稳定啊,这不是可以淘汰掉Hadoop的MapReduce了吗?是这样吗?所谓的快和慢是根据需求来的,基于RDD的处理比MapR
程序员的隐秘角落
·
2023-10-06 13:00
Java学习知识点目录(博客目录)
分类目录1Git2Linux3java基础4数据库mysql5javaWeb6安装教程7
大数据hadoop
8JVM9Python数据分析处理10中间件11设计模式12并发多线程13随笔记录14性能优化15
mocas_wang
·
2023-10-06 00:01
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他