E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop系列
《
Hadoop系列
》Docker安装Hadoop
文章目录Docker安装Hadoop1安装docker1.1添加docker到yum源1.2安装docker2安装Hadoop2.1使用docker自带的hadoop安装2.2免密操作2.2.1master节点2.2.2slave1节点2.2.3slave2节点2.2.4将三个容器中的authorized_keys拷贝到本地合并2.2.5将本地authorized_keys文件分别拷贝到3个容器中
DATA数据猿
·
2024-08-31 12:16
Hadoop
Docker
docker
hadoop
Hadoop系列
之-4、MapReduce分布式计算
版权声明:本文为博主原创文章,遵循CC4.0BY-SA版权协议,转载请附上原文出处链接和本声明。大数据系列文章目录目录MapReduce计算模型介绍理解MapReduce思想HadoopMapReduce设计构思MapReduce编程规范及示例编写编程规范编程步骤WordCount示例编写MapReduce程序运行模式本地运行模式集群运行模式结束之前详细讲解了,Zookeeper和HDFS,从下面
技术武器库
·
2024-01-31 06:10
大数据专栏
hadoop
mapreduce
大数据 -
Hadoop系列
《四》- MapReduce(分布式计算引擎)的核心思想
上一篇:大数据-
Hadoop系列
《三》-MapReduce(分布式计算引擎)概述-CSDN博客目录13.1MapReduce实例进程13.2阶段组成13.4概述13.4.1Map阶段(映射)13.4.2Reduce
王哪跑nn
·
2024-01-31 06:02
hadoop
大数据
大数据
hadoop
mapreduce
【
Hadoop系列
】HDFS
Hadoop的前世今生什么是大数据各行各业都会产生大量的数据,比如社交网站的意见观点,电商平台人们浏览网页停留的时间,交通运输每天产生的数据等等。这些数据大多不是结构化的,一般来说都是半结构化或者非结构化的在以前,我们的处理能力达不到,所以很多数据要么没有存起来,要么没有利用起来。而现在数据越来越集中在云端的服务器上,并且计算能力已经今非昔比了,我们完全有能力对大数据进行存储和分析。所以所谓的大数
dy2903
·
2024-01-30 11:12
大数据 -
Hadoop系列
《三》- MapReduce(分布式计算引擎)概述
上一篇文章:大数据-
Hadoop系列
《三》-HDFS(分布式文件系统)概述-CSDN博客目录12.1针对MapReduce的设计构思1.如何对付大数据处理场景2.构建抽象编程模型3.统一架构、隐藏底层细节
王哪跑nn
·
2024-01-29 23:31
大数据
hadoop
大数据
hadoop
hdfs
大数据 -
Hadoop系列
《三》- HDFS(分布式文件系统)概述
5.1hdfs的概念HDFS分布式文件系统,全称为:HadoopDistributedFileSystem。它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。我一共三台linux服务器,每台机器内存60G,所以HDFS文
王哪跑nn
·
2024-01-02 06:06
大数据
大数据
hadoop
hdfs
大数据 -
Hadoop系列
《二》- Hadoop组成
目录3.1hadoop组成3.1HDFS架构概述1.NameNode(nn):编辑2.DataNode(dn):3.SecondaryNameNode(2nn):3.2YARN架构概述3.3MapReduce架构概述3.4HDFS、YARN、MapReduce三者关系3.5大数据技术生态体系3.5.1结构化数据与半结构化数据3.5.2图中涉及的技术名词解释:3.1hadoop组成HDFS(Hado
王哪跑nn
·
2023-12-31 22:50
大数据
大数据
hadoop
分布式
Hadoop系列
(8):数据存储之数据分区及放置策略
1、分区的定义及作用定义:将表、索引或索引编排细分为更小的段,数据库对象的每一个段称为区。作用:分区操作可以并行执行;分区之间相互独立,系统可用性高;查询操作可以仅查询部分分区而不是整个数据库。2、分区方式(1)范围分区范围分区:按照数据表中某个值得范围进行分区,根据值得范围决定数据所在分区。主要特点:能够根据数据的范围,将不同范围的数据存储在不同的分区。适用:按照时间范围存储数据的系统(日志)(
顾大静
·
2023-12-18 09:25
分布式系统
Hadoop系列
(四):Yarn详细介绍
文章目录
Hadoop系列
文章Yarn简介Yarn基本架构Yarn组件介绍ResourceManagerNodeManagerApplicationMasterContainerYarn运行原理Yarn-HA
EricRae
·
2023-12-05 06:32
#
hadoop
hadoop
big
data
3.
hadoop系列
之HDFS架构及文件上传下载
本文我们学习Hadoop中HDFS架构、优缺点、文件块大小、通过shell命令文件上传下载1.HDFS使用场景适合一次写入,多次读取。一个文件经过创建、写入和关闭之后就不需要改变2.HDFS优缺点2.1HDFS优点高容错性数据自动保存多个副本。通过增加副本的形式,提高容错性某一个副本丢失后可以自动恢复适合处理大数据数据规模:能够处理数据规模达到GB、TB、甚至PB级别的数据文件规模:能够处理百万规
沈健_算法小生
·
2023-11-25 05:43
大数据
hadoop
hdfs
架构
21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-11-20 13:18
#
hadoop专栏
mapreduce
hadoop
hdfs
大数据
big
data
Hadoop入门指南之分组实战
Hadoop系列
文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs
我辈岂是蓬蒿人225
·
2023-11-10 20:24
大数据
hadoop
Hadoop入门指南之统计库存实战
Hadoop系列
文章索引:Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs
我辈岂是蓬蒿人225
·
2023-11-10 20:54
大数据
hadoop
Hadoop入门指南之分区、规约实战
Hadoop系列
文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs
我辈岂是蓬蒿人225
·
2023-11-10 20:54
大数据
hadoop
Hadoop入门指南之排序实战
Hadoop系列
文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs
我辈岂是蓬蒿人225
·
2023-11-10 20:54
大数据
hadoop
18、MapReduce的计数器与通过MapReduce读取/写入数据库示例
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-11-10 16:11
#
hadoop专栏
mapreduce
数据库
hadoop
大数据
bigdata
20、MapReduce 工作流介绍
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-11-10 16:41
#
hadoop专栏
mapreduce
hadoop
大数据
bigdata
分布式
hadoop系列
(二)常用配置、启动方式、HDFS,YARN配置文件
Hadoop(二)常用配置、启动方式、HDFS,YARN配置文件概述:来自Hadoop官网的介绍NowyouarereadytostartyourHadoopclusterinoneofthethreesupportedmodes:Local(Standalone)Mode–本地模式Pseudo-DistributedMode–伪分布式集群Fully-DistributedMode–完全分布式集群
故山归梦远
·
2023-10-08 07:53
hadoop
hdfs
大数据
hadoop系列
安装小记
原文3年多前发表在私人站点,现迁移到当时装的是5.1.0,现在最新的版本是5.4.2,因为有在线业务使用,所以暂时不升级。cdh独立下载hadoop各个组件再安装比较繁琐(hdfs+yarn+hbsae+zk+hive),没有选好版本可能会冲突,CDH的版本都是选定好的,安装和升级文档齐全,非常方便5.1.0各版本信息5.1.0安装文档升级文档安装前配置官方流程大致分一下3个步骤:1.配置cdh库
陈涛_滴滴
·
2023-10-06 10:26
13、HDFS Snapshot快照
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-09-12 09:28
#
hadoop专栏
hdfs
hadoop
大数据
bigdata
分布式
3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等)-java
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-09-06 01:44
#
hadoop专栏
hdfs
java
hadoop
mapreduce
大数据
10、HDFS小文件解决方案--Archive
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-08-31 07:56
#
hadoop专栏
hdfs
hadoop
大数据
bigdata
mapreduce
【
hadoop系列
】-windows运行hadoop报没有找到winutils.exe
java.io.FileNotFoundException:CouldnotlocateHadoopexecutable:D:\tools\hadoop-3.3.3\bin\winutils.exe通过查询https://cwiki.apache.org/confluence/display/HADOOP2/WindowsProblems意思是:Hadoop需要Windows上的本地库才能正常工作
科学熊
·
2023-08-23 18:00
杂谈
hadoop
windows
hdfs
大数据中台架构以及建设全流程一(Paas层设计)
目录设计背景问题点中台目标复用,赋能,降本增效中台整体架构Pass层技术选型实时存储平台----------->KAFKA(未来pulsar也不错)离线存储平台(
Hadoop系列
)Hadoop选型机架感知硬件选型
只会写demo的程序猿
·
2023-06-13 01:29
spark
数仓
scala
spark
hadoop
9、hadoop高可用HA集群部署及三种方式验证
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-06-12 12:36
#
hadoop专栏
hadoop
hdfs
大数据
bigdata
分布式
16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-06-12 12:36
#
hadoop专栏
mapreduce
hadoop
大数据
big
data
分布式
23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-06-12 12:36
#
hadoop专栏
hadoop
mapreduce
大数据
性能优化
bigdata
1、hadoop3.1.4简单介绍及部署、简单验证
Hadoop系列
文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-06-12 12:05
#
hadoop专栏
hadoop
大数据
big
data
hdfs
mapreduce
27.
hadoop系列
之50G数据清洗入库秒查询实践
1.项目背景目前本地有50G的企业年报csv数据,需要清洗出通信地址,并需要与原有的亿条数据合并以供业务查询最新的企业通信地址2.技术选型Hadoop+ClickHouse3.Hadoop数据清洗我们50G的数据无须上传至集群处理,上传目前带宽2M/S,巨慢,我直接在本地hadoop处理我们先看下数据格式,以@_@分割,最后一列是杂乱的数据315@_@102878404@_@91430802MA4
沈健_算法小生
·
2023-06-07 22:05
大数据
hadoop
大数据
分布式
【
Hadoop系列
】(三)YARN的介绍及原理
YARN1,YARN概念YARN(YetAnotherResourceNegotiator)是自Hadoop2.0之后引入的一个新组件,统一负责集群的资源调度和管理,为MapReduce程序分配运算资源。2,YARN组件YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。ResourceManager作为资源管理的
林立可
·
2023-06-07 09:40
大数据
hadoop
大数据
yarn
Hadoop系列
——企业存储系统概述,HDFS概述day2-2
Hadoop系列
——企业存储系统概述,HDFS概述day2-2企业存储系统数字经济产业互联网推动发展磁盘硬盘分类磁盘阵列(RAID)存储架构DAS存储架构NAS存储架构SAN存储架构文件系统文件名元数据文件系统分类海量数据存储出现的问题分布式文件存储问题解决海量数据存储问题解决海量数据文件查询问题解决大文件传输效率慢问题硬件故障导致数据丢失问题用户视角统一问题分布式文件系统
简明编程
·
2023-04-19 03:10
笔记
大数据splunk
Java学习
hadoop
hdfs
大数据
Hadoop系列
-MapReduce架构和工作原理简介(十一)
一、MapReduce简介MapReduce是Hadoop生态下面的计算层,它把任务分割成小任务并分发到集群的机器上并行执行。您只需要按照MapReduce提供的编程接口开发业务逻辑代码即可,剩下的事情MapReduce框架会自动完成。比如,任务分割,任务分发等。MapReduce程序具有函数式风格,输入是数据列表,输出依然是数据列表。MapReduce是Hadoop的核心。Hadoop如此强大就
Just Jump
·
2023-04-15 15:42
Hive
&
Hadoop
MapReduce工作原理
大数据技术系列文章目录
Zookeeper
Hadoop系列
之1、Zookeeper介紹
Hadoop系列
之2、Zookeeper实操Hadoop
Hadoop系列
之-1、大数据介绍
Hadoop系列
之-2、HDFS分布式文件系统
Hadoop
技术武器库
·
2023-04-15 15:51
大数据专栏
kafka
spark
hive
flink
hadoop
Hadoop系列
-Hadoop高可用(三)
一、Hadoop高可用在Hadoop2.0以前的版本,NameNode面临单点故障风险(SPOF),也就是说,一旦NameNode节点挂了,整个集群就不可用了,而且需要借助辅助NameNode来手工干预重启集群,这将延长集群的停机时间。而Hadoop2.0版本支持一个备用节点用于自动恢复NameNode故障,Hadoop3.0则支持多个备用NameNode节点,这使得整个集群变得更加可靠。什么是H
Just Jump
·
2023-04-14 02:39
Hive
&
Hadoop
hadoop生态系统高可用
Hadoop系列
之MR入门代码
提到hadoop上运行的MR程序,基本都知道由Map和Reduce两部分代码组成。这两部分代码是如何构成MR程序的基本框架,以及两者是如何协助实现基本功能的,本文在此做个基本的探索。一、MR程序基本思路以经典的wordcount为例,新建一个words文本:hi,mynameisjustinhello,thisisacathowoldareyouriamfinethankyouhi,youaref
wujustin
·
2023-04-12 05:44
Hadoop系列
-Hadoop架构、组件和生态简介(一)
Hadoop教程|Hadoop教程什么是HadoopHadoop是使用Java编写,允许分布在集群,使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。Hadoop是专为从单一服务器到上千台机器扩展,每个机器都可以提供本地计算和存储。Hadoop可以用单节点模式安装,但是只有多节点集群才能发挥Hadoop的优势,我们可
Just Jump
·
2023-04-03 20:28
Hive
&
Hadoop
hadoop
架构
hadoop系列
之基础系列
一、Hadoop基础1、分布式概念通过爬虫-->爬到网页存储-->查找关键字一台机器存储是有限的Google采用多台机器,使用分布式的概念去存储处理【关于计算】10TB数据,一台机器无法处理,可以用10台机器处理每台机器可以处理1TBMapreduce额核心思想:分而治之分为Map和Reduce每个Map处理的数据是独立Reduce就是合10TB的数据“分”1TB,之后将结果“合”在一起存储【关于
xyzkenan
·
2023-04-02 19:45
hadoop
大数据
大数据开发
Hadoop系列
HDFS详解
简介HDFS(HadoopDistributedFileSystem)Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS(GoogleFileSystem)Google文件系统(中文,英文)。HDFS有很多特点:①保存多个副本,且提供容错机制,副本丢失或宕机自动恢复。默认存3份。②运行在廉价的机器上。③适合大数据的处理。多大?多小?HDFS默认会将文件分割成block,6
诸葛子房_
·
2023-04-02 19:00
hadoop
Hadoop 系列之一:HDFS简介
Hadoop系列
之一:HDFS简介简介HDFS(HadoopDistributedFileSystem)Hadoop分布式文件系统。是根据google发表的论文翻版的。
upHailin
·
2023-04-02 19:23
hadoop系列
二 ——HDFS概念
hdfs简述首先,它是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色;HDFS(HadoopDistributedFileSystem),作为GoogleFileSystem(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开
heartless_killer
·
2023-04-02 19:00
hadoop
HDFS
hdoop
HDFS
hadoop系列
:hadoop集群搭建
系列简介:前段时间看了网上一些关于hadoop的文章,其中将hadoop说的神乎其神,之前只知道hadoop使用的是google的MapReduce理论;但是它到底能够完成什么样的事情?相比我们现在使用的技术有什么样的优势?对开发者又有什么样的要求?带着这些疑问,我开始了hadoop的探索旅程...为了学习hadoop,那么我们必须要有个hadoop的环境,这篇文章就是为您解决安装hadoop环境
chengxinwen
·
2023-04-02 19:29
hadoop
大数据与handoop的联系
典型的包括
Hadoop系列
、Spark、Storm、Flink等集群。既可以采用开源平台,也可以采用华为、星环等
黑洞存在着蓝天
·
2023-04-02 15:02
数据可视化
大数据
数据可视化
Hadoop系列
(四)——Zookeeper总结
四、ZookeeperZookeeper入门看这篇就够了_java_66666的博客-CSDN博客_zookeeperZookeeper3、Zookeeper工作原理(详细)-Bodi-博客园(cnblogs.com)Zookeeper的选举机制原理(图文深度讲解)_攻城狮Kevin的博客-CSDN博客_zookeeper选举理解zookeeper选举机制-帅LOVE俊-博客园(cnblogs.c
气运联盟
·
2023-03-30 14:48
大数据
hadoop
java-zookeeper
zookeeper
大数据技术之hadoop——(三)完全分布式集群搭建(多图详细步骤)
hadoop解压到/opt/module目录下【3】配置环境变量【4】hadoop目录结构3、完全分布式集群搭建3.1集群分发脚本3.2SSH免密登录3.3集群部署3.4启动集群3.5集群测试总结前言大数据之
hadoop
「已注销」
·
2023-03-26 18:11
hadoop
大数据
hadoop
学习计划
rpc框架[dubbo,motan,thrift,grpc])springframework(spring系列,shiro)postgresql(postgis模块)算法系列(数据结构,算法导论,...)
hadoop
小小暮雨
·
2023-03-20 14:01
Hadoop系列
之初始Hadoop
不过本次要准备写的
Hadoop系列
基本是个学习笔记了,中间会掺杂些自己的理解,以自己理解的方式展现出来。
_赵丹丹
·
2023-02-24 04:39
Hadoop
Hadoop
初识Hadoop,走进大数据世界
本文章属于
Hadoop系列
文章,分享Hadoop相关知识。
叫我二蛋
·
2023-02-24 03:34
大数据
大数据
hadoop
分布式
Hadoop系列
之HDFS初识、理论基础与读写流程
1HDFS初识考虑这样一个问题:文件切成很多小文件块散列存储在集群中时,是如何知道每个小文件块存储的位置的呢?让我们举个例子来解释一下,假设现在有100台机器,如果有10个人拿着10批数据过来存储,那么他们可能会找到不同的人把他们的数据各自存储在不同的机器上,过了10天之后,这些人想要取回他们的数据,但是他们忘了自己的数据存储在谁那里了,那么这些数据就取不回来了。那么该如何解决这个问题呢?我们可以
l1fe1
·
2023-02-16 23:01
常用的几种大数据架构剖析
随着大数据技术的发展,数据挖掘、数据探索等专有名词曝光度越来越高,但是在类似于
Hadoop系列
的大数据分析系统大行其道之前,数据分析工作已经经历了长足的发展,尤其是以BI系统为主的数据分析,已经有了非常成熟和稳定的技术方案和生态系统
不羁风马
·
2023-02-02 14:57
数据仓库
数据挖掘
数据库
大数据基础之Hadoop(一)—— Hadoop概述
Hadoop系列
大数据基础之Hadoop(一)——Hadoop概述大数据基础之Hadoop(二)——HDFS大数据基础之Hadoop(三)——MapReduce大数据基础之Hadoop(四)——YarnHadoop
Duktig丶
·
2023-02-02 14:57
大数据
hadoop
big
data
hdfs
mapreduce
yarn
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他