Hadoop系列

Hadoop系列二

写在前面生产上，集群的机器，总内存的75%，25%留给系统、Linux机制、以及防止OOM-killer。oom-killer机制当LInux服务器某个进程使用内存超标，Linux机器为了保护自己，主动杀死你的进程，释放内存。tmp目录30天机制数据本地化生产上部署一般遵循存储技术一体，就是计算时发现本节点有数据不需要网络传输，这种一般叫做数据本地化。2.1container容器container

qiyong7578·2025-05-23 12:38

《Hadoop系列》Docker安装Hadoop

文章目录Docker安装Hadoop1安装docker1.1添加docker到yum源1.2安装docker2安装Hadoop2.1使用docker自带的hadoop安装2.2免密操作2.2.1master节点2.2.2slave1节点2.2.3slave2节点2.2.4将三个容器中的authorized_keys拷贝到本地合并2.2.5将本地authorized_keys文件分别拷贝到3个容器中

DATA数据猿·2024-08-31 12:16

Hadoop系列之-4、MapReduce分布式计算

技术武器库·2024-01-31 06:10

大数据 - Hadoop系列《四》- MapReduce（分布式计算引擎）的核心思想

上一篇：大数据-Hadoop系列《三》-MapReduce（分布式计算引擎）概述-CSDN博客目录13.1MapReduce实例进程13.2阶段组成13.4概述13.4.1Map阶段（映射）13.4.2Reduce

王哪跑nn·2024-01-31 06:02

【Hadoop系列】HDFS

Hadoop的前世今生什么是大数据各行各业都会产生大量的数据，比如社交网站的意见观点，电商平台人们浏览网页停留的时间，交通运输每天产生的数据等等。这些数据大多不是结构化的，一般来说都是半结构化或者非结构化的在以前，我们的处理能力达不到，所以很多数据要么没有存起来，要么没有利用起来。而现在数据越来越集中在云端的服务器上，并且计算能力已经今非昔比了，我们完全有能力对大数据进行存储和分析。所以所谓的大数

dy2903·2024-01-30 11:12

大数据 - Hadoop系列《三》- MapReduce（分布式计算引擎）概述

上一篇文章：大数据-Hadoop系列《三》-HDFS（分布式文件系统）概述-CSDN博客目录12.1针对MapReduce的设计构思1.如何对付大数据处理场景2.构建抽象编程模型3.统一架构、隐藏底层细节

王哪跑nn·2024-01-29 23:31

大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述

5.1hdfs的概念HDFS分布式文件系统,全称为:HadoopDistributedFileSystem。它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。我一共三台linux服务器，每台机器内存60G，所以HDFS文

王哪跑nn·2024-01-02 06:06

大数据 - Hadoop系列《二》- Hadoop组成

目录3.1hadoop组成3.1HDFS架构概述1.NameNode（nn）：编辑2.DataNode(dn)：3.SecondaryNameNode(2nn)：3.2YARN架构概述3.3MapReduce架构概述3.4HDFS、YARN、MapReduce三者关系3.5大数据技术生态体系3.5.1结构化数据与半结构化数据3.5.2图中涉及的技术名词解释：3.1hadoop组成HDFS(Hado

王哪跑nn·2023-12-31 22:50

Hadoop系列(8):数据存储之数据分区及放置策略

1、分区的定义及作用定义：将表、索引或索引编排细分为更小的段，数据库对象的每一个段称为区。作用：分区操作可以并行执行；分区之间相互独立，系统可用性高；查询操作可以仅查询部分分区而不是整个数据库。2、分区方式（1）范围分区范围分区：按照数据表中某个值得范围进行分区，根据值得范围决定数据所在分区。主要特点：能够根据数据的范围，将不同范围的数据存储在不同的分区。适用：按照时间范围存储数据的系统（日志）（

顾大静·2023-12-18 09:25

Hadoop系列 (四)：Yarn详细介绍

文章目录Hadoop系列文章Yarn简介Yarn基本架构Yarn组件介绍ResourceManagerNodeManagerApplicationMasterContainerYarn运行原理Yarn-HA

EricRae·2023-12-05 06:32

3.hadoop系列之HDFS架构及文件上传下载

本文我们学习Hadoop中HDFS架构、优缺点、文件块大小、通过shell命令文件上传下载1.HDFS使用场景适合一次写入，多次读取。一个文件经过创建、写入和关闭之后就不需要改变2.HDFS优缺点2.1HDFS优点高容错性数据自动保存多个副本。通过增加副本的形式，提高容错性某一个副本丢失后可以自动恢复适合处理大数据数据规模：能够处理数据规模达到GB、TB、甚至PB级别的数据文件规模：能够处理百万规

沈健_算法小生·2023-11-25 05:43

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-11-20 13:18

Hadoop入门指南之分组实战

Hadoop系列文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs

我辈岂是蓬蒿人225·2023-11-10 20:24

Hadoop入门指南之统计库存实战

Hadoop系列文章索引：Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs

我辈岂是蓬蒿人225·2023-11-10 20:54

Hadoop入门指南之分区、规约实战

Hadoop系列文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs

我辈岂是蓬蒿人225·2023-11-10 20:54

Hadoop入门指南之排序实战

Hadoop系列文章索引Hadoop入门指南之HDFS介绍Hadoop入门指南之Linux环境搭建Hadoop入门指南之Linux软件安装Hadoop入门指南之Hadoop安装Hadoop入门指南之hdfs

我辈岂是蓬蒿人225·2023-11-10 20:54

18、MapReduce的计数器与通过MapReduce读取/写入数据库示例

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-11-10 16:11

20、MapReduce 工作流介绍

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-11-10 16:41

hadoop系列（二）常用配置、启动方式、HDFS，YARN配置文件

Hadoop（二）常用配置、启动方式、HDFS，YARN配置文件概述：来自Hadoop官网的介绍NowyouarereadytostartyourHadoopclusterinoneofthethreesupportedmodes:Local(Standalone)Mode–本地模式Pseudo-DistributedMode–伪分布式集群Fully-DistributedMode–完全分布式集群

故山归梦远·2023-10-08 07:53

hadoop系列安装小记

原文3年多前发表在私人站点，现迁移到当时装的是5.1.0，现在最新的版本是5.4.2，因为有在线业务使用，所以暂时不升级。cdh独立下载hadoop各个组件再安装比较繁琐(hdfs+yarn+hbsae+zk+hive)，没有选好版本可能会冲突，CDH的版本都是选定好的，安装和升级文档齐全,非常方便5.1.0各版本信息5.1.0安装文档升级文档安装前配置官方流程大致分一下3个步骤：1.配置cdh库

陈涛_滴滴·2023-10-06 10:26

13、HDFS Snapshot快照

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-09-12 09:28

3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等）-java

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-09-06 01:44

10、HDFS小文件解决方案--Archive

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-08-31 07:56

【hadoop系列】-windows运行hadoop报没有找到winutils.exe

java.io.FileNotFoundException:CouldnotlocateHadoopexecutable:D:\tools\hadoop-3.3.3\bin\winutils.exe通过查询https://cwiki.apache.org/confluence/display/HADOOP2/WindowsProblems意思是：Hadoop需要Windows上的本地库才能正常工作

科学熊·2023-08-23 18:00

大数据中台架构以及建设全流程一（Paas层设计）

目录设计背景问题点中台目标复用，赋能，降本增效中台整体架构Pass层技术选型实时存储平台----------->KAFKA（未来pulsar也不错）离线存储平台（Hadoop系列）Hadoop选型机架感知硬件选型

只会写demo的程序猿·2023-06-13 01:29

9、hadoop高可用HA集群部署及三种方式验证

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-06-12 12:36

16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-06-12 12:36

23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-06-12 12:36

1、hadoop3.1.4简单介绍及部署、简单验证

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-06-12 12:05

27.hadoop系列之50G数据清洗入库秒查询实践

1.项目背景目前本地有50G的企业年报csv数据,需要清洗出通信地址，并需要与原有的亿条数据合并以供业务查询最新的企业通信地址2.技术选型Hadoop+ClickHouse3.Hadoop数据清洗我们50G的数据无须上传至集群处理，上传目前带宽2M/S,巨慢，我直接在本地hadoop处理我们先看下数据格式，以@_@分割，最后一列是杂乱的数据315@_@102878404@_@91430802MA4

沈健_算法小生·2023-06-07 22:05

【Hadoop系列】（三）YARN的介绍及原理

YARN1，YARN概念YARN（YetAnotherResourceNegotiator）是自Hadoop2.0之后引入的一个新组件，统一负责集群的资源调度和管理，为MapReduce程序分配运算资源。2，YARN组件YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成。ResourceManager作为资源管理的

林立可·2023-06-07 09:40

Hadoop系列——企业存储系统概述，HDFS概述day2-2

Hadoop系列——企业存储系统概述，HDFS概述day2-2企业存储系统数字经济产业互联网推动发展磁盘硬盘分类磁盘阵列（RAID）存储架构DAS存储架构NAS存储架构SAN存储架构文件系统文件名元数据文件系统分类海量数据存储出现的问题分布式文件存储问题解决海量数据存储问题解决海量数据文件查询问题解决大文件传输效率慢问题硬件故障导致数据丢失问题用户视角统一问题分布式文件系统

简明编程·2023-04-19 03:10

Hadoop系列-MapReduce架构和工作原理简介（十一）

一、MapReduce简介MapReduce是Hadoop生态下面的计算层，它把任务分割成小任务并分发到集群的机器上并行执行。您只需要按照MapReduce提供的编程接口开发业务逻辑代码即可，剩下的事情MapReduce框架会自动完成。比如，任务分割，任务分发等。MapReduce程序具有函数式风格，输入是数据列表，输出依然是数据列表。MapReduce是Hadoop的核心。Hadoop如此强大就

Just Jump·2023-04-15 15:42

大数据技术系列文章目录

ZookeeperHadoop系列之1、Zookeeper介紹Hadoop系列之2、Zookeeper实操HadoopHadoop系列之-1、大数据介绍Hadoop系列之-2、HDFS分布式文件系统Hadoop

技术武器库·2023-04-15 15:51

Hadoop系列-Hadoop高可用（三）

一、Hadoop高可用在Hadoop2.0以前的版本，NameNode面临单点故障风险（SPOF），也就是说，一旦NameNode节点挂了，整个集群就不可用了，而且需要借助辅助NameNode来手工干预重启集群，这将延长集群的停机时间。而Hadoop2.0版本支持一个备用节点用于自动恢复NameNode故障，Hadoop3.0则支持多个备用NameNode节点，这使得整个集群变得更加可靠。什么是H

Just Jump·2023-04-14 02:39

Hadoop系列之MR入门代码

提到hadoop上运行的MR程序，基本都知道由Map和Reduce两部分代码组成。这两部分代码是如何构成MR程序的基本框架，以及两者是如何协助实现基本功能的，本文在此做个基本的探索。一、MR程序基本思路以经典的wordcount为例，新建一个words文本：hi,mynameisjustinhello,thisisacathowoldareyouriamfinethankyouhi,youaref

wujustin·2023-04-12 05:44

Hadoop系列-Hadoop架构、组件和生态简介（一）

Hadoop教程|Hadoop教程什么是HadoopHadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop框架应用工程提供跨计算机集群的分布式存储和计算的环境。Hadoop是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。Hadoop可以用单节点模式安装，但是只有多节点集群才能发挥Hadoop的优势，我们可

Just Jump·2023-04-03 20:28

hadoop系列之基础系列

一、Hadoop基础1、分布式概念通过爬虫-->爬到网页存储-->查找关键字一台机器存储是有限的Google采用多台机器，使用分布式的概念去存储处理【关于计算】10TB数据，一台机器无法处理，可以用10台机器处理每台机器可以处理1TBMapreduce额核心思想：分而治之分为Map和Reduce每个Map处理的数据是独立Reduce就是合10TB的数据“分”1TB，之后将结果“合”在一起存储【关于

xyzkenan·2023-04-02 19:45

Hadoop系列HDFS详解

简介HDFS（HadoopDistributedFileSystem）Hadoop分布式文件系统。是根据google发表的论文翻版的。论文为GFS（GoogleFileSystem）Google文件系统（中文，英文）。HDFS有很多特点：①保存多个副本，且提供容错机制，副本丢失或宕机自动恢复。默认存3份。②运行在廉价的机器上。③适合大数据的处理。多大？多小？HDFS默认会将文件分割成block，6

诸葛子房_·2023-04-02 19:00

Hadoop 系列之一：HDFS简介

Hadoop系列之一：HDFS简介简介HDFS（HadoopDistributedFileSystem）Hadoop分布式文件系统。是根据google发表的论文翻版的。

upHailin·2023-04-02 19:23

hadoop系列二 ——HDFS概念

hdfs简述首先，它是一个文件系统，用于存储文件，通过统一的命名空间——目录树来定位文件其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色；HDFS（HadoopDistributedFileSystem），作为GoogleFileSystem（GFS）的实现，是Hadoop项目的核心子项目，是分布式计算中数据存储管理的基础，是基于流数据模式访问和处理超大文件的需求而开

heartless_killer·2023-04-02 19:00

hadoop系列：hadoop集群搭建

系列简介：前段时间看了网上一些关于hadoop的文章，其中将hadoop说的神乎其神，之前只知道hadoop使用的是google的MapReduce理论；但是它到底能够完成什么样的事情？相比我们现在使用的技术有什么样的优势？对开发者又有什么样的要求？带着这些疑问，我开始了hadoop的探索旅程...为了学习hadoop，那么我们必须要有个hadoop的环境，这篇文章就是为您解决安装hadoop环境

chengxinwen·2023-04-02 19:29

大数据与handoop的联系

典型的包括Hadoop系列、Spark、Storm、Flink等集群。既可以采用开源平台，也可以采用华为、星环等

黑洞存在着蓝天·2023-04-02 15:02

Hadoop系列（四）——Zookeeper总结

四、ZookeeperZookeeper入门看这篇就够了_java_66666的博客-CSDN博客_zookeeperZookeeper3、Zookeeper工作原理（详细）-Bodi-博客园(cnblogs.com)Zookeeper的选举机制原理（图文深度讲解）_攻城狮Kevin的博客-CSDN博客_zookeeper选举理解zookeeper选举机制-帅LOVE俊-博客园(cnblogs.c

气运联盟·2023-03-30 14:48

大数据技术之hadoop——（三）完全分布式集群搭建（多图详细步骤）

hadoop解压到/opt/module目录下【3】配置环境变量【4】hadoop目录结构3、完全分布式集群搭建3.1集群分发脚本3.2SSH免密登录3.3集群部署3.4启动集群3.5集群测试总结前言大数据之hadoop

「已注销」·2023-03-26 18:11

学习计划

rpc框架[dubbo，motan，thrift，grpc]）springframework（spring系列，shiro）postgresql（postgis模块）算法系列（数据结构，算法导论，...）hadoop

小小暮雨·2023-03-20 14:01

Hadoop系列之初始Hadoop

不过本次要准备写的Hadoop系列基本是个学习笔记了，中间会掺杂些自己的理解，以自己理解的方式展现出来。

_赵丹丹·2023-02-24 04:39

初识Hadoop，走进大数据世界

本文章属于Hadoop系列文章，分享Hadoop相关知识。

叫我二蛋·2023-02-24 03:34

Hadoop系列之HDFS初识、理论基础与读写流程

1HDFS初识考虑这样一个问题：文件切成很多小文件块散列存储在集群中时，是如何知道每个小文件块存储的位置的呢？让我们举个例子来解释一下，假设现在有100台机器，如果有10个人拿着10批数据过来存储，那么他们可能会找到不同的人把他们的数据各自存储在不同的机器上，过了10天之后，这些人想要取回他们的数据，但是他们忘了自己的数据存储在谁那里了，那么这些数据就取不回来了。那么该如何解决这个问题呢？我们可以

l1fe1·2023-02-16 23:01

常用的几种大数据架构剖析

随着大数据技术的发展，数据挖掘、数据探索等专有名词曝光度越来越高，但是在类似于Hadoop系列的大数据分析系统大行其道之前，数据分析工作已经经历了长足的发展，尤其是以BI系统为主的数据分析，已经有了非常成熟和稳定的技术方案和生态系统

不羁风马·2023-02-02 14:57

推荐频道

Hadoop系列

Hadoop系列二

《Hadoop系列》Docker安装Hadoop

Hadoop系列之-4、MapReduce分布式计算

大数据 - Hadoop系列《四》- MapReduce（分布式计算引擎）的核心思想

【Hadoop系列】HDFS

大数据 - Hadoop系列《三》- MapReduce（分布式计算引擎）概述

大数据 - Hadoop系列《三》- HDFS（分布式文件系统）概述

大数据 - Hadoop系列《二》- Hadoop组成

Hadoop系列(8):数据存储之数据分区及放置策略

Hadoop系列 (四)：Yarn详细介绍

3.hadoop系列之HDFS架构及文件上传下载

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件

Hadoop入门指南之分组实战

Hadoop入门指南之统计库存实战

Hadoop入门指南之分区、规约实战

Hadoop入门指南之排序实战

18、MapReduce的计数器与通过MapReduce读取/写入数据库示例

20、MapReduce 工作流介绍

hadoop系列（二）常用配置、启动方式、HDFS，YARN配置文件

hadoop系列安装小记

13、HDFS Snapshot快照

3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件、删除文件及目录、获取文件及文件夹属性等）-java

10、HDFS小文件解决方案--Archive

【hadoop系列】-windows运行hadoop报没有找到winutils.exe

大数据中台架构以及建设全流程一（Paas层设计）

9、hadoop高可用HA集群部署及三种方式验证

16、MapReduce的基本用法示例-自定义序列化、排序、分区、分组和topN

23、hadoop集群中yarn运行mapreduce的内存、CPU分配调度计算与优化

1、hadoop3.1.4简单介绍及部署、简单验证

27.hadoop系列之50G数据清洗入库秒查询实践

【Hadoop系列】（三）YARN的介绍及原理

Hadoop系列——企业存储系统概述，HDFS概述day2-2

Hadoop系列-MapReduce架构和工作原理简介（十一）

大数据技术系列文章目录

Hadoop系列-Hadoop高可用（三）

Hadoop系列之MR入门代码

Hadoop系列-Hadoop架构、组件和生态简介（一）

hadoop系列之基础系列

Hadoop系列HDFS详解

Hadoop 系列之一：HDFS简介

hadoop系列二 ——HDFS概念

hadoop系列：hadoop集群搭建

大数据与handoop的联系

Hadoop系列（四）——Zookeeper总结

大数据技术之hadoop——（三）完全分布式集群搭建（多图详细步骤）

学习计划

Hadoop系列之初始Hadoop

初识Hadoop，走进大数据世界

Hadoop系列之HDFS初识、理论基础与读写流程

常用的几种大数据架构剖析