#HDFS 第8页

大数据小白初探HDFS架构原理：带你揭秘背后的真相（一）

目录1.前言2.HDFS架构2.1架构定义2.2揭秘架构2.3HDFS核心结构3.HDFS的优缺点3.1HDFS的优点3.2HDFS的缺点4.HDFS的应用场景5.总结1.前言前面的文章写了一篇，大数据方面的基础知识

程序员阿奇·2024-01-24 19:38

小白初探架构模式—常用的设计模式

2.4主从架构的示例3.主从架构设计的延伸3.1主备模式3.2主从复制3.3集群分片3.4异地多活4.总结1.前言作为一个架构设计小白，我们通常用了很多种工具，比如Mysql、Redis、Kafka、Hdfs

程序员阿奇·2024-01-24 19:03

部署Hadoop集群

在node1节点执行，以root身份1：在VMware虚拟机集群上部署HDFS集群1）准备好hadoop安装包；目前最新3.3.4；了解：2）上传解压hadoop①：上传hadoop到node1节点；②

%HelloWorld%·2024-01-24 13:27

Hive 优化总结

Hive优化本质：HDFS+MapReduce问题原因：倾斜：分区：有的分区没有数据，有的分区数据堆积。(若按天分区，每一天数据差别大就叫倾斜。)

Byyyi耀·2024-01-24 10:25

IDEA报错：No hostname could be resolved for the IP address 127.0.0.1, using IP address as host name.

NohostnamecouldberesolvedfortheIPaddress127.0.0.1,usingIPaddressashostname.Localinputsplitassignment(suchasforHDFSfiles

唯一2333·2024-01-24 09:09

hbase 总结

HBase什么是HBasehbase是一个基于java、开源、NoSql、非关系型、面向列的、构建与hadoop分布式文件系统（HDFS）上的、仿照谷歌的BigTable的论文开发的分布式数据库。

l靠近一点点l·2024-01-24 08:24

Hbase原理、基本概念、基本架构

概述HBase是一个构建在HDFS上的分布式列存储系统；HBase是基于GoogleBigTable模型开发的，典型的key/value系统；HBase是ApacheHadoop生态系统中的重要一员，主要用于海量结构化数据存储

wyl9527·2024-01-24 08:24

Hadoop集群（第12期)_HBase简介及安装

可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。为了提高数据

weixin_30451709·2024-01-24 08:23

HBase学习

可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。为了提高数据

mm_bit·2024-01-24 08:20

HBase简易安装和简介

可以直接使用本地文件系统也可使用Hadoop的HDFS文件存储系统。为了提高数据

滑过的板砖·2024-01-24 08:49

HBase学习五：运维排障之宕机恢复

RegionServer主要负责用户的读写服务，进程中包含很多缓存组件以及与HDFS交互的组件，实际生产线上往往会有非常大的压力，进而造成的软件层面故障会比较多。

Studying！！！·2024-01-24 07:27

记一次Flink通过Kafka写入MySQL的过程

->sink,即从source获取相应的数据来源，然后进行数据转换，将数据从比较乱的格式，转换成我们需要的格式，转换处理后，然后进行sink功能，也就是将数据写入的相应的数据库DB中或者写入Hive的HDFS

梦痕长情·2024-01-24 07:17

Hadoop中HBase命令行操作

采用的底层存储为HDFS。使用Hbase客户端操作，执行查看Hbase版本、状态、查看帮助命令。创建表、修改表、插入数据、删除数据、查询数据，清空表、退出Hbase命令行、停止HDFS服务。

m0_69595107·2024-01-24 06:05

Storm和hadoop对比及storm组件

stormhadoop实时流处理批处理无状态有状态使用zk协同的主从架构无主从zk架构每秒处理数万消息HDFS，MR数分钟，数小时不会主动停止终于完成的时候storm优点：跨语言，可伸缩，低延迟，秒级容错核心概念

smartjiang·2024-01-24 02:01

Hadoop集群配置及测试

配置文件hadoop102hadoop103hadoop104HDFSNameNodeDataNodeDataNodeSecondaryNameNodeDataNodeYARNNod

YUuuuME_·2024-01-23 11:07

Spark解析JSON文件，写入hdfs

一、用Sparkcontext读入文件，map逐行用Gson解析，输出转成一个caseclass类，填充各字段，输出。解析JSON这里没有什么问题。RDD覆盖写的时候碰到了一些问题：1.直接saveAsTextFile没有覆盖true参数；2.转dataframe时，还得一个一个字段显化才能转成dataframe；3.write时，一开始打算写text，说字段里不能含有long和int，换成str

gegeyanxin·2024-01-23 09:42

Hadoop基本介绍

1、Hadoop的整体框架Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成，其中最基础最重要元素为底层用于存储集群中所有存储节点文件的文件系统HDFS（HadoopDistributedFileSystem

w蕾丝·2024-01-23 08:53

DATAX的架构和运行原理

一.概念DATAX呢就是把各个不同构的数据库进行同步的过程，具体有hdfshiveOracle等等吧。二.架构1.设计原理显而易见从强连通图到星形图，大大的简化了工作量。

加林so cool·2024-01-23 08:37

Sqoop数据导入到Hive表的最佳实践

Sqoop是一个开源工具，用于在Hadoop生态系统中的数据存储（如HDFS）和关系型数据库之间传输数据。它可以帮助数据工程师和分析师轻松地

晓之以理的喵~~·2024-01-23 07:35

cdh6.3.2的hive配udf

背景大数据平台的租户要使用udf，他们用beeline连接，意味着要通过hs2，但如果有多个hs2，各个hs2之间不能共享，需要先把文件传到hdfs，然后手动在各hs2上createfunction。

zdkdchao·2024-01-23 07:02

flume案例

在构建数仓时，经常会用到flume接收日志数据，通常涉及到的组件为kafka，hdfs等。下面以一个flume接收指定topic数据，并存入hdfs的案例，大致了解下flume相关使用规则。

不加班程序员·2024-01-23 06:48

【技术预研】starRocks高性价比替换hbase

与hdfs等组件解耦，降低运维压力。starRock通过以下三个优化来提升性能：排序键相当于在存储的时候，选择某一列或者某

偏振万花筒·2024-01-23 03:00

Hbase

等关系型数据库不同，它是一个NoSQL数据库（非关系型数据库）HBASE相比于其他NoSQL数据库(mongodb、redis、cassendra、hazelcast)的特点：Hbase的表数据存储在HDFS

Cool_Pepsi·2024-01-23 02:12

Hadoop -- HDFS

1.什么是Hadoophadoop中有3个核心组件：分布式文件系统：HDFS——实现将文件分布式存储在很多的服务器上分布式运算编程框架：MAPREDUCE——实现在很多机器上分布式并行运算分布式资源调度平台

Cool_Pepsi·2024-01-23 02:42

大数据之使用Flume监听本地文件采集数据流到HDFS

本文介绍Flume监听本地文件采集数据流到HDFS我还写了一篇文章是Flume监听端口采集数据流到Kafka【点击即可跳转，写的也非常详细】任务一：在Master节点使用Flume采集/data_log

十二点的泡面·2024-01-22 19:54

大数据之使用Flume监听端口采集数据流到Kafka

本文介绍Flume监听端口采集数据流到Kafka我还写了一篇文章是Flume监听本地文件采集数据流到HDFS【点击即可跳转，写的也非常详细】任务一：实时数据采集前摘：Flume是一种分布式、高可靠、高可用的数据收集系统

十二点的泡面·2024-01-22 19:53

Impala：基于内存的MPP查询引擎

1.3、Impala与Hive1、Impala概述1.1、Impala简介Impala是Cloudera公司主导研发的高性能、低延迟的交互式SQL查询引擎，它提供SQL语义，能查询存储在Hadoop的HDFS

对许·2024-01-22 17:26

Hadooop和Hbase是什么关系

HBase通过Hadoop的HDFS(Hadoop分布式文件系统)和MapReduce实现了水平扩展和处理分布式数据。本文将详细介绍hbase和hadoop有什么关系。

wwwyx12138·2024-01-22 17:50

大数据平台软硬件规划

一.大数据集群节点规划1.HDFS集群节点规划假如业务系统数据量每天增量50T，保留周期30天，那么HDFS存储容量为50T*30天*3副本*2倍（数据源+清洗加工）=9000T=8.79P假如每个机器的磁盘是

小枫@码·2024-01-22 17:17

hadoop-hdfs-API

处理hadoop配置文件及系统环境1.将hadoop所有jar包（除了..以外）添进hadoop/lib文件夹备用。2.将linux的hadoop/bin导出覆盖windows的hadoop/bin。并将bin/hadoop.dll添入windows\system32文件夹内。需重启。3.配置windows系统环境变量HADOOP_HOME=hadoop所在包。HADOOP_USER_NAME=r

有七段变化·2024-01-22 15:43

Apache doris Datax DorisWriter扩展使用方法

DataX实现了包括MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres

张家锋·2024-01-22 15:27

CentOS7下Hadoop2.9.2、Hive 2.3.6安装与实践

操作实录：1、hive中建立数据库后，会在hdfs中出现对象的库名.db的文件夹文章中，我们使用了

流火星空·2024-01-22 14:58

关于Hive架构原理，尚硅谷

最近学习hive时候，在做一个实操案例，具体大概是这样子的：我在dataGip里建了一个表，然后在hadoop集群创建一个文本文件里面存储了数据库表的数据信息，然后把他上传到hdfs后，dataGrip

大数据ＳＱＬｂｏｙ·2024-01-22 11:41

Impala

Impala概述Impala是什么Impala是一款针对HDFS和HBASE中的PB级别数据进行交互式实时查询工具。

奋斗的蛐蛐·2024-01-22 10:42

Ranger概述及安装配置

一、前序希望拥有一个框架，可以管理大多数框架的授权，包括：hdfs的目录读写权限各种大数据框架中的标的权限，列级（字段）权限，甚至行级权限，函数权限（UDF）等相关资源的权限是否能帮忙做书库脱敏Ranger

小枫@码·2024-01-22 09:39

【大数据处理技术实践】期末考查题目：集群搭建、合并文件与数据统计可视化

集群搭建、合并文件与数据统计可视化实验目的任务一：任务二：实验平台实验内容及步骤任务一：搭建具有3个DataNode节点的HDFS集群集群环境配置克隆的方式创建Slave节点修改主机名编辑hosts文件生成密钥免认证登录修改

汐ya~·2024-01-22 09:35

HDFS 读流程和写流程

读流程1.客户端向namenode请求下载⽂件，namenode通过查询元数据，找到⽂件块所在的datanode地址。2.挑选⼀台datanode（就近原则，然后随机）服务器，请求读取数据。3.datanode开始传输数据给客户端（从磁盘⾥⾯读取数据放⼊流，以packet为单位来做校验）。4.客户端以packet为单位接收，先在本地缓存，然后写⼊⽬标⽂件。写流程1.客户端向namenode请求上传

不良人-程序星·2024-01-22 09:02

10 Hadoop的安全模式及权限介绍

1、HDFS工作流程启动NameNode，NameNode加载fsimage到内存，对内存数据执行editslog日志中的事务操作。

水无痕simon·2024-01-22 08:02

Flink集群部署到YARN上的提交流程

第一步:Flink任务提交后，Client向HDFS上传Flink的Jar包和配置第二步:之后向YarnResourceManager提交任务，ResourceManager分配Container资源并通知对应的

疯子1313·2024-01-22 08:00

【Flink】Flink on Yarn 翻译使用 hdfs jar yarn.provided.lib.dirs

群友写了UDF.jar想放到hdfs上，然后运行的时候，希望指定hdfsjar，希望能加载进去尝试使用如下方法发现不可以后面经过网友一起讨论，发现有这个参数yarn.provided.lib.dirs。

九师兄·2024-01-22 08:59

Hadoop基本概论

1.大数据的概念2.大数据的特点3.大数据应用场景二、Hadoop概述1.Hadoop定义2.Hadoop发展历史3.Hadoop发行版本4.Hadoop优势5.Hadoop1.x/2.x/3.x6.HDFS

LzYuY·2024-01-22 08:25

hive sql转换成MR任务过程

浏览器访问hive）2）元数据：Metastore元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；3）Hadoop使用HDFS

上官沐雪·2024-01-22 08:08

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

第1章：数据仓库1.1数据仓库概述1.1.1数据仓库概念1、数据仓库概念：为企业制定决策，提供数据支持的集合。通过对数据仓库中数据的分析，可以帮助企业，改进业务流程、控制成本，提高产品质量。数据仓库并不是数据的最终目的地，而是为数据最终的目的地做好准备，这些准备包括对数据的：清洗、转义、分类、重组、合并、拆分、统计等。2、数据仓库的数据通常包括：业务数据、用户行为数据和爬虫数据等3、业务系统数据库

Key-Key·2024-01-22 07:29

Hbase 基于HDFS分布式列存储Nosql数据库(五) 概念及原理介绍

Hbase优化概念：hbase优化可通过以下几个方面，flush，compaction，split和列簇属性来实现Flush意义：用于将memstore中的数据写入HDFS，变成storefile文件，

章云邰·2024-01-22 06:13

25.集群异常故障分析——HOSTS

25.1问题情况Hadoop集群HDFS、YARN、Hive等服务出现异常告警重启集群异常告警任然存在大量告警Cluster1HDFS可用空间抑制...NameNode运行状况抑制...HDFS金丝雀抑制

大勇任卷舒·2024-01-22 02:51

数据交换工具DataX使用（2）

yuminstallrpm-build进入rpm目录编译cddatax/trunk/rpmrpmbuild--bat_dp_datax_engine.specrpmbuild--bat_dp_datax_hdfs

小小毛同学·2024-01-21 22:39

大数据小白初探HDFS从零到入门（一）

目录1.前言2.大数据的诞生3.发展趋势及应用4.离线计算和实时计算5.大数据的特性1.前言前两天把Hbase的初级入门知识整理了下，在文章中提到了“HDFS”这个大数据的基础，有同事小伙伴想要了解下这方面的知识

北京-景枫·2024-01-21 20:55

黑猴子的家：API 操作 HDFS 文件下载

1、Code->GitHubhttps://github.com/liufengji/hadoop_hdfs.git2、Code@TestpublicvoidgetFileFromHDFS()throwsException

黑猴子的家·2024-01-21 16:19

HDFS监控方法以及核心指标

文章目录1.监控指标采集2.核心告警指标2.1nn核心指标2.1dn核心指标2.3jn核心指标2.4zkfc核心指标3.参考文章探讨hdfs的监控数据采集方式以及需要关注的核心指标，便于日常生产进行监控和巡检

李姓门徒·2024-01-21 14:31

HBase监控方法以及核心指标

1.监控指标采集监控指标的采集方式使用promethues+jmx_prometheus_javaagent的方式进行，具体方案部署方案可以参考HDFS监控方法以及核心指标需要注意的是，调整几

李姓门徒·2024-01-21 14:28

推荐频道

#HDFS

大数据小白初探HDFS架构原理：带你揭秘背后的真相（一）

小白初探架构模式—常用的设计模式

部署Hadoop集群

Hive 优化总结

IDEA报错：No hostname could be resolved for the IP address 127.0.0.1, using IP address as host name.

hbase 总结

Hbase原理、基本概念、基本架构

Hadoop集群（第12期)_HBase简介及安装

HBase学习

HBase简易安装和简介

HBase学习五：运维排障之宕机恢复

记一次Flink通过Kafka写入MySQL的过程

Hadoop中HBase命令行操作

Storm和hadoop对比及storm组件

Hadoop集群配置及测试

Spark解析JSON文件，写入hdfs

Hadoop基本介绍

DATAX的架构和运行原理

Sqoop数据导入到Hive表的最佳实践

cdh6.3.2的hive配udf

flume案例

【技术预研】starRocks高性价比替换hbase

Hbase

Hadoop -- HDFS

大数据之使用Flume监听本地文件采集数据流到HDFS

大数据之使用Flume监听端口采集数据流到Kafka

Impala：基于内存的MPP查询引擎

Hadooop和Hbase是什么关系

大数据平台软硬件规划

hadoop-hdfs-API

Apache doris Datax DorisWriter扩展使用方法

CentOS7下Hadoop2.9.2、Hive 2.3.6安装与实践

关于Hive架构原理，尚硅谷

Impala

Ranger概述及安装配置

【大数据处理技术实践】期末考查题目：集群搭建、合并文件与数据统计可视化

HDFS 读流程和写流程

10 Hadoop的安全模式及权限介绍

Flink集群部署到YARN上的提交流程

【Flink】Flink on Yarn 翻译 使用 hdfs jar yarn.provided.lib.dirs

Hadoop基本概论

hive sql转换成MR任务过程

大数据开发之电商数仓（hadoop、flume、hive、hdfs、zookeeper、kafka）

Hbase 基于HDFS分布式列存储Nosql数据库(五) 概念及原理介绍

25.集群异常故障分析——HOSTS

数据交换工具DataX使用（2）

大数据小白初探HDFS从零到入门（一）

黑猴子的家：API 操作 HDFS 文件下载

HDFS监控方法以及核心指标

HBase监控方法以及核心指标

【Flink】Flink on Yarn 翻译使用 hdfs jar yarn.provided.lib.dirs