分布式文件系统HDFS 第18页

大数据——手把手教你HDFS搭建

第一步：在虚拟机上安装hadoop环境使用XFTP工具，将hadoop的linux版本压缩包导进linux系统的/opt文件夹下。第二步：解压hadoop命令：cd/opttar-zxvfhadoop*******-C/usr/local/解压hadoop压缩包到/usr/local/路径下解压成功以后看一下local下面的所有文件第三步：删除解压包里面的doc文档安装包在local文件夹下，需要

安安DE爸爸·2023-12-25 23:31

04_hadoop_读取hdfs在本地统计单词并将结果放回hdfs

1文件目录image.png2wordConfig.properties配置文件CLASS_BUSINESS=com.looc.D04HDFS单词计数.WordCountRealizeHDFS_URL=

会摄影的程序员·2023-12-25 22:10

架构设计内容分享(七十六)：分布式存储架构分析

目录一、集中存储结构二、分布式存储三、分布式理论浅析四、分布式文件系统五、分布式键值系统一、集中存储结构说到分布式存储，我们先来看一下传统的存储是怎么个样子。

之乎者也··2023-12-25 20:01

Hadoop学习笔记[6]-MapReduce与Yarn安装部署流程

NodeManager和DataNode一般都是1:1，主要是为了计算向数据移动，如果NM和DN分开，就得用网路拷贝数据，在Yarn的体系里NM也是从节点，既然其和DN是1:1的关系，所以配置中和HDFS

kinglinch·2023-12-25 19:09

flume 中sink用hdfs sink报拒绝连接错误hdfs-io

m0_58310854·2023-12-25 16:38

云计算与大数据之间的羁绊（期末不挂科版）：云计算 | 大数据 | Hadoop | HDFS | MapReduce | Hive | Spark

文章目录前言：一、云计算1.1云计算的基本思想1.2云计算概述——什么是云计算？1.3云计算的基本特征1.4云计算的部署模式1.5云服务1.6云计算的关键技术——虚拟化技术1.6.1虚拟化的好处1.6.2虚拟化技术的应用——12306使用阿里云避免了高峰期的崩溃1.6.3虚拟化的关键特征1.6.4虚拟化的HA指的是什么？1.6.5服务器虚拟化1.6.6虚拟机迁移1.6.6.1虚拟机实时迁移对云计算

春人.·2023-12-25 14:59

spark log4j日志配置

1.spark启动参数先把log4j配置文件放到hdfs：hdfs://R2/projects/log4j-debug.properties--confspark.yarn.dist.files=hdfs

Mint6·2023-12-25 12:33

【美团大数据面试】大数据面试题附答案

目录1.hdfs读写流程解析2.hdfs副本机制，三副本原因，副本存放策略3.hdfs容错机制原理4.MapReduce执行流程详解5.spark和mr的区别6.TopN求法，大数据量无法完全写入内存解决方案

话数Science·2023-12-25 11:19

Kafka下沉到HDFS报错

错误信息24十二月202312:38:25,127INFO[SinkRunner-PollingRunner-DefaultSinkProcessor](org.apache.flume.sink.hdfs.HDFSCompressedDataStream.configure

Stephen6Yang·2023-12-25 07:12

安装Hadoop 3.3.5

常识科普：Kafka的存储与安装不依赖于hdfs/spark，从下边安装过程你可以得知这个信息。备注：

IT WorryFree·2023-12-25 06:03

YARN Hadoop2.0 区别

Hadoop2.0与HAdoop1.0的区别：Hadoop1.0主要由HDFS和MapReduce两个系统够长，但在Hadoop2.0中主要由HadoopCommon、HDFS、HadoopYARN和HadoopMapReduce2.0

omygodvv·2023-12-24 23:01

【Hadoop学习笔记】（二）——Hive的原理及使用

Hive数据仓库工具能为HDFS上的数据提供类似SQL的查询语言（HiveQL），并将SQL语句转变成MapReduce任务来执行。Hive明显降低了Hadoop的使用门槛，任何熟悉SQL的用

wanger61·2023-12-24 23:25

四、Hadoop学习笔记————各种工具用法

Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导进到Hadoop的HDFS

weixin_30528371·2023-12-24 23:25

Hive学习笔记（1）——Hive原理初探

文章目录前言一、hive的特点二、hive体系架构及基本原理三、Hive的存储四、总结前言相信大家通过学习MapReduce，已经认识到hadoop利用多台廉价机器集群进行并行计算的优势，了解了HDFS

Zhou.Y.M·2023-12-24 23:55

【Hive笔记】1——Hive入门

本质：将HQL转化为Mapreduce程序Hive处理的数据存储在HDFS，HIve分析数据底层的实现是Mapreduce，执行程序运行在Yarn上2.Hive的优缺点优点：操作接口采用类sql语法，提供快速开发能

sdut菜鸟·2023-12-24 23:55

hadoop集群坏块处理

hadoop之hdfs数据块修复方法：1、手动修复#检查集群的健康状态hdfsfsck/#修复指定的hdfs数据块。也就是关闭打开的文件。

运维仙人·2023-12-24 21:39

【Hadoop】HDFS shell操作与管理工具

HDFSshell操作HDFS管理工具dfsadminfsck均衡器HDFSshell操作HDFS是存取数据的分布式文件系统，对HDFS的操作就是文件系统的基本操作，如文件的创建、修改、删除、修改权限，

不怕娜·2023-12-24 18:41

【Hadoop】YARN简介（YARN产生的技术需求/YARN的基本架构）

YARN产生的技术需求YARN的基本架构ResourceManagerNodeManagerApplicationMasterContainerHDFS与YARNYARN产生的技术需求YARN是Hadoopv2.0

不怕娜·2023-12-24 18:41

【Hadoop】HDFS简介——是什么/优缺点/适用场景

HDFS是什么HDFS的优点/特性HDFS适用场景HDFS的缺点与不足HDFS不适用场景HDFS是什么源自Google的GFS论文Google于2003年10月发表HDFS是GFS的一个克隆版HDFS(

不怕娜·2023-12-24 18:11

文章分享-1周-怎么理解分布式、高并发、多线程？

涉及领域非常多，例如分布式文件系统（例如fast

庄泽锐·2023-12-24 16:07

WARNING: HADOOP_SECURE_DN_USER has been replaced by HDFS_DATANODE_SECURE_USER.

Hadoop启动时警告，但不影响使用，强迫症的我还是决定寻找解决办法WARNING:HADOOP_SECURE_DN_USERhasbeenreplacedbyHDFS_DATANODE_SECURE_USER.UsingvalueofHADOOP_SECURE_DN_USER

玖玖1704·2023-12-24 12:59

hdfs.DataStreamer: Exception in createBlockOutputStream XXXXX

java.io.IOException:Goterror,status=ERROR,statusmessage,ackwithfirstBadLinkas192.168.100.13:9866atorg.apache.hadoop.hdfs.protocol.datatransfer.DataTransferProtoUtil.checkBlockOpStatus

玖玖1704·2023-12-24 12:28

HBase基础知识（三）：HBase架构进阶、读写流程、MemStoreFlush、StoreFile Compaction、Region Split

1.架构原理1）StoreFile保存实际数据的物理文件，StoreFile以HFile的形式存储在HDFS上。

依晴无旧·2023-12-24 11:59

【Hadoop篇08】Hadoop数据压缩

简洁而不简单Hadoop数据压缩数据压缩优点和缺点压缩技术能够有效减少底层存储系统（HDFS）读写字节数。压缩提高了网络带宽和磁盘空间的效率。

focusbigdata·2023-12-24 10:00

Hadoop学习笔记（一）分布式文件存储系统 —— HDFS

概念HDFS（HadoopDistributedFileSystem），Hadoop分布式文件系统，用来存超大文件的。

zhang35·2023-12-24 08:54

大数据高级开发工程师——Hadoop学习笔记（1）

hadoop用户设置免密登录三台虚拟机安装jdkhadoop集群安装环境部署规划安装包下载查看hadoop支持的压缩方式以及本地库修改配置文件修改hadoop-env.sh修改core-site.xml修改hdfs-site.xml

讲文明的喜羊羊拒绝pua·2023-12-24 08:53

Hadoop入门学习笔记——二、在虚拟机里部署HDFS集群

pwd=5ay8Hadoop入门学习笔记（汇总）目录二、在虚拟机里部署HDFS集群2.1.部署node1虚拟机2.2.部署node2和node3虚拟机2.3.初始化并启动Hadoop集群（格

faith瑞诚·2023-12-24 08:23

hadoop大数据学习笔记

或者说将多台计算机组织成了一台计算机，让他们做同一件事，在这其中HDFS就相当于这台计算机的硬盘，而MapReduce就是这台计算机的CPU控制器。

驰宇爱吃鱼·2023-12-24 08:53

Hadoop学习之HDFS——小白入门笔记

一、分布式文件系统1.分布式文件系统解决问题：海量数据的高效存储2.分布式文件系统是将文件分布存储到多个计算机节点上。

cainiao22222·2023-12-24 08:52

hive企业级调优策略之CBO,谓词下推等优化

在Hive中，计算成本模型考虑到了：数据的行数、CPU、本地IO、HDFSIO、网络IO

Appreciate(欣赏)·2023-12-24 07:26

Hadoop入门学习笔记——三、使用HDFS文件系统

pwd=5ay8Hadoop入门学习笔记（汇总）目录三、使用HDFS文件系统3.1.使用命令操作HDFS文件系统3.1.1.HDFS文件系统基本信息3.1.2.HDFS文件系统的2套命令体系

faith瑞诚·2023-12-24 07:39

7000字超详细讲解Hadoop、Spark、Storm、YARN，建议收藏！

核心内容包含hdfs和mapreduce。hadoop2.0以后引入yarn.hdfs是提供数据存储的，mapreduce是方便数据计算的。

套马杆的程序员·2023-12-24 04:49

Hive优化

Hive优化Hive的存储层依托于HDFS，Hive的计算层依托于MapReduce，一般Hive的执行效率主要取决于SQL语句的执行效率，因此，Hive的优化的核心思想是MapReduce的优化。

新鲜氧气·2023-12-23 22:26

ClickHouse(19)ClickHouse集成Hive表引擎详细解析

文章目录Hive集成表引擎创建表使用示例如何使用HDFS文件系统的本地缓存查询ORC输入格式的Hive表在Hive中建表在ClickHouse中建表查询Parquest输入格式的Hive表在Hive中建表在

张飞的猪大数据·2023-12-23 20:37

Java从入门到入坑（架构篇）

Dubbo服务注册、服务发现，服务治理http://dubbo.apache.org/zh-cn/3：分布式数据库怎样打造一个分布式数据库、什么时候需要分布式数据库、mycat、otter、HBase4：分布式文件系统

小小弓长张·2023-12-23 15:07

浅谈Hadoop容错机制

简单介绍一下Hadoop中数据存储的可靠性和完整性，其中包括HDFS的容错机制、NameNode(元数据结点)的单点失效解决机制、Block数据块的多副本存储机制、NameNode与DataNode之间的心跳检测机制

小小少年Boy·2023-12-23 15:19

MINIO在java中的使用

对象存储可以充当主存储层，以处理Spark、Presto、TensorFlow、H2O.ai等各种复杂工作负载以及成为HadoopHDFS的替代品--------引自官网的话。

IT小学僧·2023-12-23 14:48

通过HDFS API进行HDFS操作

HDFSJavaAPI位于org.apache.hadoop.fs包中，这些API能够支持的操作包括打开文件、读写文件、删除文件等。Hadoop类库中最终面向用户提供的接口类是FileSystem。

CDHong.it·2023-12-23 14:30

Hadoop _HDFS_API 创建文件夹

在项目中src/main/java目录下，新建一个文件，命名为com.atguigu.hdfs创建文件夹在文件夹里输入代码，创建文件夹客户端代码常用套路1、获取一个客户端对象2、执行相关的操作指令3、关闭资源代码如下

笨鸟先-森·2023-12-23 14:29

Hadoop之HDFS的API操作

1、环境准备1.1、下载window版本的hadoop-3.1.01.2、配置HADOOP_HOME环境变量1.2、配置Path环境变量2、代码演示2.1、创建maven项目，导入pom坐标org.apache.hadoophadoop-client3.1.3junitjunit4.12org.slf4jslf4j-log4j121.7.302.2、日志配置log4j.rootLogger=INF

后端技术那点事·2023-12-23 14:28

Hadoop学习之HDFS（HDFS客户端及API操作）心得

HDFS客户端及API操作：一、准备条件：1.配置环境变量HADOOP_HOME(路径要求非中文)2.验证环境变量，双击winutils.exe（报错可能是缺少微软运行库MSVCR120.dll）3.在

顺其自然的济帅哈·2023-12-23 14:58

大数据—Hadoop（四）_ HDFS_03、客户端API

文章目录1、客户端环境准备1.1idea1.2window依赖2、HDFS的API案例实操2.1HDFS文件上传（测试参数优先级）2.1.1客户端代码常用套路2.1.2普通版2.1.3优化后2.1.4上传文件

大数据之负·2023-12-23 14:58

HDFS的API操作

的环境变量（1）设置MAVEN_HOME为maven文件夹的路径（2）在path中添加“%MAVEN_HOME%\bin”（3）在idea中创建maven项目（注意在编写代码前应修改“pom.xml”，hdfs

七玥a·2023-12-23 14:58

Hadoop中HDFS的API操作、客户端环境准备、配置HADOOP_HOME环境变量

文章目录7.HDFS的API操作7.1客户端环境准备7.1.1下载下面的Windows依赖文件夹，拷贝hadoop-3.1.0到非中文路径（比如d:\）7.1.2配置HADOOP_HOME环境变量7.1.3

Redamancy_06·2023-12-23 14:27

hadoop02_HDFS的API操作

HDFS的API操作1HDFS核心类简介Configuration类：处理HDFS配置的核心类。

程序喵猴·2023-12-23 14:57

大数据---35.HBase 常用的api的具体解释

Hbase是一个分布式的、面向列的开源数据库，HDFS文件操作常有两种方式，一种是命令行方式，即Hbase提供了一套与Linux文件命令类似的命令行工具。

学无止境的大象·2023-12-23 13:00

DBeaver连接hive

1.新建hive连接其中主机填写hive所在节点地址，端口10000为默认，数据库名不填则是默认default数据库，用户名密码填写hadoop集群中能操作hdfs的用户和密码。

sunweiking·2023-12-23 12:38

【数仓_01】用户行为采集平台

2.1目标数据2.2埋点3、模拟数据3.1使用说明3.2集群日志生成脚本4、用户行为数据采集模块4.1数据通道4.2环境准备4.2.1集群所有进程查看脚本4.3Hadoop项目经验4.3.1项目经验之HDFS

温欣2030·2023-12-23 10:43

minio 分布式对象存储

分布式文件系统应用1.1、Minlo介绍Minlo是一个基于ApacheLicensev2.0开源协议的对象存储服务。

锅锅嗨·2023-12-23 09:55

hadoop(十二)——自定义分区Partitioner

我们先来看看DataCount这个程序最终的执行结果是什么样子的，在查看之前我们需要先启动hdfs和ya

文子轩·2023-12-23 08:05

推荐频道

分布式文件系统HDFS