********HDFS 第27页

Flume学习笔记（1）—— Flume入门

概述Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统Flume基于流式架构，灵活简单Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS

THE WHY·2023-11-18 23:33

hadoop学习笔记1了解流程大概

海量数据的存储hdfs海量数据的计算：mapreducehdfs概述namenode：元数据，存储在哪个节点，存储什么信息datanode：存储数据2nn：备份namenode的信息yarn概述负责集群资源的管理

小美元·2023-11-18 20:06

Flink原理与实现：详解Flink中的状态管理

硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021

王知无(import_bigdata)·2023-11-18 19:59

经验篇：大数据常用工具集合

数据存储工具rds、mysql、postgresql、presto；starrocks/Doris；oss、es、hdfs、binlog、nosql、redis、neo4j；Kafkaoss：文件、图片

lazyone10·2023-11-17 17:32

利用CURL命令调用WebHDFS REST API与Kerberos机制

1.CURL安装cURL是一个利用URL语法在命令行下工作的文件传输工具，1997年首次发行。它支持文件上传和下载，所以是综合传输工具，但按传统，习惯称cURL为下载工具。cURL还包含了用于程序开发的libcurl。CURL官方网站：http://curl.haxx.se/1.1Linux安装这个网上资料比较多，只要搜索“curl安装linux”就应该有不少介绍。1.2

tzw_cs·2023-11-17 16:41

大数据开发学习笔记

Hadoophadoop集群搭建+hive安装_hadoop集群安装hive-CSDN博客Hadoop基础入门（1）：框架概述及集群环境搭建_THEWHY的博客-CSDN博客Hadoop基础入门（2）：HDFS-CSDN

THE WHY·2023-11-17 16:01

mysql 海量数据迁移_Canal解决MySQL海量数据迁移问题

要分析海量数据，您需要将mysql中的数据同步到其他海量数据存储介质(HDFS，hbase)。如何出口呢？sqoop解决方案一:使用sqoop定期将mysql数据导出到hbase或hdfsSqoop导

麦子9014·2023-11-17 12:42

二百零二、Hive——Hive解析JSON字段（单个字段与json数组）

一、目的用Flume采集Kafka写入到Hive的ODS层在HDFS路径下的JSON数据，需要在DWD层进行解析并清洗（一）Hive的ODS层建静态分区外部表createexternaltableifnotexistsods_queue

天地风雷水火山泽·2023-11-17 07:56

二百零三、Flume——Flume实时采集数据频率为1s的高频率Kafka数据直接写入ODS层表的HDFS文件路径下

一、目的在离线数仓中，需要用Flume去采集Kafka中的数据，然后写入HDFS中。由于每种数据类型的频率、数据大小、数据规模不同，因此每种数据的采集需要不同的Flume配置文件。

天地风雷水火山泽·2023-11-17 07:22

大数据系列-Hadoop集群搭建（2）集群配置

目录1.初步认识Hadoop1.1模块认知1.2关联工程/项目1.3Hadoop架构1.3.1HDFS架构1.3.2YARN架构2.Hadoop部署规划2.1节点规划2.2端口规划3.Hadoop集群配置

zhm6422107·2023-11-17 03:59

4hadoopHDFS集群搭建-伪分布式模式

hadoop旧版网址：http://hadoop.apache.org/old/2.6.5版本ssh协议在免密登陆其他机器的时候，不会加载其他机器的环境变量。就是不会加载/etc/profile文件在免密登陆别的机器时，如果需要环境变量可以先加载环境变量，然后在执行命令。例如：[email protected]’source/etc/profile;echo$PATH’即可伪分布式模式：单

没有女朋友的程序员·2023-11-17 03:28

大数据之hadoop-hdfs完全分布式环境搭建（详细步骤真实可用）

1，服务器规划本次服务搭建是在原有伪分布式的基础上进行搭建，伪分布式的搭建，参照伪分布式搭建节点NNSNNDNnode01※––node02※※node03––※node04––※2，基础设施jps检查jdk1.8安装，检查网络是否正常，配置hostvim/etc/hosts10.0.0.11node0110.0.0.12node0210.0.0.13node0310.0.0.14node04[r

shw12357·2023-11-17 03:27

大数据之hadoop-hdfs伪分布式环境搭建（详细步骤真实可用）

目录版本1，基础设施2，Hadoop的配置（应用的搭建过程）3，启动4，简单使用5，上传自定义块的大小版本centos7+jdk1.8+hadoop2.6.51，基础设施设置网络：vi/etc/sysconfig/network-scripts/ifcfg-ens33TYPE="Ethernet"PROXY_METHOD="none"BROWSER_ONLY="no"DEFROUTE="yes"I

shw12357·2023-11-17 03:56

大数据-hadoop HA

hadoopHAHACAP原则Paxos算法Federation实操大数据-hadoopHAHA主从集群：结构相对简单，主与从协作主：单点，数据一致好掌握问题：单点故障，集群整体不可用压力过大，内存受限HDFS

Ybb_studyRecord·2023-11-17 03:26

大数据分布式集群搭建（5）

1.1什么是HADOOP1.HADOOP是apache旗下的一套开源软件平台2.HADOOP提供的功能：利用服务器集群，根据用户的自定义业务逻辑，对海量数据进行分布式处理3.HADOOP的核心组件有A.HDFS

KongX_B·2023-11-17 03:25

大数据-hadoop入门与部署

大数据-hadoop入门与部署大数据-hadoop入门与部署启蒙分治思想单机处理大数据问题集群分布式处理大数据的辩证HadoopHadoop项目/生态hadoop-hdfs存储模型架构设计角色功能元数据持久化安全模式

Ybb_studyRecord·2023-11-17 03:25

大数据hadoop hdfs 基础环境搭建

1.需要5个软件，virtualBox，centos，hadoop()，jdk(linux)，xshell(远程登录)2.virtualBox新建虚拟机LinuxRedHat64位3.安装centos，硬盘->动态分配，软件选择->基础设施服务器4.设置网络，a).设置宿主机实际联网网卡的共享b).控制面板->网络->网络连接->vitualBoxHostonlyNetwork网卡的ip设置为19

gauyeah309·2023-11-17 03:53

阿里云OSS对象存储服务的使用

互联网底层人员·2023-11-16 23:18

flume与kafka应用场景解析

而flume是定位数据传输，相比下，flume是一个专用工具被设计为旨在往HDFS，HBASE发送数据。它对HDFS有特殊的优化，并且集成了hadoop的安全特性。

wuyue_fighting·2023-11-16 22:39

hadoop的java实现

2.7.6）org.apache.hadoophadoop-common2.7.6org.apache.hadoophadoop-client2.7.6org.apache.hadoophadoop-hdfs2.7.6

weixin_44864919·2023-11-16 20:42

hadoop源码中关于元数据“分段加锁+双缓冲方案”源码demo

FSEditLog.javapackagecom.nx.hadoop.lesson02;importjava.util.LinkedList;/****HDFS：有个别地方源码写得不错的。

weixin_44864919·2023-11-16 20:12

4. hdfs高可用集群搭建

简介前面把hadoop机器已经准备好了，zk集群搭建好了，本本就是开始搭建hdfs环境hadoop环境准备创建hadoop用户三台机器都创建hadoop用户useraddhadoop-d/home/hadoopecho

shura1014·2023-11-16 20:11

3. hdfs概述与高可用原理

简述HDFS（HadoopDistributedFileSystem）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本

shura1014·2023-11-16 20:35

hadoop概述

是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算.Hadoop框架中最核心设计就是：HDFS

m0_67390379·2023-11-16 08:52

Flink 整合 hudi

优点：不在只依赖于分布式的文件存储系统，对分布式具有解耦合，数据的存储位置可以不用固定，数据并不是只能存储在hdfs中了。主要的作用：计算引擎可以是

新手小农·2023-11-16 08:21

大数据Hadoop之——部署hadoop+hive+Mysql环境（Linux）

Java环境变量3、加载环境变量4、进行校验二、hadoop的集群搭建1、hadoop的下载安装2、配置文件设置2.1.配置hadoop-env.sh2.2.配置core-site.xml2.3.配置hdfs-site.xml2.4

爱吃面的猫·2023-11-16 06:51

Hadoop-HDFS架构与设计

HDFS架构与设计一、背景和起源二、HDFS概述1.设计原则1.1硬件错误1.2流水访问1.3海量数据1.4简单一致性模型1.5移动计算而不是移动数据1.6平台兼容性2.HDFS适用场景3.HDFS不适用场景三

临江蓑笠翁·2023-11-16 06:15

flume异常关闭文件修复方法

flume在从kafka采集数据后，会将数据写入到hdfs文件中。

jiedaodezhuti·2023-11-16 01:19

Flume（一）【Flume 概述】

Flume概述生产环境中的数据一般都是用户在客户端的一些行为操作形成的日志，一般操作日志都会先存到服务器，而不是直接就存到HDFS当中去。那么如何把服务器中的日志数据传输到HDFS中呢？

让线程再跑一会·2023-11-16 01:46

数据湖实操讲解【 AI 训练加速】第十七讲：Fluid + JindoFS 对 HDFS 上的数据进行训练加速...

数据湖技术圈本期导读：【AI训练加速】第十七讲主题：Fluid+JindoFS对HDFS上的数据进行训练加速讲师：辰山，阿里巴巴计算平台事业部EMR技术专家内容框架：什么是Fluid+JindoFS（JindoRuntime

Apache Spark中国社区·2023-11-15 22:41

hadoop学习10

Hadoop学习（十）1.HDFS核心参数1.NameNode内存生产配置(1)NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？

StopM·2023-11-15 20:12

ERROR tool.ImportTool: Import failed: org.apache.hadoop.mapred.FileAlreadyExistsException: Output d

ERRORtool.ImportTool:Importfailed:org.apache.hadoop.mapred.FileAlreadyExistsException:Outputdirectoryhdfs

人生在勤，不索何获-白大侠·2023-11-15 20:13

Hadoop hdfs常用命令

1、查看文件大小用命令：hdfsdfs-du-s-hhdfsdfs-du-s-h/user/hive/warehouse/wxwy.db/nr_mro_lzo/partitionday=202109092

人生在勤，不索何获-白大侠·2023-11-15 20:43

HBase Minor Compaction和Major Compaction

背景HBase在将数据落盘到HDFS上之后，为了解决小文件并提高数据访问效率，定义了两种方式来合并HFile文件。

筑梦之人·2023-11-15 17:45

HBase原理 | HBase Compaction介绍与参数调优

我们知道，数据达到HBase服务端会写WAL-写Memstore，然后定期或满足一定条件时刷写磁盘生成一个HFile文件，随着时间推移生成的HFile会越来越多，将会影响HBase查询性能，同时会对HDFS

create17·2023-11-15 17:13

从0开始学大数据16-ZooKeeper是如何保证数据一致性的？

你可能还记得，我们在讲HDFS和HBase架构分析时都提到了ZooKeeper。

源码头·2023-11-15 15:18

从0开始学大数据15-流式计算的代表：Storm、Flink、SparkStreaming

这些数据通常通过HDFS存储在磁盘上，使用MapReduce或者Spark这样的批处理大数据计算框架进行计算，一般完成一次计算需要花费几分钟到几小时的时间

源码头·2023-11-15 15:18

从0开始学大数据14-BigTable的开源实现：HBase

我们前面已经讲过了GFS对应的Hadoop分布式文件系统HDFS，以及MapReduce对应的Hadoop分布式计算框架MapReduce，今天我们就来领略一下BigTable对应的NoSQL系统

源码头·2023-11-15 15:48

Hive分区表新增字段值为NULL

HDFS上的数据更新了，但是我们查询的时候仍然查询的是旧的元数据信息（即Mysql中的信息）官方解释如下：ChangeColumnName/Type/Position/CommentALTERTABLEtable_n

Sin_Geek·2023-11-15 10:23

Hadoop伪分布式搭建

伪分布式搭建目的准备支持的平台需要的软件下载伪分布式配置设置SSH免密登录启动hadoop验证文件分块查看上传后的文件目的本文档介绍如何设置和配置单节点Hadoop安装，以便您可以使用HadoopMapReduce和Hadoop分布式文件系统(HDFS

best program·2023-11-15 05:13

Centos7搭建hadoop3.3.4分布式集群

2、集群规划hadoop集群是由2个集群构成的，分别是hdfs集群和yarn集群。2个集群都是主从结构。

JAVA序码·2023-11-15 04:10

《spark实战》笔记02--Spark基础概念

•基于DAG图的执行引擎，减少多次计算之间中间结果写到Hdfs的开销。•建立在统一抽象的RDD（分布式内存抽象）之上,使得它可以以基本一致的方式应对不同的大数据处理场景。

chijinyan·2023-11-15 03:41

HADOOP学习_grep和wordcount的例子

两个小例子目录操作文件操作追加文件目录操作首先检查一下自己的hdfs是不是有/user路径http://localhost:50070/explorer.html#/没有就新建一个mac@kkkMachadoop

kkkAloha·2023-11-14 23:16

Hadoop11：MapReduce介绍

一、Hadoop之MapReduce详解前面我们学习了Hadoop中的HDFS，HDFS主要是负责存储海量数据的，如果只是把数据存储起来，除了浪费磁盘空间，是没有任何意义的，我们把数据存储起来之后是希望能从这些海量数据中分析出来一些有价值的内容

做一个有趣的人Zz·2023-11-14 21:40

Hadoop MapReduce详解（一）

一、MapReduce简介之前我们我们讲解了Hadoop的分布式文件储存系统HDFS，曾把它比作一个工厂的仓库。

杨老七·2023-11-14 21:40

hadoop 大数据集群环境配置配置hadoop配置文件 hadoop(七)

1.虚拟机的三台机器分别以hdfs存储,mapreduce计算，yarn调度三个方面进行集群配置hadoop版本3.3.4官网：Hadoop–ApacheHadoop3.3.6jdk1.8三台机器尾号为

不努力就种地~·2023-11-14 21:42

hadoop 如何关闭集群 hadoop使用脚本关闭集群 hadoop(八)

1.hadoop22,hadoop23,hadoop24三台机器2.namenode所在hadoop22关闭hdfs:#找到/etc/hadoop位置cd/opt/module/hadoop-3.3.4

不努力就种地~·2023-11-14 21:39

Flink SQL -- CheckPoint

1、开启CheckPointcheckpoint可以定时将flink任务的状态持久化到hdfs中，任务执行失败重启可以保证中间结果不丢失#修改flink配置文件vimflink-conf.yaml#checkppint

新手小农·2023-11-14 10:11

Hdoop安装配置学习笔记（HDP）

Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeeper、Sqoop和Hcatalog等。

glisten0317·2023-11-14 08:50

hive on spark调优学习笔记

1集群环境概述1.1集群配置概述：所用集群由5台节点构成，其中2台为master节点，用于部署HDFS的NameNode，Yarn的ResourceManager等角色，另外3台为worker节点，用于部署

一只友·2023-11-14 06:39

推荐频道

********HDFS