hdfs日常维护第21页

【基础知识】大数据概述

发展历程中国开源生态图谱2023参考内容中国开源生态图谱2023.pdf技术组件说明数据集成sqoop、dataX、flume数据存储hdfs、kafka数据处理mapreduce、hive、impala

偏振万花筒·2023-12-15 12:39

hadoop-hdfs简介及常用命令详解（超详细）

文章目录前言一、HDFS概述1.HDFS简介2.HDFS架构3.HDFS文件操作二、HDFS命令介绍1.hdfs命令简介2.HDFS命令的基本语法3.常用的HDFS命令选项三、HDFS常用命令1.列出指定路径下的文件和目录

大数据魔法师·2023-12-15 11:22

hadoop使用内置包进行性能测试TestDFSIO、NNBench、MRBench、SliveTest

使用内置包进行性能测试TestDFSIOread&writeNNBenchMRBenchSliveTestTestDFSIOread&writeTestDFSIO是一个Hadoop自带的基准测试工具，用于测试HDFS

何亚告·2023-12-15 07:51

大数据技术13：HBase分布式列式数据库

Hadoop可以通过HDFS来存储结构化、半

Java架构何哥·2023-12-15 07:05

【Spark精讲】Spark存储原理

目录类比HDFS的存储架构Spark的存储架构存储级别RDD的持久化机制RDD缓存的过程Block淘汰和落盘类比HDFS的存储架构 HDFS集群有两类节点以管理节点-工作节点模式运行，即一个NameNode

话数Science·2023-12-15 07:29

【Hadoop】

Hadoop是一个开源的分布式离线数据处理框架，底层是用Java语言编写的，包含了HDFS、MapReduce、Yarn三大部分。

想当运维的程序猿·2023-12-15 07:43

hive聚合函数之JOIN原理及案例

1.数据准备原始数据创建dept.txt文件，并赋值如下内容，上传HDFS。

Appreciate(欣赏)·2023-12-15 06:03

07用户行为日志数据采集

用户行为数据由Flume从Kafka直接同步到HDFS，由于离线数仓采用Hive的分区表按天统计，所以目标路径要包含一层日期。具体数据流向如下图所示。

kk_io·2023-12-15 06:22

hive的load报错Error: EXECUTION FAILED: Task MOVE error HiveException: [Error 20531] Unable to move sour

Error:EXECUTIONFAILED:TaskMOVEerrorHiveException:[Error20531]Unabletomovesourcehdfs://nameservice1/tmp

五月天的尾巴·2023-12-15 03:12

2.CENTOS安装CDH和Kudu-1

Cloudera企业级数据中心的安装主要分为4个步骤：集群服务器配置，包括安装操作系统、关闭防火墙、同步服务器时钟等；外部数据库安装安装Cloudera管理器；安装CDH集群；集群完整性检查，包括HDFS

大勇任卷舒·2023-12-15 01:40

【Hadoop_03】HDFS概述与Shell操作

1、集群配置（1）集群启动/停止方式总结（2）编写Hadoop集群常用脚本（3）常考面试题【1】常用端口号【2】常用配置-文件2、HDFS概述（1）HDFS产出背景及定义（2）HDFS优缺点（3）HDFS

温欣2030·2023-12-14 23:04

外部文件数据写入hive

hive数据库是基于HDFS的一个数据库，是对hdfs数据的一个映射关系。注意：hive数据库存入数据的时候不建议使用insertinto语句来进行插入，这样的的操作方式在效率上会很低效。

小赵要加油·2023-12-14 19:24

Hive：从HDFS回收站恢复被删的表

1.确认HDFS是否开启回收站功能2.查看回收站中的数据被删除的数据会放在删除数据时使用的用户目录下，如：使用pgxl删除的，那么删除的数据会放在如下目录：/user/pgxl/.Trash该目录下会有多个文件夹

有语忆语·2023-12-14 19:49

大数据存储技术（1）—— Hadoop简介及安装配置

）概念（二）Hadoop发展历史（三）Hadoop三大发行版本（四）Hadoop的优势二、Hadoop的组成（一）Hadoop1.x和Hadoop2.x的区别编辑（二）Hadoop的三种运行模式（三）HDFS

Francek Chen·2023-12-14 19:08

Scala-初学

前提，已经安装好Scala在Linux终端准备资料：a.txt内容HIVE底层是hdfs和mapreduce实现存储和计算的。

Logan_addoil·2023-12-14 19:07

MapReduce的执行过程（以及其中排序）

阶段(ReduceTask):拷贝数据(copy)------排序(sort)-----合并(reduce)-----写出(write)1、Maptask读取：框架调用InputFormat类的子类读取HDFS

Logan_addoil·2023-12-14 19:29

datax的mysql 到hdfs文件系统 --- 支持高可用

datax的mysql到hdfs文件系统上！

Java页大数据·2023-12-14 16:27

idea本地调试hadoop 遇到的几个问题

java.lang.IllegalStateException‘exception.Cannotevaluateorg.apache.hadoop.mapreduc解决方法：关闭IDEA中的启用“tostring()”对象视图2.代码和hdfs

sunweiking·2023-12-14 13:43

【原创】基于SSM的超市进销存管理系统（超市管理系统毕业设计）

主要目标是对商品日常维护、售卖、商品类别、存储记录、库存维护等功能的统计及整理。系统设计了普通员工和管理员两个角色。

那条学长V·2023-12-14 13:42

big data tools连接hdfs报错Exception during driver request: java.lang.IllegalArgumentException:java.net.U

1.报错在IDEA中使用bigdatatools插件连接虚拟机中的hdfs时报错：Exceptionduringdriverrequest:java.lang.IllegalArgumentException

向之所欣·2023-12-14 12:15

报错：Permission denied. user=dr.who is not the owner of inode=/tmp

例如HDFS网络用户界面（用于浏览文件的用户）。链接：hadoop.apache.org/docs/r3.3.1/hado

撕得失败的标签·2023-12-14 12:37

已解决：java.net.ConnectException: Call From XXXXX to XXXXX :8020 failed on connection Exception: 拒绝连接；

咱也不敢问，咱也不敢问、整个业务集群呢是在阿里云上搭建的，十几台服务器，在跑flume脚本的时候，发现了一个很奇怪的现象，正常的跑flume的测试脚本，采用loggersink呢，是OK的，但是使用HDFSsink

想做CTO的任同学...·2023-12-14 12:04

二百一十七、Flume——Flume拓扑结构之聚合的开发案例（亲测，附截图）

（二）结构特征用flume的这种组合方式能很好的解决这一问题，每台服务器部署一个flume采集日志，传送到一个集中收集日志的flume，再由此flume上传到hdfs、hive、hbase等

天地风雷水火山泽·2023-12-14 12:31

解决Hbase报错:ERROR: Can‘t get master address from ZooKeeper； znode data == null

文章目录问题描述解决方案问题描述报错了：这啥公司啊，怎么给的文档怎么错这么多，起一服务，集群里总有几个组件报错继上次Flume脚本，使用hdfssink报错了以后，hbase又报错了，报错提示如下：hbase

想做CTO的任同学...·2023-12-14 12:30

HDFS 3.x 数据存储新特性-纠删码

HDFS是⼀个⾼吞吐、⾼容错的分布式⽂件系统，但是HDFS在保证⾼容错的同时也带来⾼昂的存储成本，⽐如有5T的数据存储在HDFS上，按照HDFS的默认3副本机制，将会占⽤15T的存储空间。

数据与后端架构提升之路·2023-12-07 01:03

HDFS Architecture 翻译和理解

HDFS官方文档链接硬件故障的容错，在软件层面cover硬件故障。流式数据读取，数据的访问是顺序的，对数据跳转访问支持不友好。数据集巨大，以TB为单位。

不争_900c·2023-12-06 22:17

hadoop学习之路3-MapReduce作业生命周期

用户提交作业后，首先由JobClient实例将作业相关信息，比如将程序jar包、作业配置文件、分片元信息文件等上传到hdfs上，其中分片元信息记录了每个输入分片的逻辑位置信息。

乌拉乌拉儿·2023-12-06 18:09

图说HDFS基本原理

英文原版作者：ManeeshVarshney,[email protected]HDFS是现在最受欢迎和被人们说熟知的分布式文件系统。

数据萌新·2023-12-06 18:40

ambari 安装及使用ambari安装hadoop记录

Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeeper、Sqoop和Hcatalog等。ApacheAmbari支持HDFS

yujianbujianqwe·2023-12-06 17:24

大数据平台Ambari2.7.4+HDP3.1.4详细安装教程

Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、Hbase、Zookeeper、Sqoop和Hcatalog等。

csdnuser267·2023-12-06 17:20

Ambari简介&安装

Ambari目前已支持大多数Hadoop组件，包括HDFS、MapReduc

月苍.·2023-12-06 17:49

大数据Hadoop分布式文件系统HDFS的两类节点NameNode和DataNode

HDFS集群有两类节点，并以管理者-工作者模式运行，即一个NameNode(管理者)和多个DataNode(工作者)。

A尚学堂Nancy老师·2023-12-06 15:56

flume 实时监控 Hive 日志，并上传到 HDFS 中

的日志生成位置二、上传需要的jar包将commons-configuration-1.6.jar、hadoop-auth-3.1.2.jar、hadoop-common-3.1.2.jar、hadoop-hdfs

无名刺客·2023-12-06 12:41

Flume 概述+环境配置+监听Hive日志信息并写入到hdfs

Flume介绍Flume是Apache基金会组织的一个提供的高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方(可定制)的能力。当前Flume有两个版本，Flume0.9x版本之前的统称为Flume-og，Flume1.X版本被统称为Flume-ng。参考文档：http

Transkai47·2023-12-06 12:40

二百一十二、Flume——Flume实时采集Linux中的目录文件写入到HDFS中（亲测、附截图）

一、目的在实现Flume实时采集Linux中的Hive日志写入到HDFS后，再做一个测试，用Flume实时采集Linux中的目录文件，即使用Flume监听Linux整个目录的文件，并上传至HDFS中二、

天地风雷水火山泽·2023-12-06 12:10

flume和kafka整合——采集实时日志落地到hdfs

flume和kafka整合——采集实时日志落地到hdfs一、采用架构二、前期准备2.1虚拟机配置2.2启动hadoop集群2.3启动zookeeper集群，kafka集群三、编写配置文件3.1slave1

奋斗的IT小白菜·2023-12-06 12:39

Flume采集数据到Hive&HBase

文章目录Flume汇入数据到Hive方法一：汇入到Hive指定的HDFS路径中：方法二：利用HiveSink汇入数据Flume汇入数据到HBase一、Flume的HBaseSinks详细介绍1.1、HBaseSink1.2

哈了个Doop·2023-12-06 12:08

Flume监控Hive日志并上传到HDFS

一、实时监控单个追加文件1.需求：实时监控Hive日志，并上传到HDFS2.实现步骤：（1）上传Hadoop相关jar包到flume/lib目录下flume相关jar包https://blog.csdn.net

无发可脱丶·2023-12-06 12:37

实时监控 Hive 日志，并上传到 HDFS 中

Flume要想将数据输出到HDFS，依赖Hadoop相关jar包检查/etc/profile.d/my_env.sh文件，确认Hadoop和Java环境变量配置正确创建flume-file-hdfs.conf

夏殿灬青葛石·2023-12-06 12:07

二百一十一、Flume——Flume实时采集Linux中的Hive日志写入到HDFS中（亲测、附截图）

一、目的为了实现用Flume实时采集Hive的操作日志到HDFS中，于是进行了一场实验二、前期准备（一）安装好Hadoop、Hive、Flume等工具（二）查看Hive的日志在Linux系统中的文件路径

天地风雷水火山泽·2023-12-06 12:36

Doris数据备份及恢复

如BOS、HDFS等。可以通过SHOWBROKER;查看当前部署的

shangjg3·2023-12-06 08:48

spark不同结构Dataset合并

1.先将hdfs(或本地)存储的csv文件加载为Dataset先在本地C盘准备两个csv文件test.csvclient_id,behives,del,normal_status,cust_type,no_trd_days7056

容若只如初见·2023-12-06 07:03

spark 写入 hudi时数据类型报错

Causedby:org.apache.spark.sql.execution.QueryExecutionException:Parquetcolumncannotbeconvertedinfilehdfs

南城守护·2023-12-06 07:31

使用 Apache Kafka 进行实时流处理

wouderw·2023-12-06 05:37

【读书笔记】《大数据技术体系详解：原理、架构与实践》03.分布式文件系统

这些文件形式的数据具有价值高、数据大、流式产生等特点，需要一个分布式文件系统存储它们，该文件系统应具有良好的容错性、扩展性和易用的API，而HDFS（HadoopDistributedFileSystem

粥一样温柔·2023-12-06 05:40

hive外部表分区

外部表和内部表内部表：数据由hive自身管理存储在hive指定的hdfs目录中删除会删除数据本身外部表（external）：数据存储在用户使用location关键字指定的hdfs目录中hive中仅存储一份元数据删除操作不会影响到

nil_ddea·2023-12-06 00:54

Flink快速入门

分而治之批处理流处理-微信运动、信用卡月度账单、国家季度GDP增速MPI-节点间数据通信-c和pythonMR-2004谷歌提出的编程范式-hadoop/storm/spark/flinkHadoop-MR、HDFS

WaiSaa·2023-12-05 21:30

Hadoop 概述

文章目录Hadoop概述Hadoop是什么Hadoop主要发展历程Hadoop优势Hadoop组成Hadoop1.x、2.x、3.x区别HDFS概述YARN概述MapReduce架构概述HDFS、YARN

撕得失败的标签·2023-12-05 19:59

Apache Sqoop使用

Hadoop生态系统包括：HDFS、Hive、Hbase等RDBMS体系包括：MySQL、Oracle、DB2等Sqoop可以理

高过蓝天的云·2023-12-05 10:41

大数据Hadoop集群的启动

1启动准备工作1.1配置操作系统的环境变量1.2创建Hadoop数据目录1.3格式化文件系统1.4启动和关闭Hadoop1.5验证Hadoop是否成功启动1.6hadoop-daemon.sh的使用2HDFS

赵广陆·2023-12-05 08:13

推荐频道

hdfs日常维护