hdfs 第21页

python3使用pyhdfs向hdfs中上传文件示例

1概述本文为使用pyhdfs包向hdfs中上传文件。主要用来测试hdfs当前服务的状态。同时，脚本支持namenodeha的方式。2包安装pip3installhdfs3脚本示例#!

杨航的技术博客·2024-01-08 16:11

Hadoop学习之路（四）HDFS 读写流程详解

1.HDFS写操作1.1图解HDFS读过程hdfs写操作流程图.pngimage.png1.2数据写入过程详解1、使用HDFS提供的客户端Client,向远程的NameNode发起RPC请求；2、NameNode

shine_rainbow·2024-01-08 12:21

实战Flink Java api消费kafka实时数据落盘HDFS

启动kafka生产3JavaAPI开发3.1依赖3.2代码部分4实验验证STEP1STEP2STEP35时间窗口1需求分析在Javaapi中，使用flink本地模式，消费kafka主题，并直接将数据存入hdfs

大数据程序终结者·2024-01-08 11:13

大数据 Yarn - 资源调度框架

Hadoop主要是由三部分组成，除了前面我讲过的分布式文件系统HDFS、分布式计算框架MapReduce，还有一个是分布式集群资源调度框架Yarn。

善守的大龙猫·2024-01-08 10:48

【技术分享】Hbase列式存储入门

分布式是因为HBase底层使用HDFS存储数据，可扩展也是基于HDFS的横向扩展能力，作为大数据的存储当然支持海量数据的存储，NoSQL非关系型数据库表结构和关系型数据库（如Mysql）的逻辑结构、物理结构很不一样

yestolife123·2024-01-08 08:44

Spark基础二

一.Spark入门案例总结1.读取文件:textFile(path):读取外部数据源,支持本地文件系统和hdfs文件系统.2.将结果数据输出文件上:saveAsTextFile(path):将数据输出到外部存储系统

MSJ3917·2024-01-08 07:52

Hadoop精选18道面试题(附回答思路)

1.简述Hadoop1和Hadoop2的架构异同HDFSHA(HighAvailablity)一旦Active节点出现故障，就可以立即切换到Standby节点，避免了单点故障问题。

Byyyi耀·2024-01-08 06:00

25、Spark核心编程之RDD持久化详解

不使用RDD持久化的问题首先看一段代码JavaRDDlinesRDD=javaSparkContext.textFile("hdfs://hadoop-100:9000/testdate/1.txt")

ZFH__ZJ·2024-01-07 23:21

hadoop调优

hadoop调优1HDFS核心参数1.1NameNode内存生产配置1.1.1NameNode内存计算每个文件块大概占用150byte，如果一台服务器128G，能存储的文件块如下128(G)*1024(

健鑫.·2024-01-07 18:25

hadoop调优(二)

hadoop调优(二)1HDFS故障排除1.1NameNode故障处理NameNode进程挂了并且存储数据丢失了，如何恢复NameNode？

健鑫.·2024-01-07 18:25

熟悉HDFS常用操作

1.利用Hadoop提供的Shell命令完成下列任务（1）向HDFS中上传任意文本文件，如果指定的文件在HDFS中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件。#检查文件是否存在.

cwn_·2024-01-07 17:11

Hive入门

Hive产生的原因：非Java编程者可通过sql语句对HDFS的数据做mapreduce操作。

爱过java·2024-01-07 17:04

HIve技术详解（一）

第1章Hive基本概念1.1Hive1.1.1Hive的产生背景在那一年的大数据开源社区，我们有了HDFS来存储海量数据、MapReduce来对海量数据进行分布式并行计算、Yarn来实现资源管理和作业调度

molecule_jp·2024-01-07 17:34

Hive实战：网址去重

文章目录一、实战概述二、提出任务三、完成任务（一）准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、基于HDFS

howard2005·2024-01-07 17:03

数仓工具—Hive进阶之常见的StorageHandler(24)

以下是一些常见的存储处理程序：HDFSStorageHa

不二人生·2024-01-07 15:07

学习笔记-日志采集和实时分析简单实例

一个出口直接写到ElasticSearch，提供Kibana进行日志分析可视化处理；一个出口直接写到HDFS,提供后期离线统计分析处理；一个出口写入Kafka中，提供SparkStreaming进行近实时日志统计分析处理

人生偌只如初见·2024-01-07 13:27

Hadoop分布式文件系统(二)

目录一、Hadoop1、文件系统1.1、文件系统定义1.2、传统常见的文件系统1.3、文件系统中的重要概念1.4、海量数据存储遇到的问题1.5、分布式存储系统的核心属性及功能含义2、HDFS2.1、HDFS

杀神lwz·2024-01-07 11:19

数仓工具—Hive内部表和外部表(5)

managedtable），被external修饰的为外部表（externaltable）；因为默认情况下我们不加external关键字修饰，所以默认情况下是内部表区别：内部表数据由Hive自身管理，外部表数据由HDFS

不二人生·2024-01-07 07:42

Spark大数据分析与实战笔记（第二章 Spark基础-05）

文章目录每日一句正能量前言2.5启动Spark-Shell2.5.1运行Spark-Shell命令2.5.2运行Spark-Shell读取HDFS文件后记每日一句正能量成长是一条必走的路路上我们伤痛在所难免

想你依然心痛·2024-01-07 06:33

大数据编程期末大作业

大数据编程期末大作业文章目录大数据编程期末大作业一、Hadoop基础操作二、RDD编程三、SparkSQL编程四、SparkStreaming编程一、Hadoop基础操作在HDFS中创建目录/user/

-北天-·2024-01-07 05:20

Hive的基本的概述即使用参考

√本质：其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，hive可以理解为一个将S

C8H11O2N_4cd4·2024-01-07 02:29

记Flume-NG一些注意事项

记Flume-NG一些注意事项(不定时更新，欢迎提供信息)这里只考虑flume本身的一些东西，对于JVM、HDFS、HBase等得暂不涉及。。。。

达微·2024-01-06 19:46

《Hive系列》Hive详细入门教程

Hive本质将HSQL转化成MapReduce程序Hive处理的数据存储在HDFSHive分析数据底层实现的是MR执行程序运行在Yarn上1.2Hive的优缺点1.2.1

DATA数据猿·2024-01-06 17:55

Flume基础知识（九）：Flume 企业开发案例之复制和多路复用

1）案例需求使用Flume-1监控文件变动，Flume-1将变动内容传递给Flume-2，Flume-2负责存储到HDFS。

依晴无旧·2024-01-06 17:58

Flume基础知识（六）：Flume实战之实时监控目录下的多个追加文件

1）案例需求:使用Flume监听整个目录的实时追加文件，并上传至HDFS2）需求分析:3）实现步骤：（1）创建配置文件flume-taildir-hdfs.c

依晴无旧·2024-01-06 17:28

高可用分布式部署Spark、完整详细部署教程

Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark

一座野山·2024-01-06 16:15

SuperMap分布式数据库实操

分布式数据库实操分布式数据库一、MongoDB1.特点2.使用原理3.数据结构4.单节点部署1.下载2.解压安装3.配置开机自启动5.集群部署5.1主从复制集群5.2副本集集群安装部署配置开机自启动5.3分片集群二、DSF（HDFS

会灭火的程序员·2024-01-06 15:42

HDFS的高可用性

HDFS的高可用性联邦hdfs由于namenode在内存中维护系统中的文件和数据块的映射信息，所以对于一个海量文件的集群来说，内存将成为系统横向扩展瓶颈。

zh_harry·2024-01-06 10:25

Hive实战：分科汇总求月考平均分

文章目录一、实战概述二、提出任务三、完成任务（一）准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录（二）实现步骤1、启动HiveMetastore服务2、启动Hive客户端3、创建分区的学生成绩表

howard2005·2024-01-06 10:48

Hadoop: 访问hdfs报错Failed on local exception: com.google.protobuf.InvalidProtocolBufferExceptio

可能是hdfs端口配置的不是默认的9000,hdfsgetconf-confkeyfs.default.name可以查看端口

amadeus_liu2·2024-01-06 08:00

DataX部署及迁移操作说明

DataX安装部署1、DataX简介DataX是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能

曹弘毅·2024-01-06 06:11

文件查找find命令

-userhdfsfind.

曹弘毅·2024-01-06 06:10

MR实战：网址去重

文章目录一、实战概述二、提出任务三、完成任务（一）准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录（二）实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建网址去重映射器类

howard2005·2024-01-06 06:09

大数据管理平台DataSophon开源动态&进行远程Debug方法

新增支持YARN，HDFS，ZK，Hive，Kafka，HBase组件集成Kerberos，支持友好的开启和关闭集成Kerberos。新增机

浮世Talk·2024-01-06 05:18

2.HDFS 架构

目录概述架构HDFS副本HDFS数据写入流程NN工作原理DN工作原理结束概述官方文档快递环境：hadoop版本3.3.6相关文章速递架构HDFSHDFS架构总结如下：amaster/slavearchitecture

流月up·2024-01-05 23:01

大数据 HDFS-存储的王者

文章目录为什么HDFS的地位如此稳固？HDFS的原理HDFS的高可用设计HDFS实现过程为什么HDFS的地位如此稳固？

善守的大龙猫·2024-01-05 21:48

HDFS&Yarn HA架构设计

一、为什么要用HA在hadoop2.0.0之前，在hdfs集群中，NameNode是存在单点故障问题的。

吃货大米饭·2024-01-05 20:22

MR实战：词频统计

文章目录一、实战概述二、提出任务三、完成任务（一）准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录（二）实现步骤1、创建Maven项目2、添加相关依赖3、创建日志属性文件4、创建词频统计映射器类

howard2005·2024-01-05 19:01

修修改hdfs上的文件所属用户、所属组等读写执行控制权限

HDFS支持权限控制，但支持较弱。HDFS的设计是基于POSIX模型的，支持按用户、用户组、其他用户的读写执行控制权限。

liuzx32·2024-01-05 11:52

SparkStreaming基础解析（四）

而结果也能保存在很多地方，如HDFS，数据

有语忆语·2024-01-05 10:05

Hadoop(04) HDFS编程实践操作

Hadoop分布式文件系统（HadoopDistributedFileSystem,HDFS）是Hadoop核心组件之一，如果已经安装了Hadoop，其中就已经包含了HDFS组件，不需要另外安装。

Eufeo·2024-01-05 09:25

Hadoop集群环境下HDFS实践编程过滤出所有后缀名不为“.abc”的文件时运行报错：Path is not a file: /user/hadoop/input

一、问题描述搭建完Hadoop集群后，在Hadoop集群环境下运行HDFS实践编程使用Eclipse开发调试HDFSJava程序（文末有源码）：假设在目录“hdfs://localhost:9000/user

哇咔咔哇咔·2024-01-05 09:25

Hadoop集群环境下HDFS实践编程过滤出所有后缀名不为“.abc”的文件时运行报错：java.net.ConnectException: 拒绝连接；

一、问题描述搭建完Hadoop集群后，在Hadoop集群环境下运行HDFS实践编程使用Eclipse开发调试HDFSJava程序（文末有源码）：假设在目录“hdfs://localhost:9000/user

哇咔咔哇咔·2024-01-05 09:19

Hive实战处理（二十三）hive整合phoenix

1、hive整合phoenix的原理Hive支持使用HDFS之外的存储系统作为底层存储系统，其中官方明确支持HBase，Kudu，Druid和JDBC(MySQL等)。

sheep8521·2024-01-05 08:13

datax不支持对hive hdfs(ha)高可用的hdfsreader（即无法读取到HDFS多节点高可用）.

处理方案：采用引入CDH的hive、hdfs等配置文件到hdfsreader,jar替换原的jar文件解决。

whbi·2024-01-05 08:06

HDFS 常用shell命令

#创建名为/abc的文件夹hdfsdfs-mkdir/abc#列出根目录中的内容hdfsdfs-ls/#递归列出多层文件夹的内容hdfsdfs-ls-R/#把Linux系统中/etc/hosts文件上传到

幸福巡礼·2024-01-05 08:15

数据仓库理论进阶 - 01 《阿里大数据之路》第二篇数据模型篇

学习内容链接如下：视频：【一起啃书】阿里大数据之路数据仓库建模基础理论研读(已完结)_哔哩哔哩_bilibili书籍：《阿里大数据之路》8.1为什么需要数据建模建模目标：有序、有结构地分类组织和存储存储在hdfs

:Concerto·2024-01-05 08:43

java与大数据：Hadoop与MapReduce

它由两个核心组件组成：Hadoop分布式文件系统（HDFS）：HDFS是Hadoop的存储系统，它将大数据集分割成多个块，并将这些块分布

naer_chongya·2024-01-05 08:38

flink on yarn任务启停脚本(实现一键读取ck启动，保存ck停止）

1.问题描述flink同步任务，长期任务过多，某个任务停止保存checkpoint或者savepoint后，修改代码，使用命令行读取检查点重新启动需要人工去hdfs上找寻检查点保存位置。

tuoluzhe8521·2024-01-05 06:20

kudu介绍和使用

kudu架构同hdfs和Hbase相似,kudu使用单个的master节点，用来管理集群的元数据，并且使用任意数量的tabletserver节点来存储实际数据。

古城的风cll·2024-01-04 23:12

推荐频道

hdfs