小象Hadoop 第13页

Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结

一、HDFS命令显示当前目录结构#显示当前目录结构hadoopfs-ls#递归显示当前目录结构hadoopfs-ls-R#显示根目录下内容hadoopfs-ls/创建目录#创建目录hadoopfs-mkdir

dazhong2012·2025-03-19 17:48

How Spark Read Sftp Files from Hadoop SFTP FileSystem

3.5.3'){excludegroup:"org.apache.logging.log4j",module:"log4j-slf4j2-impl"}implementation('org.apache.hadoop

IT•轩辕·2025-03-19 13:18

中电金信25/3/18面前笔试（需求分析岗+数据开发岗）

一、需求分析第1题，单选题,Hadoop的核心组件包括HDFS和以下哪个？

苍曦·2025-03-19 12:43

Spark集群启动与关闭

Hadoop集群和Spark的启动与关闭Hadoop集群开启三台虚拟机均启动ZookeeperzkServer.shstartMaster1上面执行启动HDFSstart-dfs.shslave1上面执行开启

陈沐·2025-03-18 23:17

Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）

用户自定义函数（UDF）分类二、常用函数详解与实战案例‌1.数学函数‌2.字符串函数‌3.窗口函数‌4.自定义UDF实战‌三、总结与优化建议‌1.核心总结2.性能优化建议‌3.常问问题背景‌Hive作为Hadoop

一个天蝎座白勺程序猿·2025-03-18 23:45

Hadoop MapReduce 词频统计（WordCount）代码解析教程

一、概述这是一个基于HadoopMapReduce框架实现的经典词频统计程序。程序会统计输入文本中每个单词出现的次数，并将结果输出到HDFS文件系统。

我不是少爷.·2025-03-18 17:07

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路说起大数据技术，Hadoop和Spark可以说是这个领域的两座里程碑。

Echo_Wish·2025-03-18 12:57

hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤

启动和关闭Hadoop集群命令步骤总结：1.在master上启动hadoop-daemon.shstartnamenode.2.在slave上启动hadoop-daemon.shstartdatanode

氪老师·2025-03-18 12:55

在kali linux中配置hadoop伪分布式

目录一.配置静态网络二.配置主机名与IP地址映射三.配置SSH免密登录四.配置Java和Hadoop环境五.配置Hadoop伪分布式六.启动与验证一.配置静态网络原因：Hadoop集群依赖稳定的网络通信

we19a0sen·2025-03-18 11:47

Spark任务读取hive表数据导入es

使用elasticsearch-hadoop将hive表数据导入es，超级简单1.引入pomorg.elasticsearchelasticsearch-hadoop9.0.0-SNAPSHOT2.创建

小小小小小小小小小小码农·2025-03-17 18:25

hive-进阶版-1

第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。

数据牧马人·2025-03-17 10:59

大数据手册(Spark)--Spark安装配置

若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。

WilenWu·2025-03-16 20:09

虚拟机中Hadoop集群NameNode进程缺失问题解析与解决

目录问题概述问题分析解决办法总结问题概述在虚拟机中运行Hadoop集群时，通过执行jps命令检查进程时，发现NameNode进程缺失。这通常会导致Hadoop集群无法正常运行，影响数据的存储和访问。

申朝先生·2025-03-15 23:09

大数据学习（67）- Flume、Sqoop、Kafka、DataX对比

留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop

viperrrrrrr·2025-03-15 09:51

Kubernetes集群版本升级

升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane

程序员Realeo·2025-03-15 08:40

Kubernetes集群版本升级

升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane

·2025-03-14 17:58

Hive高级SQL技巧及实际应用场景

Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。

小技工丨·2025-03-14 07:40

hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读

基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

weixin_39756416·2025-03-13 22:10

在hadoop上运行python_hadoop上运行python程序

数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop

廷哥带你小路超车·2025-03-13 12:58

ranger集成starrock报错

org.apache.ranger.plugin.client.HadoopException:initConnection:UnabletoconnecttoStarRocksinstance,pleaseprovidevalidvalueoffield

蘑菇丁·2025-03-13 09:01

深入大数据世界：Kontext.TECH的Hadoop之旅

深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop

钱桦实Emery·2025-03-13 04:58

大数据学习（61）-Impala与Hive计算引擎

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop

viperrrrrrr·2025-03-12 21:38

大数据学习（62）- Hadoop-yarn

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、YARN概述1.YARN简介Hadoop-YARN是ApacheHadoop

viperrrrrrr·2025-03-12 21:38

HBase2.6.1部署文档

1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。

CXH728·2025-03-12 17:10

Hive-4.0.1版本部署文档

Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。

CXH728·2025-03-12 16:10

hive-3.1.3部署文档

提前准备一个正常运行的hadoop集群java环境hive安装包下载地址：https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3

CXH728·2025-03-12 16:09

mySQL和Hive的区别

SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3

iijik55·2025-03-12 00:41

flink-cdc实时增量同步mysql数据到elasticsearch

1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直

大数据技术派·2025-03-11 19:51

搭建分布式Hive集群

title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop

逸曦玥泱·2025-03-11 18:17

Hadoop、Spark和 Hive 的详细关系

Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。

夜行容忍·2025-03-11 18:46

Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar

1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so

ruangaoyan·2025-03-11 18:45

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。

雨中徜徉的思绪漫溢·2025-03-11 17:07

ZooKeeper学习总结（1）——ZooKeeper入门介绍

1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。

一杯甜酒·2025-03-11 17:03

Zookeeper+kafka学习笔记

Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。

CHR_YTU·2025-03-11 16:01

麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072

[root@hadoop173nginx1.27.0]#wget-chttp://nginx.org/download/nginx-1.27.0.tar.gz--2024-07-0509:47:00--

添柴程序猿·2025-03-11 16:54

Zookeeper与Kafka学习笔记

一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用

上海研博数据·2025-03-11 15:51

phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180

今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing

添柴程序猿·2025-03-11 00:52

Hadoop的运行模式

Hadoop的运行模式1、本地运行模式2、伪分布式运行模式3、完全分布式运行模式4、区别与总结Hadoop有三种可以运行的模式：本地运行模式、伪分布式运行模式和完全分布式运行模式1、本地运行模式本地运行模式无需任何守护进程

对许·2025-03-10 09:35

Hadoop的mapreduce的执行过程

一、map阶段的执行过程第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认Splitsize=Blocksize（128M），每一个切片由一个MapTask处理。（getSplits）第二阶段：对切片中的数据按照一定的规则读取解析返回对。默认是按行读取数据。key是每一行的起始位置偏移量，value是本行的文本内容。（TextInputFormat）第三阶段：调用Mapp

画纸仁·2025-03-10 01:34

Hadoop：分布式计算平台初探

Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。

dccrtbn6261333·2025-03-10 01:32

【Hadoop】如何理解MapReduce？

MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它的核心思想是将复杂的计算任务分解为两个简单的阶段：Map（映射）和Reduce（归约）。通过这种方式，MapReduce可以高效地并行处理海量数据。一.MapReduce的核心概念1.Map（映射）：将输入数据分割成小块，并对每个小块进行初步处理。输出键值对（key-valuepairs），例如。2.Shuffle和Sort（洗牌

2302_79952574·2025-03-10 00:30

Hadoop：全面深入解析

Hadoop是一个用于大规模数据处理的开源框架，其设计旨在通过集群的方式进行分布式存储和计算。

CloudJourney·2025-03-09 21:29

Hadoop介绍：什么是Hadoop？了解Hadoop的应用

一、认识Hadoop框架Hadoop是一个提供分布式存储和计算的开源软件框架，使用Java语言编写，具有高扩展性、高容错性、无共享和高可用（HA）等特点，非常适合处理海量数据。

Zzzxt007·2025-03-09 21:55

Hbase在hdfs上的archive目录占用空间过大

hbase版本：1.1.2hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。

宝罗Paul·2025-03-09 13:50

Hadoop、Spark、Flink Shuffle对比

一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过

逆袭的小学生·2025-03-09 10:55

【Hadoop】什么是Zookeeper？如何理解Zookeeper？

ZooKeeper是一个开源的分布式应用程序协调服务，可以为分布式应用提供一致性的服务，功能包括：配置维护、名字服务、分布式同步、组服务等等。ZooKeeper的目标是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。1.Zookeeper的特点最终一致性：Client不论连接到哪个Server,展示给它的都是同一个视图。可靠性：如果某个消息被一台服务器接受，那么它

2302_79952574·2025-03-09 09:46

【Hadoop】详解HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统，它是一个高度容错性的系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

2302_79952574·2025-03-09 09:13

HDFS的设计架构

HDFS是Hadoop生态系统中的分布式文件系统，设计用于存储和处理超大规模数据集。它具有高可靠性、高扩展性和高吞吐量的特点，适合运行在廉价硬件上。

F_0125·2025-03-09 05:21

大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件

从以Greenplum为代表的MPP（MassivelyParallelProcessing，大规模并行处理）架构，到Hadoop、Spark为代表的批处理架构，再到Storm、Flink为代表的流处理架构

2401_84181942·2025-03-09 03:39

大数据运维实战指南：零基础入门与核心技术解析（第一篇）

大数据运维实战指南：零基础入门与核心技术解析（第一篇）系列文章目录第一篇：大数据运维概述与核心技能体系第二篇：Hadoop生态体系与集群部署实战第三篇：分布式存储系统运维与优化第四篇：资源调度框架YARN

emmm形成中·2025-03-09 01:19

推荐频道

小象Hadoop

Hadoop 实战笔记（二）-- HDFS 常用 shell 命令总结

How Spark Read Sftp Files from Hadoop SFTP FileSystem

中电金信25/3/18面前笔试（需求分析岗+数据开发岗）

Spark集群启动与关闭

Hive函数大全：从核心内置函数到自定义UDF实战指南（附详细案例与总结）

Hadoop MapReduce 词频统计（WordCount）代码解析教程

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

hadoop集群关闭命令顺序_启动和关闭Hadoop集群命令步骤

在kali linux中配置hadoop伪分布式

Spark任务读取hive表数据导入es

hive-进阶版-1

大数据手册(Spark)--Spark安装配置

虚拟机中Hadoop集群NameNode进程缺失问题解析与解决

大数据学习（67）- Flume、Sqoop、Kafka、DataX对比

Kubernetes集群版本升级

Kubernetes集群版本升级

Hive高级SQL技巧及实际应用场景

hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读

在hadoop上运行python_hadoop上运行python程序

ranger集成starrock报错

深入大数据世界：Kontext.TECH的Hadoop之旅

大数据学习（61）-Impala与Hive计算引擎

大数据学习（62）- Hadoop-yarn

HBase2.6.1部署文档

Hive-4.0.1版本部署文档

hive-3.1.3部署文档

mySQL和Hive的区别

flink-cdc实时增量同步mysql数据到elasticsearch

搭建分布式Hive集群

Hadoop、Spark和 Hive 的详细关系

Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系

ZooKeeper学习总结（1）——ZooKeeper入门介绍

Zookeeper+kafka学习笔记

麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072

Zookeeper与Kafka学习笔记

phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180

Hadoop的运行模式

Hadoop的mapreduce的执行过程

Hadoop：分布式计算平台初探

【Hadoop】如何理解MapReduce？

Hadoop：全面深入解析

Hadoop介绍：什么是Hadoop？了解Hadoop的应用

Hbase在hdfs上的archive目录占用空间过大

Hadoop、Spark、Flink Shuffle对比

【Hadoop】什么是Zookeeper？如何理解Zookeeper？

【Hadoop】详解HDFS

HDFS的设计架构

大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件

大数据运维实战指南：零基础入门与核心技术解析（第一篇）