hadoop技术交流第2页

hive-进阶版-1

第6章hive内部表与外部表的区别Hive是一个基于Hadoop的数据仓库工具，用于对大规模数据集进行数据存储、查询和分析。

数据牧马人·2025-03-17 10:59

大数据手册(Spark)--Spark安装配置

若安装包下载缓慢，可复制链接到迅雷下载，亲测极速～准备工作Spark的安装过程较为简单，在已安装好Hadoop的前提下，经过简单配置即可使用。

WilenWu·2025-03-16 20:09

BOE(京东方)绵阳“零碳工厂”探访活动圆满落幕树立显示产业绿色转型新标杆

通过实地观摩与技术交流,BOE(京东方)全方位展示了其在绿色制造领域的突破性成果——从100%可再生能源覆盖到全流程碳足迹管理,从技术创新驱动减排到低碳模式行业复制,见证了公司多年来在可持续发展领域的持续投入与引领作

资讯分享周·2025-03-16 01:53

虚拟机中Hadoop集群NameNode进程缺失问题解析与解决

目录问题概述问题分析解决办法总结问题概述在虚拟机中运行Hadoop集群时，通过执行jps命令检查进程时，发现NameNode进程缺失。这通常会导致Hadoop集群无法正常运行，影响数据的存储和访问。

申朝先生·2025-03-15 23:09

大数据学习（67）- Flume、Sqoop、Kafka、DataX对比

留言支持一下博主哦工具主要作用数据流向实时性数据源/目标应用场景Flume实时日志采集与传输从数据源到存储系统实时日志文件、网络流量等→HDFS、HBase、Kafka等日志收集、实时监控、实时分析Sqoop关系型数据库与Hadoop

viperrrrrrr·2025-03-15 09:51

Kubernetes集群版本升级

升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane

程序员Realeo·2025-03-15 08:40

Kubernetes集群版本升级

升级步骤查看集群版本[root@hadoop102~]#kubectlgetnodesNAMESTATUSROLESAGEVERSIONhadoop102Ready,SchedulingDisabledcontrol-plane

·2025-03-14 17:58

Hive高级SQL技巧及实际应用场景

Hive高级SQL技巧及实际应用场景引言ApacheHive是一个建立在Hadoop之上的数据仓库基础设施，它提供了一个用于查询和管理分布式存储中的大型数据集的机制。

小技工丨·2025-03-14 07:40

我的创作纪念日，不忘初心，方得始终

机缘八年前，我怀着对知识的渴望和分享的热情，踏入了CSDN这个充满活力的技术交流平台，开启了我的创作之旅。

wtrees_松阳·2025-03-14 03:16

hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读

基于Hadoop做一些数据清洗啊(ETL)、报表啊、数据分析可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。

weixin_39756416·2025-03-13 22:10

2024年最新【AcWing】蓝桥杯集训每日一题Day7 贡献法 4261，2024年最新2024春招面试

不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！是一个数学思想，在枚举一些数的时候，有些枚举可能

2401_84976300·2025-03-13 19:23

我的创作纪念日：730天的技术写作之旅

技术交流——希望通过文章与同行探讨设计模式的应用场景，避免“纸上谈兵”。自我鞭策——用公开写作倒逼自己系统化梳理知识体系。没想到这一写，就走过了

小李的便利店·2025-03-13 19:20

在hadoop上运行python_hadoop上运行python程序

数据来源：http://www.nber.org/patents/acite75_99.zip首先上传测试数据到hdfs：[root@localhost:/usr/local/hadoop/hadoop

廷哥带你小路超车·2025-03-13 12:58

ranger集成starrock报错

org.apache.ranger.plugin.client.HadoopException:initConnection:UnabletoconnecttoStarRocksinstance,pleaseprovidevalidvalueoffield

蘑菇丁·2025-03-13 09:01

深入大数据世界：Kontext.TECH的Hadoop之旅

深入大数据世界：Kontext.TECH的Hadoop之旅winutils项目地址:https://gitcode.com/gh_mirrors/winut/winutils在大数据的浩瀚宇宙中，Hadoop

钱桦实Emery·2025-03-13 04:58

大数据学习（61）-Impala与Hive计算引擎

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、impala与yarn资源管理YARN是ApacheHadoop

viperrrrrrr·2025-03-12 21:38

大数据学习（62）- Hadoop-yarn

&&大数据学习&&系列专栏：哲学语录:承认自己的无知，乃是开启智慧的大门如果觉得博主的文章还不错的话，请点赞+收藏⭐️+留言支持一下博主哦一、YARN概述1.YARN简介Hadoop-YARN是ApacheHadoop

viperrrrrrr·2025-03-12 21:38

HBase2.6.1部署文档

1、HBase概述ApacheHBase是基于Hadoop分布式文件系统（HDFS）之上的分布式、列存储、NoSQL数据库。

CXH728·2025-03-12 17:10

Hive-4.0.1版本部署文档

Hadoop：Hive需要依赖Hadoop进行分布式存储，建议安装Hadoop3.x版本（本实验采用的是hadoop3.3.6）。

CXH728·2025-03-12 16:10

hive-3.1.3部署文档

提前准备一个正常运行的hadoop集群java环境hive安装包下载地址：https://archive.apache.org/dist/hive/hive-3.1.3/apache-hive-3.1.3

CXH728·2025-03-12 16:09

大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别(3)

不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

2301_76348014·2025-03-12 03:32

mySQL和Hive的区别

SQL和HQL的区别整体1、存储位置：Hive在Hadoop上；Mysql将数据存储在设备或本地系统中；2、数据更新：Hive不支持数据的改写和添加，是在加载的时候就已经确定好了；数据库可以CRUD；3

iijik55·2025-03-12 00:41

flink-cdc实时增量同步mysql数据到elasticsearch

1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直

大数据技术派·2025-03-11 19:51

搭建分布式Hive集群

title:搭建分布式Hive集群date:2024-11-2923:39:00categories:-服务器tags:-Hive-大数据搭建分布式Hive集群本次实验环境：Centos7-2009、Hadoop

逸曦玥泱·2025-03-11 18:17

Hadoop、Spark和 Hive 的详细关系

Hadoop、Spark和Hive的详细关系1.ApacheHadoopHadoop是一个开源框架，用于分布式存储和处理大规模数据集。

夜行容忍·2025-03-11 18:46

Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar

1、解压文件出错，如下信息：D:\tools\hadoop-3.1.2.tar.gz:无法创建符号链接D:\tools\hadoop-3.1.2\hadoop-3.1.2\lib\native\libhadoop.so

ruangaoyan·2025-03-11 18:45

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系在大数据领域中，Hadoop、Hive和Spark是三个常用的开源技术，它们在大数据处理和分析方面发挥着重要作用。

雨中徜徉的思绪漫溢·2025-03-11 17:07

ZooKeeper学习总结（1）——ZooKeeper入门介绍

1.概述Zookeeper是Hadoop的一个子项目，它是分布式系统中的协调系统，可提供的服务主要有：配置服务、名字服务、分布式同步、组服务等。

一杯甜酒·2025-03-11 17:03

Zookeeper+kafka学习笔记

Zookeeper是Apache的一个java项目，属于Hadoop系统，扮演管理员的角色。

CHR_YTU·2025-03-11 16:01

麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072

[root@hadoop173nginx1.27.0]#wget-chttp://nginx.org/download/nginx-1.27.0.tar.gz--2024-07-0509:47:00--

添柴程序猿·2025-03-11 16:54

Zookeeper与Kafka学习笔记

一、Zookeeper核心要点1.核心特性分布式协调服务，用于维护配置/命名/同步等元数据采用层次化数据模型（Znode树结构），每个节点可存储<1MB数据典型应用场景：HadoopNameNode高可用

上海研博数据·2025-03-11 15:51

phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180

今天发现,我的phoenix,去连接hbase集群,怎么也连不上了,奇怪了...弄了一晚上org.apache.hadoop.hbase.PleaseHoldException:Masterisinitializing

添柴程序猿·2025-03-11 00:52

Hadoop的运行模式

Hadoop的运行模式1、本地运行模式2、伪分布式运行模式3、完全分布式运行模式4、区别与总结Hadoop有三种可以运行的模式：本地运行模式、伪分布式运行模式和完全分布式运行模式1、本地运行模式本地运行模式无需任何守护进程

对许·2025-03-10 09:35

Hadoop的mapreduce的执行过程

一、map阶段的执行过程第一阶段：把输入目录下文件按照一定的标准逐个进行逻辑切片，形成切片规划。默认Splitsize=Blocksize（128M），每一个切片由一个MapTask处理。（getSplits）第二阶段：对切片中的数据按照一定的规则读取解析返回对。默认是按行读取数据。key是每一行的起始位置偏移量，value是本行的文本内容。（TextInputFormat）第三阶段：调用Mapp

画纸仁·2025-03-10 01:34

Hadoop：分布式计算平台初探

Hadoop是一个开发和运行处理大规模数据的软件平台，是Apache的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。

dccrtbn6261333·2025-03-10 01:32

【Hadoop】如何理解MapReduce？

MapReduce是一种用于处理大规模数据集的编程模型和计算框架。它的核心思想是将复杂的计算任务分解为两个简单的阶段：Map（映射）和Reduce（归约）。通过这种方式，MapReduce可以高效地并行处理海量数据。一.MapReduce的核心概念1.Map（映射）：将输入数据分割成小块，并对每个小块进行初步处理。输出键值对（key-valuepairs），例如。2.Shuffle和Sort（洗牌

2302_79952574·2025-03-10 00:30

Hadoop：全面深入解析

Hadoop是一个用于大规模数据处理的开源框架，其设计旨在通过集群的方式进行分布式存储和计算。

CloudJourney·2025-03-09 21:29

Hadoop介绍：什么是Hadoop？了解Hadoop的应用

一、认识Hadoop框架Hadoop是一个提供分布式存储和计算的开源软件框架，使用Java语言编写，具有高扩展性、高容错性、无共享和高可用（HA）等特点，非常适合处理海量数据。

Zzzxt007·2025-03-09 21:55

Hbase在hdfs上的archive目录占用空间过大

hbase版本：1.1.2hadoop版本：2.7.3Hbase在hdfs上的目录/apps/hbase/data/archive占用空间过大，导致不停地发出hdfs空间使用率告警。

宝罗Paul·2025-03-09 13:50

Hadoop、Spark、Flink Shuffle对比

一、Hadoop的shuffle前置知识：Map任务的数量由Hadoop框架自动计算，等于分片数量，等于输入文件总大小/分片大小，分片大小为HDFS默认值128M，可调Reduce任务数由用户在作业提交时通过

逆袭的小学生·2025-03-09 10:55

【Hadoop】什么是Zookeeper？如何理解Zookeeper？

ZooKeeper是一个开源的分布式应用程序协调服务，可以为分布式应用提供一致性的服务，功能包括：配置维护、名字服务、分布式同步、组服务等等。ZooKeeper的目标是封装好复杂易出错的关键服务，将简单易用的接口和性能高效、功能稳定的系统提供给用户。1.Zookeeper的特点最终一致性：Client不论连接到哪个Server,展示给它的都是同一个视图。可靠性：如果某个消息被一台服务器接受，那么它

2302_79952574·2025-03-09 09:46

【Hadoop】详解HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统，它是一个高度容错性的系统，适合部署在廉价的机器上，能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用。

2302_79952574·2025-03-09 09:13

HDFS的设计架构

HDFS是Hadoop生态系统中的分布式文件系统，设计用于存储和处理超大规模数据集。它具有高可靠性、高扩展性和高吞吐量的特点，适合运行在廉价硬件上。

F_0125·2025-03-09 05:21

大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件

从以Greenplum为代表的MPP（MassivelyParallelProcessing，大规模并行处理）架构，到Hadoop、Spark为代表的批处理架构，再到Storm、Flink为代表的流处理架构

2401_84181942·2025-03-09 03:39

大数据运维实战指南：零基础入门与核心技术解析（第一篇）

大数据运维实战指南：零基础入门与核心技术解析（第一篇）系列文章目录第一篇：大数据运维概述与核心技能体系第二篇：Hadoop生态体系与集群部署实战第三篇：分布式存储系统运维与优化第四篇：资源调度框架YARN

emmm形成中·2025-03-09 01:19

hadoop框架与核心组件刨析（四）MapReduce

MapReduce是一种用于大规模数据处理的编程模型和计算框架，最初由Google提出，后来由ApacheHadoop实现并广泛应用。

小刘爱喇石( ˝ᗢ̈˝ )·2025-03-09 00:42

329.大学生HTML期末大作业 —【纪念鲁迅文化主题网页】 Web前端网页制作 html+css

Web前端网页制作、网页完整代码、大学生期末大作业案例模板完整代码、技术交流等，有兴趣的联系我交流学习!更多优质博客文章、网页模板点击以下链接查阅：仙女网页设计-CSDN博客5000+

一只小小的眠羊·2025-03-08 14:32

hadoop 运行java程序_原生态在Hadoop上运行Java程序

第一种：原生态运行jar包1，利用eclipse编写Map-Reduce方法，一般引入Hadoop-core-1.1.2.jar。

淇水煮汤·2025-03-08 09:23

hadoop运行java程序命令_使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0

网上的MapReduceWordCount教程对于如何编译WordCount.java几乎是一笔带过…而有写到的，大多又是0.20等旧版本版本的做法，即javac-classpath/usr/local/hadoop

emi0wb·2025-03-08 09:53

大数据Hadoop集群运行程序

目录1运行自带的MapReduce程序2常见错误1运行自带的MapReduce程序下面我们在Hadoop集群上运行一个MapReduce程序，以帮助读者对分布式计算有个基本印象。

赵广陆·2025-03-08 08:37

推荐频道

hadoop技术交流

hive-进阶版-1

大数据手册(Spark)--Spark安装配置

BOE(京东方)绵阳“零碳工厂”探访活动圆满落幕 树立显示产业绿色转型新标杆

虚拟机中Hadoop集群NameNode进程缺失问题解析与解决

大数据学习（67）- Flume、Sqoop、Kafka、DataX对比

Kubernetes集群版本升级

Kubernetes集群版本升级

Hive高级SQL技巧及实际应用场景

我的创作纪念日，不忘初心，方得始终

hive 数字转换字符串_Hive架构及Hive SQL的执行流程解读

2024年最新【AcWing】蓝桥杯集训每日一题Day7 贡献法 4261，2024年最新2024春招面试

我的创作纪念日：730天的技术写作之旅

在hadoop上运行python_hadoop上运行python程序

ranger集成starrock报错

深入大数据世界：Kontext.TECH的Hadoop之旅

大数据学习（61）-Impala与Hive计算引擎

大数据学习（62）- Hadoop-yarn

HBase2.6.1部署文档

Hive-4.0.1版本部署文档

hive-3.1.3部署文档

大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别(3)

mySQL和Hive的区别

flink-cdc实时增量同步mysql数据到elasticsearch

搭建分布式Hive集群

Hadoop、Spark和 Hive 的详细关系

Windows系统下解压".tar"文件出错，提示：无法创建符号链接，可能需要以管理器身份运行winrar

大数据技术生态圈：Hadoop、Hive、Spark的区别和关系

ZooKeeper学习总结（1）——ZooKeeper入门介绍

Zookeeper+kafka学习笔记

麒麟arm架构系统_安装nginx-1.27.0_访问500 internal server error nginx解决_13: Permission denied---Linux工作笔记072

Zookeeper与Kafka学习笔记

phoenix无法连接hbase shell创建表失败_报错_PleaseHoldException: Master is initializing---记录020_大数据工作笔记0180

Hadoop的运行模式

Hadoop的mapreduce的执行过程

Hadoop：分布式计算平台初探

【Hadoop】如何理解MapReduce？

Hadoop：全面深入解析

Hadoop介绍：什么是Hadoop？了解Hadoop的应用

Hbase在hdfs上的archive目录占用空间过大

Hadoop、Spark、Flink Shuffle对比

【Hadoop】什么是Zookeeper？如何理解Zookeeper？

【Hadoop】详解HDFS

HDFS的设计架构

大数据Flink（六十四）：Flink运行时架构介绍_flink中涉及到的大数据组件

大数据运维实战指南：零基础入门与核心技术解析（第一篇）

hadoop框架与核心组件刨析（四）MapReduce

329.大学生HTML期末大作业 —【纪念鲁迅文化主题网页】 Web前端网页制作 html+css

hadoop 运行java程序_原生态在Hadoop上运行Java程序

hadoop运行java程序命令_使用命令行编译打包运行自己的MapReduce程序 Hadoop2.6.0

大数据Hadoop集群运行程序

BOE(京东方)绵阳“零碳工厂”探访活动圆满落幕树立显示产业绿色转型新标杆