Hadoop学习历程第2页

代码随想录刷题学习日记

仅为个人记录复盘学习历程，解题思路来自代码随想录代码随想录刷题笔记总结网址:代码随想录40.组合总和II给定一个数组candidates和一个目标数target，找出candidates中所有可以使数字和为

努力向前ing·2025-03-03 02:51

代码随想录刷题学习日记

仅为个人记录复盘学习历程，解题思路来自代码随想录代码随想录刷题笔记总结网址:代码随想录93.复原IP地址给定一个只包含数字的字符串，复原它并返回所有可能的IP地址格式。

努力向前ing·2025-03-03 02:51

代码随想录刷题学习日记

仅为个人记录复盘学习历程，解题思路来自代码随想录代码随想录刷题笔记总结网址:代码随想录15.三数之和（双指针法）给定一个包含n个整数的数组nums，判断nums中是否存在三个元素a，b，c，使得a+b+

努力向前ing·2025-03-03 02:51

Ubuntu从零创建Hadoop集群

目录前言前提准备1.设置网关和网段2.查看虚拟机IP及检查网络3.Ubuntu相关配置镜像源配置下载vim编辑器4.设置静态IP和SSH免密(可选)设置静态IPSSH免密5.JDK环境部署6.Hadoop

爱编程的王小美·2025-03-02 12:57

使用宝塔大家Java项目遇到的问题

记录一下使用宝塔大家Java项目遇到的问题：1.没有那个文件或目录/var/tmp/springboot/vhost/scripts/system-service.sh:没有那个文件或目录Feb2811:13:01hadoop05spring_system-service

LOVE_DDZ·2025-03-01 10:45

如何使用Spark Streaming将数据写入HBase

Spark：确保Spark已经安装，并且Spark版本与HBase的Hadoop版本兼容。HBaseConnectorforSpark：你需要使用HBase的SparkConnecto

Java资深爱好者·2025-03-01 05:02

项目经验之LZO压缩？思维导图代码示例（java 架构)

在Hadoop生态系统中，使用LZO压缩可以显著减少存储空间，并且由于其快速的解压速度，对于大规模数据处理任务来说是非常有利的。以下是关于LZO压缩的项目经验总结、思维导图描述以及Java代码示例。

用心去追梦·2025-03-01 05:31

HIVE 面试题总结

Hive依赖于HDFS存储数据，Hive将HQL转换成MapReduce执行，所以说Hive是基于Hadoop的一个数据仓库工具，实质就是一款基于HDFS的MapReduce计算框架，对存储在HDFS中的数据进行分析和管理

小余真旺财·2025-02-28 11:00

Hive 面试题

Hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。

昨夜为你摘星·2025-02-28 11:59

python调用kafka

先启动hadoop，zookeeper，kafka启动命令hadoop启动命令sbin/start-all.shzookeeper启动命令.

smile__su·2025-02-28 06:47

Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider

开发语言：Python框架：flaskPython版本：python3.7.7数据库：mysql5.7数据库工具：Navicat11开发软件：PyCharm系统展示管理员登录管理员功能界面比赛信息管理看板展示系统管理摘要本文使用Python与MYSQL技术搭建了一个王者荣耀战队的数据分析系统。对用户提出的功能进行合理分析，然后搭建开发平台以及配置计算机软硬件；通过对数据流图以及系统结构的设计，创建

m0_74823490·2025-02-27 12:47

华为MRS产品组件

MRS：MRS是一个在华为云上部署和管理Hadoop系统的服务，一键即可部署Hadoop集群。

QianJin_zixuan·2025-02-27 06:59

Hive SQL 使用及进阶详解

一、Hive简介Hive是建立在Hadoop之上的数据仓库基础架构，它提供了类似于SQL的查询语言HiveSQL（也称为HQL），用于对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行数据查询和分析

小四的快乐生活·2025-02-27 03:37

docker-compose -volumes 两种不同定义方式

学习docker-compose部署hadoop集群、看到docker-compose一种不同volumes定义方式version:"3"services:namenode:image:bde2020/

胖胖胖胖胖虎·2025-02-26 14:34

初识hadoop

关于hadoop的写入（存入）nn里面维护了一份元数据。

西门吹水之城·2025-02-26 12:45

HDFS是如何存储和管理大数据

HDFS（HadoopDistributedFileSystem，Hadoop分布式文件系统）是专为大数据处理而设计的分布式文件系统，具有高吞吐量、高容错性等特点，适用于大规模数据存储和管理。

python资深爱好者·2025-02-26 11:38

Hadoop 基础原理

Hadoop基础原理基本介绍Hadoop的必要性Hadoop核心组件Hadoop生态系统中的附加组件HDFSHDFS集群架构HDFS读写流程HDFS写流程HDFS读流程NameNode持久化机制MapReduce

disgare·2025-02-26 11:38

Spark集群架构介绍

据SparkCertifiedExperts显示，在内存中运行时，Sparks性能要比Hadoop快一百倍，在磁盘上运行，Sparks比Hadoop快达十倍。

olifchou·2025-02-25 20:23

Spark Standalone集群架构

北风网spark学习笔记SparkStandalone集群架构SparkStandalone集群集群管理器，clustermanager：Master进程，工作节点：Worker进程搭建了一套Hadoop

htfenght·2025-02-25 20:22

Hadoop--NameSpace（名称空间）

1.名称空间的定义 HDFS的名称空间是一个逻辑上的文件系统目录树，类似于传统文件系统的目录结构。组成目录：用于组织文件的逻辑容器。文件：存储在HDFS中的实际数据单元。元数据：包括文件名、权限、所有者、文件大小、创建时间、修改时间等信息。2.名称空间的作用名称空间的主要作用是：组织文件通过目录树的形式组织文件，方便用户管理和访问。维护元数据记录文件和目录的元数据信息（如权限、所有者、大小等）。

Cynthiaaaaalxy·2025-02-25 18:42

spark程序提交到集群上_Spark集群模式&Spark程序提交

ApacheMesos—通用的集群管理，可以在其上运行HadoopMapReduce和一些服务应用。HadoopYARN—Hadoop2中的资源管理器。

毫无特色·2025-02-25 16:25

Hadoop--Secondary NameNode工作机制，作用及与NameNode HA的区别

SecondaryNameNode主要用于辅助NameNode进行元数据的管理和检查点（Checkpoint）的生成。1.SecondaryNameNode的工作机制详解SecondaryNameNode的工作机制可以分为以下步骤：①SecondaryNameNode询问NameNode是否需要CheckpointSecondaryNameNode会定期（由dfs.namenode.check

Cynthiaaaaalxy·2025-02-25 08:32

Hadoop之jdk的安装

【实验目的】1.安装配置JDK1.五台独立PC机或虚拟机主机之间有有效的网络连接2.每台主机内存2G以上，磁盘剩余空间500M以上所有主机上已安装CentOS7.4操作系统3.所有主机已完成网络属性配置1.卸载原有JDK该项的所有操作步骤需要使用root用户进行。并且在集群中每台主机操作一次，发现没有，不必卸载因为我的查看没有jdk，所以不需要卸载原有的，只需直接安装即可。2.安装此项的所有操作步

快来削我吖·2025-02-25 01:11

零基础学习Python之保留字_我的学习Python记录3

作为零基础小白，我决定用CSDN博客记录学习历程，通过输出倒逼输入，与广大网友共同成长！今日重点攻克——Python保留字。

灏瀚星空·2025-02-24 19:26

Hadoop HDFS基准测试

一、测试写入速度确保HDFS集群和YARN集群成功启动hadoopjar/export/server/hadoop-3.1.4/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient

Yvonne978·2025-02-24 14:22

jmeter 与大数据生态圈中的服务进行集成

以下为你详细介绍JMeter与大数据生态圈中几种常见服务（HadoopHDFS、Spark、Kafka、Elasticsearch）集成的方法：与HadoopHDFS集成实现思路HDFS是Hadoop的分布式文件系统

小赖同学啊·2025-02-24 13:40

数据质量管理工具（Trifacta Wrangler）

2015年10月：正式推出TrifactaWrangler，让非技术用户也能通过直观的可视化工作流程来探索、转换和丰富数据，同时其旗舰产品、专注于Hadoop的Trifacta数据处理解决方案更名为TrifactaWranglerEnterprise

deepdata_cn·2025-02-24 09:46

Hadoop常用操作命令

启动HDFSsbin/start-dfs.sh启动yarnsbin/start-yarn.sh启动NodeManageryarn-daemon.shstartnodemanager启动DataNodehadoop-daemon.shstartdatanode

hzw0510·2025-02-24 07:02

【Python爬虫(45)】Python爬虫新境界：分布式与大数据框架的融合之旅

目录一、大数据处理框架初印象1.1Hadoop：大数据处理的基石1.2

奔跑吧邓邓子·2025-02-24 05:18

hive运维

showlocks;查看锁unlocktable表名;释放锁发现释放不了锁，执行下面sethive.support.concurrency=false;sethive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DummyTxnManager

花泽啸·2025-02-23 23:04

OceanBase 初探学习历程之二——操作系统参数最佳实践

本文章分享OB操作系统参数最佳实践值，相关参数部分来自PK项目得知，仅供参考，实际参数设置仍需结合现有设备条件及业务系统特点是否有必要如此设置，但我任务大部分场景均可用（仅本人个人观点）。1、磁盘配置[root@ob2~]#cat/etc/fstab##/etc/fstab#CreatedbyanacondaonThuAug1809:03:092022##Accessiblefilesystems

羽书飞影·2025-02-23 19:09

Hadoop~HDFS的Block块

一、HDFS的block块1.介绍block块是HDFS的最小存储单位，每个256MB(可以修改)2.文件在HDFS中的存储方式文件分成多个block块，block块分三份存入对应服务器，每个block块都有2个(可修改)备份，每个副本都复制到其他服务器一份，每个block块都有两个备份在其他服务器上，这使得安全性极大提高3.修改默认文件上传到HDFS中的副本数量hdfs-site.xml默认为3

飞Link·2025-02-23 11:37

基于Hadoop的天气数据分析系统的设计与实现-计算机毕业设计源码+LW文档

Hadoop作为大数据处理领域的领军技术，其分布式计算框架和海量数据存储能力为天气数据分析提供了强大的支持。

qq_375279829·2025-02-23 06:04

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

目前已经更新到了：Hadoop（已更完）HDFS（已更完）MapReduce（已更完）Hive（已更完）Flume（已更完）Sqoop（已更完）Zookeeper（已更完）HBase（已更完）Redis

m0_74823705·2025-02-22 21:50

OceanBase 初探学习历程之——安装部署

一、介绍OceanBase数据库是一个原生的分布式关系数据库，它是完全由阿里巴巴和蚂蚁集团自主研发的项目。OceanBase数据库构建在通用服务器集群上，基于Paxos协议和分布式架构，提供金融级高可用和线性伸缩能力，不依赖特定硬件架构，具备高可用、线性扩展、高性能、低成本等核心技术优势。OceanBase数据库具有如下特点：高可用单服务器故障能够自愈，支持跨城多机房容灾，数据零丢失，可满足金融行

羽书飞影·2025-02-22 10:22

计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测

开发技术SparkHadoopPython爬虫Vue.jsSpringBoot机器学习/深度学习人工智能创新点Spark大屏可视化爬虫预测算法功能1、登录注册界面，用户登录注册，修改信息2、管理员用户：

qq_80213251·2025-02-22 08:35

Python 的 WebSocket 实现详解

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-02-22 03:23

Spark源码分析 – Shuffle

参考详细探究Spark的shuffle实现,写的很清楚,当前设计的来龙去脉HadoopHadoop的思路是,在mapper端每次当memorybuffer中的数据快满的时候,先将memory中的数据,按

weixin_34292924·2025-02-21 15:06

【Hadoop】使用Docker容器搭建伪分布式集群

使用Docker容器搭建Hadoop伪分布式集群1、编写docker-compose.yaml文件配置集群version:"3"services:namenode:image:apache/hadoop

慕青Voyager·2025-02-21 09:14

HDFS分布文件系统（Hadoop Distributed File System）

上创建文件夹3.上传本地文件到HDFS4.查看文件5.删除HDFS上的文件或者目录6.修改指定文件的权限信息（读、写、执行）一般语法：chmod[可选项]五、HDFS实战应用六、总结一.HDFS的本质HadoopDistributedFileSystem

柿子小头·2025-02-21 08:38

org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool ID needed, but service not yet registere

启动hadoop集群，发现datanode没有启动，查看日志报错，如图：//日志文件2020-03-2416:40:55,608WARNorg.apache.hadoop.hdfs.server.common.Storage

@菜鸟进阶记@·2025-02-21 01:19

Hadoop之HDFS的使用

HDFS是什么：HDFS是一个分布式的文件系统，是个网盘，HDFS是一种适合大文件存储的分布式文件系统HDFS的Shell操作1、查看hdfs根目录下的内容-lshdfsdfs-lshdfs://hadoop01

想要变瘦的小码头·2025-02-20 20:43

RHEL 安装 Hadoop 服务器

在这篇文章中，我们将探讨如何在RedHatEnterpriseLinux(RHEL)上安装和配置Hadoop服务器。Hadoop是一个开源的分布式数据处理框架，用于处理大规模数据集。

XhClojure·2025-02-20 13:41

如何安装Hadoop

Hadoop入门(一)——CentOS7下载+VM上安装（手动分区）Hadoop入门(二)——VMware虚拟网络设置+Windows10的IP地址配置+CentOS静态IP设置Hadoop入门(三)—

薇晶晶·2025-02-20 13:06

Hadoop01-入门&集群环境搭建--非原创（test）

Hadoop01-入门&集群环境搭建今日内容Hadoop的介绍集群环境搭建准备工作Linux命令和Shell脚本增强集群环境搭建来来来大数据概述大数据:就是对海量数据进行分析处理，得到一些有价值的信息，

xl.liu·2025-02-19 21:50

Hadoop管理工具dfsadmin和fsck的使用

Hadoop提供了多个管理工具，其中dfsadmin和fsck是用于管理HDFS（Hadoop分布式文件系统）的重要工具。以下是它们的使用方法和常见命令。

脚本无敌·2025-02-19 16:46

（一）大数据---Hadoop整体介绍（架构层）----（组件(3)

复杂性:体现在数据的管理和操作上。如何抽取，转换，加载，连接，关联以把握数据内蕴的有用信息已经变得越来越有挑战性二、大数据技术有哪些（重点）===================================================================================基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计

2401_84166965·2025-02-19 16:15

hive全量迁移脚本

：数据在同一库下，并且hive是内部表（前缀的hdfs地址是相同的）#1.读取一个文件，获取表名#echo"时间$dt_jian_2-------------------------">>/home/hadoop

我要用代码向我喜欢的女孩表白·2025-02-19 15:29

笔记：DataSphere Studio安装部署流程

一、标准版部署标准版：有一定的安装难度，体现在Hadoop、Hive和Spark版本不同时，可能需要重新编译，可能会出现包冲突问题。适合于试用和生产使用，2~3小时即可部署起来。

右边com·2025-02-19 13:15

hive-site.xml 配置总结

3.hive提交作业是在hive中还是hadoop中？4.一个查询的最后一个map/reduce任务输出是否被压缩的标志，通过哪个配置项？5.当用户

hxsln11·2025-02-19 12:07

推荐频道

Hadoop学习历程

代码随想录刷题学习日记

代码随想录刷题学习日记

代码随想录刷题学习日记

Ubuntu从零创建Hadoop集群

使用宝塔大家Java项目遇到的问题

如何使用Spark Streaming将数据写入HBase

项目经验之LZO压缩？思维导图 代码示例（java 架构)

HIVE 面试题总结

Hive 面试题

python调用kafka

Python大数据可视化：基于Python的王者荣耀战队的数据分析系统设计与实现_flask+hadoop+spider

华为MRS产品组件

Hive SQL 使用及进阶详解

docker-compose -volumes 两种不同定义方式

初识hadoop

HDFS是如何存储和管理大数据

Hadoop 基础原理

Spark集群架构介绍

Spark Standalone集群架构

Hadoop--NameSpace（名称空间）

spark程序提交到集群上_Spark集群模式&Spark程序提交

Hadoop--Secondary NameNode工作机制，作用及与NameNode HA的区别

Hadoop之jdk的安装

零基础学习Python之保留字_我的学习Python记录3

Hadoop HDFS基准测试

jmeter 与大数据生态圈中的服务进行集成

数据质量管理工具（Trifacta Wrangler）

Hadoop常用操作命令

【Python爬虫(45)】Python爬虫新境界：分布式与大数据框架的融合之旅

hive运维

OceanBase 初探学习历程之二——操作系统参数最佳实践

Hadoop~HDFS的Block块

基于Hadoop的天气数据分析系统的设计与实现-计算机毕业设计源码+LW文档

大数据-257 离线数仓 - 数据质量监控 监控方法 Griffin架构

OceanBase 初探学习历程之——安装部署

计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统 地铁大数据 地铁流量预测

Python 的 WebSocket 实现详解

Spark源码分析 – Shuffle

【Hadoop】使用Docker容器搭建伪分布式集群

HDFS分布文件系统（Hadoop Distributed File System）

org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool ID needed, but service not yet registere

Hadoop之HDFS的使用

RHEL 安装 Hadoop 服务器

如何安装Hadoop

Hadoop01-入门&集群环境搭建--非原创（test）

Hadoop管理工具dfsadmin和fsck的使用

（一）大数据---Hadoop整体介绍（架构层）----（组件(3)

hive全量迁移脚本

笔记：DataSphere Studio安装部署流程

hive-site.xml 配置总结

项目经验之LZO压缩？思维导图代码示例（java 架构)

大数据-257 离线数仓 - 数据质量监控监控方法 Griffin架构

计算机毕业设计吊炸天Python+Spark地铁客流数据分析与预测系统地铁大数据地铁流量预测