hadoop（HDFS 第8页

大数据技术全景解析：Spark、Hadoop、Hive与SQL的协作与实战

本文将通过通俗类比+场景化拆解，带你深入理解四大关键技术：Hadoop、Hive、Spark和SQL，揭秘它们如何像“仓储-物流-管理”系统一样协同工作。

V文宝·2025-05-08 12:32

hadoop中的序列化和反序列化（2）

2.为什么需要序列化序列化在分布式系统中非常重要，尤其是在Hadoop这样的大数据处理框架中。以下是序列化的主要用途：数据存储：将对象持久化到磁盘文件中。网络传输：将对象通过网络发送到其他节点。

洋芋爱吃芋头·2025-05-08 12:31

scala连接mongodb_Spark教程（二）Spark连接MongoDB

如何导入数据数据可能有各种格式，虽然常见的是HDFS，但是因为在Python爬虫中数据库用的比较多的是MongoDB，所以这里会重点说说如何用spark导入MongoDB中的数据。

weixin_39688035·2025-05-08 09:13

spark读取mongodb数据配置

/omrapollo/article/details/66968147引入依赖创建方法见上一篇博客：Spark+IntelliJIDEA创建项目引入如下依赖：实现代码importorg.apache.hadoop.conf.Configurationimportorg.apache.log4j

Maximilian_M·2025-05-08 09:41

数据分析项目中的关键技术与工具

大数据技术：涵盖Hadoop（HDFS）、Hive、Spark、Fli

王子良.·2025-05-08 03:12

大数据毕业设计PySpark+Hadoop航班延误预测系统航班可视化

（2）意义提高乘客购票决策：基于Hadoop的飞机票价格预测能够提供乘客准确的价格预测信息，帮助他们选择合适的购票时间和最优的价

QQ21503882·2025-05-08 01:24

《大数据： Spark Standalone 模式配置历史服务器》

8081虽然能看到日志和结果，但是体验非常差2.spark-shell本身就是客户端模式，这个是改不了为cluster模式，并且运行时候日志打印是有，但是一旦退出了再也没地方看到日志了yexiang@hadoop2

HarkerYX·2025-05-08 00:52

Spark 配置历史服务器

类似Hadoop，Spark也有自己的historyserver，这里我们就来配置下：修改spark-defaults.conf.template文件名为spark-defaults.confmvspark-defaults.conf.templatespark-defaults.conf

涵sir·2025-05-08 00:51

spark配置历史服务

Logcpspark-defaults.conf.templatespark-defaults.conf在spark-defaults.conf文件中,添加如下内容:spark.eventLog.enabledtruespark.eventLog.dirhdfs

都教授2000·2025-05-08 00:51

Spark集群搭建之Yarn模式

什么是SparkONYarn模式SparkonYARN（YetAnotherResourceNegotiator）是Spark框架在Hadoop集群中运行的一种部署模式，它借助HadoopYARN来管理资源和调度任务

lix的小鱼·2025-05-07 23:46

中企跨境上市技术全栈解析：从数据合规到估值模型的代码级解决方案

我们用三行代码破局：python#数据脱敏流水线raw_data=load_from_hdfs('/user/raw_data')masked

Ashlee_code·2025-05-07 14:44

Spark应用部署模式实例

Local模式新启动一个终端SparkSubmit#pyspark命令启动的进程，实际上就是启动了一个Spark应用程序SparkStandalone模式讲解：6321SecondaryNameNode#hadoop

qrh_yogurt·2025-05-07 14:43

hdfs的客户端操作

客户端的理解hdfs的客户端有多种形式：网页形式命令行形式客户端在哪里运行，没有约束，只要运行客户端的机器能够跟hdfs集群联网文件的切块大小和存储的副本数量，都是由客户端决定！

AI耽误的大厨·2025-05-07 12:29

Spark读取HDFS加密区数据乱码问题解决

因为项目需求，需要启用hdfs加密区，为了验证对现有程序的影响，我在自己的集群上配置了加密区，并测试spark和java程序读取数据。

蹩脚法师·2025-05-07 11:58

虚拟机启动hdfs、spark命令

说明：用的案例是一个master，两个worker，开启三台虚拟机的情况，已配置好hadoop和spark。

一只菜鸟A·2025-05-07 11:28

通过proxy实现外部网络访问Docker集群内部服务

由于在本地搭建了dockerhadoop集群，要想通过docker容器端口映射的方式访问多个服务节点的状态实在麻烦，并且需要为每个服务分配唯一的端口。

楓葉也·2025-05-07 10:50

揭秘大数据 | 16、OLAP 那些事儿

OLAP阵营主要有两大主流，一大主流是基于MapReduce而构建的Hadoop生态圈，另一大主流是MPP数据库阵营。

XAI嬴图·2025-05-07 09:44

【大数据】服务器上部署Apache Paimon

Hadoop或对象存储（可选）:如果需要将数据存储到分布式文件系统（如HDFS）或云存储（如AWSS3），请提前配

大数据追光猿·2025-05-07 09:43

Spark，所用几个网页地址

hadoop的三大组成：1.HDFS：存储。文件上传，下载2.MapReduce：计算。

Amu_Yalo·2025-05-07 07:33

二、Hadoop狭义和广义的理解

作者：IvanCodes日期：2025年5月6日专栏：Hadoop教程Hadoop的双重身份：核心框架与生态系统在大数据领域，Hadoop是一个广为人知的概念，但它并非单指某一个软件，而是涵盖了两个层面的含义

IvanCodes·2025-05-06 20:55

Hive安装与配置教程

Hive安装与配置教程1.环境准备1.1系统要求Java8或更高版本Hadoop2.x或更高版本MySQL或其他关系型数据库（用于存储元数据）1.2安装依赖#安装Javasudoaptupdatesudoaptinstallopenjdk

爱编程的王小美·2025-05-06 14:55

本地连接hive

第一步:我们要将相对应集群的三个文件拷贝到本地来,就这三个位置在/etc/hadoop/conf和/etc/hive/conf下第二步:要注意core-site.xml中的fs.defaulfFs这个配置项是默认文件系统的名称

向往太空的鱼·2025-05-06 14:24

Hadoop总结

目录大数据概述Hadoop大数据开发平台资源管理YARN分布式文件系统HDFS非关系型数据库NOSQL分布式数据库HBASE批处理和MapReduce数据仓库查询分析和Hive基于内存计算的Spark流计算和

Ajekseg·2025-05-06 14:52

HDFS与云计算：部署HDFSonAWSAzure和GCP

HDFS与云计算：部署HDFSonAWS、Azure和GCP1.背景介绍在大数据时代，海量数据的存储和处理成为了企业和研究机构面临的主要挑战。

AI天才研究院·2025-05-06 03:36

大数据存储解决方案：HDFS vs NoSQL全面对比

大数据存储解决方案：HDFSvsNoSQL全面对比关键词：HDFS、NoSQL、大数据存储、分布式文件系统、非关系型数据库、数据模型、扩展性摘要：本文深入对比分析HDFS（分布式文件系统）与NoSQL数据库在大数据存储领域的核心差异

大数据洞察·2025-05-05 20:25

Hadoop 1.x设计理念解析

Hadoop1.x虽然是二十年前的，但hadoop生态系统中的一些组件如今还在广泛使用，如hdfs和yarn，当今流行spark和flink都依赖这些组件通过学习它们的历史设计，首先可以让我们对它们的了解更加深刻

逆袭的小学生·2025-05-05 15:49

Cannot find a valid baseurl for repo: centos-sclo-rh

[root@hadoop1redis-6.0.10]#sudoyuminstalldevtoolset-7-gcc*已加载插件：fastestmirror,refresh-packagekit,security

努力的Java开发者·2025-05-05 13:11

配置集群-日志聚集操作

在Hadoop和Spark集群中，日志聚集是一项重要的功能，下面分别介绍如何在这两个集群中配置日志聚集操作。

Aaaa小嫒同学·2025-05-04 08:59

配置集群-编写hadoop启动停止脚本

为了方便启动和停止Hadoop集群，可以编写脚本实现一键式操作。以下分别给出Linux系统下启动和停止Hadoop集群的脚本示例，同时包含了脚本代码和详细解释。

Aaaa小嫒同学·2025-05-04 08:29

spark和hadoop之间的关系对比

1处理速度Hadoop：HadoopMapReduce基于磁盘进行数据处理，数据在Map和Reduce阶段会频繁地写入磁盘和读取磁盘，这使得数据处理速度相对较慢，尤其是在处理迭代式算法和交互式查询时，性能会受到较大影响

锅包肉的九珍·2025-05-04 07:52

Offer来了 Java面试核心知识点框架篇

并发编程、数据结构和算法、网络与负载均衡★深入挖掘数据库与分布式事务、分布式缓存原理及应用、设计模式原理及实现★快速掌握Spring、SpringCloud、Netty、ZooKeeper、Kafka、Hadoop

泡泡Java·2025-05-04 04:36

用MapReduce把hdfs数据写入HBase中

1.使用Map+Reduce方式publicclassMapReduceImport{/***Mapper*/staticclassHMapperextendsMapper{Textv2=newText();protectedvoidmap(LongWritablekey,Textvalue,Contextcontext)throwsjava.io.IOException,InterruptedE

Java海洋·2025-05-04 02:54

【hadoop】案例：MapReduce批量写入HBase

1.需求分析我们仍然以美国各个气象站每年的气温数据集为例，现在要求使用MapReduce读取该数据集，然后批量写入HBase数据库，最后利用HBaseshell根据行键即席查询气温数据。2.数据集准备数据集的文件名为temperature.log，里面包含美国各个气象站每年的气温数据，数据的第一列为气象站ID，第二列为年份，第三列为气温值。具体样本数据如下所示：03103,1980,4103103

火龙谷·2025-05-04 02:53

Spark(19)Yarn-tool接口

（二）Tool接口定义org.apache.hadoop.util.Tool是ApacheHadoop框架里的一个接口，其用途是协助开发可通过命令行运行的Hadoop应用程序。

北随琛烬入·2025-05-04 00:40

如何搭建spark yarn 模式的集群

安装并配置好Hadoop集群，因为YARN是Hadoop的资源管理系统。

漂流瓶666666·2025-05-04 00:09

流量统计--Maven依赖

新建项目Flow创建依赖，在pm.xml里添加如下内容：org.apache.hadoophadoop-client3.1.3新建一个log.txt.,编写数据，如：126111133335568976126121133331123908713787653490234578641502788987655676138897645368879

漂流瓶666666·2025-05-04 00:39

深入解析MapReduce：大数据处理的经典范式

Hadoop生态中的MapReduce框架应运而生，以其“分而治之”的思想解决了大规模数据的并行计算问题。本文将从原理、核心组件到实战案例，带你全面理解这一经典计算模型。

widder_·2025-05-03 22:26

Spark-小练试刀

任务1：HDFS上有三份文件，分别为student.txt（学生信息表）result_bigdata.txt（大数据基础成绩表），result_math.txt（数学成绩表）。

o不ok!·2025-05-03 20:11

计算机毕业设计之基于随机森林的糖尿病预测研究与实现

该系统是一款基于B/S架构的web应用，其它技术还包括python，hadoop，spark，vue，Echarts，pandas等。用户首先可

bishe18是微·2025-05-03 20:39

hadoop存储数据文件原理

Hadoop是一个开源的分布式计算框架，可以用于存储和处理大规模数据集。

酷爱码·2025-05-03 19:37

hadoop数据清洗

packagecom.root.mapreduce.weblog;importjava.io.IOException;importorg.apache.hadoop.io.LongWritable;importorg.apache

富能量爆棚·2025-05-03 18:29

如何搭建spark yarn 模式的集群集群

-安装并配置好Hadoop集群，YARN作为Hadoop的资源管理器，SparkYARN模式需要依赖Hadoop环境。

晴空下小雨.·2025-05-03 18:29

大数据学习（115）-hive与impala

一、ApacheHadoop中的角色Impala和Hive都是ApacheHadoop生态系统中的重要组件，用于处理大规模数据

viperrrrrrr·2025-05-03 15:36

【大数据分析工具】使用Hadoop、Spark进行大数据分析

大数据分析工具使用Hadoop、Spark进行大数据分析引言在当今数据驱动的世界中，处理和分析大规模数据已经成为许多企业和研究机构的核心需求。

爱技术的小伙子·2025-05-03 14:36

Impala原理与代码实例讲解

1.2Impala的诞生Impala是由Cloudera公司开发的一款开源的MPP(大规模并行处理)SQL查询引擎,可以直接在Hadoop的存储层(如HDFS、HB

AI天才研究院·2025-05-03 14:35

【jceks】使用keytool和hadoop credential生成和解析jceks文件（无密码storepass）

com.xxx.test'version='1.0-SNAPSHOT'repositories{mavenCentral()}dependencies{implementation("org.apache.hadoop

lisacumt·2025-05-03 14:34

Spark和hadoop的区别与联系

一、Spark和Hadoop的联系：1.同属大数据生态体系二者均为Apache旗下的大数据处理框架，服务于大规模数据的存储与计算，共同构成了大数据技术栈的核心。

Amu_Yalo·2025-05-03 14:02

如何搭建spark yarn模式的集群

2.安装Hadoop下载Hadoop：从ApacheHadoop官网下载合适版本的Hadoop。解压安装：将Hadoop解压到指定目录，例如/opt/hadoop。

rylshe1314·2025-05-03 10:40

Spark与Hive的数据分区与分桶策略详解

ApacheHadoop作为首个成熟的开源分布式计算框架，为大规模数据

AI天才研究院·2025-05-03 08:25

spark简介和核心编程

Shark基于Hive开发，提升了SQL-on-Hadoop的性能，但对Hive的过度依赖制约了Spark发展。

小名叫咸菜·2025-05-03 06:06

推荐频道

hadoop（HDFS