Hadoop；Spark 第3页

pyspark底层浅析

pyspark底层浅析pyspark简介pyspark是Spark官方提供的API接口，同时pyspark也是Spark中的一个程序。

lo_single·2025-06-22 12:35

方舟自建服务器物品叠加mod,10000倍物品叠加 -90%负重 V280

工艺资源(Spark

大奇鸭·2025-06-22 11:27

Python大数据处理中有哪些分布式计算框架？如何选择和使用？

二、Python大数据处理中的分布式计算框架ApacheSparkApacheSpark

代码小狂热者·2025-06-22 02:05

大数据核心面试题全解析，答案精准拿捏面试官(hadoop篇)

1.什么是Hadoop？Hadoop是一个开源的分布式系统基础架构，用于存储和处理大规模数据集。

浅谈星痕·2025-06-22 00:23

[5-03-01].第14节：集群搭建 - 在Linux系统中搭建

SpringCloud学习大纲三、集群环境搭建：3.1.集群规划1.nacos规划：hadoop103hadoop104hadoop105192.168.148.3192.168.148.4192.168.148.5nacosnacosnacos2

1.01^1000·2025-06-21 17:36

大数据学习（141）-分布式数据库

HDFS（HadoopDistributedFileSystem）、HBase和ClickHouse都是处理大数据的分布式系统，但它们的设计目标、架构和适用场景有所不同。

viperrrrrrr·2025-06-21 11:28

HDFS Federation（联邦）架构YARN的Capacity Scheduler调度策略 ResourceManager的共享存储具体实现方式

为了克服这个限制，Hadoop引入了Federation机制，允许一个集群中有多个NameNode/NameSpace，每个NameNode管理一部分文件系统，从而分散负载。

2401_8554978·2025-06-21 05:49

scp与rsync

（fromserver1toserver2）（2）基本语法scp-rpdir/pdir/pdir/fnameuser@hadoopuser@hadoopuser@

JeremyHeria·2025-06-21 04:12

复习打卡大数据篇——Hadoop HDFS 03

目录1.HDFS元数据存储2.HDFSHA高可用1.HDFS元数据存储HDFS中的元数据按类型可以分为：文件系统的元数据：包括文件名、目录名、修改信息、block的信息、副本信息等。datanodes的状态信息：比如节点状态、使用率等。HDFS中的元数据按存储位置可以分为内存中元数据和磁盘上的元数据磁盘上的元件数据包括fsimage镜像文件和editslog编辑日志，因为在磁盘上可以保证持久化存储

筒栗子·2025-06-21 03:39

TiDB 替换 HBase 全场景实践指南 ——从架构革新到业务赋能

作者：数据源的TiDB学习之路原文来源：https://tidb.net/blog/c687d474第一章：HBase的历史使命与技术瓶颈1.1HBase的核心价值与经典场景作为Hadoop生态的核心组件

TiDB 社区干货传送门·2025-06-20 23:41

前端vue js 使用插件 spark-md5 计算文件MD5值并封装成Promise异步调用方法

1.依赖：需要安装spark-md5npminstall--savespark-md52.代码分析1.功能：该函数接收一个File对象，将其分块（每块2MB）读取，并使用spark-md5计算整个文件的

低级前端·2025-06-20 23:10

java spark 操作 mongo实践

javaspark操作mongo实践按照官方文档配置https://docs.mongodb.com/spark-connector/master/java-api/需要说明一下，官方文档中要求引入的pom

哆啦A梦00·2025-06-20 23:10

什么是MapReduce

它由Google在2004年提出，后来成为ApacheHadoop项目的核心计算引擎。MapReduce通过将计算任务分解为两个主要阶段——Map（映射）和Reduce（归约）——来实现分布式计算。

ThisIsClark·2025-06-20 23:10

Spark 学习【一】

Spark基本概念MapReduce存在的缺陷编写难度大不能很好充分利用系统内存一个作业多个MR任务嵌套不友好（每一个task都是jvm进程级别创建销毁开销都很大、每一次都要涉及磁盘或dfs或db和网络的

·2025-06-20 23:39

【Spark征服之路-2.8-Spark-Core编程（四）】

Spark默认的分区器是HashPartitionervalrdd:RDD[(Int,String)]=sc.makeRDD(Array((1,"aaa"),(2,"bbb"),

qq_46394486·2025-06-20 23:39

【Spark】岗位数据分析

使用Spark进行岗位数据分析配置详解数据获取MySQL建表语句Settings文件主项目代码items部分代码pipelines部分代码**数据分析分析不同学历的平均薪资分析不同岗位的平均薪资分析各公司提供的岗位配置详解本文是使用

飝鱻.·2025-06-20 23:09

[Data Pipeline] MinIO存储（数据湖) | 数据层 Bronze/Silver/Gold

在第二章：Spark作业（数据处理）中，我们学习了Spark作业如何作为强大的工作者来清洗、转换和准备这些数据。现在，处理后的数据去往何处？Spark作业在后续步骤中从哪里获取数据？

lvy-·2025-06-20 23:37

HoRain云--SparkStreaming实时分析的7大优势解析

HoRain 云小助手·2025-06-20 16:21

HoRain云--Spark核心三剑客：RDD、DataFrame与Dataset解析

HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网

HoRain云小助手·2025-06-20 16:49

Hive的优化

一、开启本地模式大多数的HadoopJob是需要Hadoop提供的完整的可扩展性来处理大数据集的。不过，有时Hive的输入数据量是非常小的。

小王同学mf·2025-06-20 14:11

解密Kong API Gateway：领码SPARK微服务治理与安全的高效利器

KongAPIGateway作为统一网关，借助领码SPARK解决方案整合AI与自动化智能运维，实现统一入口管理、智能流量控制、多样认证及安全防护。本文以图表详解服务治理流程与安全全链路策略，结合现

领码科技·2025-06-20 08:56

数据库选型之路YMatrix与Clickhouse对比

当前的生产系统运行在Mysql上，从开始的保留半年的数据，到现在缩减到保留不足三个月的数据，全量数据实时同步到Hadoop，随着业务的发展，Mysql和Had

星*语·2025-06-20 07:15

【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8

如果有其他系统部署需求可以参考原文https://doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/Hadoop

TTBIGDATA·2025-06-20 06:37

Spark 之 Subquery

各类Subquerysrc/main/scala/org/apache/spark/sql/catalyst/expressions/predicates.scala/***Evaluatesto`true

zhixingheyi_tian·2025-06-20 03:51

Hadoop MapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战

HadoopMapReduce作业提交流程源码精讲：主线方法、设计模式与调试实战一、前言HadoopMapReduce是大数据计算生态的基础。

北漂老男人·2025-06-19 22:16

深入理解 Hadoop MapReduce 调度原理与 YARN 架构

深入理解HadoopMapReduce调度原理与YARN架构作者：标签：大数据、Hadoop、YARN、MapReduce、调度器一、前言在大数据领域，Hadoop是最重要的分布式计算平台之一。

北漂老男人·2025-06-19 22:13

常见的Dolphin Scheduler报错

dolphinscheduler/bin/env/dolphinscheduler_env.sh中exportSQOOP_HOME=/opt/installs/sqoopexportPATH=$SQOOP_HOME/bin:$HADOOP_HOME

线条1·2025-06-19 20:03

【Spark征服之路-2.10-Spark-Core编程（六）】

valrdd=sparkContext.makeRDD(List(1,2,3,4,5))//声明累加器varsum=sparkContext.longAccumu

qq_46394486·2025-06-19 15:47

Hadoop中的HDFS的存储机制

Hadoop中HDFS的存储机制HDFS（HadoopDistributedFileSystem）是Hadoop分布式计算中的数据存储系统，是基于流数据模式访问和处理超大文件的需求而开发的。

向阳争渡·2025-06-19 14:43

Hadoop HDFS深入解析

文件系统早在1965年开发的Multies(UNIX的前身）就详细地设计了文件系统，这使得文件系统成为多用户单节点操作系统的重要组成部分。最初的文件系统用于解决信．息的长期存储，并达到如下要求：1.能够存储大量的信息。2.使用信息的应用终止时，信息必须保存下来。3.多个应用可以并发地存储信息。解决这些问题的通常方法，是把信息以一种单元，即"文件"(file)的形式存储在磁盘或者其他外部介质上，一个

·2025-06-19 14:43

Spark应用启动报错：Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

目录报错分析解决方式1：设置系统属性方式2：设置环境变量报错06-0809:47:32.608[main]WARNorg.apache.hadoop.util.NativeCodeLoaderL:62-

甘蓝聊Java·2025-06-19 06:50

hadoop yarn 获取日志_Hadoop YARN日志查看方式

HadoopYARN日志查看方式实验环境CDH6.3.2Hadoop版本$hadoopversionHadoop3.0.0-cdh6.3.2Sourcecoderepositoryhttp://github.com

weixin_30131105·2025-06-18 20:39

Hadoop Yarn常用命令

文章目录HadoopYarn常用命令1查看任务1.1yarnapplication-list1.2yarnapplication-list-appStates1.3kill调Application2.yarnlogs

老鼠扛刀满街找猫@·2025-06-18 19:37

什么是Hadoop Yarn

HadoopYARN：分布式集群资源管理系统详解1.什么是YARN？

ThisIsClark·2025-06-18 19:35

全面解析Hadoop配置文件：架构、调整与最佳实践

本文还有配套的精品资源，点击获取简介：Hadoop作为一个关键组件在分布式计算中处理和存储大量数据，而其配置文件则是保证系统正常运行和性能优化的核心。

秦道衍·2025-06-17 21:35

摄像头标定：原理、方法、步骤（**）

目录摄像头验证标定，详解摄像头标定方法及步骤https://www.sparktry.com/2017/31086.html要点：摄像头的制造者，才需要考虑标定问题？

ken2232·2025-06-17 13:38

Hive 3.x集成Apache Ranger：打造精细化数据权限管理体系

Hive作为大数据领域常用的数据仓库工具，存储着海量敏感数据；ApacheRanger则是一款强大的权限管理框架，能为Hadoop生态组件提供细粒度的访问控制。

·2025-06-17 10:21

Spark on Yarn 运行流程

1.首先客户端提交spark作业到ApplicationMananger2.向ApplicationManager申请启动ApplicationMaster,ApplicationManager选择一台

架构_Kylin·2025-06-17 05:43

解决Spark4.0.0依赖问题

ApacheSpark4.0.0冲突解决指南1.问题背景在尝试运行一个基于ApacheSpark4.0.0的Java应用程序。

小巫程序Demo日记·2025-06-17 05:11

PySpark 使用pyarrow指定版本

背景说明在PySpark3.1.3环境中，当需要使用与集群环境不同版本的PyArrow(如1.0.0版本)时，可以通过以下方法实现，而无需更改集群环境配置完整操作说明去pyarrow·PyPI下载对应版本的

SLUMBER_PARTY_·2025-06-16 13:00

Spark核心概念与DAG执行原理笔记

Spark核心概念与DAG执行原理笔记本文档基于手写笔记和学习资料，使用Mermaid图表总结Spark的核心概念、DAG执行原理和Stage划分机制，便于复习和理解。

·2025-06-16 13:30

大数据基础——大数据处理架构Hadoop

一、Hadoop是什么？

皮皮大卫·2025-06-16 12:48

Hadoop：大数据处理的核心框架

Hadoop作为一个开源的分布式计算框架，为大数据处理提供了强大的支持。本文将对Hadoop进行详细介绍，包括其基本概念、核心组件、应用场景以及安装配置等方面。

l123565·2025-06-16 11:14

python基于spark的新闻推荐系统数据分析可视化爬虫的设计与实现pycharm毕业设计项目

目录具体实现截图课题项目源码功能介绍可定制设计功能创新点开发流程Scrapy爬虫框架爬虫核心代码展示论文书写大纲详细视频演示源码获取具体实现截图课题项目源码功能介绍基于Python大数据技术进行网络爬虫的设计,框架使用Scrapy.系统设计支持以下技术栈前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.pyt

QQ_188083800·2025-06-16 11:43

Spark 性能优化全指南

Spark性能优化涉及资源配置、代码设计、数据倾斜处理等多个维度，以下是综合官方文档与实际经验后的核心优化策略与方法：一、资源配置优化Executor配置数量与内存：--num-executors应结合集群总资源与任务特性合理设置

XiaoQiong.Zhang·2025-06-16 09:58

MapReduce 程序详解

Hadoop的第一课总是MapReduce，但是往往我们每次都是使用自带的例子跑一遍MapReduce程序，今天总与自己写了一个完整的程序。技术有限，多多指教。

·2025-06-16 08:52

MaxCompute Spark 资源使用优化详解

简介：本文主要讲解MaxComputeSpark资源调优，目的在于在保证Spark任务正常运行的前提下，指导用户更好地对Spark作业资源使用进行优化，极大化利用资源，降低成本。

阿里开发者·2025-06-16 03:52

datax到hive数据全部为空_DataX HIVE分区同步

errorLimit":{"record":0,"percentage":0.02}},"content":[{"reader":{"name":"hdfsreader","parameter":{"hadoopConfig

一只mikan·2025-06-15 09:55

Hive SQL：一小时快速入门指南

一、HiveSQL初相识Hive是基于Hadoop的数据仓库工具，通过类SQL语法实现对HDFS数据的查询分析。与传统数据库不同，Hive将SQ

·2025-06-15 09:23

DataX HdfsReader 插件：快速上手与深入解析

其中，HdfsReader插件专门用于从Hadoop分布式文件系统（HDFS）中读取数据，并且能够将其转换为DataX传输协议传递给Writer进行后续处理。

Edingbrugh.南空·2025-06-15 09:23

推荐频道

Hadoop；Spark