spark·-submit 第2页

从Spark 执行计划中获取数据血缘

从Spark执行计划中获取数据血缘->关注清哥聊技术公众号，了解更多技术文章因为数据处理任务会涉及到数据的转换和处理，所以从数据任务中解析血缘也是获取数据血缘的渠道之一，Spark是大数据中数据处理最常用的一个技术组件

张永清-老清·2025-06-26 07:02

Spark 之 QueryPlan

sameResultsrc/main/scala/org/apache/spark/sql/catalyst/plans/QueryPlan.scala/***Returnstruewhenthegivenqueryplanwillreturnthesameresultsasthisqueryplan

zhixingheyi_tian·2025-06-26 06:30

Python与大数据：Spark和PySpark实战教程

ApacheSpark作为新一代大数据计算引擎，以其高性能、易用性和强大的生态系统，成为数据工程师和分析师的首选工具。

天天进步2015·2025-06-26 01:58

现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态

本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro

讲文明的喜羊羊拒绝pua·2025-06-26 00:46

通过CDH安装Spark的详细指南

通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。

暴躁哥·2025-06-25 20:48

order、sort、distribute和cluster by（Spark/Hive）

1.abstractORDERBY：完整查询结果的全局行排序。与SORTBY、CLUSTERBY、DISTRIBUTEBY互斥，不能同时使用。示例SELECT*FROMtable_nameORDERBYcolumn_name;SORTBY：只在每个分区内排序，局部排序结果不是全局有序。与ORDERBY、CLUSTERBY互斥，不能同时指定。示例SELECT*FROMtable_nameSORTBY

有数的编程笔记·2025-06-25 15:07

合并小文件汇总（Hive/Spark）

合并小文件的原因：过多的小文件会导致HDFS上元数据负载增加。并且小文件也会导致计算性能下降。1.使用hive时1.1.使用hive.merge参数，开启文件合并--控制在map阶段结束后合并输出的小文件，默认值为trueSEThive.merge.mapfiles=true;--控制在reduce阶段结束后合并输出小文件，默认值为falseSEThive.merge.mapredfiles=tr

有数的编程笔记·2025-06-25 15:06

验证码安全机制深度剖析与攻防实践

1.逻辑缺陷型漏洞（案例0x01）漏洞本质：条件验证逻辑不严谨#缺陷代码示例ifparams[:captcha]&¶ms[:submit] verify_captcha#仅当两个参数都存在时才验证

KPX·2025-06-25 11:45

基于pyspark的北京历史天气数据分析及可视化_离线

基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2

大数据CLUB·2025-06-25 08:48

Spark底层原理详细解析

Spark简介ApacheSpark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群

JavaShark·2025-06-25 02:39

Java EDW三剑客：如何让数据从“沼泽”变身“报告神器”？手把手教你玩转企业数据仓库！

今天我们就用JDBC+ApacheSpark+Thymeleaf三剑客，教你如何让Java在EDW中将“数据沼泽”炼成“报告神器”！从“数

墨瑾轩·2025-06-24 20:50

基于pyspark的北京历史天气数据分析及可视化_实时

基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2

大数据CLUB·2025-06-24 12:54

微信小程序组件库深度解析（2025精选版）

item.name}}加载中...核心属性：scroll-y：允许垂直滚动scroll-top：设置滚动位置bindscrolltolower：触底事件2.表单组件(1)form-表单容器登录Page({submitForm

·2025-06-24 08:57

使用vue3+el-form实现动态新增名称，值，并对名称进行必填校验

使用vue3+el-form实现动态新增名称，值，并对名称进行必填校验效果图代码+-AddItem-->Submit-->import{ref,reactive,defineProps,watch}from'vue'constprops

从不讲道理·2025-06-24 03:56

百万级长连接网关：从Epoll到io_uring的进化之路

epoll_wait(epfd,events,MAX_EVENTS,-1);//O(N)复杂度for(inti=0;iflags|=IOSQE_BUFFER_SELECT;//启用自动缓冲选择io_uring_submit

·2025-06-23 21:17

Pyspark中的int

在PySpark中，整数类型（int）与Python或Pandas中的int有所不同，因为它基于SparkSQL的数据类型系统。

闯闯桑·2025-06-23 00:27

ORACLE JOB 定时任务

每天定时运行存储过程同步一个表的数据至一个表1、设置定时任务declarexjobidnumber;BEGINDBMS_JOB.SUBMIT(JOB=>xjobid,/*自动生成JOB_ID*/WHAT

zhaogui_2·2025-06-22 23:50

oracle新建定时任务,Oracle创建定时任务

1、创建定时任务DECLAREJOB_IDPLS_INTEGER;BEGINSYS.DBMS_JOB.SUBMIT(JOB=>JOB_ID,WHAT=>'PRO_JOB;',INTERVAL=>'TRUNC

weixin_39948111·2025-06-22 23:49

webfuture：如何屏蔽后台发文界面的保存为新文章按钮？

问题解决：修改这个文件/Admin/Content/Base/css/base.css定义这个的idsaveAsNewItemSubmit#saveAsNewItemSubmit{display:none

bbsh2099·2025-06-22 21:05

Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南

Python工程师迈向大数据时代：Hadoop与Spark框架深度解析与实战指南引言亲爱的Python工程师们，欢迎来到大数据时代！

清水白石008·2025-06-22 14:52

实战Spark从入门到精通（五）：Spark开发实操，先搞定Spark集群规划！

系列文章目录实战Spark从入门到精通（一）：一文带你全面了解Spark大数据处理框架实战Spark从入门到精通（二）：Spark急速上手，给小白的3分钟入门指南实战Spark从入门到精通（三）：深入理解

元飞聊技术·2025-06-22 13:09

【Spark征服之路-2.9-Spark-Core编程（五）】

RDD行动算子：行动算子就是会触发action的算子，触发action的含义就是真正的计算数据。1.reduce➢函数签名defreduce(f:(T,T)=>T):T➢函数说明聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据valrdd:RDD[Int]=sc.makeRDD(List(1,2,3,4))valreduceResult:Int=rdd.reduce(_+_)printl

·2025-06-22 12:36

Spark Streaming 原理与代码实例讲解

SparkStreaming原理与代码实例讲解1.背景介绍1.1实时流数据处理的重要性在当今大数据时代,海量的数据正以前所未有的速度不断产生。

AI智能应用·2025-06-22 12:35

pyspark底层浅析

pyspark底层浅析pyspark简介pyspark是Spark官方提供的API接口，同时pyspark也是Spark中的一个程序。

lo_single·2025-06-22 12:35

方舟自建服务器物品叠加mod,10000倍物品叠加 -90%负重 V280

工艺资源(Spark

大奇鸭·2025-06-22 11:27

Python大数据处理中有哪些分布式计算框架？如何选择和使用？

二、Python大数据处理中的分布式计算框架ApacheSparkApacheSpark

代码小狂热者·2025-06-22 02:05

前端vue js 使用插件 spark-md5 计算文件MD5值并封装成Promise异步调用方法

1.依赖：需要安装spark-md5npminstall--savespark-md52.代码分析1.功能：该函数接收一个File对象，将其分块（每块2MB）读取，并使用spark-md5计算整个文件的

低级前端·2025-06-20 23:10

java spark 操作 mongo实践

javaspark操作mongo实践按照官方文档配置https://docs.mongodb.com/spark-connector/master/java-api/需要说明一下，官方文档中要求引入的pom

哆啦A梦00·2025-06-20 23:10

Spark 学习【一】

Spark基本概念MapReduce存在的缺陷编写难度大不能很好充分利用系统内存一个作业多个MR任务嵌套不友好（每一个task都是jvm进程级别创建销毁开销都很大、每一次都要涉及磁盘或dfs或db和网络的

·2025-06-20 23:39

【Spark征服之路-2.8-Spark-Core编程（四）】

Spark默认的分区器是HashPartitionervalrdd:RDD[(Int,String)]=sc.makeRDD(Array((1,"aaa"),(2,"bbb"),

qq_46394486·2025-06-20 23:39

【Spark】岗位数据分析

使用Spark进行岗位数据分析配置详解数据获取MySQL建表语句Settings文件主项目代码items部分代码pipelines部分代码**数据分析分析不同学历的平均薪资分析不同岗位的平均薪资分析各公司提供的岗位配置详解本文是使用

飝鱻.·2025-06-20 23:09

[Data Pipeline] MinIO存储（数据湖) | 数据层 Bronze/Silver/Gold

在第二章：Spark作业（数据处理）中，我们学习了Spark作业如何作为强大的工作者来清洗、转换和准备这些数据。现在，处理后的数据去往何处？Spark作业在后续步骤中从哪里获取数据？

lvy-·2025-06-20 23:37

HoRain云--SparkStreaming实时分析的7大优势解析

HoRain 云小助手·2025-06-20 16:21

HoRain云--Spark核心三剑客：RDD、DataFrame与Dataset解析

HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网

HoRain云小助手·2025-06-20 16:49

解密Kong API Gateway：领码SPARK微服务治理与安全的高效利器

KongAPIGateway作为统一网关，借助领码SPARK解决方案整合AI与自动化智能运维，实现统一入口管理、智能流量控制、多样认证及安全防护。本文以图表详解服务治理流程与安全全链路策略，结合现

领码科技·2025-06-20 08:56

【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8

doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/Hadoop新组件强制要求JDK17，而HBase/Hive/Spark

TTBIGDATA·2025-06-20 06:37

Spark 之 Subquery

各类Subquerysrc/main/scala/org/apache/spark/sql/catalyst/expressions/predicates.scala/***Evaluatesto`true

zhixingheyi_tian·2025-06-20 03:51

常见的Dolphin Scheduler报错

dolphinscheduler_env.sh中exportSQOOP_HOME=/opt/installs/sqoopexportPATH=$SQOOP_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME1

线条1·2025-06-19 20:03

【Spark征服之路-2.10-Spark-Core编程（六）】

valrdd=sparkContext.makeRDD(List(1,2,3,4,5))//声明累加器varsum=sparkContext.longAccumu

qq_46394486·2025-06-19 15:47

Flask视频和图片上传

pipinstallFlask-WTFFlask-UploadsfromflaskimportFlaskfromflask_uploadsimportUploadSet,configure_uploads,patch_request_classfromflask_wtfimportFlaskFormfromwtformsimportFileField,SubmitFieldfromwerkz

月疯·2025-06-19 09:11

Spark应用启动报错：Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

目录报错分析解决方式1：设置系统属性方式2：设置环境变量报错06-0809:47:32.608[main]WARNorg.apache.hadoop.util.NativeCodeLoaderL:62-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable06-0809:47

甘蓝聊Java·2025-06-19 06:50

什么是Hadoop Yarn

它的核心目标是提高集群资源利用率，并支持多种计算框架（如MapReduce、Spark、Flink等）在同

ThisIsClark·2025-06-18 19:35

摄像头标定：原理、方法、步骤（**）

目录摄像头验证标定，详解摄像头标定方法及步骤https://www.sparktry.com/2017/31086.html要点：摄像头的制造者，才需要考虑标定问题？

ken2232·2025-06-17 13:38

Spark on Yarn 运行流程

1.首先客户端提交spark作业到ApplicationMananger2.向ApplicationManager申请启动ApplicationMaster,ApplicationManager选择一台

架构_Kylin·2025-06-17 05:43

解决Spark4.0.0依赖问题

ApacheSpark4.0.0冲突解决指南1.问题背景在尝试运行一个基于ApacheSpark4.0.0的Java应用程序。

小巫程序Demo日记·2025-06-17 05:11

PySpark 使用pyarrow指定版本

背景说明在PySpark3.1.3环境中，当需要使用与集群环境不同版本的PyArrow(如1.0.0版本)时，可以通过以下方法实现，而无需更改集群环境配置完整操作说明去pyarrow·PyPI下载对应版本的

SLUMBER_PARTY_·2025-06-16 13:00

Spark核心概念与DAG执行原理笔记

Spark核心概念与DAG执行原理笔记本文档基于手写笔记和学习资料，使用Mermaid图表总结Spark的核心概念、DAG执行原理和Stage划分机制，便于复习和理解。

·2025-06-16 13:30

python基于spark的新闻推荐系统数据分析可视化爬虫的设计与实现pycharm毕业设计项目

目录具体实现截图课题项目源码功能介绍可定制设计功能创新点开发流程Scrapy爬虫框架爬虫核心代码展示论文书写大纲详细视频演示源码获取具体实现截图课题项目源码功能介绍基于Python大数据技术进行网络爬虫的设计,框架使用Scrapy.系统设计支持以下技术栈前端开发框架:vue.js数据库mysql版本不限后端语言框架支持：1java(SSM/springboot)-idea/eclipse2.pyt

QQ_188083800·2025-06-16 11:43

Spark 性能优化全指南

Spark性能优化涉及资源配置、代码设计、数据倾斜处理等多个维度，以下是综合官方文档与实际经验后的核心优化策略与方法：一、资源配置优化Executor配置数量与内存：--num-executors应结合集群总资源与任务特性合理设置

XiaoQiong.Zhang·2025-06-16 09:58

MaxCompute Spark 资源使用优化详解

简介：本文主要讲解MaxComputeSpark资源调优，目的在于在保证Spark任务正常运行的前提下，指导用户更好地对Spark作业资源使用进行优化，极大化利用资源，降低成本。

阿里开发者·2025-06-16 03:52

推荐频道

spark·-submit