Spark

【SequoiaDB】4 巨杉数据库SequoiaDB整体架构

数据库实例模块则作为协议与语法的适配层，用户可根据需要创建包括MySQL、PostgreSQL与SparkSQL在内的结构化数据实例；支持JSON语法的MongoD

Alen_Liu_SZ·2025-06-28 17:05

App Store暗藏虚假抖音，内含间谍软件窃取照片和加密货币

卡巴斯基网络安全研究人员近日发现名为SparkKitty的新型间谍软件活动，该恶意程序已感染苹果AppStore和谷歌Play官方商店的多个应用。

FreeBuf-·2025-06-27 22:29

试试时序数据库 TDengine × Spark 的组合拳

现在，TDengine正式开放与ApacheSpark的无缝集成通道。一个是高性能、低成本的时序数据库，一个是横扫大数据世界的分析

·2025-06-27 11:21

Spark Streaming 与 Flink 实时数据处理方案对比与选型指南

SparkStreaming与Flink实时数据处理方案对比与选型指南实时数据处理在互联网、电商、物流、金融等领域均有大量应用，面对海量流式数据，SparkStreaming和Flink成为两大主流开源引擎

浅沫云归·2025-06-27 02:10

Spark教程3：SparkSQL最全介绍

文章目录SparkSQL最全介绍一、SparkSQL概述二、SparkSession：入口点三、DataFrame基础操作四、SQL查询五、SparkSQL函数六、与Hive集成七、数据源操作八、DataFrame

Cachel wood·2025-06-26 22:10

Spark教程1：Spark基础介绍

文章目录一、Spark是什么？

Cachel wood·2025-06-26 21:37

讯飞星火（iFlytek Spark）：科大讯飞打造的国产AI大模型平台

1.产品概述讯飞星火（iFlytekSpark）是科大讯飞自主研发的认知大模型，定位于通用人工智能（AGI）平台，集成了文本生成、语言理解、知识问答、逻辑推理、数学计算、代码生成和多模态交互等核心能力。

明似水·2025-06-26 17:09

基于Hadoop大数据分析应用场景与实战

目前主流的三大分布式计算系统分别为:Hadoop、Spark和Strom：Hadoop当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。

跨过山河大海·2025-06-26 12:38

深度剖析无感刷新Token：领码SPARK平台赋能微服务认证的智能实践

本文结合领码SPARK融合平台的iPaaS和aPaaS优势，深刻解析无感刷新Token的实现原理、典型场景、安全风险及AI赋能智能防护，系统阐述实现无感刷新Token的最佳实践。通过流程

领码科技·2025-06-26 09:16

Spark 之 UT

AQEOFFpartitionpruninginbroadcasthashjoinswithaliases==OptimizedLogicalPlan==Project[date_id#5283,pid#5281,sid#5282]+-JoinInner,(si

zhixingheyi_tian·2025-06-26 07:36

Spark eventlog 、Event、SparkListener

SparkListenerSQLExecutionStartcaseclassSparkListenerSQLExecutionStart(executionId:Long,//iftheexecutionisaroot

zhixingheyi_tian·2025-06-26 07:06

从Spark 执行计划中获取数据血缘

从Spark执行计划中获取数据血缘->关注清哥聊技术公众号，了解更多技术文章因为数据处理任务会涉及到数据的转换和处理，所以从数据任务中解析血缘也是获取数据血缘的渠道之一，Spark是大数据中数据处理最常用的一个技术组件

张永清-老清·2025-06-26 07:02

Spark 之 QueryPlan

sameResultsrc/main/scala/org/apache/spark/sql/catalyst/plans/QueryPlan.scala/***Returnstruewhenthegivenqueryplanwillreturnthesameresultsasthisqueryplan

zhixingheyi_tian·2025-06-26 06:30

Python与大数据：Spark和PySpark实战教程

ApacheSpark作为新一代大数据计算引擎，以其高性能、易用性和强大的生态系统，成为数据工程师和分析师的首选工具。

天天进步2015·2025-06-26 01:58

现代数据湖架构全景解析：存储、表格式、计算引擎与元数据服务的协同生态

本文全面剖析现代数据湖架构的核心组件，深入探讨对象存储（OSS/S3）、表格式（Iceberg/Hudi/DeltaLake）、计算引擎（Spark/Flink/Presto）及元数据服务（HMS/Amoro

讲文明的喜羊羊拒绝pua·2025-06-26 00:46

通过CDH安装Spark的详细指南

通过CDH安装Spark的详细指南简介ClouderaDistributionofHadoop(CDH)是一个企业级的大数据平台，它集成了多个开源组件，包括Hadoop、Spark、Hive等。

暴躁哥·2025-06-25 20:48

order、sort、distribute和cluster by（Spark/Hive）

1.abstractORDERBY：完整查询结果的全局行排序。与SORTBY、CLUSTERBY、DISTRIBUTEBY互斥，不能同时使用。示例SELECT*FROMtable_nameORDERBYcolumn_name;SORTBY：只在每个分区内排序，局部排序结果不是全局有序。与ORDERBY、CLUSTERBY互斥，不能同时指定。示例SELECT*FROMtable_nameSORTBY

有数的编程笔记·2025-06-25 15:07

合并小文件汇总（Hive/Spark）

合并小文件的原因：过多的小文件会导致HDFS上元数据负载增加。并且小文件也会导致计算性能下降。1.使用hive时1.1.使用hive.merge参数，开启文件合并--控制在map阶段结束后合并输出的小文件，默认值为trueSEThive.merge.mapfiles=true;--控制在reduce阶段结束后合并输出小文件，默认值为falseSEThive.merge.mapredfiles=tr

有数的编程笔记·2025-06-25 15:06

基于pyspark的北京历史天气数据分析及可视化_离线

基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2

大数据CLUB·2025-06-25 08:48

Spark底层原理详细解析

Spark简介ApacheSpark是用于大规模数据处理的统一分析引擎，基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量硬件之上，形成集群

JavaShark·2025-06-25 02:39

Java EDW三剑客：如何让数据从“沼泽”变身“报告神器”？手把手教你玩转企业数据仓库！

今天我们就用JDBC+ApacheSpark+Thymeleaf三剑客，教你如何让Java在EDW中将“数据沼泽”炼成“报告神器”！从“数

墨瑾轩·2025-06-24 20:50

基于pyspark的北京历史天气数据分析及可视化_实时

基于pyspark的北京历史天气数据分析及可视化项目概况[]点这里,查看所有项目[]数据类型北京历史天气数据开发环境centos7软件版本python3.8.18、hadoop3.2.0、spark3.1.2

大数据CLUB·2025-06-24 12:54

Pyspark中的int

在PySpark中，整数类型（int）与Python或Pandas中的int有所不同，因为它基于SparkSQL的数据类型系统。

闯闯桑·2025-06-23 00:27

Python 工程师迈向大数据时代： Hadoop 与 Spark 框架深度解析与实战指南

Python工程师迈向大数据时代：Hadoop与Spark框架深度解析与实战指南引言亲爱的Python工程师们，欢迎来到大数据时代！

清水白石008·2025-06-22 14:52

实战Spark从入门到精通（五）：Spark开发实操，先搞定Spark集群规划！

系列文章目录实战Spark从入门到精通（一）：一文带你全面了解Spark大数据处理框架实战Spark从入门到精通（二）：Spark急速上手，给小白的3分钟入门指南实战Spark从入门到精通（三）：深入理解

元飞聊技术·2025-06-22 13:09

【Spark征服之路-2.9-Spark-Core编程（五）】

RDD行动算子：行动算子就是会触发action的算子，触发action的含义就是真正的计算数据。1.reduce➢函数签名defreduce(f:(T,T)=>T):T➢函数说明聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据valrdd:RDD[Int]=sc.makeRDD(List(1,2,3,4))valreduceResult:Int=rdd.reduce(_+_)printl

·2025-06-22 12:36

Spark Streaming 原理与代码实例讲解

SparkStreaming原理与代码实例讲解1.背景介绍1.1实时流数据处理的重要性在当今大数据时代,海量的数据正以前所未有的速度不断产生。

AI智能应用·2025-06-22 12:35

pyspark底层浅析

pyspark底层浅析pyspark简介pyspark是Spark官方提供的API接口，同时pyspark也是Spark中的一个程序。

lo_single·2025-06-22 12:35

方舟自建服务器物品叠加mod,10000倍物品叠加 -90%负重 V280

工艺资源(Spark

大奇鸭·2025-06-22 11:27

Python大数据处理中有哪些分布式计算框架？如何选择和使用？

二、Python大数据处理中的分布式计算框架ApacheSparkApacheSpark

代码小狂热者·2025-06-22 02:05

前端vue js 使用插件 spark-md5 计算文件MD5值并封装成Promise异步调用方法

1.依赖：需要安装spark-md5npminstall--savespark-md52.代码分析1.功能：该函数接收一个File对象，将其分块（每块2MB）读取，并使用spark-md5计算整个文件的

低级前端·2025-06-20 23:10

java spark 操作 mongo实践

javaspark操作mongo实践按照官方文档配置https://docs.mongodb.com/spark-connector/master/java-api/需要说明一下，官方文档中要求引入的pom

哆啦A梦00·2025-06-20 23:10

Spark 学习【一】

Spark基本概念MapReduce存在的缺陷编写难度大不能很好充分利用系统内存一个作业多个MR任务嵌套不友好（每一个task都是jvm进程级别创建销毁开销都很大、每一次都要涉及磁盘或dfs或db和网络的

·2025-06-20 23:39

【Spark征服之路-2.8-Spark-Core编程（四）】

Spark默认的分区器是HashPartitionervalrdd:RDD[(Int,String)]=sc.makeRDD(Array((1,"aaa"),(2,"bbb"),

qq_46394486·2025-06-20 23:39

【Spark】岗位数据分析

使用Spark进行岗位数据分析配置详解数据获取MySQL建表语句Settings文件主项目代码items部分代码pipelines部分代码**数据分析分析不同学历的平均薪资分析不同岗位的平均薪资分析各公司提供的岗位配置详解本文是使用

飝鱻.·2025-06-20 23:09

[Data Pipeline] MinIO存储（数据湖) | 数据层 Bronze/Silver/Gold

在第二章：Spark作业（数据处理）中，我们学习了Spark作业如何作为强大的工作者来清洗、转换和准备这些数据。现在，处理后的数据去往何处？Spark作业在后续步骤中从哪里获取数据？

lvy-·2025-06-20 23:37

HoRain云--SparkStreaming实时分析的7大优势解析

HoRain 云小助手·2025-06-20 16:21

HoRain云--Spark核心三剑客：RDD、DataFrame与Dataset解析

HoRain云小助手：个人主页个人专栏:《Linux系列教程》《c语言教程》⛺️生活的理想，就是为了理想的生活!⛳️推荐前些天发现了一个超棒的服务器购买网站，性价比超高，大内存超划算！忍不住分享一下给大家。点击跳转到网站。专栏介绍专栏名称专栏介绍《C语言》本专栏主要撰写C干货内容和编程技巧，让大家从底层了解C，把更多的知识由抽象到简单通俗易懂。《网络协议》本专栏主要是注重从底层来给大家一步步剖析网

HoRain云小助手·2025-06-20 16:49

解密Kong API Gateway：领码SPARK微服务治理与安全的高效利器

KongAPIGateway作为统一网关，借助领码SPARK解决方案整合AI与自动化智能运维，实现统一入口管理、智能流量控制、多样认证及安全防护。本文以图表详解服务治理流程与安全全链路策略，结合现

领码科技·2025-06-20 08:56

【Ambari3.0.0 部署】Step3—安装JDK17与JDK1.8-适用于el8

doc.janettr.com/install/manual/Step3—安装JDK17与JDK1.8Ambari3.0及部分Bigtop/Hadoop新组件强制要求JDK17，而HBase/Hive/Spark

TTBIGDATA·2025-06-20 06:37

Spark 之 Subquery

各类Subquerysrc/main/scala/org/apache/spark/sql/catalyst/expressions/predicates.scala/***Evaluatesto`true

zhixingheyi_tian·2025-06-20 03:51

常见的Dolphin Scheduler报错

dolphinscheduler_env.sh中exportSQOOP_HOME=/opt/installs/sqoopexportPATH=$SQOOP_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME1

线条1·2025-06-19 20:03

【Spark征服之路-2.10-Spark-Core编程（六）】

valrdd=sparkContext.makeRDD(List(1,2,3,4,5))//声明累加器varsum=sparkContext.longAccumu

qq_46394486·2025-06-19 15:47

Spark应用启动报错：Could not locate executable null\bin\winutils.exe in the Hadoop binaries.

目录报错分析解决方式1：设置系统属性方式2：设置环境变量报错06-0809:47:32.608[main]WARNorg.apache.hadoop.util.NativeCodeLoaderL:62-Unabletoloadnative-hadooplibraryforyourplatform...usingbuiltin-javaclasseswhereapplicable06-0809:47

甘蓝聊Java·2025-06-19 06:50

什么是Hadoop Yarn

它的核心目标是提高集群资源利用率，并支持多种计算框架（如MapReduce、Spark、Flink等）在同

ThisIsClark·2025-06-18 19:35

摄像头标定：原理、方法、步骤（**）

目录摄像头验证标定，详解摄像头标定方法及步骤https://www.sparktry.com/2017/31086.html要点：摄像头的制造者，才需要考虑标定问题？

ken2232·2025-06-17 13:38

Spark on Yarn 运行流程

1.首先客户端提交spark作业到ApplicationMananger2.向ApplicationManager申请启动ApplicationMaster,ApplicationManager选择一台

架构_Kylin·2025-06-17 05:43

解决Spark4.0.0依赖问题

ApacheSpark4.0.0冲突解决指南1.问题背景在尝试运行一个基于ApacheSpark4.0.0的Java应用程序。

小巫程序Demo日记·2025-06-17 05:11

PySpark 使用pyarrow指定版本

背景说明在PySpark3.1.3环境中，当需要使用与集群环境不同版本的PyArrow(如1.0.0版本)时，可以通过以下方法实现，而无需更改集群环境配置完整操作说明去pyarrow·PyPI下载对应版本的

SLUMBER_PARTY_·2025-06-16 13:00

Spark核心概念与DAG执行原理笔记

Spark核心概念与DAG执行原理笔记本文档基于手写笔记和学习资料，使用Mermaid图表总结Spark的核心概念、DAG执行原理和Stage划分机制，便于复习和理解。

·2025-06-16 13:30

推荐频道