spark算子第9页

大数据框架调研-流处理-Spark与Flink

实时处理（流处理）结论Spark和Flink的数据源最好都是Kafka等消息队列，这样才能更好的保证Exactly-Once（精准一次）；作为流处理框架，Flink是当前最优秀的实时处理框架，并处于飞速发展的状态中

魔笛Love·2025-05-13 05:20

湖仓一体流批融合处理架构设计

文章目录湖仓一体流批融合处理架构设计1.流批一体架构范式演进1.1Lambda架构的困境：双计算链路维护成本1.2Kappa架构的革新：统一流处理引擎1.3新一代湖仓架构：存储与计算的解耦设计2.流批统一计算引擎选型2.1ApacheSparkStructuredStreaming2.2Flink

danny-IT技术博客·2025-05-13 04:19

Spark-Core（累加器）

valrdd=sparkContext.makeRDD(List(1,2,3,4,5))//声明累加器varsum=sparkContext.longAccumu

бесплатно·2025-05-12 14:12

Spark-Core（双Value类型）

一、RDD转换算子（双Value类型）1、intersection函数签名：defintersection(other:RDD[T]):RDD[T]函数说明：对源RDD和参数RDD求交集后返回一个新的RDD

бесплатно·2025-05-12 13:36

genspark

今天遇到一个挺好玩的网站（https://www.genspark.ai/）功能挺强大的支持网页生成，，可转为PDF，还包含其他智能体

尸僵打怪兽·2025-05-12 11:22

Spark集群搭建（Hadoop+Spark+Zookeeper+HBase）

目录硬件准备与软件版本说明配置基础环境安装Java安装Hadoop安装Spark安装Python安装Scala安装SBT安装Zookeeper安装HBase安装Pycharm编写集群启动与关闭脚本用户管理界面补充硬件准备与软件版本说明

wahoo0301·2025-05-12 09:11

18 | Word Count：从零开始运行你的第一个Spark应用

今天我们来从零开始运行第一个Spark应用。我们先来回顾一下模块三的学习路径。首先，我们由浅入深地学习了Spark的基本数据结构RDD，了解了它这样设计的原因，以及它所支持的API。

_Rye_·2025-05-12 09:10

hadoop+hive+spark+zookeeper+hbase大数据环境搭建

master172.16.34.101CentOSLinuxrelease7.3.1611slave01172.16.34.102CentOSLinuxrelease7.3.1611slave03172.16.34.103CentOSLinuxrelease7.3.16112.软件版本软件名称版本hadoop2.7.7hive1.2.2spark2.3.4zook

fengwuxichen·2025-05-12 09:08

Spark处理过程-行动算子

行动算子（Action）是一种触发RDD计算的操作。与转换算子（Transformation）不同，行动算子会返回一个结果给驱动程序（DriverProgram），或者将结果写入外部存储系统。

睎zyl·2025-05-12 09:37

大数据Flink相关面试题（一）

与SparkStreaming的架构差异？2.解释Flink的“有状态流处理”概念。3.Flink的流处理（DataStreamAPI）与批处理（DataSetAPI）底层执行模型有何不同？

从头再来的码农·2025-05-12 08:34

RDD 三种创建方式

一.从linux本地文件系统加载数据创建RDD1.需要在linux本地创建文件test.txttouchtest.txt2.打开sparksparkshell3.读取本地文件创建RDDscala>valtest

古月皮皮·2025-05-12 02:50

RDD的几种创建方式

一、RDD简介RDD是Spark的核心抽象，全称为ResillientDistributedDataset，即弹性分布式数据集RDD在抽象上来说是一种元素集合，包含了数据。

itcats_cn·2025-05-12 01:48

什么是RDD，有哪几种创建方式

RDD（ResilientDistributedDataset，弹性分布式数据集）是ApacheSpark中最基本的数据抽象。它代表一个不可变、可分区、元素可并行操作的分布式数据集。

吃个桃桃，好凉凉·2025-05-12 01:47

怎么理解RDD中的算子

在Spark的RDD（弹性分布式数据集）中，算子是对RDD进行操作的函数，可分为转化算子和行动算子，以下是对它们的理解：转化算子-特点：这类算子会返回一个新的RDD，并且是惰性求值的，即不会立即执行计算

晴空下小雨.·2025-05-12 01:46

RDD转换算子

除了前面提到的常见RDD转换算子，还有一些其他的转换算子，以下是部分算子的介绍：mapPartitions与map类似，但它是对RDD的每个分区进行操作，传入的函数接收一个分区的迭代器，返回一个新的迭代器

晴空下小雨.·2025-05-12 01:46

【C# + HALCON 机器视觉】HALCON经典算子：圆形膨胀（dilation_circle）与圆形腐蚀（erosion_circle）

摘要：本文聚焦C#与HALCON在机器视觉领域的应用，深入阐述圆形膨胀（dilation_circle）与圆形腐蚀（erosion_circle）算子原理，以PCB焊点缺陷检测为案例，展示对二值化图像进行膨胀填补断裂

AI_DL_CODE·2025-05-11 23:35

语音合成之十三中文文本归一化在现代语音合成系统中的应用与实践

中文文本归一化在现代语音合成系统中的应用与实践引言理解中文文本归一化（TN）3主流LLM驱动的TTS系统及其对中文文本归一化的需求分析A.SparkTTS（基于Qwen2.5）与文本归一化B.CosyVoice

shichaog·2025-05-11 22:25

自定义分区器

在Spark里，弹性分布式数据集（RDD）是核心的数据抽象，它是不可变的、可分区的、里面的元素并行计算的集合。

End928·2025-05-11 17:53

在 Flink + Kafka 实时数仓中，如何确保端到端的 Exactly-Once

以下是具体实现方法及示例配置：1.核心机制(1)FlinkCheckpoint作用：定期将算子的状态（State）和Kafka消费偏移量（Of

静听山水·2025-05-11 12:58

spark-Join Key 的基数/rand函数

在数据处理中，JoinKey的基数是指JoinKey的唯一值的数量（也称为DistinctKeyCount）。它表示某个字段（即JoinKey）在数据集中有多少个不同的值。1.JoinKey基数的意义高基数：JoinKey的唯一值数量较多，例如用户ID、订单号等字段，每个值通常是唯一的。低基数：JoinKey的唯一值数量较少，例如性别（只有“男”和“女”两种值）、国家（通常只有几十到几百个值）。J

大数据知识搬运工·2025-05-11 11:18

内存、磁盘、CPU区别，Hadoop/Spark与哪个联系密切

在Hadoop/Spark中的表现：内存不足时，任务可能会频繁使用磁盘（即“溢写

大数据知识搬运工·2025-05-11 10:43

Spark-SQL

Spark-SQLSparkSQL是Spark用于结构化数据(structureddata)处理的Spark模块。

海金沙33·2025-05-11 01:14

如何在idea中写spark程序。

在IntelliJIDEA中开发Spark程序需配置环境、创建项目并添加依赖，以下是详细步骤：一、准备环境1.安装Java/Scala-确保已安装JDK1.8+（Spark3.x推荐JDK11+）和ScalaSDK

Freedom℡·2025-05-10 18:28

Spark - 缓存使用

Spark缓存使用缓存解决的问题减少对重复RDD的多次操作容错适用场景：在一个RDD需要重复多次利用,并且还不是特别大的情况下使用,例如迭代计算等场景.Spark缓存相关的APIvalconf=newSparkConf

腹黑客·2025-05-10 17:53

spark转换算子

在ApacheSpark中，转换算子（Transformation）是用于对RDD（弹性分布式数据集）进行转换操作的函数。

lqlj2233·2025-05-10 17:52

自定义分区器

定义：自定义分区器在分布式计算框架（如ApacheSpark）中用于控制数据在集群中的分布方式。通过自定义分区器，可以根据特定需求优化数据的分布，从而提高计算效率。

悻运·2025-05-10 17:21

Spark集群搭建之Yarn模式

简介SparkonYARN（YetAnotherResourceNegotiator）是Spark框架在Hadoop集群中运行的一种部署模式，它借助HadoopYARN来管理资源和调度任务模式分类Client

悻运·2025-05-10 17:21

遗传算法GA

一般的遗传算法由四个部分组成：编码机制、控制参数、适应度函数、遗传算子。编码机制：GA的基础，GA不是对研究对象直接进行讨论，而是通过某种编码机制把对象统一赋于由特定符号（字母）按一定顺序拍成的串。

白炎灵·2025-05-10 12:21

Flink 系列之十三 - Data Stream API的输出算子底层原理

之前做过数据平台，对于实时数据采集，使用了Flink。现在想想，在数据开发平台中，Flink的身影几乎无处不在，由于之前是边用边学，总体有点混乱，借此空隙，整理一下Flink的内容，算是一个知识积累，同时也分享给大家。注意：由于框架不同版本改造会有些使用的不同，因此本次系列中使用基本框架是Flink-1.19.x，Flink支持多种语言，这里的所有代码都是使用java，JDK版本使用的是19。代码

linmoo1986·2025-05-10 10:06

SparkStreaming之persist缓存

SparkStreaming之缓存与RDD的缓存类似，DStream也允许用户将数据持久化到内存中，只需要使用DStream.persist()方法，就会自动将DSstream中的数据缓存在内存中，这对需要多次计算的

稳哥的哥·2025-05-10 09:26

Spark Core -- CheckPoint && Cache && Lineage血统

1、Cache缓存：因为Spark中对每一个RDD执行的算子操作的时候，都需要从数据源头计算一遍，就会导致RDD被重复计算，浪费资源，消耗时间，影响整体的性能。

新手小农·2025-05-10 09:55

Spark2.2-persist checkpoint lineage解析

源码版本:2.2如有错误请指正一、背景Spark中每一个RDD都记录它的血缘lineage，根据lineage，我们可以实现容错机制和数据重用。

立君在学习·2025-05-10 09:54

yarn的概述

支持多种计算框架（如MapReduce、Spark、Flink等）。提供资

洋芋爱吃芋头·2025-05-10 08:22

spark缓存-cache

importorg.apache.spark.

洋芋爱吃芋头·2025-05-10 08:22

spark缓存-persist

存储级别指定persist：可以通过传入StorageLevel参数来指定不同的持久化级别。常见的持久化级别有：MEMORY_ONLY：将RDD以Java对象的形式存储在JVM的内存中。若内存不足，部分分区将不会被缓存，需要时会重新计算。MEMORY_AND_DISK：优先把RDD以Java对象的形式存储在JVM的内存中。若内存不足，会把多余的分区存储到磁盘上。DISK_ONLY：将RDD的数据存

洋芋爱吃芋头·2025-05-10 08:51

大数据领域数据架构的分布式系统设计

大数据领域数据架构的分布式系统设计关键词：大数据、分布式系统、数据架构、Hadoop、Spark、数据分区、容错机制摘要：本文深入探讨大数据领域中的数据架构和分布式系统设计。

AI天才研究院·2025-05-10 05:00

Azure Databricks：数据创新与智能决策的云端利器

卓越性能，Spark环境加速分析Az

领驭科技·2025-05-10 03:14

Spark-core-RDD入门

RDD基本概念ResilientDistributedDataset叫做弹性分布式数据集，是Spark中最基本的数据抽象，是分布式计算的实现载体，代表一个不可变，可分区，里面的元素并行计算的集合。

夏天吃哈密瓜·2025-05-10 00:30

spark start-thriftserver.sh & Kubernetes

启动命令shsbin/start-thriftserver.sh–masterk8s://https://192.168.99.108:8443–namespark-thriftserver–confspark.executor.instances

zhixingheyi_tian·2025-05-09 18:12

Spark 之 FileSourceScanExec Operator

casetest("SPARKdecoderwithoutcodegen"){withSQLConf(SQLConf.WHOLESTAGE_CODEGEN_ENABLED.key->"false"){spark.catalog.createTable

zhixingheyi_tian·2025-05-09 18:12

Spark 之 Aggregate

Aggregate参考链接：https://github.com/PZXWHU/SparkSQL-Kernel-Profiling完整的聚合查询的关键字包括groupby、cube、groupingsets

zhixingheyi_tian·2025-05-09 18:12

Spark 之 DataFrame

4,200,12),(5,300,12),(6,300,15)).toDF("StudentID","Class","Age")df.createOrReplaceTempView("student")spark.sql

zhixingheyi_tian·2025-05-09 18:42

CDH集群spark-shell执行过程分析

目的刚入门spark，安装的是CDH的版本，版本号spark-core_2.11-2.4.0-cdh6.2.1，部署了cdh客户端（非集群节点），本文主要以spark-shell为例子，对在cdh客户端上提交

格格巫 MMQ!!·2025-05-09 09:17

《spark》

这是一篇关于Spark概述的文章，主要介绍了Spark的基本概念、与Hadoop的关系、核心模块以及运行模式。

快乐的蛋挞·2025-05-09 09:11

Spark处理过程-案例数据清洗

（一）需求说明准备十条符合包含用户信息的文本文件，每行格式为姓名,年龄,性别，需要清洗掉年龄为空或者非数字的行。例如：张三,25,男李四,,女王五,30,男赵六,a,女孙七,35,男周八,40,女吴九,abc,男郑十,45,女王十,50,男李二,55,女（二）思路分析读入文件对每一行数据进行分析字段拆分，拆分出年龄这个字段判断如果它不是数字或者缺失，则忽略这条数据否则保存(三)代码展示import

悻运·2025-05-09 08:41

基于Flink+Hologres搭建实时数仓

ApachePaimon是一种流批统一的数据湖存储格式，结合Flink及Spark构建流批处理的实时湖仓一体架构。

soso1968·2025-05-09 08:39

2025-03-21（DS复习）： Databricks 的技术架构

以下是Databricks技术架构的详细介绍：1.Databricks的核心组件1.1DatabricksRuntime基于ApacheSpark：DatabricksRuntime是Databricks

BgShkTech 必杀技·2025-05-09 05:23

AI编译器对比：TVM vs MLIR vs Triton在大模型部署中的工程选择

本文基于NVIDIAA100与GoogleTPUv4平台，通过BERT-base（110M）和GPT-2（1.5B）的实测数据，对比TVM、MLIR、Triton三大编译框架在动态shape支持、算子融合效率

学术猿之吻·2025-05-09 04:14

shell spark 导入包,如何在Spark Shell中运行外部jar函数

Icreatedajarpackagefromaprojectbythisfile-tree:build.sbtsrc/mainsrc/main/scalasrc/main/scala/Tester.scalasrc/main/scala/main.scalawhereTesterisaclassbyafunction(nameisprint())andmainhasanobjecttorunth

曾杰律师·2025-05-09 03:38

Flink + Kafka 构建实时指标体系的实战方法论

在数字化运营趋势下，分钟级指标反馈能力变得尤为重要：✅营销投放实时监控CTR/CVR✅业务增长实时观测UV/PV✅运维系统实时计算告警数/成功率传统离线计算（Hive/SparkBatch）难以满足这种实时性需求

晴天彩虹雨·2025-05-09 02:01

推荐频道

spark算子

大数据框架调研-流处理-Spark与Flink

湖仓一体流批融合处理架构设计

Spark-Core（累加器）

Spark-Core（双Value类型）

genspark

Spark集群搭建（Hadoop+Spark+Zookeeper+HBase）

18 | Word Count：从零开始运行你的第一个Spark应用

hadoop+hive+spark+zookeeper+hbase大数据环境搭建

Spark处理过程-行动算子

大数据Flink相关面试题（一）

RDD 三种创建方式

RDD的几种创建方式

什么是RDD，有哪几种创建方式

怎么理解RDD中的算子

RDD转换算子

【C# + HALCON 机器视觉】HALCON经典算子：圆形膨胀（dilation_circle）与圆形腐蚀（erosion_circle）

语音合成之十三 中文文本归一化在现代语音合成系统中的应用与实践

自定义分区器

在 Flink + Kafka 实时数仓中，如何确保端到端的 Exactly-Once

spark-Join Key 的基数/rand函数

内存、磁盘、CPU区别，Hadoop/Spark与哪个联系密切

Spark-SQL

如何在idea中写spark程序。

Spark - 缓存使用

spark转换算子

自定义分区器

Spark集群搭建之Yarn模式

遗传算法GA

Flink 系列之十三 - Data Stream API的输出算子底层原理

SparkStreaming之persist缓存

Spark Core -- CheckPoint && Cache && Lineage血统

Spark2.2-persist checkpoint lineage解析

yarn的概述

spark缓存-cache

spark缓存-persist

大数据领域数据架构的分布式系统设计

Azure Databricks：数据创新与智能决策的云端利器

Spark-core-RDD入门

spark start-thriftserver.sh & Kubernetes

Spark 之 FileSourceScanExec Operator

Spark 之 Aggregate

Spark 之 DataFrame

CDH集群spark-shell执行过程分析

《spark》

Spark处理过程-案例数据清洗

基于Flink+Hologres搭建实时数仓

2025-03-21（DS复习）： Databricks 的技术架构

AI编译器对比：TVM vs MLIR vs Triton在大模型部署中的工程选择

shell spark 导入包,如何在Spark Shell中运行外部jar函数

Flink + Kafka 构建实时指标体系的实战方法论

语音合成之十三中文文本归一化在现代语音合成系统中的应用与实践