E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark算子
大数据框架调研-流处理-
Spark
与Flink
实时处理(流处理)结论
Spark
和Flink的数据源最好都是Kafka等消息队列,这样才能更好的保证Exactly-Once(精准一次);作为流处理框架,Flink是当前最优秀的实时处理框架,并处于飞速发展的状态中
魔笛Love
·
2025-05-13 05:20
spark
flink
scala
湖仓一体流批融合处理架构设计
文章目录湖仓一体流批融合处理架构设计1.流批一体架构范式演进1.1Lambda架构的困境:双计算链路维护成本1.2Kappa架构的革新:统一流处理引擎1.3新一代湖仓架构:存储与计算的解耦设计2.流批统一计算引擎选型2.1Apache
Spark
StructuredStreaming2.2Flink
danny-IT技术博客
·
2025-05-13 04:19
企业级SQL
Server深度实践
流批一体
Lambda架构
Kappa架构
Flink
Spark
实时计算
Spark
-Core(累加器)
valrdd=
spark
Context.makeRDD(List(1,2,3,4,5))//声明累加器varsum=
spark
Context.longAccumu
бесплатно
·
2025-05-12 14:12
spark
大数据
分布式
Spark
-Core(双Value类型)
一、RDD转换
算子
(双Value类型)1、intersection函数签名:defintersection(other:RDD[T]):RDD[T]函数说明:对源RDD和参数RDD求交集后返回一个新的RDD
бесплатно
·
2025-05-12 13:36
spark
大数据
分布式
gen
spark
今天遇到一个挺好玩的网站(https://www.gen
spark
.ai/)功能挺强大的支持网页生成,,可转为PDF,还包含其他智能体
尸僵打怪兽
·
2025-05-12 11:22
genspark
智能体
Spark
集群搭建(Hadoop+
Spark
+Zookeeper+HBase)
目录硬件准备与软件版本说明配置基础环境安装Java安装Hadoop安装
Spark
安装Python安装Scala安装SBT安装Zookeeper安装HBase安装Pycharm编写集群启动与关闭脚本用户管理界面补充硬件准备与软件版本说明
wahoo0301
·
2025-05-12 09:11
大数据平台
spark
大数据
hadoop
hbase
linux
18 | Word Count:从零开始运行你的第一个
Spark
应用
今天我们来从零开始运行第一个
Spark
应用。我们先来回顾一下模块三的学习路径。首先,我们由浅入深地学习了
Spark
的基本数据结构RDD,了解了它这样设计的原因,以及它所支持的API。
_Rye_
·
2025-05-12 09:10
大规模数据处理
spark
大数据
hadoop+hive+
spark
+zookeeper+hbase大数据环境搭建
master172.16.34.101CentOSLinuxrelease7.3.1611slave01172.16.34.102CentOSLinuxrelease7.3.1611slave03172.16.34.103CentOSLinuxrelease7.3.16112.软件版本软件名称版本hadoop2.7.7hive1.2.2
spark
2.3.4zook
fengwuxichen
·
2025-05-12 09:08
大数据
hadoop
spark
hbase
Spark
处理过程-行动
算子
行动
算子
(Action)是一种触发RDD计算的操作。与转换
算子
(Transformation)不同,行动
算子
会返回一个结果给驱动程序(DriverProgram),或者将结果写入外部存储系统。
睎zyl
·
2025-05-12 09:37
spark
大数据
分布式
大数据Flink相关面试题(一)
与
Spark
Streaming的架构差异?2.解释Flink的“有状态流处理”概念。3.Flink的流处理(DataStreamAPI)与批处理(DataSetAPI)底层执行模型有何不同?
从头再来的码农
·
2025-05-12 08:34
Flink面试题
大数据
flink
RDD 三种创建方式
一.从linux本地文件系统加载数据创建RDD1.需要在linux本地创建文件test.txttouchtest.txt2.打开
spark
spark
shell3.读取本地文件创建RDDscala>valtest
古月皮皮
·
2025-05-12 02:50
hadoop
hdfs
大数据
RDD的几种创建方式
一、RDD简介RDD是
Spark
的核心抽象,全称为ResillientDistributedDataset,即弹性分布式数据集RDD在抽象上来说是一种元素集合,包含了数据。
itcats_cn
·
2025-05-12 01:48
大数据
RDD
RDD创建的几种方式
什么是RDD,有哪几种创建方式
RDD(ResilientDistributedDataset,弹性分布式数据集)是Apache
Spark
中最基本的数据抽象。它代表一个不可变、可分区、元素可并行操作的分布式数据集。
吃个桃桃,好凉凉
·
2025-05-12 01:47
java
spark
怎么理解RDD中的
算子
在
Spark
的RDD(弹性分布式数据集)中,
算子
是对RDD进行操作的函数,可分为转化
算子
和行动
算子
,以下是对它们的理解:转化
算子
-特点:这类
算子
会返回一个新的RDD,并且是惰性求值的,即不会立即执行计算
晴空下小雨.
·
2025-05-12 01:46
spark
RDD转换
算子
除了前面提到的常见RDD转换
算子
,还有一些其他的转换
算子
,以下是部分
算子
的介绍:mapPartitions与map类似,但它是对RDD的每个分区进行操作,传入的函数接收一个分区的迭代器,返回一个新的迭代器
晴空下小雨.
·
2025-05-12 01:46
spark
【C# + HALCON 机器视觉】HALCON经典
算子
:圆形膨胀(dilation_circle)与圆形腐蚀(erosion_circle)
摘要:本文聚焦C#与HALCON在机器视觉领域的应用,深入阐述圆形膨胀(dilation_circle)与圆形腐蚀(erosion_circle)
算子
原理,以PCB焊点缺陷检测为案例,展示对二值化图像进行膨胀填补断裂
AI_DL_CODE
·
2025-05-11 23:35
c#
开发语言
halcon
机器视觉
圆形膨胀
圆形腐蚀
PCB焊点检测
语音合成之十三 中文文本归一化在现代语音合成系统中的应用与实践
中文文本归一化在现代语音合成系统中的应用与实践引言理解中文文本归一化(TN)3主流LLM驱动的TTS系统及其对中文文本归一化的需求分析A.
Spark
TTS(基于Qwen2.5)与文本归一化B.CosyVoice
shichaog
·
2025-05-11 22:25
语音合成
语音合成
TTS
自定义分区器
在
Spark
里,弹性分布式数据集(RDD)是核心的数据抽象,它是不可变的、可分区的、里面的元素并行计算的集合。
End928
·
2025-05-11 17:53
spark
在 Flink + Kafka 实时数仓中,如何确保端到端的 Exactly-Once
以下是具体实现方法及示例配置:1.核心机制(1)FlinkCheckpoint作用:定期将
算子
的状态(State)和Kafka消费偏移量(Of
静听山水
·
2025-05-11 12:58
大数据
大数据
spark
-Join Key 的基数/rand函数
在数据处理中,JoinKey的基数是指JoinKey的唯一值的数量(也称为DistinctKeyCount)。它表示某个字段(即JoinKey)在数据集中有多少个不同的值。1.JoinKey基数的意义高基数:JoinKey的唯一值数量较多,例如用户ID、订单号等字段,每个值通常是唯一的。低基数:JoinKey的唯一值数量较少,例如性别(只有“男”和“女”两种值)、国家(通常只有几十到几百个值)。J
大数据知识搬运工
·
2025-05-11 11:18
spark学习
spark
java
javascript
内存、磁盘、CPU区别,Hadoop/
Spark
与哪个联系密切
在Hadoop/
Spark
中的表现:内存不足时,任务可能会频繁使用磁盘(即“溢写
大数据知识搬运工
·
2025-05-11 10:43
spark学习
hadoop
spark
Spark
-SQL
Spark
-SQL
Spark
SQL是
Spark
用于结构化数据(structureddata)处理的
Spark
模块。
海金沙33
·
2025-05-11 01:14
spark
大数据
分布式
如何在idea中写
spark
程序。
在IntelliJIDEA中开发
Spark
程序需配置环境、创建项目并添加依赖,以下是详细步骤:一、准备环境1.安装Java/Scala-确保已安装JDK1.8+(
Spark
3.x推荐JDK11+)和ScalaSDK
Freedom℡
·
2025-05-10 18:28
spark
Spark
- 缓存使用
Spark
缓存使用缓存解决的问题减少对重复RDD的多次操作容错适用场景:在一个RDD需要重复多次利用,并且还不是特别大的情况下使用,例如迭代计算等场景.
Spark
缓存相关的APIvalconf=new
Spark
Conf
腹黑客
·
2025-05-10 17:53
spark
spark
spark
转换
算子
在Apache
Spark
中,转换
算子
(Transformation)是用于对RDD(弹性分布式数据集)进行转换操作的函数。
lqlj2233
·
2025-05-10 17:52
spark
大数据
分布式
自定义分区器
定义:自定义分区器在分布式计算框架(如Apache
Spark
)中用于控制数据在集群中的分布方式。通过自定义分区器,可以根据特定需求优化数据的分布,从而提高计算效率。
悻运
·
2025-05-10 17:21
spark
Spark
集群搭建之Yarn模式
简介
Spark
onYARN(YetAnotherResourceNegotiator)是
Spark
框架在Hadoop集群中运行的一种部署模式,它借助HadoopYARN来管理资源和调度任务模式分类Client
悻运
·
2025-05-10 17:21
spark
大数据
分布式
遗传算法GA
一般的遗传算法由四个部分组成:编码机制、控制参数、适应度函数、遗传
算子
。编码机制:GA的基础,GA不是对研究对象直接进行讨论,而是通过某种编码机制把对象统一赋于由特定符号(字母)按一定顺序拍成的串。
白炎灵
·
2025-05-10 12:21
数据分析
算法
Flink 系列之十三 - Data Stream API的输出
算子
底层原理
之前做过数据平台,对于实时数据采集,使用了Flink。现在想想,在数据开发平台中,Flink的身影几乎无处不在,由于之前是边用边学,总体有点混乱,借此空隙,整理一下Flink的内容,算是一个知识积累,同时也分享给大家。注意:由于框架不同版本改造会有些使用的不同,因此本次系列中使用基本框架是Flink-1.19.x,Flink支持多种语言,这里的所有代码都是使用java,JDK版本使用的是19。代码
linmoo1986
·
2025-05-10 10:06
flink
flink
大数据
输出算子
底层原理
Spark
Streaming之persist缓存
Spark
Streaming之缓存与RDD的缓存类似,DStream也允许用户将数据持久化到内存中,只需要使用DStream.persist()方法,就会自动将DSstream中的数据缓存在内存中,这对需要多次计算的
稳哥的哥
·
2025-05-10 09:26
SparkStreaming
Spark
Core -- CheckPoint && Cache && Lineage血统
1、Cache缓存:因为
Spark
中对每一个RDD执行的
算子
操作的时候,都需要从数据源头计算一遍,就会导致RDD被重复计算,浪费资源,消耗时间,影响整体的性能。
新手小农
·
2025-05-10 09:55
Spark
3.1.3
spark
大数据
分布式
1024程序员节
Spark
2.2-persist checkpoint lineage解析
源码版本:2.2如有错误请指正一、背景
Spark
中每一个RDD都记录它的血缘lineage,根据lineage,我们可以实现容错机制和数据重用。
立君在学习
·
2025-05-10 09:54
spark学习
yarn的概述
支持多种计算框架(如MapReduce、
Spark
、Flink等)。提供资
洋芋爱吃芋头
·
2025-05-10 08:22
java
大数据
开发语言
spark
缓存-cache
importorg.apache.
spark
.
洋芋爱吃芋头
·
2025-05-10 08:22
spark
缓存
大数据
spark
缓存-persist
存储级别指定persist:可以通过传入StorageLevel参数来指定不同的持久化级别。常见的持久化级别有:MEMORY_ONLY:将RDD以Java对象的形式存储在JVM的内存中。若内存不足,部分分区将不会被缓存,需要时会重新计算。MEMORY_AND_DISK:优先把RDD以Java对象的形式存储在JVM的内存中。若内存不足,会把多余的分区存储到磁盘上。DISK_ONLY:将RDD的数据存
洋芋爱吃芋头
·
2025-05-10 08:51
spark
缓存
大数据
大数据领域数据架构的分布式系统设计
大数据领域数据架构的分布式系统设计关键词:大数据、分布式系统、数据架构、Hadoop、
Spark
、数据分区、容错机制摘要:本文深入探讨大数据领域中的数据架构和分布式系统设计。
AI天才研究院
·
2025-05-10 05:00
大数据
架构
ai
Azure Databricks:数据创新与智能决策的云端利器
卓越性能,
Spark
环境加速分析Az
领驭科技
·
2025-05-10 03:14
azure
microsoft
Spark
-core-RDD入门
RDD基本概念ResilientDistributedDataset叫做弹性分布式数据集,是
Spark
中最基本的数据抽象,是分布式计算的实现载体,代表一个不可变,可分区,里面的元素并行计算的集合。
夏天吃哈密瓜
·
2025-05-10 00:30
spark
大数据
分布式
spark
start-thriftserver.sh & Kubernetes
启动命令shsbin/start-thriftserver.sh–masterk8s://https://192.168.99.108:8443–name
spark
-thriftserver–conf
spark
.executor.instances
zhixingheyi_tian
·
2025-05-09 18:12
spark
大数据
云计算
spark
kubernetes
大数据
Spark
之 FileSourceScanExec Operator
casetest("
SPARK
decoderwithoutcodegen"){withSQLConf(SQLConf.WHOLESTAGE_CODEGEN_ENABLED.key->"false"){
spark
.catalog.createTable
zhixingheyi_tian
·
2025-05-09 18:12
spark
spark
大数据
分布式
Spark
之 Aggregate
Aggregate参考链接:https://github.com/PZXWHU/
Spark
SQL-Kernel-Profiling完整的聚合查询的关键字包括groupby、cube、groupingsets
zhixingheyi_tian
·
2025-05-09 18:12
spark
spark
大数据
分布式
Spark
之 DataFrame
4,200,12),(5,300,12),(6,300,15)).toDF("StudentID","Class","Age")df.createOrReplaceTempView("student")
spark
.sql
zhixingheyi_tian
·
2025-05-09 18:42
spark
Spark
Sql
spark
大数据
big
data
CDH集群
spark
-shell执行过程分析
目的刚入门
spark
,安装的是CDH的版本,版本号
spark
-core_2.11-2.4.0-cdh6.2.1,部署了cdh客户端(非集群节点),本文主要以
spark
-shell为例子,对在cdh客户端上提交
格格巫 MMQ!!
·
2025-05-09 09:17
hadoop
spark
大数据
分布式
《
spark
》
这是一篇关于
Spark
概述的文章,主要介绍了
Spark
的基本概念、与Hadoop的关系、核心模块以及运行模式。
快乐的蛋挞
·
2025-05-09 09:11
spark
Spark
处理过程-案例数据清洗
(一)需求说明准备十条符合包含用户信息的文本文件,每行格式为姓名,年龄,性别,需要清洗掉年龄为空或者非数字的行。例如:张三,25,男李四,,女王五,30,男赵六,a,女孙七,35,男周八,40,女吴九,abc,男郑十,45,女王十,50,男李二,55,女(二)思路分析读入文件对每一行数据进行分析字段拆分,拆分出年龄这个字段判断如果它不是数字或者缺失,则忽略这条数据否则保存(三)代码展示import
悻运
·
2025-05-09 08:41
spark
大数据
分布式
基于Flink+Hologres搭建实时数仓
ApachePaimon是一种流批统一的数据湖存储格式,结合Flink及
Spark
构建流批处理的实时湖仓一体架构。
soso1968
·
2025-05-09 08:39
flink
大数据
2025-03-21(DS复习): Databricks 的技术架构
以下是Databricks技术架构的详细介绍:1.Databricks的核心组件1.1DatabricksRuntime基于Apache
Spark
:DatabricksRuntime是Databricks
BgShkTech 必杀技
·
2025-05-09 05:23
AI
复习课
Databricks
AI编译器对比:TVM vs MLIR vs Triton在大模型部署中的工程选择
本文基于NVIDIAA100与GoogleTPUv4平台,通过BERT-base(110M)和GPT-2(1.5B)的实测数据,对比TVM、MLIR、Triton三大编译框架在动态shape支持、
算子
融合效率
学术猿之吻
·
2025-05-09 04:14
人工智能
mlir
量子计算
pytorch
深度学习
分布式
shell
spark
导入包,如何在
Spark
Shell中运行外部jar函数
Icreatedajarpackagefromaprojectbythisfile-tree:build.sbtsrc/mainsrc/main/scalasrc/main/scala/Tester.scalasrc/main/scala/main.scalawhereTesterisaclassbyafunction(nameisprint())andmainhasanobjecttorunth
曾杰律师
·
2025-05-09 03:38
shell
spark
导入包
Flink + Kafka 构建实时指标体系的实战方法论
在数字化运营趋势下,分钟级指标反馈能力变得尤为重要:✅营销投放实时监控CTR/CVR✅业务增长实时观测UV/PV✅运维系统实时计算告警数/成功率传统离线计算(Hive/
Spark
Batch)难以满足这种实时性需求
晴天彩虹雨
·
2025-05-09 02:01
Flink
+
Kafka
实时数仓实战
flink
kafka
linq
数据仓库
大数据
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他