E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
********Spark
【
spark
--scala】--环境配置
文章目录scala
spark
scala官网下载二进制包添加环境变量#setscalaexportSCALA_HOME=/usr/local/src/scala-2.11.8exportPATH=$PATH
QX_hao
·
2025-04-14 05:40
spark
scala
大数据
java dataframe map_
Spark
DataFrame 开发指南
DataFrame是
Spark
在RDD之后新推出的一个数据集,从属于
Spark
SQL模块,适用于结构化数据。对于我们这些用惯了数据库表和散列/字典结构的人来说,尤为亲切。
独自冷静的时光
·
2025-04-13 07:46
java
dataframe
map
Spark
详解(二、
Spark
Core)
Spark
Core是
Spark
计算引擎的基础,后面的
spark
sql以及
spark
streaming等,都是基于
Spark
Core的。这里笔者就开始详细的介绍
Spark
Core。
杨老七
·
2025-04-13 05:38
SparkNode
spark
大数据
big
data
局域网文件共享软件 开源_4个用于共享文件的开源工具
许多人通过使用诸如ownCloud,Nextcloud或
Spark
leShare之类的应用程序来完成自己对开源的信念。这三款游戏既坚固又灵活,但它们并不是镇上唯一的游戏。
cumo7370
·
2025-04-12 22:27
java
python
大数据
编程语言
linux
Spark
-Core编程二
23)sortByKeyimportorg.apache.
spark
.rdd.RDDimportorg.apache.
spark
.
等雨季
·
2025-04-12 19:38
spark
Spark
Core个人总结
1、
spark
core核心概念:RDD理解为一个元数据即可。(1)依赖(2)分区(3)本地性(4)计算函数,按照分区为单位进行计算(5)不可变RDD的分区和block一一对应。
小可0306
·
2025-04-12 19:37
spark
spark
大数据
分布式
Seatunnel系列之:Apache Iceberg sink connector和往Iceberg同步数据任务示例
支持的Iceberg版本二、支持的引擎三、描述四、支持的数据源信息五、数据库依赖六、数据类型映射七、Sink选项八、往Iceberg同步数据任务示例一、支持的Iceberg版本1.4.2二、支持的引擎
Spark
FlinkSeaTunnelZeta
快乐骑行^_^
·
2025-04-12 18:01
大数据
Seatunnel系列
Apache
Iceberg
sink
connector
往Iceberg同步数据
任务示例
【Hadoop入门】Hadoop生态之Oozie简介
Oozie允许用户将多个Hadoop任务(如MapReduce作业、Pig脚本、Hive查询、
Spark
作业等)组合成一个逻
IT成长日记
·
2025-04-12 18:27
大数据成长笔记
hadoop
大数据
分布式
【
Spark
】
Spark
的堆内内存和堆外内存
今天学习
Spark
内存管理。欢迎关注公众号。
和风与影
·
2025-04-12 12:48
Spark
大数据
spark
Spark
Driver生成过程详解
在Apache
Spark
中,Driver的生成过程取决于部署模式,但其核心触发点是应用启动时初始化
Spark
Context的步骤。
BenBen尔
·
2025-04-12 11:47
spark
大数据
分布式
人工智能图像识别
Spark
Core3
Spark
Core3
Spark
-Core编程(三)1.key-value类型:23)sortByKey函数签名defsortByKey(ascending:Boolean=true,numPartitions
戈云 1106
·
2025-04-12 11:46
人工智能
scala
spark
spark
的堆外内存,是在jvm内还是操作系统内存内?
在Apache
Spark
中,堆外内存(Off-HeapMemory)是直接分配在操作系统的物理内存中,而非JVM堆内内存。
BenBen尔
·
2025-04-12 11:45
spark
jvm
大数据
hadoop
Spark
Core 编程
1.
spark
Core实现wordCount(Idea+scala)importorg.apache.
spark
.
曼路
·
2025-04-12 03:48
hadoop
Spark
运行
一文读懂
Spark
:从核心概念到实战编程在大数据处理领域,
Spark
凭借其高效的计算能力和灵活的架构脱颖而出。今天,就来和大家深入聊聊
Spark
,帮助初学者快速入门。
美味的大香蕉
·
2025-04-12 03:16
笔记
Spark
Core编程
一文读懂
Spark
Core编程核心要点最近在学习大数据处理框架
Spark
,今天来给大家分享一下
Spark
Core编程中非常重要的内容,包括RDD算子、累加器和广播变量,希望能帮助大家更好地理解和掌握
Spark
美味的大香蕉
·
2025-04-12 03:16
笔记
大数据技术之Scala
Spark
运行架构核心是一个计算引擎核心组件1.Driver(驱动器)角色:
Spark
作业的“大脑”,负责解析用户代码、生成任务并调度执行。功能:将用户程序转换为作业(Job)。
罗婕斯特
·
2025-04-12 02:42
scala
scala中迭代器
操作的值而第二段代码是通过iterator然后在调用flatMap方法可以看到结果是交替输出每次计算好一个值然后输出然后在计算在输出因此可以得到scalaiternator是懒执行的不会直接计算结果,这在
spark
ThomasgGx
·
2025-04-11 19:56
spark
scala
spark
开发语言
【大数据分析】基于
Spark
大数据商品数据分析可视化系统(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅
文章目录【大数据分析】基于
spark
大数据商品数据分析可视化系统(完整系统源码+数据库+开发笔记+详细部署教程+虚拟机分布式启动教程)✅一、项目背景二、项目目标三、项目功能四、项目优势五、应用场景六、开发技术介绍七
奥特曼it
·
2025-04-11 15:58
Spark
scikit-learn
Hive
大数据
分布式
数据分析
spark
介绍与编程
什么是RDDRDD(ResilientDistributedDataset)叫做弹性分布式数据集,是
Spark
中最基本的数据处理模型。
zzh-
·
2025-04-11 13:46
笔记
【无标题】
spark
编程
RDD[T]defdistinct(numPartitions:Int)(implicitord:Ordering[T]=null):RDD[T]➢函数说明将数据集中重复的数据去重valdataRDD=
spark
Context.makeRDD
zzh-
·
2025-04-11 13:46
笔记
【无标题】
spark
core编程
Spark
默认的分区器是HashPartitionervalrdd:RDD[(Int,String)]=sc.makeRDD(Array((1,"aaa"),(2,"bbb"),(3,"ccc")),3
zzh-
·
2025-04-11 13:46
笔记
scala和
spark
用到的依赖_使用scala开发
spark
入门总结
使用scala开发
spark
入门总结一、
spark
简单介绍关于
spark
的介绍网上有很多,可以自行百度和google,这里只做简单介绍。
淡庸
·
2025-04-11 13:15
hive on
spark
报错解决(基于hive-3.1.3和
spark
-2.3.0)
相关配置可参考:https://blog.csdn.net/weixin_46389691/article/details/134126254原作者:月亮给我抄代码他写的很详细ERROR:Jobfailedwithjava.lang.IllegalAccessError:triedtoaccessmethodcom.google.common.base.Stopwatch.()Vfromclass
我不会敲代码a
·
2025-04-11 13:11
hive
spark
hadoop
构建高可用大数据平台:Hadoop与
Spark
分布式集群搭建指南
Hadoop和
Spark
作为大数据处理的“黄金搭档”,如何在分布式高可用(HA)环境下稳如磐石地运行?答案就在于一个精心构建的HA运行环境。它不仅能扛住故障,还能让你的测试效率起飞。
朱公子的Note
·
2025-04-11 07:38
分布式
hadoop
spark
大数据测试
Spark
Core学习总结
一、
Spark
运行架构1.核心组件Driver(驱动器):执行main方法,负责将用户程序转换为作业(Job)。调度任务(Task)到Executor,并监控任务执行状态。通过UI展示作业运行情况。
淋一遍下雨天
·
2025-04-11 07:01
spark
学习
大数据
Spark
Core
以下是今天学习的知识点与代码测试:
Spark
Core
Spark
-Core编程(二)RDD转换算子RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型和Key-Value类型。
[太阳]88
·
2025-04-11 07:01
windows
python
linux
大数据分析(
Spark
/Flink实时计算)
(即生成、即决策分析)Apache
Spark
和ApacheFlink是两种广泛使用的开源框架,它们在处理实时数据流方面各有优势。
小柚净静
·
2025-04-10 22:12
spark
flink
大数据
spark
第二章
Spark
Core第四节RDD相关概念
Spark
计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于处理不同的应用场景。
sho_re
·
2025-04-10 22:08
spark
spark
core
Spark
Core一、
Spark
-Core编程(二)1、RDD转换算子RDD根据数据处理方式的不同将算子整体上分为Value类型、双Value类型和Key-Value类型。
北屿升:
·
2025-04-10 17:07
新浪微博
微信
facebook
微信公众平台
百度
spark
架构和RDD相关概念
运行架构:
Spark
采用master-slave结构,Driver作为master负责作业任务调度,Executor作为slave负责实际执行任务。
小名叫咸菜
·
2025-04-10 16:30
spark
架构
Spark
Core编程
在大数据处理领域,
Spark
Core是极为重要的框架,而其中的算子则是数据处理的核心武器。今天就来给大家讲讲
Spark
Core编程中的各类算子。Value类型算子是基础。
不要天天开心
·
2025-04-10 12:05
scala
算法
机器学习
Flink在饿了么的应用与实践
本文作者:易伟平(饿了么)整理:姬平(阿里巴巴实时计算部)本文将为大家展示饿了么大数据平台在实时计算方面所做的工作,以及计算引擎的演变之路,你可以借此了解Storm、
Spark
、Flink的优缺点。
Apache Flink
·
2025-04-10 10:51
Flink
大数据
实时计算
大数据
Flink
实时计算
流计算
Spark
RDD数据数据读取:readTextFile和HadoopRDD
《
Spark
RDD数据读取:readTextFile和HadoopRDD》1.背景介绍1.1问题的由来在大数据时代,数据的规模和复杂性都在不断增长。传统的数据处理方式已经无法满足现代应用的需求。
AI天才研究院
·
2025-04-10 10:49
AI大模型企业级应用开发实战
DeepSeek
R1
&
大数据AI人工智能大模型
计算
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
3.4
Spark
RDD运行架构
文章目录基本概念1、什么是RDD2、其他概念
Spark
架构设计
Spark
运行流程RDD运行原理1、RDD概念2、RDD的特性高效的容错性3、RDD运行过程RDD之间的依赖关系Shuffle操作RDD的优势
炫云云
·
2025-04-10 10:49
大数据
算法和数据结构
大数据
spark
hadoop
操作系统
linux
spark
运行架构
Spark
运行架构1.运行架构
Spark
采用标准的masterslave结构:Driver:作为master,负责执行
Spark
任务的main方法,管理作业调度、任务分配、Executor跟踪及UI展示
不要不开心了
·
2025-04-10 09:46
神经网络
计算机视觉
pygame
Spark
RDD相关概念
Spark
运行架构与核心组件1.
Spark
运行梁构
spark
运行架构包括master和slave两个主要部分。master负责管理整个集群的作业任务调度,而slave则负责实际执行任务。
企鹅不耐热.
·
2025-04-10 09:46
spark
大数据
分布式
大数据(5)(基础概念)
Spark
从入门到实战:核心原理与大数据处理实战案例
目录一、背景介绍1.为什么需要
Spark
?
一个天蝎座 白勺 程序猿
·
2025-04-10 08:07
大数据开发从入门到实战合集
大数据
spark
分布式
运行
Spark
会出现恶问题
1.依赖冲突问题:
Spark
依赖众多组件,如Scala、Hadoop等。不同版本的依赖之间可能存在兼容性问题,导致
Spark
无法正常运行。
不要天天开心
·
2025-04-10 05:18
spark
Spark
案例之流量统计(三种方法)
数据集1,2020-02-1814:20:30,2020-02-1814:46:30,201,2020-02-1814:47:20,2020-02-1815:20:30,301,2020-02-1815:37:23,2020-02-1816:05:26,401,2020-02-1816:06:27,2020-02-1817:20:49,501,2020-02-1817:21:50,2020-02-
AokCap
·
2025-04-10 05:18
Spark
spark
scala
大数据
大数据开发-
Spark
-RDD实操案例-http日志分析
1.在生产环境下,如何处理配置文件&&表的数据处理配置文件,或者配置表,一般是放在在线db,比如mysql等关系型数据库,或者后台rd直接丢给你一份文件,数据量比起整个离线数据仓库的大表来说算很小,所以这种情况下,一般的做法是将小表,或者小文件广播出去,那么下面一个例子来看,广播表的使用解决ip地址映射问题数据地址:链接:https://pan.baidu.com/s/1FmFxSrPIynO3u
Hoult-吴邪
·
2025-04-10 05:17
Spark
源码解析(二) 根据
Spark
Rpc 自己动手实践一个跨节点通信
目录一、框架流程:二、Maven搭建Scala导入POM依赖三、根据流程进行编写1、实例Master2、创建RpcEnv3、创建RpcEndpoint4、生成RpcEndpointRef5、RpcEndpointRef发送消息6、防止还没收到消息程序就结束运行7、验证一下,看看结果四、完整代码一、框架流程:1、实例Master2、创建RpcEnv3、Master向RpcEnv注册4、生成RpcEn
小白的大数据历程
·
2025-04-09 19:10
Spark源码解析
spark
大数据
分布式
Invicti v25.3.0 发布,新增功能概览
Invictiv25.3.0forWindows-Web应用程序安全测试Invicti(formerlyNet
spark
er)|WebApplicationandAPISecurityforEnterprise
·
2025-04-09 17:39
web安全
Kafka原理详细介绍
)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/
Spark
_Romeo
·
2025-04-09 12:24
kafka
kafka
Spark
修炼之道(基础篇)——Linux大数据开发基础:第十一节:Shell编程入门(三)
具体如下://用()定义一个数组,注意数组元素间不能用,否则达不到预期目的root@
spark
master:~/ShellLearn
zhouzhihubeyond
·
2025-04-09 05:14
Linux
Spark修炼之道
大数据
shell
【
Spark
】架构与核心组件:大数据时代的必备技能(下)
明明跟你说过:个人主页个人专栏:《大数据前沿:技术与应用并进》行路有良友,便是天堂目录一、引言1、什么是Apache
Spark
2、
Spark
的应用场景:二、
Spark
核心组件之一:RDD1、什么是RDD2
明明跟你说过
·
2025-04-09 05:11
大数据前沿:技术与应用并进
spark
架构
大数据
大数据架构师选型必懂:大数据离线数仓开发框架详解与对比(hive、
Spark
SQL、Impala、Doris)
第一章相关理论1.1大数据离线数仓理论1.1.1基本原理大数据离线数仓,作为一个专门构建用于支持决策分析过程的数据集合,具有面向主题、集成、不可更新以及随时间变化的特点。其核心价值在于,通过对历史数据的深度存储、精细加工、全面整合与深入分析,能够为企业或组织提供一个多角度、多维度的数据视图,从而助力高层管理者做出更为明智与精准的决策。1.2SQL-on-Hadoop解决方案SQL-on-Hadoo
大模型大数据攻城狮
·
2025-04-09 05:10
大数据
hive
spark
大数据架构师
doris面试
数仓选型
数据仓库
Spark
基础之Scala知识总结
史上最全的Scala知识点整理第一章变量及基本数据类型1.1注释1.2标识符命名规范1.3变量1.4字符串1.5数据读取1.6数据类型1.6.1概述1.6.2类型转换1.7运算符第二章流程控制2.1块表达式2.2If判断2.3For循环2.3.1Scala中方法调用的两种方式2.3.2基本语法2.3.3循环返回值2.4While循环2.5Switch2.6中断循环第三章面向函数编程3.1概念3.2
Jason_0to
·
2025-04-08 20:14
大数据
scala
spark
java
Py
Spark
二:常见数据格式及如何读写
在日常工作中,常见的数据文件格式有csv,json和parquet.Comma-separatedvalues(CSV)是一种直接以纯文本方式保存的文件,通常第一行定义了列名,后面是数据。没列之间用逗号分割。因为这个格式是纯文本的,几乎可以用文本编辑器都可以打开。Json也是常见的格式,个人理解可以看做是Key-valuepair来保存数据。如果有很多行数据,每一行的数据都有相同的key的话,个人
·
2025-04-08 20:41
pysparkpython
Spark
性能优化高频面试题及答案
目录高频面试题及答案1.如何通过调整内存管理来优化
Spark
性能?2.如何通过数据持久化优化性能?3.如何通过减少数据倾斜(DataSkew)问题来优化性能?
闲人编程
·
2025-04-08 15:09
程序员面试
spark
性能优化
java
高频
面试
Spark
简介
Spark
是使用Scala语言编写、基于内存运算的大数据计算框架。
upupfeng
·
2025-04-08 11:14
Spark
spark
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他