E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
********Spark
大数据(5)
Spark
部署核弹级避坑指南:从高并发集群调优到源码级安全加固(附万亿级日志分析实战+智能运维巡检系统)
目录背景一、
Spark
核心架构拆解1.分布式计算五层模型二、五步军工级部署阶段1:环境核弹级校验阶段2:集群拓扑构建阶段3:黄金配置模板阶段4:高可用启停阶段5:安全加固方案三、万亿级日志分析实战1.案例背景
一个天蝎座 白勺 程序猿
·
2025-04-08 11:43
大数据开发从入门到实战合集
大数据
spark
运维
Python 中的错误处理与调试技巧
大数据技术:涵盖Hadoop(HDFS)、Hive、
Spark
、Fli
王子良.
·
2025-04-08 09:00
python
经验分享
python
开发语言
数据分析开源可视化工具
superset简单易用,可以对接mysql、presto、doris、postgresql、ClickHouse、
spark
SQL、hive、oracle、sqlserver、Elasticsearch
PONY LEE
·
2025-04-08 07:17
数据可视化
数据分析
数据可视化
(五)
Spark
大数据开发实战:豆瓣电影数据处理与分析(python版)
目录一、Py
Spark
二、数据介绍三、Py
Spark
大数据开发实战1、数据文件上传HDFS2、导入模块及数据3、数据统计与分析①、计算演员参演电影数②、依次罗列电影番位前十的演员③、按照番位计算演员参演电影数
小楼一夜听春雨258
·
2025-04-08 01:09
大数据
python
大数据
spark
分布式
Spark
零基础入门实战(五)使用Eclipse创建Scala项目
本节讲解在Windows中使用ScalaforEclipseIDE编写Scala程序。安装ScalaforEclipseIDEScalaforEclipseIDE为纯Scala和混合Scala与Java应用程序的开发提供了高级编辑功能,并且有非常好用的Scala调试器、语义突出显示、更可靠的JUnit测试查找器等。ScalaforEclipseIDE的安装有两种方式:一种是在Eclipse中单击H
大数据张老师
·
2025-04-07 22:48
Spark3.X
零基础入门实战
scala
开发语言
后端
Spark
内容分享(二十七):阿里云基于
Spark
的云原生数据湖分析实践
目录
Spark
与云原生的结合1.传统
Spark
集群的痛点2.
Spark
与云原生结合的优势
Spark
onK8s原理介绍1.
Spark
的集群部署模式2.
Spark
onK8s的部署架构3.
Spark
onK8s
之乎者也·
·
2025-04-06 23:24
Spark
内容分享
云原生内容分享
spark
阿里云
云原生
Delta Lake 解析:架构、数据处理流程与最佳实践
DeltaLake是一个基于Apache
Spark
的开源存储层,主要解决传统数据湖(DataLake)缺乏ACID事务、数据一致性和性能优化的问题,使大数据处理更加可靠、高效。
codebat_raymond
·
2025-04-06 22:48
数据仓库
数据库架构
Spark
大数据处理讲课笔记4.1
Spark
SQL概述、数据帧与数据集
文章目录零、本讲学习目标一、
Spark
SQL(一)
Spark
SQL概述(二)
Spark
SQL功能(三)
Spark
SQL结构1、
Spark
SQL架构图2、
Spark
SQL三大过程3、
Spark
SQL内部五大组件
酒城译痴无心剑
·
2025-04-05 20:59
Spark大数据处理讲课笔记
spark
笔记
sql
Spark
(13)HDFS概述
一)HDFS的产生背景及定义1.HDFS产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。2.HDFS定义HDFS(HadoopDistributedFileSystem),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联
北随琛烬入
·
2025-04-05 20:27
spark
hdfs
大数据
K-means聚类自定义距离计算的开源算法选择
如果你想自己定义一个距离的function的话,scikit-learn是不行的,只支持Euclideandistance如果你觉得
spark
可以的话,实际上sprk的k-means也是不行的,好一点的是支持
小小她爹
·
2025-04-05 11:58
大数据与自然语言处理
配置Hadoop集群远程客户端
在Hadoop和
Spark
集群搭建好了以后,如果我们需要向集群中发送、获取文件,或者是执行MapReduce、
Spark
作业,通常是搭建一个外围的、集群的客户端,在这个客户端上进行操作。
赶路人儿
·
2025-04-05 02:58
hadoop
#
spark
hadoop
大数据
big
data
大数据(4.1)Hive架构设计与企业级实战:从内核原理到性能巅峰优化,打造高效数据仓库
目录背景与行业痛点一、Hive内核机制深度拆解1.元数据管理的艺术:Metastore核心原理2.执行引擎的底层博弈:MapReducevs.Tezvs.
Spark
二、企业级数仓建模实战:金融风控场景
一个天蝎座 白勺 程序猿
·
2025-04-05 01:21
大数据开发从入门到实战合集
数据仓库
hive
hadoop
Spark
常用参数解释及建议值
spark
的默认配置文件位于堡垒机上的这个位置:$
SPARK
_CONF_DIR/
spark
-defaults.conf,用户可以自行查看和理解。
螺丝钉X先生
·
2025-04-04 10:43
Spark
Spark
Audio 是什么,和其他的同类 TTS 模型相比有什么优势
而
Spark
Audio的出现,就像是音频
涛涛讲AI
·
2025-04-04 10:43
大模型
人工智能
TTS
python
django
Spark
Streaming 监控UI详解
TableofContents
Spark
基本概念
Spark
监控的三个阶段
Spark
Driver阶段
Spark
Executor阶段
Spark
Streaming阶段
Spark
基本概念Jobjob是application
走向自由
·
2025-04-04 10:11
spark
spark
streaming
monitor
ui
YARN Container与
Spark
Executor参数优先级详解
在
Spark
onYARN环境中,资源参数的配置涉及YARN和
Spark
两个层面的参数设置,它们之间存在一定的优先级关系。
SmartManWind
·
2025-04-04 10:09
spark
javascript
大数据
active状态与standby状态区别
spark
集群一般为一个master和两个slaves,通常情况下,master是active状态,slaves是standby状态。
caibaoli
·
2025-04-04 06:17
实习第4天
实习第四天之spark源码学习
spark
master
slaves
active
standby
Scala核心技术总结(1)
第1章Scala入门1.1Scala概述为什么学习Scala:
Spark
框架是用Scala编写的,学习Scala有助于更好地理解和学习
Spark
。
淋一遍下雨天
·
2025-04-04 01:15
scala
开发语言
后端
前端实现websocket之文件分片上传
前端:1、通过DOM获取文件对象,并且对文件进行MD5加密(文件内容+文件标题形式),采用
Spark
MD5进行文件加密;2、进行分片设置,利用Blob的slice方法进行文件分片处理3、通过ws.send
编辑done
·
2025-04-03 22:22
前端
StructedStreaming消费Kafka数据突然存储不到HDFS
/***消费数据,写到控制台*/valquery=
spark
.sql(sql).writeStream.format("console").
erainm
·
2025-04-03 21:12
问题解决方案
kafka
hdfs
spark
AI大型语言模型企业级应用开发架构实战:实时数据流处理与推理
本文主要阐述通过使用Kafka作为数据队列中间件,
Spark
Streaming作为实时数据流处理引擎,以及F
AI天才研究院
·
2025-04-03 06:08
AI实战
DeepSeek
R1
&
大数据AI人工智能大模型
Python实战
大数据
人工智能
语言模型
AI
LLM
Java
Python
架构设计
Unity设计模式(1)泛型单例模式
暑假期间总结了自己大一时学习了解的一些框架和写的小工具,顺便在这里回顾记录一下GitHub工程文件网址:Blue
Spark
Rain/GameFramwork(github.com)泛型单例模式(Common
徐子竣
·
2025-04-03 05:30
单例模式
Flink &&
Spark
SQL提效神器双双更新
本次
Spark
SQLHelper主要更新了对于Hints的补全支持,Release版本为2025.2.0。
·
2025-04-01 16:36
flinkspark大数据
YARN Container 与
Spark
Executor 的数量关系
YARNContainer与
Spark
Executor的数量关系在
Spark
onYARN部署模式下,YARNContainer和
Spark
Executor的数量确实存在对应关系,但并不是简单的一对一关系
SmartManWind
·
2025-04-01 13:18
spark
hadoop
yarn
Spark
Spark
简介
Spark
的特点运行速度快:使用DAG执行引擎以支持循环数据流与内存计算容易使用:支持使用Scala、Java、Python和R语言进行编程,可以通过
Spark
Shell进行交互式编程通用性
薇晶晶
·
2025-04-01 13:16
大数据
Spark
在 Python 大数据中的作用
一句话总结:
Spark
是一个快速处理海量数据的工具,用Python写代码就能轻松分析TB级的数据(比如日志、用户行为、交易记录等),比传统单机工具(如Excel、Pandas)快几十倍甚至几百倍!
不辉放弃
·
2025-04-01 12:16
大数据
python
Spark
MLlib未来发展趋势:展望未来
Spark
MLlib未来发展趋势:展望未来1.背景介绍1.1什么是
Spark
MLlib?Apache
Spark
MLlib是Apache
Spark
中的机器学习库,提供了多种机器学习算法的实现。
AI天才研究院
·
2025-04-01 11:36
DeepSeek
R1
&
大数据AI人工智能大模型
AI大模型企业级应用开发实战
计算
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
流处理开源框架Flink原理简介和使用
spark
kafkastream示例大数据处理工具Kafka、Zk、
Spark
这篇文章描述了如何搭建kafka、zk和
spark
集群环境本篇文章先简要的举个demo来说明下代码实现过程源码https:/
平凡人笔记
·
2025-04-01 02:31
平凡人笔记
Total size of serialized results of 20 tasks (1088.8 MB) is bigger than
spark
.driver.maxResultSize (
Totalsizeofserializedresultsof20tasks(1088.8MB)isbiggerthan
spark
.driver.maxResultSize(1024.0MB)pypark2.0
Levin__NLP_CV_LLM
·
2025-03-31 23:44
工作中遇到的
spark
SQL小问题:包含某个或某些字符的条件
今天又来总结工作中遇到的问题了,今天是SQL,
spark
引擎需求描述,筛选渠道包含”线上化“的数据也就是讨论where里面的这个筛选条件怎么写一般起手都是whereQDlike'%线上化%‘学习了其他的写法
Terry_trans
·
2025-03-31 06:39
spark
sql
大数据
Spark
中的map、flatMap、mapToPair
目录mapToPairs
spark
的RDD操作
spark
的flatMapflatMap很显然每一行都按照空格拆分成了三行,因此总行数是拆分前的三倍,第一行的内容只剩下原第一行的第一个数据,时间。
青龙悟空
·
2025-03-30 23:58
spark
基于云服务器的数仓搭建-hive/
spark
安装
mysql本地安装安装流程(内存占用200M,升至2.1G)#将资料里mysql文件夹及里面所有内容上传到/opt/software/mysql目录下mkdir/opt/software/mysqlcd/opt/software/mysql/#待上传文件install_mysql.shmysql-community-client-8.0.31-1.el7.x86_64.rpmmysql-commu
AlphaFree_
·
2025-03-30 11:32
服务器
hive
spark
顶级Web应用程序测试工具列表
Web应用程序测试工具:WebLOADDigivanteAcunetixInvicti(formerlyNet
spark
er)TestCompleteAvoAssureAstraWeb功能
旧游无处不堪寻
·
2025-03-29 11:23
测试工具
测试用例
selenium
网络协议
功能测试
jmeter
postman
Spark
2 之 Expression/Functions
ExpressionConvertersrc/main/scala/org/apache/gluten/expression/ExpressionConverter.scalaTopNTransformersrc/main/scala/org/apache/gluten/execution/TopNTransformer.scala
zhixingheyi_tian
·
2025-03-29 01:41
spark
spark
Spark
2 之 FallBack
newValidatorsrc/main/scala/org/apache/gluten/extension/columnar/validator/Validators.scala/***Avalidatorthatdoesn'tinvolvenativevalidation.**ThisistypicallyRASplannerthatdoesnativevalidationinlinewith
zhixingheyi_tian
·
2025-03-29 01:41
spark
spark
【自学笔记】
Spark
基础知识点总览-持续更新
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录Apache
Spark
基础知识点总览目录简介核心组件
Spark
SQLDataFrame与DatasetAPIRDD(弹性分布式数据集
Long_poem
·
2025-03-29 01:37
笔记
spark
大数据
Spark
从HDFS读取时,通常按文件块(block)数量决定初始partition数,这是怎么实现的?
在
Spark
中,从HDFS读取数据时按文件块(block)数量决定初始partition数,这一机制是通过HadoopInputFormat的分片(split)策略实现的。
闯闯桑
·
2025-03-28 16:33
spark
hdfs
大数据
【ESP32】【LLM API】Accessing the Xunfei
Spark
LLM API with ESP32
AccessingtheXunfei
Spark
LLMAPIwithESP32Real-timeconversationwithXunfei
Spark
largelanguagemodelviaESP32microcontrollerIntroductionWiththerapiddevelopmentofartificialintelligencetechnology
hmywillstronger
·
2025-03-28 06:21
spark
大数据
分布式
Buffer overFolw---Kryo序列化出现缓冲区溢出的问题解决
问题:由于我的数据量太大,我设置批次为10000万,50w数据大概有400M左右,然后进行
spark
数据处理时候报错为org.apache.
spark
.
Spark
Exception:Kryoserializationfailed
Matrix70
·
2025-03-27 22:59
#
spark
大数据
分布式
Spark
大数据分析与实战笔记(第四章
Spark
SQL结构化数据文件处理-01)
文章目录每日一句正能量第4章
Spark
SQL结构化数据文件处理章节概要4.1
Spark
SQL概述4.1.1
Spark
SQL的简介4.1.2
Spark
SQL架构每日一句正能量世事洞明皆学问,人情练达即文章
想你依然心痛
·
2025-03-27 10:19
#
Spark大数据分析与实战
spark
数据分析
笔记
Hadoop/
Spark
生态
Hadoop/
Spark
生态是大数据处理的核心技术体系,专为解决海量数据的存储、计算和分析问题而设计。以下从底层原理到核心组件详细讲解,帮助你快速建立知识框架!一、为什么需要Hadoop/
Spark
?
不辉放弃
·
2025-03-27 09:15
大数据
数据湖和Apache Iceberg,Apache Hudi,Delta Lake
数据湖这个词目前已经流行开来,逐步被数据相关的从业者接受,可能还有很多人不太清楚它和Hadoop,Hive,
Spark
这些大数据系统的区别,简单说数据湖是个业务概念,主要是为了区别传统数仓这个概念的(传统数仓的定义
西土城计划
·
2025-03-27 05:17
apache
big
data
大数据
Py
Spark
二:常见数据格式及如何读写
在日常工作中,常见的数据文件格式有csv,json和parquet.Comma-separatedvalues(CSV)是一种直接以纯文本方式保存的文件,通常第一行定义了列名,后面是数据。没列之间用逗号分割。因为这个格式是纯文本的,几乎可以用文本编辑器都可以打开。Json也是常见的格式,个人理解可以看做是Key-valuepair来保存数据。如果有很多行数据,每一行的数据都有相同的key的话,个人
·
2025-03-26 21:52
pysparkpython
读取hdfs上snappy压缩文件并发送kafka的两种方式速度测试
snappy压缩的文件,要把这份文件中的数据读出来并发送给kafka解决思路平时我90%的时间都是在消费kafka,现在要写入kafka,我承认我第一反应是懵逼的;不过这并难不倒天资聪慧的我,我首先想到的就是用
spark
今天上上签
·
2025-03-26 04:40
Spark&Hbase
spark
大数据
java
json
【Python系列】高效Parquet数据处理策略:合并与分析实践
Parquet作为一种高效的列存储格式,被广泛应用于大数据处理框架中,如Apache
Spark
、ApacheHive等。
小团团0
·
2025-03-24 12:41
python
开发语言
spark
explain如何使用
在
Spark
中,explain是分析SQL或DataFrame执行计划的核心工具,通过不同模式可展示查询优化和执行的详细信息,默认情况下,这个语句只提供关于物理计划的信息。
fzip
·
2025-03-24 00:14
Spark
spark
执行计划
【
Spark
】查询优化中分区(Partitioning)和分桶(Bucketing)是什么关系?什么时候应当分区,什么时候应当分桶?
在学习
Spark
的过程中,分区和分桶乍一看很像,都能为了计算加速,但是仔细一想,一查还是有些差异的,甚至说差异很大。那么具体有什么差异点,有什么相同点。我做出了如下的整理,供大家参考,欢迎指正。
petrel2015
·
2025-03-23 23:37
spark
大数据
分布式
数据库
py
spark
学习rdd处理数据方法——学习记录
python黑马程序员"""文件,按JSON字符串存储1.城市按销售额排名2.全部城市有哪些商品类别在售卖3.上海市有哪些商品类别在售卖"""frompy
spark
import
Spark
Conf,
Spark
Contextimportosimportjsonos.environ
亭午
·
2025-03-23 20:12
学习
数据湖Iceberg、Hudi和Paimon比较_数据湖框架对比(1)
ApacheIcebergApacheHudiApachePaimonSchemaEvolutionALLback-compatibleback-compatibleSelf-definedschemaobjectYESNO(
spark
-schema
2301_79098963
·
2025-03-23 17:45
程序员
知识图谱
人工智能
Apache大数据旭哥优选大数据选题
售后态度和技术都很重要定制按需求做要求不高就实惠一点定制需提前沟通好怎么做,这样才能避免不必要的麻烦python、flask、Django、mapreduce、mysqljava、springboot、vue、echarts、hadoop、
spark
Apache大数据旭
·
2025-03-23 13:12
大数据定制选题
java
hadoop
spark
开发语言
idea
hive
数据库架构
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他