E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
.spark
Spark
数据倾斜
一、
Spark
数据倾斜介绍1.1数据倾斜介绍
Spark
中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。
火成哥哥
·
2023-11-19 17:10
spark
spark
java
大数据
hive
scala
Spark
数据倾斜
Spark
数据倾斜调优数据倾斜是大数据计算中一个最棘手的问题,出现数据倾斜后,
Spark
作业的性能会比期望值差很多,两大直接后果:
Spark
任务OOM异常退出,数据倾斜拖慢整个任务的执行。
WovJf
·
2023-11-19 17:04
Spark
spark
大数据
分布式
大数据课程结构
1、第一阶段javaSE基础阶段-张一峰2、第二阶段-JavaWeb+数据库阶段-张3、第三阶段-大数据分布式架构-张一峰4、第四阶段-大数据Hadoop实战-张一峰5、第五阶段-大数据
spark
实战-
张一峰
·
2023-11-19 16:31
大数据
大数据
1.javascript 自动定时刷新网页脚本
一、问题跑一些
spark
任务时要运行很久,每次想看最新进度都要手动刷新一下,手按F5按多了很累,就想为什么不搞个自动刷新脚本呢二、解决1.思路输入时间间隔如果时间间隔大于0那么每次时间超过输入的时间间隔后
终回首
·
2023-11-19 14:17
Other
Language
javascript
数仓开发面试题之Hadoop相关
提纲MapReduce原理,map数、reduce数的参数说一下mapjoin与reducejoinhivesql怎么优
spark
和hive的区别数据倾斜几种解决方式数据如何清洗说一下udf、udtf、
话数Science
·
2023-11-19 13:39
面试
大数据
hadoop
大数据
Java 与 Scala 使用Maven混合编译打包
在SpringBoot上使用
spark
的时候会遇到的混合编译问题,在java代码中打包会找不到scala定义的包,即可参考使用如下配置。
kikiki4
·
2023-11-19 12:16
Spark
自定义分区(Partitioner)
基于优化和数据的有序性等问题考虑,某个设备的日志数据分到指定的计算节点,减少数据的网络传输我们都知道
Spark
内部提供了HashPartitioner和RangePartitioner两种分区策略,这两种分区策略在很多情况下都适合我们的场景
达微
·
2023-11-19 11:36
刻意将每天的生活都和英语学习建立连接——新概念英语联想2
笔者每天下班回来总会看见这样的场景,很生气的然后我就想到了新概念28课Whenhereturnshomeatnight,healwaysfindsthatsomeoneha
spark
edacaroutsidehisgate
生财日历
·
2023-11-19 10:52
浅析图数据库 Nebula Graph 数据导入工具——
Spark
Writer
Spark
Writer从Hadoop说起近年来随着大数据的兴起,分布式计算引擎层出不穷。Hadoop是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用。
NebulaGraph
·
2023-11-19 09:22
最新AI创作系统ChatGPT系统运营源码+支持GPT-4多模态模型
一、AI创作系统
Spark
Ai创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
只恨天高
·
2023-11-19 08:52
人工智能
系统源码
chatgpt
chatgpt
人工智能
源码软件
AI写作
2023.11.18 Hadoop之 YARN
支持多个数据处理框架(MapReduce
Spark
Storm等)。具有资源利用率高、运行成本底、数据共享等特点资源调度管理的作用MapReduce是基于yarn运行的,没有y
白白的wj
·
2023-11-19 08:41
database
hadoop
hive
sql
big
data
yarn
Spark
算子 - Python
第1关:Transformation-map#-*-coding:UTF-8-*-frompy
spark
import
Spark
Contextif__name__=="__main__":#*******
垫脚摸太阳
·
2023-11-19 07:05
python
spark
python
spark
算子简单案例 - Python
第1关:WordCount-词频统计#-*-coding:UTF-8-*-frompy
spark
import
Spark
Contextif__name__=="__main__":"""需求:对本地文件系统
垫脚摸太阳
·
2023-11-19 07:35
python
spark
python
企业
spark
案例 —— 出租车轨迹分析(Python)
第1关:
Spark
Sql数据清洗#-*-coding:UTF-8-*-frompy
spark
.sqlimport
Spark
Sessionif__name__=='__main__':
spark
=
Spark
Session.builder.appName
垫脚摸太阳
·
2023-11-19 07:35
python
spark
python
javascript
2018年的AI/ML惊喜及预测19年的走势(二)
此外,
Spark
和Kafka将继续呈现引人注目的受欢迎程度。随着云业务模式快速成熟,企业并购交易将继续加速。巨头将对人工智能领先的创业公司进行大规模收购
城市中迷途小书童
·
2023-11-19 05:08
idea Maven仓库出现xxx.lastUpdate文件,并且Failed to read artifact descriptor for xxx依赖导入失败快速解决方案。
问题:以下面为例,在项目pom.xml中引入org.apache.
spark
spark
-core_2.123.0.0依赖后发现标签内容,变红报错,Failedtoreadartifactdescriptorfor
spark
-core
斑鸠同学
·
2023-11-19 03:35
spark
maven
大数据
Spark
如何在Kubernetes运行官方权威资料
spark
on k8s
Spark
如何在Kubernetes运行官方权威资料文章目录
Spark
如何在Kubernetes运行官方权威资料安全性用户身份卷挂载先决条件工作原理
Spark
集群组件提交应用到kubernetesDocker
wang2leee
·
2023-11-19 03:15
云计算
spark
spark
kubernetes
大数据
spark
高频面试题100题源码解答【建议收藏】---持续更新中
spark
高频面试题100题源码解答【建议收藏】—持续更新中文章目录
spark
高频面试题100题源码解答【建议收藏】---持续更新中1.RDD五个主要特性五个特性代码示例**源码**2.
Spark
重分区
wang2leee
·
2023-11-19 03:44
spark
大数据
spark
大数据
分布式
spark
学习笔记(十一)——
spark
Streaming-概述/特点/构架/DStream入门程序wordcount
目录
Spark
Streaming
spark
StreamingDStream
spark
Streaming特点
spark
Streaming构架背压机制DStream入门
Spark
Streaming
spark
Streaming
Spark
Streaming
一个人的牛牛
·
2023-11-19 00:12
spark
学习
spark
scala
大数据
Spark
学习——1.代表性大数据技术
本篇博客是学习子雨大数据之
Spark
入门教程的学习笔记,仅作学习之用。
楓尘林间
·
2023-11-18 23:37
Spark
Spark
大数据学习
使用
Spark
SQL读取阿里云OSS的数据
读OSS数据创建一个table,并关联OSS目录路径CREATETABLEmy_tableUSINGparquetOPTIONS(path'oss://my_bucket/my_data_dir/dt=20230904',--关联OSS路径header'true',--如果Parquet文件包含列名的头部信息,则设置为'true',否则设置为'false'inferSchema'true'--自动
yangxudong
·
2023-11-18 23:00
sql
spark
阿里云
OSS
使用Jupyter Notebook调试Py
Spark
程序错误总结
项目场景:在Ubuntu16.04hadoop2.6.0
spark
2.3.1环境下简单调试一个Py
Spark
程序,中间遇到的错误总结(发现版对应和基础配置很重要)注意:在前提安装配置好hadoophiveanacondajupyternotebook
spark
zookeeper
Keep Doing this
·
2023-11-18 23:52
spark
jupyter
python
spark
Spark
作业串行与并行提交job
在Scala中,您可以以串行和并行的方式提交
Spark
作业。看看如何使用for和par.foreach构造对应的例子。
Mint6
·
2023-11-18 23:48
spark
spark
大数据
分布式
scala
并行
Spark
资源规划-资源上线评估
1、总体原则以单台服务器128G内存,32线程为例。先设定单个Executor核数,根据Yarn配置得出每个节点最多的Executor数量,每个节点的yarn内存/每个节点数量=单个节点的数量总的executor数=单节点数量*节点数。2、具体提交参数1)executor-cores每个executor的最大核数。根据经验实践,设定在3~6之间比较合理。2)num-executors该参数值=每个
Knight_AL
·
2023-11-18 23:16
Spark优化
spark
javascript
大数据
AI创作系统ChatGPT网站源码/支持DALL-E3文生图/支持最新GPT-4-Turbo模型+Prompt应用
一、AI创作系统
Spark
Ai创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-11-18 22:35
人工智能
AIGC
程序源码
chatgpt
人工智能
prompt
ai
大文件分片上传、断点续传、秒传
小文件上传后端:SpringBoot+JDK17前端:JavaScript+
spark
+md5.min.js一、依赖org.springframework.bootspring-boot-starter-parent3.1.2com.exampleuploadDemo0.0.1
A尘埃
·
2023-11-18 22:33
文件分片上传
断点续传
秒传
JDK1.8 新特性(二)【Stream 流】
今天再来学习一个新的特性,Stream流,光是看名字就觉得和大数据能扯上关系,我们的
Spark
、Flink当中不就都是这种流的概念嘛。
让线程再跑一会
·
2023-11-18 21:30
JavaSE
java
SaprkStreaming广告日志分析实时数仓
一、系统简介参考尚硅谷的
spark
教程中的需求,参考相关思路,详细化各种代码,以及中间很多逻辑的实现方案采用更加符合项目开发的方案,而不是练习,包括整体的流程也有很大的差别,主要是参考需求描述和部分代码功能实现
是阿威啊
·
2023-11-18 21:50
scala
spark
mysql
kafka
zookeeper
SPARK
-SQL - RDD/Dataset/DataFrame的互相转换
转换用到的方法如下rdd(),as(),toDF()代码示例importorg.apache.
spark
.api.java.JavaRDD;importorg.apache.
spark
.api.java.Java
Spark
Context
小哇666
·
2023-11-18 21:50
#
spark
spark
Spark
SQL中的自定义函数-UDF&UDAF
一、UDF(User-Defined-Function)用户自定义函数1、注册UDFudf对象=
spark
.udf.register(参数1,参数2,参数3)参数1:UDF名称,可用于SQL风格参数2:
是阿威啊
·
2023-11-18 21:49
spark基础知识学习和练习
scala
spark
Spark
(三)--
Spark
SQL(三) -- Dataset和DataFrame
目录4.Dataset的特点4.1Dataset是什么?4.2即使使用Dataset的命令式API,执行计划也依然会被优化4.3Dataset的底层是什么?4.4可以获取Dataset对应的RDD表示5.DataFrame的作用和常见操作5.1DataFrame是什么?5.2通过隐式转换创建DataFrame5.3通过外部集合创建DataFrame5.4在DataFrame上可以使用的常规操作5.
HelloWorld闯天涯
·
2023-11-18 21:17
Spark
Spark
(第五节) RDD、DataFrame、DataSet的介绍与比较,创建DataFrame和DataSet,三者之间互相转换,scala代码创建和使用DataFram
基本介绍Dataframe基本概述Dataset基本概述三者的共性三者的区别创建DataFrame读取文本文件创建DataFrame第一种方式:通过RDD配合caseclass进行转换DF第二种方式:通过
spark
Session
hwq317622817
·
2023-11-18 21:43
spark
Spark
SQL 之 DataFrame&DataSet
对象2.从RDD转换成DataFrame对象3.读取Hive中的表,返回DataFrame对象4.调用createDataFrame方法,返回DataFrame对象一、DataFrame的创建1、准备
Spark
Session
是阿威啊
·
2023-11-18 21:31
spark基础知识学习和练习
spark
大数据
Flink原理与实现:详解Flink中的状态管理
硬刚大数据系列文章链接:2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之
Spark
SQL篇2021
王知无(import_bigdata)
·
2023-11-18 19:59
大数据成神之路
flink
big
data
spark
数据处理生产环境_
Spark
根据给定的轨迹编号生成随机16进制颜色
需求根据给定的轨迹编号在这一列后面生成随机颜色_16代码packagetestimportorg.apache.
spark
.sql.
Spark
Sessionimportorg.apache.
spark
.sql.functions
Matrix70
·
2023-11-17 15:56
Spark
数据分析与处理
spark
大数据
分布式
运行示例
spark
Pi计算圆周率(1.1)
1启动
spark
(1)启动hadoop启动成功master节点进程:Slave节点进程:(2)启动
spark
(注意路径)启动成功:Slave1和slave2的进程如下:2将
spark
Pi.scala添加进工程
探索者tl
·
2023-11-17 14:04
云计算
sparkPi
最新AI创作系统ChatGPT系统运营源码/支持最新GPT-4-Turbo模型/支持DALL-E3文生图
一、AI创作系统
Spark
Ai创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
只恨天高
·
2023-11-17 12:57
人工智能
chatgpt
系统源码
chatgpt
人工智能
源码软件
AI作画
数据分析工具Polars实现CSV读写、排序、应用函数、lazy API
适合中、小型数据处理,大型数据建议用
Spark
。安装pipinstallpolarsDataFrame读取CSV读取CSV并设置列名。
小龙在山东
·
2023-11-17 12:29
python
polars
Spark
~~
Spark
性能调优
文章目录第1章
Spark
性能调优1.1常规性能调优1.1.1常规性能调优一:最优资源配置1.1.2常规性能调优二:RDD优化1.1.3常规性能调优三:并行度调节1.1.4常规性能调优四:广播大变量1.1.5
几窗花鸢
·
2023-11-17 10:41
Spark
spark
大数据
分布式
极客时间
Spark
性能调优实战-学习笔记(1)
通用性能调优(一)一、应用开发三原则原则一:使用
spark
自身的调优机制充分利用
Spark
为我们提供的“性能红利”,如钨丝计划、AQE、SQLfunctions等等。钨丝计划的优势?
我不认识CBW
·
2023-11-17 10:40
spark
big
data
大数据
Spark
调优 |
Spark
性能优化实战手册
本文分为四个部分,基本涵盖了所有
Spark
优化的点,面试和实际工作中必备。
大数据技术架构
·
2023-11-17 10:39
大数据
hadoop
spark
java
面试
Spark
性能调优
1常规性能调优1.1常规性能调优一:最优资源配置
Spark
性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略
高个子男孩
·
2023-11-17 10:09
Spark
spark
大数据
scala
Spark
性能调优总结
分配更多资源写完了一个复杂的
spark
作业之后,进行性能调优的时候,首先第一步,我觉得,就是要来调节最优的资源配置;在这个基础之上,如果说你的
spark
作业,能够分配的资源达到了你的能力范围的顶端之后,
星空下的那个人影
·
2023-11-17 10:09
大数据面试
spark
Spark
性能优化四 内存
性能优化分析内容怎么被消耗的如何预估程序会消耗多少内存呢(二)性能优化方案1)高性能序列化类库2)持久化或者checkpoint3)JVM垃圾回收调优4)提高并行度5)数据本地化(一)性能优化分析一个计算任务的执行主要依赖于CPU、内存、带宽
Spark
小崔的技术博客
·
2023-11-17 10:38
大数据学习
spark
性能优化
java
[
Spark
]二
Spark
性能调优|
Spark
任务监控|程序调优|资源调优
二.
spark
性能调优1.
Spark
任务监控对
Spark
性能的调优离不开对任务的监控,只有在运行过程中,通过监控手段发现问题,才能迅速定位问题所在。
胖胖学编程
·
2023-11-17 10:37
spark
spark
大数据
分布式
1024程序员节
spark
-调优-性能调优&内存管理
前置主要涉及6个参数,从3个方面:executor、core、内存的大小,并行度,内存管理进行调优优化的方案资源分配num-executors:
spark
使用多少个executorsexecutor-cores
zdkdchao
·
2023-11-17 10:36
spark
spark
big
data
大数据
spark
性能调优(二):内存
Memory一、
spark
内存简介二、堆内内存or堆外内存?三、如何用好RDDCache?四、OOM怎么办?
我爱夜来香A
·
2023-11-17 10:05
Spark
spark
jvm
大数据
Spark
优化 (一) ---------
Spark
性能调优
Kryo序列化6.调节本地化等待时长二、算子调优1.mapPartitions2.foreachPartition优化数据库操作3.filter与coalesce的配合使用4.repartition解决
Spark
SQL
在森林中麋了鹿
·
2023-11-17 10:34
Spark
spark
大数据
分布式
Scala |
Spark
性能优化 | 资源调优 | 代码调优 | 数据本地化 | 内存调优 |
Spark
Shuffle调优 | 数据倾斜 |
Spark
故障解决
map-side预聚合的shuffle操作5.尽量使用高性能的算子6.使用广播变量7.使用Kryo优化序列化性能8.优化数据结构9.使用高性能的库fastutil四、数据本地化1.数据本地化的级别2.
Spark
幼稚的人呐
·
2023-11-17 10:04
Spark
spark
scala
性能优化
spark
性能调优 | 内存优化
目录我们先了解一下有哪些内存温馨提示RDD示范(
spark
版本2.1.1)RDD进行优化Df和Ds进行示范我们先了解一下有哪些内存1.storage内存存储数据,缓存可预估2.shuffle内存计算joingroupby
Knight_AL
·
2023-11-17 10:00
Spark优化
spark
大数据
分布式
上一页
44
45
46
47
48
49
50
51
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他