.spark 第48页

Spark 数据倾斜

一、Spark数据倾斜介绍1.1数据倾斜介绍Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题，是由于不同的key对应的数据量不同导致的不同task所处理的数据量不同的问题。

火成哥哥·2023-11-19 17:10

Spark数据倾斜

Spark数据倾斜调优数据倾斜是大数据计算中一个最棘手的问题，出现数据倾斜后，Spark作业的性能会比期望值差很多，两大直接后果:Spark任务OOM异常退出，数据倾斜拖慢整个任务的执行。

WovJf·2023-11-19 17:04

大数据课程结构

1、第一阶段javaSE基础阶段-张一峰2、第二阶段-JavaWeb+数据库阶段-张3、第三阶段-大数据分布式架构-张一峰4、第四阶段-大数据Hadoop实战-张一峰5、第五阶段-大数据spark实战-

张一峰·2023-11-19 16:31

1.javascript 自动定时刷新网页脚本

一、问题跑一些spark任务时要运行很久，每次想看最新进度都要手动刷新一下，手按F5按多了很累，就想为什么不搞个自动刷新脚本呢二、解决1.思路输入时间间隔如果时间间隔大于0那么每次时间超过输入的时间间隔后

终回首·2023-11-19 14:17

数仓开发面试题之Hadoop相关

提纲MapReduce原理，map数、reduce数的参数说一下mapjoin与reducejoinhivesql怎么优spark和hive的区别数据倾斜几种解决方式数据如何清洗说一下udf、udtf、

话数Science·2023-11-19 13:39

Java 与 Scala 使用Maven混合编译打包

在SpringBoot上使用spark的时候会遇到的混合编译问题，在java代码中打包会找不到scala定义的包，即可参考使用如下配置。

kikiki4·2023-11-19 12:16

Spark自定义分区(Partitioner)

基于优化和数据的有序性等问题考虑，某个设备的日志数据分到指定的计算节点，减少数据的网络传输我们都知道Spark内部提供了HashPartitioner和RangePartitioner两种分区策略，这两种分区策略在很多情况下都适合我们的场景

达微·2023-11-19 11:36

刻意将每天的生活都和英语学习建立连接——新概念英语联想2

笔者每天下班回来总会看见这样的场景，很生气的然后我就想到了新概念28课Whenhereturnshomeatnight,healwaysfindsthatsomeonehasparkedacaroutsidehisgate

生财日历·2023-11-19 10:52

浅析图数据库 Nebula Graph 数据导入工具——Spark Writer

SparkWriter从Hadoop说起近年来随着大数据的兴起，分布式计算引擎层出不穷。Hadoop是Apache开源组织的一个分布式计算开源框架，在很多大型网站上都已经得到了应用。

NebulaGraph·2023-11-19 09:22

2023.11.18 Hadoop之 YARN

支持多个数据处理框架（MapReduceSparkStorm等）。具有资源利用率高、运行成本底、数据共享等特点资源调度管理的作用MapReduce是基于yarn运行的,没有y

白白的wj·2023-11-19 08:41

Spark算子 - Python

第1关：Transformation-map#-*-coding:UTF-8-*-frompysparkimportSparkContextif__name__=="__main__":#*******

垫脚摸太阳·2023-11-19 07:05

spark算子简单案例 - Python

第1关：WordCount-词频统计#-*-coding:UTF-8-*-frompysparkimportSparkContextif__name__=="__main__":"""需求：对本地文件系统

垫脚摸太阳·2023-11-19 07:35

企业spark案例 —— 出租车轨迹分析(Python)

第1关：SparkSql数据清洗#-*-coding:UTF-8-*-frompyspark.sqlimportSparkSessionif__name__=='__main__':spark=SparkSession.builder.appName

垫脚摸太阳·2023-11-19 07:35

2018年的AI/ML惊喜及预测19年的走势（二）

此外，Spark和Kafka将继续呈现引人注目的受欢迎程度。随着云业务模式快速成熟，企业并购交易将继续加速。巨头将对人工智能领先的创业公司进行大规模收购

城市中迷途小书童·2023-11-19 05:08

idea Maven仓库出现xxx.lastUpdate文件，并且Failed to read artifact descriptor for xxx依赖导入失败快速解决方案。

问题：以下面为例，在项目pom.xml中引入org.apache.sparkspark-core_2.123.0.0依赖后发现标签内容，变红报错，Failedtoreadartifactdescriptorforspark-core

斑鸠同学·2023-11-19 03:35

Spark 如何在Kubernetes运行官方权威资料spark on k8s

Spark如何在Kubernetes运行官方权威资料文章目录Spark如何在Kubernetes运行官方权威资料安全性用户身份卷挂载先决条件工作原理Spark集群组件提交应用到kubernetesDocker

wang2leee·2023-11-19 03:15

spark高频面试题100题源码解答【建议收藏】---持续更新中

spark高频面试题100题源码解答【建议收藏】—持续更新中文章目录spark高频面试题100题源码解答【建议收藏】---持续更新中1.RDD五个主要特性五个特性代码示例**源码**2.Spark重分区

wang2leee·2023-11-19 03:44

spark学习笔记（十一）——sparkStreaming-概述/特点/构架/DStream入门程序wordcount

目录SparkStreamingsparkStreamingDStreamsparkStreaming特点sparkStreaming构架背压机制DStream入门SparkStreamingsparkStreamingSparkStreaming

一个人的牛牛·2023-11-19 00:12

Spark学习——1.代表性大数据技术

本篇博客是学习子雨大数据之Spark入门教程的学习笔记，仅作学习之用。

楓尘林间·2023-11-18 23:37

使用Spark SQL读取阿里云OSS的数据

读OSS数据创建一个table，并关联OSS目录路径CREATETABLEmy_tableUSINGparquetOPTIONS(path'oss://my_bucket/my_data_dir/dt=20230904',--关联OSS路径header'true',--如果Parquet文件包含列名的头部信息，则设置为'true'，否则设置为'false'inferSchema'true'--自动

yangxudong·2023-11-18 23:00

使用Jupyter Notebook调试PySpark程序错误总结

项目场景：在Ubuntu16.04hadoop2.6.0spark2.3.1环境下简单调试一个PySpark程序，中间遇到的错误总结（发现版对应和基础配置很重要）注意：在前提安装配置好hadoophiveanacondajupyternotebooksparkzookeeper

Keep Doing this·2023-11-18 23:52

Spark作业串行与并行提交job

在Scala中，您可以以串行和并行的方式提交Spark作业。看看如何使用for和par.foreach构造对应的例子。

Mint6·2023-11-18 23:48

Spark资源规划-资源上线评估

1、总体原则以单台服务器128G内存，32线程为例。先设定单个Executor核数，根据Yarn配置得出每个节点最多的Executor数量，每个节点的yarn内存/每个节点数量=单个节点的数量总的executor数=单节点数量*节点数。2、具体提交参数1）executor-cores每个executor的最大核数。根据经验实践，设定在3~6之间比较合理。2）num-executors该参数值=每个

Knight_AL·2023-11-18 23:16

AI创作系统ChatGPT网站源码/支持DALL-E3文生图/支持最新GPT-4-Turbo模型+Prompt应用

一、AI创作系统SparkAi创作系统是基于OpenAI很火的ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2023-11-18 22:35

大文件分片上传、断点续传、秒传

小文件上传后端：SpringBoot+JDK17前端：JavaScript+spark+md5.min.js一、依赖org.springframework.bootspring-boot-starter-parent3.1.2com.exampleuploadDemo0.0.1

A尘埃·2023-11-18 22:33

JDK1.8 新特性（二）【Stream 流】

今天再来学习一个新的特性，Stream流，光是看名字就觉得和大数据能扯上关系，我们的Spark、Flink当中不就都是这种流的概念嘛。

让线程再跑一会·2023-11-18 21:30

SaprkStreaming广告日志分析实时数仓

一、系统简介参考尚硅谷的spark教程中的需求，参考相关思路，详细化各种代码，以及中间很多逻辑的实现方案采用更加符合项目开发的方案，而不是练习，包括整体的流程也有很大的差别，主要是参考需求描述和部分代码功能实现

是阿威啊·2023-11-18 21:50

SPARK-SQL - RDD/Dataset/DataFrame的互相转换

转换用到的方法如下rdd()，as()，toDF()代码示例importorg.apache.spark.api.java.JavaRDD;importorg.apache.spark.api.java.JavaSparkContext

小哇666·2023-11-18 21:50

SparkSQL中的自定义函数-UDF&UDAF

一、UDF（User-Defined-Function）用户自定义函数1、注册UDFudf对象=spark.udf.register(参数1，参数2，参数3)参数1：UDF名称，可用于SQL风格参数2：

是阿威啊·2023-11-18 21:49

Spark（三）-- SparkSQL（三） -- Dataset和DataFrame

目录4.Dataset的特点4.1Dataset是什么?4.2即使使用Dataset的命令式API,执行计划也依然会被优化4.3Dataset的底层是什么?4.4可以获取Dataset对应的RDD表示5.DataFrame的作用和常见操作5.1DataFrame是什么?5.2通过隐式转换创建DataFrame5.3通过外部集合创建DataFrame5.4在DataFrame上可以使用的常规操作5.

HelloWorld闯天涯·2023-11-18 21:17

Spark（第五节） RDD、DataFrame、DataSet的介绍与比较，创建DataFrame和DataSet，三者之间互相转换，scala代码创建和使用DataFram

基本介绍Dataframe基本概述Dataset基本概述三者的共性三者的区别创建DataFrame读取文本文件创建DataFrame第一种方式：通过RDD配合caseclass进行转换DF第二种方式：通过sparkSession

hwq317622817·2023-11-18 21:43

SparkSQL 之 DataFrame&DataSet

对象2.从RDD转换成DataFrame对象3.读取Hive中的表，返回DataFrame对象4.调用createDataFrame方法，返回DataFrame对象一、DataFrame的创建1、准备SparkSession

是阿威啊·2023-11-18 21:31

Flink原理与实现：详解Flink中的状态管理

硬刚大数据系列文章链接：2021年从零到大数据专家的学习指南(全面升级版)2021年从零到大数据专家面试篇之Hadoop/HDFS/Yarn篇2021年从零到大数据专家面试篇之SparkSQL篇2021

王知无(import_bigdata)·2023-11-18 19:59

数据处理生产环境_Spark根据给定的轨迹编号生成随机16进制颜色

需求根据给定的轨迹编号在这一列后面生成随机颜色_16代码packagetestimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.functions

Matrix70·2023-11-17 15:56

运行示例sparkPi计算圆周率（1.1）

1启动spark(1)启动hadoop启动成功master节点进程：Slave节点进程：(2)启动spark（注意路径）启动成功：Slave1和slave2的进程如下：2将sparkPi.scala添加进工程

探索者tl·2023-11-17 14:04

数据分析工具Polars实现CSV读写、排序、应用函数、lazy API

适合中、小型数据处理，大型数据建议用Spark。安装pipinstallpolarsDataFrame读取CSV读取CSV并设置列名。

小龙在山东·2023-11-17 12:29

Spark~~Spark性能调优

文章目录第1章Spark性能调优1.1常规性能调优1.1.1常规性能调优一：最优资源配置1.1.2常规性能调优二：RDD优化1.1.3常规性能调优三：并行度调节1.1.4常规性能调优四：广播大变量1.1.5

几窗花鸢·2023-11-17 10:41

极客时间Spark性能调优实战-学习笔记（1）

通用性能调优（一）一、应用开发三原则原则一：使用spark自身的调优机制充分利用Spark为我们提供的“性能红利”，如钨丝计划、AQE、SQLfunctions等等。钨丝计划的优势？

我不认识CBW·2023-11-17 10:40

Spark调优 | Spark性能优化实战手册

本文分为四个部分，基本涵盖了所有Spark优化的点，面试和实际工作中必备。

大数据技术架构·2023-11-17 10:39

Spark 性能调优

1常规性能调优1.1常规性能调优一：最优资源配置Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略

高个子男孩·2023-11-17 10:09

Spark 性能调优总结

星空下的那个人影·2023-11-17 10:09

Spark性能优化四内存

性能优化分析内容怎么被消耗的如何预估程序会消耗多少内存呢(二）性能优化方案1)高性能序列化类库2)持久化或者checkpoint3)JVM垃圾回收调优4)提高并行度5）数据本地化（一）性能优化分析一个计算任务的执行主要依赖于CPU、内存、带宽Spark

小崔的技术博客·2023-11-17 10:38

[Spark]二Spark性能调优|Spark任务监控|程序调优|资源调优

二.spark性能调优1.Spark任务监控对Spark性能的调优离不开对任务的监控，只有在运行过程中，通过监控手段发现问题，才能迅速定位问题所在。

胖胖学编程·2023-11-17 10:37

spark-调优-性能调优&内存管理

前置主要涉及6个参数，从3个方面：executor、core、内存的大小，并行度，内存管理进行调优优化的方案资源分配num-executors：spark使用多少个executorsexecutor-cores

zdkdchao·2023-11-17 10:36

spark性能调优(二):内存

Memory一、spark内存简介二、堆内内存or堆外内存?三、如何用好RDDCache?四、OOM怎么办?

我爱夜来香A·2023-11-17 10:05

Spark 优化 (一) --------- Spark 性能调优

Kryo序列化6.调节本地化等待时长二、算子调优1.mapPartitions2.foreachPartition优化数据库操作3.filter与coalesce的配合使用4.repartition解决SparkSQL

在森林中麋了鹿·2023-11-17 10:34

Scala | Spark性能优化 | 资源调优 | 代码调优 | 数据本地化 | 内存调优 | Spark Shuffle调优 | 数据倾斜 | Spark故障解决

map-side预聚合的shuffle操作5.尽量使用高性能的算子6.使用广播变量7.使用Kryo优化序列化性能8.优化数据结构9.使用高性能的库fastutil四、数据本地化1.数据本地化的级别2.Spark

幼稚的人呐·2023-11-17 10:04

spark性能调优 | 内存优化

目录我们先了解一下有哪些内存温馨提示RDD示范(spark版本2.1.1)RDD进行优化Df和Ds进行示范我们先了解一下有哪些内存1.storage内存存储数据，缓存可预估2.shuffle内存计算joingroupby

Knight_AL·2023-11-17 10:00

推荐频道

.spark