Spark调优第38页

Spark集群搭建

Spark集群结构图名词解释Driver该进程调用Spark程序的main方法，并且启动SparkContextClusterManager该进程负责和外部集群工具打交道，申请或释放集群资源Worker

我像影子一样·2024-01-06 09:43

Spark概述

Spark概述Spark是什么ApacheSpark是一个快速的，多用途的集群计算系统，相对于HadoopMapReduce将中间结果保存在磁盘中，Spark使用了内存保存中间结果，能在数据尚未写入硬盘时在内存中进行运算

我像影子一样·2024-01-06 09:38

Spark SQL示例1 创建Spark实例

添加依赖4.0.0org.baozispark-learning1.02008MyLicensehttp://....repo2.11.82.1.0org.scala-langscala-library

歌哥居士·2024-01-06 09:08

Golang高质量编程与性能调优实战

1.1简介高质量：编写的代码能否达到正确可靠、简洁清晰的目标各种边界条件是否考虑完备异常情况处理，稳定性保证易读易维护编程原则简单性消除多余的重复性，以简单清晰的逻辑编写代码不理解的代码无法修复改进可读性代码是写给人看的，并不是机器编写可维护代码的第一步是确保代码可读生产力团队整体工作效率非常重要1.2编码规范如何编写高质量的Go代码1.2.1代码格式推荐使用gofmt自动格式化代码主要有两种：g

豆沙睡不醒·2024-01-06 09:21

Tomcat调优

一、内存大小默认大小：命令jmap-heappidjmap-heappid部分值：HeapConfiguration:MinHeapFreeRatio=0MaxHeapFreeRatio=100MaxHeapSize=2063597568(1968.0MB)NewSize=42991616(41.0MB)MaxNewSize=687865856(656.0MB)OldSize=87031808(8

睡不醒的猪儿·2024-01-06 09:00

JVM面试系列-03

旧生代空间不足旧生代空间只有在新生代对象转入及创建为大对象、大数组时才会出现不足的现象，当执行FullGC后空间仍然不足，则抛出如下错误：java.lang.OutOfMemoryError:Javaheapspace为避免以上两种状况引起的FullGC，调优时应尽量做到让对象

梦睡了·2024-01-06 08:36

【性能测试入门必看】性能测试流程简介

明确客户需求3、找出系统性能瓶颈4、稳定性验证（强度测试）二、性能测试流程（二）——了解系统结构系统架构对于测试新手来是最难的；先来了解系统所使用的技术和框架，在环境搭建阶段，你需要了解项目的部署；在性能分析与调优阶段

测试界清流·2024-01-06 07:13

阿里的通义灵码在android studio上的使用方法

平替产品，1，提供行级/函数级实时续写、2，自然语言生成代码、3，单元测试生成、4，代码注释生成、5，代码解释、6，研发智能问答、7，异常报错排查等能力，8，并针对阿里云SDK/OpenAPI的使用场景调优

王的备忘录·2024-01-06 07:11

jvm原理与性能调优

文章目录一、JVM内存结构1.运行时数据区2.直接内存二、JVM中的对象1.对象的创建2.对象的内存布局3.对象的访问定位三、垃圾回收算法和垃圾回收器1.如何判断对象是已死2.分代回收理论3.垃圾回收算法4.垃圾收集器四、JVM执行子系统1.Class文件结构2.类加载机制3.类加载器4.双亲委派模式五、JVM性能优化1.内存溢出2.内存泄露3.JDK提供的优化工具一、JVM内存结构1.运行时数据

不才不才不不才·2024-01-06 06:04

Flink学习笔记（一）：为什么选择flink

流处理的框架不是很多么Q:流处理框架有很多中，比如前面提到的spark，storm等，为什么选flink？

胖胖的战士·2024-01-06 05:48

StreamPark + PiflowX 打造新一代大数据计算处理平台

什么是PiflowXPiFlow是一个基于分布式计算框架Spark开发的大数据流水线系统。该系统将数据的采集、清洗、计算、存储等各个环节封装成组件，以所见即所得方式进行流水线配置。简单易用，功能强大。

暗影八度·2024-01-06 05:47

【AI】一文读懂大模型套壳——神仙打架？软饭硬吃？

目录一、套壳的风波此起彼伏二、到底什么是大模型的壳2.1大模型的3部分，壳指的是哪里大模型的内核预训练（Pre-training）调优（Fine-tuning）2.2内核的发展历程和万流归宗2.3套壳不是借壳三

giszz·2024-01-06 04:47

minor scratch, fortunately

ThetrafficwassobadthismorningandsoIwasrunninglateforwork.WhenIwasparkingmycar,Ihitthewallwithsomeminorscratch.accidentsdohappen.Fortunately

是团儿呀·2024-01-06 03:25

【MLOps】使用Ray缩放AI

Ray正在人工智能工程领域崭露头角，对扩展LLM和RL至关重要Spark在数据工程中几乎是必不可少的。Ray正在人工智能工程领域崭露头角。雷是伦敦大学学院Spark的继任者。

架构师研究会·2024-01-06 01:59

1.大数据概述

安装结束概述先了解几个常用的网站apache官网hadoop官网hadoopgithubhttps://github.com/apache/xxx[https://github.com/apache/spark

流月up·2024-01-05 23:00

搭建PySpark大数据分析环境

担心自己遗忘，便做此纪录。普通的数据分析其实仅仅在PyCharm环境即可做相应的分析。但是如果数据较大，还是要在集群环境里跑会快一些，一下又两种方案：针对数据量不大（不是几十上百个G或者百万条级数据）的情况，为了方便可采用方案一：下图为需要使用到的文件：第一步，安装JDK（如果不确定自己的电脑之前是否装过jdk，可以前往设置——应用——应用和功能——搜索java即可查看是否有jdk,后面的查看自己

TraStar·2024-01-05 23:25

JVM(Java虚拟机调优）

笔者将为Java开发人员提供JVM参数调优的指南，以帮助他们提高Java应用程序的性能和稳定性。JVM参数介绍JVM参数可以分为两类：标准参数和非标准参数。

yqj234·2024-01-05 23:48

JAVA系列之JVM内存调优

文章目录一、前提二、JVM内存结构1、栈内存2、堆内存3、永久代（元空间）三、JVM常用参数1、堆大小设置2、垃圾回收器选择2.1吞吐量优先的并行收集器2.2响应时间优先的并发收集器3、其他辅助配置四、内存溢出排查1、元空间溢出（java.lang.OutOfMemoryError:Metaspace）2、栈深度不够（java.lang.StackOverflowError）3、栈线程数不够（ja

夕阳也是醉了·2024-01-05 23:47

深入探索JAVA虚拟机（JVM ）— 内存调优

jvm问题排查和调优：jps主要⽤来输出JVM中运⾏的进程状态信息。jstat命令可以⽤于持续观察虚拟机内存中各个分区的使⽤率以及GC的统计数据jmap可以⽤来查看堆内存的使⽤详情。

努力努力再努力ss·2024-01-05 23:47

【JVM】Java虚拟机JVM堆内存调优

Java虚拟机JVM堆内存调优一、了解堆内存结构1.1JDK1.7堆内存1.2JDK1.8堆内存二、设置合理的堆内存大小（-Xms和-Xmx）三、调整新生代与老年代比例（-XX:NewRatio）四、新生代中

No8g攻城狮·2024-01-05 23:16

大数据全套虚拟机（直接拿来用）

故事背景因为有python的基础，我就跳着学，也就是直接来到了spark阶段这个时候被虚拟机难住了，卖家只有视频，给我发了几个虚拟机都不对，没有办法.。我自己去配，在有相关文档的情况下去配置。

中长跑路上crush·2024-01-05 23:02

Spark学习之Spark Core

什么是Spark？（官网：http://spark.apache.org）https://www.cnblogs.com/lq0310/p/9841647.html

John Stones·2024-01-05 22:51

AIGC（生成式AI）试用 16 -- 续1，调优和提示词

FinetuningandPrompt调优和提示词1.生成式AI定义：与AI模型

Rolei_zl·2024-01-05 22:44

Hotspot 垃圾回收之ConcurrentMarkSweepGeneration（二）源码解析

目录一、ModUnionClosure/ModUnionClosurePar二、CMSIsAliveClosure/CMSParKeepAliveClosure三、CFLS_LAB1、构造方法和modify_initialization2

孙大圣666·2024-01-05 19:07

spark的任务提交方式及流程

本地模式local测试用,不多赘述分布式模式standalonestandalone集群是spark自带的一个资源调度集群，分为两个角色，master/worker，master负责接收任务请求、资源调度

qzWsong·2024-01-05 19:29

linux设置page cache大小,Linux Page Cache调优在Kafka中的应用

本文首发于vivo互联网技术微信公众号链接：作者：YangYijun本文主要描述LinuxPageCache优化的背景、PageCache的基本概念、列举之前针对Kafka的IO性能瓶颈采取的一些解决方案、如何进行PageCache相关参数调整以及性能优化前后效果对比。一、优化背景当业务快速增长，每天需要处理万亿记录级数据量时。在读写数据方面，Kafka集群的压力将变得巨大，而磁盘IO成为了Kaf

刑律小陈·2024-01-05 17:39

Kettle性能调优汇总

根据Kettle对数据ETL的过程性能调优，主要取决于三个因素：上游渠道，工具的大小与数量，下游渠道。

GuangHui·2024-01-05 16:14

Apache Doris (六十一）： Spark Doris Connector - (1)-源码编译

博主个人B栈地址：豹哥教你学编程的个人空间-豹哥教你学编程个人主页-哔哩哔哩视频目录1.SparkDorisConnector2.Spark与Doris版本兼容

IT贫道·2024-01-05 14:40

Iceberg: 列式读取Parquet数据

通过Spark读取Parquet文件的基本流程SQL==>Spark解析SQL生成逻辑计划树LogicalPlan==>Spark创建扫描表/读取数据的逻辑计划结点DataSourceV2ScanRelation

Dreammmming Time·2024-01-05 14:55

《PySpark大数据分析实战》-24.数据可视化图表介绍

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2024-01-05 13:02

大数据开发个人简历范本（2024最新版-附模板）

Hadoop大数据运维工程师背景，熟悉相关技术和工具具备良好的团队合作能力，善于沟通和协作具有快速学习新知识和解决问题的能力对于数据科学和分析充满热情，喜欢研究和探索新技术专业技能大数据熟悉Hadoop、Spark

itLeeyw·2024-01-05 13:53

Linux服务器内核参数优化

Linux内核参数调优主要是通过修改/proc伪文件系统和/etc/sysctl.conf配置文件的参数来实现的。

Vecloud·2024-01-05 13:19

Spark OFF_HEAP

OFF_HEAPSpark中RDD提供了几种存储级别，不同的存储级别可以带来不同的容错性能，例如MEMORY_ONLY,MEMORY_ONLY_SER_2...其中，有一种特别的是OFF_HEAPoff_heap

尼小摩·2024-01-05 13:18

Spark调优解析-GC调优3（七）

1GC调优Spark立足内存计算，常常需要在内存中存放大量数据，因此也更依赖JVM的垃圾回收机制。

有语忆语·2024-01-05 12:54

Spark调优解析-spark数据倾斜优化2（七）

1数据倾斜优化1.1为何要处理数据倾斜（DataSkew）什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。何谓数据倾斜？

有语忆语·2024-01-05 12:53

Spark调优解析-sparkshuffle和程序开发优化2(七)

1Shuffle调优1.1调优概述大多数Spark作业的性能主要就是消耗在了shuffle环节，因为该环节包含了大量的磁盘IO、序列化、网络数据传输等操作。

有语忆语·2024-01-05 12:49

【jvm调优】使用JConsole工具

如何使用JConsole来查看垃圾回收器的信息？JConsole是一个内置的Java性能分析器，安装Java时自带，默认位置为C:\ProgramFiles\Java\jdk1.8.0_152\bin。使用JConsole来查看垃圾回收器的信息的步骤如下：选择你本地正在运行的JVM应用。切换到VM概要标签页面，即可查看当前使用的垃圾回收器。如何使用JConsole？JConsole是Java开发工

锅巴编程·2024-01-05 12:43

【JVM】内存模型（调参调优、GC、对象池、内存泄漏）

jvm内存模型JVM内存模型是Java虚拟机规范中定义的一种内存模型，用于规范Java程序在不同线程之间的共享内存访问行为。在JVM内存模型中，将内存分为主内存和工作内存。主内存是所有线程共享的内存区域，包括Java堆、方法区等。而工作内存则是每个线程私有的内存区域，用于存储线程执行过程中的局部变量、临时变量等。在Java程序中，当一个线程执行时，它会将主内存中的共享变量拷贝一份到自己的工作内存中

锅巴编程·2024-01-05 12:12

python 并发、并行处理、分布式处理

定义协程阻塞代码->非阻塞ThreadPoolExecutor3.响应式编程被观察者运算符4.并行编程线程进程使用多个进程接口Executor，ProcessPoolExecutor5.锁6.分布式处理daskpysparkmpi4py

cjz0422·2024-01-05 12:18

Spark SQL（六）：JDBC数据源

SparkSQL支持使用JDBC从关系型数据库（比如MySQL）中读取数据。读取的数据，依然由DataFrame表示，可以很方便地使用SparkCore提供的各种算子进行处理。

雪飘千里·2024-01-05 11:12

【积微成著】性能测试调优实战与探索（存储模型优化+调用链路分析）| 京东物流技术团队

以上，在性能测试的场景决策，架构分析、流量分析、压测实施和剖解调优等主要环节中，引发对于系统能力底盘夯实和测试策略改进的诸多思考。

京东云技术团队·2024-01-05 11:11

Spark内核解析-部署模式解析8(六)

1、部署模式解析1.1部署模式概述Spark支持的主要的三种分布式部署方式分别是standalone、sparkonmesos和sparkonYARN。

有语忆语·2024-01-05 10:06

Spark内核解析-内存管理7(六)

1、Spark内存管理Spark作为一个基于内存的分布式计算引擎，其内存管理模块在整个系统中扮演着非常重要的角色。理解Spark内存管理的基本原理，有助于更好地开发Spark应用程序和进行性能调优。

有语忆语·2024-01-05 10:36

Spark调优解析-spark调优基本原则1（七）

1调优基本原则1.1基本概念和原则首先，要搞清楚Spark的几个基本概念和原则，否则系统的性能调优无从谈起：每一台host上面可以并行N个worker，每一个worker下面可以并行M个executor

有语忆语·2024-01-05 10:36

Spark内核解析-整体概述1（六）

1、Spark整体概述1.1整体概念ApacheSpark是一个开源的通用集群计算系统，它提供了High-level编程API，支持Scala、Java和Python三种编程语言。

有语忆语·2024-01-05 10:35

Spark内核解析-Spark shuffle6(六)

1、SparkShuffle过程1.1MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。

有语忆语·2024-01-05 10:35

SparkStreaming基础解析（四）

1、SparkStreaming概述1.1SparkStreaming是什么SparkStreaming用于流式数据的处理。

有语忆语·2024-01-05 10:05

Spark内核解析-脚本解析2（六）

2、脚本解析在看源码之前，我们一般会看相关脚本了解其初始化信息以及Bootstrap类，Spark也不例外，而Spark中相关的脚本如下：%SPARK_HOME%/sbin/start-master.sh

有语忆语·2024-01-05 10:05

Spark内核解析-数据存储5（六）

1、Spark的数据存储Spark计算速度远胜于Hadoop的原因之一就在于中间结果是缓存在内存而不是直接写入到disk，本文尝试分析Spark中存储子系统的构成，并以数据写入和数据读取为例，讲述清楚存储子系统中各部件的交互关系

有语忆语·2024-01-05 10:05

Spark基础解析（一）

1、Spark概述1.1什么是Spark1.2Spark内置模块SparkCore：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。

有语忆语·2024-01-05 10:04

推荐频道

Spark调优

Spark集群搭建

Spark概述

Spark SQL示例1 创建Spark实例

Golang高质量编程与性能调优实战

Tomcat调优

JVM面试系列-03

【性能测试入门必看】性能测试流程简介

阿里的通义灵码在android studio上的使用方法

jvm原理与性能调优

Flink学习笔记（一）：为什么选择flink

StreamPark + PiflowX 打造新一代大数据计算处理平台

【AI】一文读懂大模型套壳——神仙打架？软饭硬吃？

minor scratch, fortunately

【MLOps】使用Ray缩放AI

1.大数据概述

搭建PySpark大数据分析环境

JVM(Java虚拟机调优）

JAVA系列之JVM内存调优

深入探索JAVA虚拟机（JVM ）— 内存调优

【JVM】Java虚拟机JVM堆内存调优

大数据全套虚拟机（直接拿来用）

Spark学习之Spark Core

AIGC（生成式AI）试用 16 -- 续1，调优和提示词

Hotspot 垃圾回收之ConcurrentMarkSweepGeneration（二） 源码解析

spark的任务提交方式及流程

linux设置page cache大小,Linux Page Cache调优在Kafka中的应用

Kettle性能调优汇总

Apache Doris (六十一）： Spark Doris Connector - (1)-源码编译

Iceberg: 列式读取Parquet数据

《PySpark大数据分析实战》-24.数据可视化图表介绍

大数据开发个人简历范本（2024最新版-附模板）

Linux服务器内核参数优化

Spark OFF_HEAP

Spark调优解析-GC调优3（七）

Spark调优解析-spark数据倾斜优化2（七）

Spark调优解析-sparkshuffle和程序开发优化2(七)

【jvm调优】使用JConsole工具

【JVM】内存模型（调参调优、GC、对象池、内存泄漏）

python 并发、并行处理、分布式处理

Spark SQL（六）：JDBC数据源

【积微成著】性能测试调优实战与探索（存储模型优化+调用链路分析）| 京东物流技术团队

Spark内核解析-部署模式解析8(六)

Spark内核解析-内存管理7(六)

Spark调优解析-spark调优基本原则1（七）

Spark内核解析-整体概述1（六）

Spark内核解析-Spark shuffle6(六)

SparkStreaming基础解析（四）

Spark内核解析-脚本解析2（六）

Spark内核解析-数据存储5（六）

Spark基础解析（一）

Hotspot 垃圾回收之ConcurrentMarkSweepGeneration（二）源码解析