Spark调优第14页

使用PySpark处理DataFrame以拆分数组列

问题：用pyspark处理df1,df1有三列，第一列是商品pid,第二列是商品name,第三列是候选标品cid_list(有多个cid),将df1中的cid_list拆开,转换成一个商品id和name

samoyan·2024-02-05 12:41

[Hadoop]万字长文Hadoop相关优化和问题排查总结

namenode优化namenode内存生产配置NameNode心跳并发配置开启回收站配置datanode的优化hdfs调优hadoop的优化YARN的优化HDFS调优的基本原则HDFS调优的常用参数排查哪个任务的

王一1995·2024-02-05 10:55

Spark的JVM调优

目录导致gc因素内存不充足的时候，出现的问题降低cache操作的内存占比调节executor堆外内存与连接等待时长调节executor堆外内存调节连接等待时长SparkJVM参数优化设置Sparkstreaming

王一1995·2024-02-05 10:55

Hadoop3.x单机安装教程

以最小化的成本学习和测试Hadoop；搭建基于Hadoop的上层应用，比如单机Spark环境需要先拥有单机的Hadoop；如果需要搭建分布式集群环境的Hadoop环境，请参考另外一篇：Hadoop3.x

文景大大·2024-02-05 10:06

[qtp581715564-18] ERROR spark.http.matching.GeneralError - org.neo4j.driver.exceptions.ResultConsum

今天使用java连接neo4j执行查询的时候遇到了这个问题，报错如下：[qtp581715564-18]ERRORspark.http.matching.GeneralError-org.neo4j.driver.exceptions.ResultConsumedException

路过Coder·2024-02-05 09:36

趣头条Spark Remote Shuffle Service最佳实践

1.业务场景与现状趣头条是一家依赖大数据的科技公司，在2018-2019年经历了业务的高速发展，主App和其他创新App的日活增加了10倍以上，相应的大数据系统也从最初的100台机器增加到了1000台以上规模。多个业务线依赖于大数据平台展开业务，大数据系统的高效和稳定成了公司业务发展的基石，在大数据的架构上我们使用了业界成熟的方案，存储构建在HDFS上、计算资源调度依赖Yarn、表元数据使用Hiv

阿里云技术·2024-02-05 09:29

SparkSql读取外部Hql文件的公共类开发

SparkSql读取外部Hql文件的公共类开发SparkSQL与Hive的区别简介一、什么是SparkSQL？

岁月的眸·2024-02-05 09:27

在 CDH 中调优 Apache Hive on Spark

Spark上的Hive在提供相同功能的同时提供比MapReduce上的Hive更好的性能。在Spark上运行Hive不需要更改用户查询。

海阔天空&沫语·2024-02-05 09:27

Spark Shuffle Service简介与测试

Spark管理资源有两种方式：静态资源分配和动态资源分配。静态资源分配：spark提交任务前，指定固定的资源，在spark运行任务过程中，一直占用这些资源不释放，job运行结束后才会释放。

大数据AI·2024-02-05 09:26

CDH6.3.2 多 Spark 版本共存

一部署Spark客户端1.1部署spark3客户端tar-zxvfspark-3.3.1-bin-3.0.0-cdh6.3.2.tgz-C/opt/cloudera/parcels/CDH/libcd/

大数据AI·2024-02-05 09:56

大数据-Spark调优（一）

海恋北斗星·2024-02-05 09:29

大数据笔记--Spark（第五篇）

目录一、Spark的调优1、更改序列化为kryo2、配置多临时文件目录3、启动推测执行机制4、某些特定场景，用mapPartitions代替map5、避免使用collect二、Spark的共享变量1、广播变量

是小先生·2024-02-05 09:59

大数据 - Spark系列《三》- 加载各种数据源创建RDD

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客目录3.1

王哪跑nn·2024-02-05 09:28

大数据原理-Spark

概述：基于内存计算三大分布式计算系统：Hadoop、Spark、Storm特点：采用有向无环图DAG作业调度运行速度快循环数据流容易使用：可以通过SparkShell交互式编程用途：SQL查询、流式计算

monster++·2024-02-05 09:28

大数据 - Spark系列《四》- Spark分布式运行原理

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-05 08:54

Windows系统运行pyspark报错：Py4JJavaError

运行pyspark时出现以下错误---------------------------------------------------------------------------Py4JJavaErrorTraceback

赫桃·2024-02-05 07:25

pyspark报错TypeError: an integer is required (got type bytes)

安装配置pyspark，计算时报错如下：UsingSpark'sdefaultlog4jprofile:org/apache/spark/log4j-defaults.propertiesSettingdefaultloglevelto"WARN

helluy·2024-02-05 07:23

pyspark报错：ValueError: object of IntegerType out of range

背景：pyspark任务中，调用了udf处理数据，并使用了链接:pyspark并行调用udf函数的方式，报错如上。但是在python中很少遇到整型越界问题。

leap_ruo·2024-02-05 07:53

Python调用pyspark报错整理

Pycharm配置了SSH服务器和Anaconda的python解释器，如果没有配置可参考大数据单机学习环境搭建(8)Linux单节点Anaconda安装和Pycharm连接Pycharm执行的脚本执行如下pyspark_model.py

赫加青空·2024-02-05 07:52

基于hadoop+spark的大规模日志的一种处理方案

而且CDN上的访问日志一般都非常大，需要用大数据处理架构来进行处理，本文描述了一种利用hadoop+spark来处理大量CDN日志的方法，当然本方

码农心语·2024-02-05 06:36

Flink实时流计算入门系列——广播变量使用

Flink和Spark一样，都有支持广播变量这定义。广播变量，可以理解成为日常的广播，是一个公共的变量。广播变量创建后，它可以运行在集群中的任何function上，而不需要多次传递给集群节

晨冉1688·2024-02-05 06:19

Hive 调优

Hive调优一、SQL语句分析——EXPLAIN二、Fetch抓取三、本地模式四、表的优化1、小表大表JOIN2、大表JOIN大表3、Groupby4、Count(Distinct)去重统计5、笛卡尔积

长不大的大灰狼·2024-02-05 04:03

HIVE

--------hive数据仓库hive底层执行引擎有MapReduceTezSpark压缩GZIPLZOSnappyBZIP2等存储TextFileSequenceFileRCFileORCParquetUDF

Yagami_·2024-02-05 00:23

达梦数据库性能诊断与调优

前言：达梦数据库性能诊断与调优是一个复杂的过程，需要综合考虑多个方面。

沃金z·2024-02-04 22:49

spark-submit 任务提交过程分析

https://blog.csdn.net/u013332124/article/details/91456422一、spark-submit脚本分析spark-submit的脚本内容很简单:#如果没设置

疯狂的哈丘·2024-02-04 22:08

运行环境jre版本和jar包编译版本不一致导致：Unsupported major.minor version 52.0

问题我在本地使用IntellijIdea打包了一个spark的程序jar包，放到linux集群上运行，报错信息是：Unsupportedmajor.minorversion52.0环境本机系统->windows10

stone_zhu·2024-02-04 18:51

基于Loadrunner的性能分析及调优经验分享

背景公司某个系统的微信端计划将开放给几百上千的人员登录查询，并且登录账号为同一账号多人使用。后台服务能够支撑起多用户的并发操作以及成百上千人登录微信端对生产数据库或者登录查询的性能效率高成为交付可靠生产环境的必要条件。因此，项目组决定提交测试，由测试人员通过自动化方式模拟并发场景，以验证程序的可靠性。问题点描述测试初期，随着时间的推移，Loadrunner客户端不断出现事务通过率下降的情况，或因为

shanmao001·2024-02-04 17:10

【深入浅出Java性能调优】「底层技术原理体系」详细分析探索Java服务器性能监控Metrics框架的实现原理分析（Dropwizard度量基础案例指南)

深入探索Java服务器性能监控Metrics框架的实现原理分析前提介绍DropwizardMetricsDropwizard的特点Dropwizard的开发案例需要引入Maven依赖常用度量类型Meter（每秒请求数为单位测量请求率）定义度量核心MetricRegistry构建对应的Meter指标对象请求标记采样业务方法控制报告器报告器的作用ConsoleReporter报告器定义输出控制组件实际

洛神灬殇·2024-02-04 16:42

evalml，一个有趣的 Python 库！

然而，构建和部署机器学习模型常常需要大量的时间和精力，涉及到数据预处理、特征工程、模型选择、超参数调优等一系列复杂任务。为了简化这个过

Sitin涛哥·2024-02-04 16:56

ASTRAIOS: Parameter-Efficient Instruction Tuning Code Large Language Models

ASTRAIOS：参数高效指令调优代码大型语言模型摘要1引言2ASTRAIOS套机与基准3前言研究：交叉熵4主要结果：任务性能5更进一步分析6讨论7相关工作8结论摘要大型语言模型（LLM）的全参数微调（

UnknownBody·2024-02-04 16:46

高级web前端开发工程师的岗位职责最新（合集）

前端开发及用户交互体验设计;3.基于HTML、CSS、JavaScript标准进行页面制作，编写界面组件;4.协同后台开发工程师，完成Web系统开发任务;5.优化代码并保持良好浏览器兼容性(IE10+);6.页面优化和效率调优

matlab@com·2024-02-04 15:27

Tomcat性能优化2大法宝

下面将从JVM参数调优、线程池优化两个方面，讲述如何对Tomcat进行性能优化：1.JVM参数调优首先，通过JVisualVM或JMX等工具监控系统运行状态，发现频繁的FullGC是导致响应变慢的主要原因

拥抱AI·2024-02-04 14:03

调优

publicclassGCLogTest{publicstaticvoidmain(String[]args){ArrayListlist=newArrayList2024K(18432K)]16313K->14454K(59392K),0.0037880secs][Times:user=0.02sys=0.14,real=0.00secs][GC(AllocationFailure)[PSYou

南园故剑00·2024-02-04 14:05

Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models——【论文笔记】

ACMTransactionsonGraphics期刊上的一篇论文论文地址：[2302.12228]基于编码器的域优化，用于文本到图像模型的快速个性化(arxiv.org)官方代码：mkshing/e4t-diffusion：实现基于编码器的域调优

我是浮夸·2024-02-04 14:51

【云计算】opentack的高级服务部署与调优

opentack的高级服务部署与调优swift对象存储安装Swift服务。

勇敢许牛牛在线大闯关·2024-02-04 14:10

win10环境下通过anaconda安装pyspark

解决方法本来应该可以在anaconda上直接搜索安装，但是非常慢，而且还有错误，说python3.8无法和和pyspark3.1.2兼容，需要安装python3.8之前的版本才行。

零下2度·2024-02-04 14:36

大数据技术未来发展前景及趋势分析

Spark:Spark是一个兼容Hadoop数据源的内存数据处理平台，运行速度相比于HadoopMapReduce更快。

丨程序之道丨·2024-02-04 12:54

大数据入门-大数据技术概述(二)

目录大数据入门系列文章1.大数据入门-大数据是什么2.大数据入门-大数据技术概述(一)一、简介二、技术详解1.分布式协调服务：Zookeeper2.分布式资源管理器：Yarn3.计算引擎：Spark4.

水坚石青·2024-02-04 11:11

JVM系列——垃圾收集器Parrlel Scavenge、CMS、G1常用参数和使用场景

因此，为了在业务应用中更加高效地进行开发和性能调优，我们需要对这些垃圾收集器的工作原理和特性有一个全面的理解和认识。

吴代庄·2024-02-04 10:11

模块五_Tomcat&Nginx深度剖析及性能调优

序言:文章内容输出来源：拉勾教育Java高薪训练营。本篇文章是学习课程中的一部分课后笔记一、浏览器访问服务器的流程浏览器访问服务器使用的是HTTP协议，HTTP是应用层协议，用于定义数据通信的格式，具体的数据传输使用的是TCP/IP协议HTTP请求处理过程.png二、Tomcat系统总体架构流程处理.pngTomcat两个核⼼组件连接器（Connector）和容器（Container）来完成Tom

西西弗斯XD·2024-02-04 09:38

技术分享 | MySQL 大对象一例

擅长MySQL、PostgreSQL、MongoDB等开源数据库相关的备份恢复、SQL调优、监控运维、高可用架构设计等。

爱可生开源社区·2024-02-04 08:07

完结，从零开始学python（十八）想成为一名APP逆向工程师，需要掌握那些技术点？

我们来简单的回顾一下内容1.编程语法语法编程并发编程网络编程多线程/多进程/协程数据库编程MySQLRedisMongoDB2.机器学习3.全栈开发4.数据分析Numpy+pandas+MatplotlibHadoopSpark5

爬完虫变成龙·2024-02-04 07:52

Fink CDC数据同步（三）Flink集成Hive

利用Flink来读写Hive的表Flink打通了与Hive的集成，如同使用SparkSQL或者Impala操作Hive中的数据一样，我们可以使用Flink直接读写Hive中的表。

苡~·2024-02-04 07:20

子雨大数据之Spark入门教程---Spark入门：RDD的设计与运行原理1.3

Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。

千寻～·2024-02-04 06:38

SparkException: A master URL必须在配置中设置

问题描述当你遇到org.apache.spark.SparkException:AmasterURLmustbesetinyourconfiguration错误时，这意味着你的Spark应用程序尝试启动时没有找到有效的

小湘西·2024-02-04 06:07

Spark部署模式

目录部署模式概述1.LocalMode2.StandaloneMode3.YARNMode4.MesosMode5.KubernetesMode部署模式选择部署模式概述ApacheSpark支持多种部署模式

小湘西·2024-02-04 06:02

Spark 的Driver程序中定义的外部变量或连接为什么不能在各种算在中直接用，如果要要如何做？

在Driver程序中定义的外部变量或连接不能在算子中直接使用，因为它们不会被序列化并发送到各个Executor。如果需要在算子使用外部资源，应该在算子内部初始化这些资源。例如，将RDD数据写入数据库可以这样实现：rdd.foreach(record=>{//在这里初始化数据库连接valconnection=createNewConnection()//假设这是创建连接的函数connection.s

小湘西·2024-02-04 06:32

大数据本地环境搭建03-Spark搭建

pwd=e20h提取码：e20h将spark-3.1.2-bin-hadoop3.2.tar.gz压缩包到node1下的/export/server目录1.2解压压缩包tar-zxvf/export

OnePandas·2024-02-04 06:31

MySQL调优

参考博客MySQL调优篇：单机数据库如何在高并发场景下健步如飞？

whiteBrocade·2024-02-04 06:48

spark运维问题记录

环境：spark-2.1.0-bin-hadoop2.71.Spark启动警告：neitherspark.yarn.jarsnotspark.yarn.archiveisset，fallingbacktouploadinglibrariesunderSPARK_HOME

lishengping_max·2024-02-04 05:11

推荐频道

Spark调优