spark任务调度第10页

使用PySpark处理DataFrame以拆分数组列

问题：用pyspark处理df1,df1有三列，第一列是商品pid,第二列是商品name,第三列是候选标品cid_list(有多个cid),将df1中的cid_list拆开,转换成一个商品id和name

samoyan·2024-02-05 12:41

Spark的JVM调优

目录导致gc因素内存不充足的时候，出现的问题降低cache操作的内存占比调节executor堆外内存与连接等待时长调节executor堆外内存调节连接等待时长SparkJVM参数优化设置Sparkstreaming

王一1995·2024-02-05 10:55

Hadoop3.x单机安装教程

以最小化的成本学习和测试Hadoop；搭建基于Hadoop的上层应用，比如单机Spark环境需要先拥有单机的Hadoop；如果需要搭建分布式集群环境的Hadoop环境，请参考另外一篇：Hadoop3.x

文景大大·2024-02-05 10:06

[qtp581715564-18] ERROR spark.http.matching.GeneralError - org.neo4j.driver.exceptions.ResultConsum

今天使用java连接neo4j执行查询的时候遇到了这个问题，报错如下：[qtp581715564-18]ERRORspark.http.matching.GeneralError-org.neo4j.driver.exceptions.ResultConsumedException

路过Coder·2024-02-05 09:36

趣头条Spark Remote Shuffle Service最佳实践

1.业务场景与现状趣头条是一家依赖大数据的科技公司，在2018-2019年经历了业务的高速发展，主App和其他创新App的日活增加了10倍以上，相应的大数据系统也从最初的100台机器增加到了1000台以上规模。多个业务线依赖于大数据平台展开业务，大数据系统的高效和稳定成了公司业务发展的基石，在大数据的架构上我们使用了业界成熟的方案，存储构建在HDFS上、计算资源调度依赖Yarn、表元数据使用Hiv

阿里云技术·2024-02-05 09:29

SparkSql读取外部Hql文件的公共类开发

SparkSql读取外部Hql文件的公共类开发SparkSQL与Hive的区别简介一、什么是SparkSQL？

岁月的眸·2024-02-05 09:27

在 CDH 中调优 Apache Hive on Spark

Spark上的Hive在提供相同功能的同时提供比MapReduce上的Hive更好的性能。在Spark上运行Hive不需要更改用户查询。

海阔天空&沫语·2024-02-05 09:27

Spark Shuffle Service简介与测试

Spark管理资源有两种方式：静态资源分配和动态资源分配。静态资源分配：spark提交任务前，指定固定的资源，在spark运行任务过程中，一直占用这些资源不释放，job运行结束后才会释放。

大数据AI·2024-02-05 09:26

CDH6.3.2 多 Spark 版本共存

一部署Spark客户端1.1部署spark3客户端tar-zxvfspark-3.3.1-bin-3.0.0-cdh6.3.2.tgz-C/opt/cloudera/parcels/CDH/libcd/

大数据AI·2024-02-05 09:56

大数据-Spark调优（一）

海恋北斗星·2024-02-05 09:29

大数据笔记--Spark（第五篇）

目录一、Spark的调优1、更改序列化为kryo2、配置多临时文件目录3、启动推测执行机制4、某些特定场景，用mapPartitions代替map5、避免使用collect二、Spark的共享变量1、广播变量

是小先生·2024-02-05 09:59

大数据 - Spark系列《三》- 加载各种数据源创建RDD

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客目录3.1

王哪跑nn·2024-02-05 09:28

大数据原理-Spark

概述：基于内存计算三大分布式计算系统：Hadoop、Spark、Storm特点：采用有向无环图DAG作业调度运行速度快循环数据流容易使用：可以通过SparkShell交互式编程用途：SQL查询、流式计算

monster++·2024-02-05 09:28

大数据 - Spark系列《四》- Spark分布式运行原理

Spark系列文章：大数据-Spark系列《一》-从Hadoop到Spark：大数据计算引擎的演进-CSDN博客大数据-Spark系列《二》-关于Spark在Idea中的一些常用配置-CSDN博客大数据

王哪跑nn·2024-02-05 08:54

SpringBoot 使用定时任务（SpringTask）

org.springframework.bootspring-boot-starter-web2.在启动类中开启任务调度packagecom.***;

清山博客·2024-02-05 07:26

Windows系统运行pyspark报错：Py4JJavaError

运行pyspark时出现以下错误---------------------------------------------------------------------------Py4JJavaErrorTraceback

赫桃·2024-02-05 07:25

pyspark报错TypeError: an integer is required (got type bytes)

安装配置pyspark，计算时报错如下：UsingSpark'sdefaultlog4jprofile:org/apache/spark/log4j-defaults.propertiesSettingdefaultloglevelto"WARN

helluy·2024-02-05 07:23

pyspark报错：ValueError: object of IntegerType out of range

背景：pyspark任务中，调用了udf处理数据，并使用了链接:pyspark并行调用udf函数的方式，报错如上。但是在python中很少遇到整型越界问题。

leap_ruo·2024-02-05 07:53

Python调用pyspark报错整理

Pycharm配置了SSH服务器和Anaconda的python解释器，如果没有配置可参考大数据单机学习环境搭建(8)Linux单节点Anaconda安装和Pycharm连接Pycharm执行的脚本执行如下pyspark_model.py

赫加青空·2024-02-05 07:52

基于hadoop+spark的大规模日志的一种处理方案

而且CDN上的访问日志一般都非常大，需要用大数据处理架构来进行处理，本文描述了一种利用hadoop+spark来处理大量CDN日志的方法，当然本方

码农心语·2024-02-05 06:36

Flink实时流计算入门系列——广播变量使用

Flink和Spark一样，都有支持广播变量这定义。广播变量，可以理解成为日常的广播，是一个公共的变量。广播变量创建后，它可以运行在集群中的任何function上，而不需要多次传递给集群节

晨冉1688·2024-02-05 06:19

5个.NET开源且强大的快速开发框架（帮助你提高生产效率）

支持多租户、接口权限、数据权限、动态Api、任务调度、OSS文件上传、滑块拼图验证、国内外主流数据库自由切换和动态高级查询。

追逐时光者·2024-02-05 04:23

WPF DispatcherTimer用法

System.Windows.Threading.DispatcherTimer类主要用于WPF应用程序中进行周期性任务调度，并且保证这些任务在UI线程上执行。

wangnaisheng·2024-02-05 00:45

HIVE

--------hive数据仓库hive底层执行引擎有MapReduceTezSpark压缩GZIPLZOSnappyBZIP2等存储TextFileSequenceFileRCFileORCParquetUDF

Yagami_·2024-02-05 00:23

spark-submit 任务提交过程分析

https://blog.csdn.net/u013332124/article/details/91456422一、spark-submit脚本分析spark-submit的脚本内容很简单:#如果没设置

疯狂的哈丘·2024-02-04 22:08

STM32—系统定时器

1.SysTick简介SysTick是一种系统定时器，可以用于实现操作系统、任务调度、时钟管理等功能。它通常集成在微控制器中，并且是硬件实现的，具有高精度和可靠性。

m0_20230122·2024-02-04 22:35

6个.NET开源且强大的快速开发框架（帮助你提高生产效率）

支持多租户、接口权限、数据权限、动态Api、任务调度、OSS文件上传、滑块拼图验证、国内外主流数据库自由切换和动态高级查询。

液态不合群·2024-02-04 21:47

python 面试题6

"""1、描述并发和并行的概念并发：当前任务数大于cpu核数,通过任务调度算法,实现多个任务一起执行(实际是快速切换执行)并行：当前任务数小于cpu核数在,每个任务单独执行2、简单python线程的缺陷

足__迹·2024-02-04 20:31

运行环境jre版本和jar包编译版本不一致导致：Unsupported major.minor version 52.0

问题我在本地使用IntellijIdea打包了一个spark的程序jar包，放到linux集群上运行，报错信息是：Unsupportedmajor.minorversion52.0环境本机系统->windows10

stone_zhu·2024-02-04 18:51

嵌入式学习第十六天！（Linux文件查看、查找命令、标准IO）

Linux软件编程1.Linux：操作系统的内核：1.管理CPU2.管理内存3.管理硬件设备4.管理文件系统5.任务调度2.Shell：1.保护Linux内核（用户和Linux内核不直接操作，通过操作Shell

Little_white_Zhang·2024-02-04 17:01

Linux软件编程以及IO输入输出——linux——day1

Linux软件编程以及其IO输入输出Linux软件编程linux是操作系统的内核主要有以下几个功能：①管理CPU②管理内存③管理硬件设备④管理文件系统⑤任务调度shell指令shell命令主要保护Linux

Yifannn~·2024-02-04 15:28

win10环境下通过anaconda安装pyspark

解决方法本来应该可以在anaconda上直接搜索安装，但是非常慢，而且还有错误，说python3.8无法和和pyspark3.1.2兼容，需要安装python3.8之前的版本才行。

零下2度·2024-02-04 14:36

大数据技术未来发展前景及趋势分析

Spark:Spark是一个兼容Hadoop数据源的内存数据处理平台，运行速度相比于HadoopMapReduce更快。

丨程序之道丨·2024-02-04 12:54

分布式任务调度框架XXL-JOB详解

分布式任务调度概述场景:如12306网站根据不同车次设置放票时间点，商品成功发货后向客户发送短信提醒等任务,某财务系统需要在每天上午10天前统计前一天的账单数据任务的调度是指系统为了完成特定业务，基于给定的时间点

echo 云清·2024-02-04 11:02

大数据入门-大数据技术概述(二)

目录大数据入门系列文章1.大数据入门-大数据是什么2.大数据入门-大数据技术概述(一)一、简介二、技术详解1.分布式协调服务：Zookeeper2.分布式资源管理器：Yarn3.计算引擎：Spark4.

水坚石青·2024-02-04 11:11

SpringTask

SpringTask介绍：SpringTask是Spring框架提供的任务调度工具，可以按照约定的时间自动执行某个代码逻辑。

无问287·2024-02-04 10:35

如何通过编码的方式手动触发xxl-job执行器

前言xxl-job是一个分布式任务调度平台，其核心设计目标是开发迅速、学习简单、轻量级、易扩展、开箱即用。我部门大部分定时任务调度都是基于xxl-job，诸如报表统计、定时数据同步等。

linyb极客之路·2024-02-04 09:17

完结，从零开始学python（十八）想成为一名APP逆向工程师，需要掌握那些技术点？

我们来简单的回顾一下内容1.编程语法语法编程并发编程网络编程多线程/多进程/协程数据库编程MySQLRedisMongoDB2.机器学习3.全栈开发4.数据分析Numpy+pandas+MatplotlibHadoopSpark5

爬完虫变成龙·2024-02-04 07:52

vulhub中 Apache Airflow Celery 消息中间件命令执行漏洞复现（CVE-2020-11981）

ApacheAirflow是一款开源的，分布式任务调度框架。

余生有个小酒馆·2024-02-04 07:41

vulhub中Apache Airflow 默认密钥导致的权限绕过（CVE-2020-17526）

ApacheAirflow是一款开源的，分布式任务调度框架。

余生有个小酒馆·2024-02-04 07:41

vulhub中Apache Airflow 示例dag中的命令注入漏洞复现（CVE-2020-11978）

ApacheAirflow是一款开源的，分布式任务调度框架。在其1.10.10版本及以前的示例DAG中存在一处命令注入漏洞，未授权的访问者可以通过这个漏洞在Worker中执行任意命令。

余生有个小酒馆·2024-02-04 07:11

Fink CDC数据同步（三）Flink集成Hive

利用Flink来读写Hive的表Flink打通了与Hive的集成，如同使用SparkSQL或者Impala操作Hive中的数据一样，我们可以使用Flink直接读写Hive中的表。

苡~·2024-02-04 07:20

学成在线:采用XXL-JOB任务调度方案使用FFmpeg处理视频转码业务

分片技术方案概述XXL-JOB并不直接提供数据处理的功能，它只会给所有注册的执行器分配好分片序号，在向执行器下发任务调度的同时携带分片总数和当前分片序号等参数设计作业分片方案保证多个执行器之间不会查询到重复的任务

echo 云清·2024-02-04 07:18

子雨大数据之Spark入门教程---Spark入门：RDD的设计与运行原理1.3

Spark的核心是建立在统一的抽象RDD之上，使得Spark的各个组件可以无缝进行集成，在同一个应用程序中完成大数据计算任务。

千寻～·2024-02-04 06:38

SparkException: A master URL必须在配置中设置

问题描述当你遇到org.apache.spark.SparkException:AmasterURLmustbesetinyourconfiguration错误时，这意味着你的Spark应用程序尝试启动时没有找到有效的

小湘西·2024-02-04 06:07

Spark部署模式

目录部署模式概述1.LocalMode2.StandaloneMode3.YARNMode4.MesosMode5.KubernetesMode部署模式选择部署模式概述ApacheSpark支持多种部署模式

小湘西·2024-02-04 06:02

Spark 的Driver程序中定义的外部变量或连接为什么不能在各种算在中直接用，如果要要如何做？

在Driver程序中定义的外部变量或连接不能在算子中直接使用，因为它们不会被序列化并发送到各个Executor。如果需要在算子使用外部资源，应该在算子内部初始化这些资源。例如，将RDD数据写入数据库可以这样实现：rdd.foreach(record=>{//在这里初始化数据库连接valconnection=createNewConnection()//假设这是创建连接的函数connection.s

小湘西·2024-02-04 06:32

大数据本地环境搭建03-Spark搭建

pwd=e20h提取码：e20h将spark-3.1.2-bin-hadoop3.2.tar.gz压缩包到node1下的/export/server目录1.2解压压缩包tar-zxvf/export

OnePandas·2024-02-04 06:31

spark运维问题记录

环境：spark-2.1.0-bin-hadoop2.71.Spark启动警告：neitherspark.yarn.jarsnotspark.yarn.archiveisset，fallingbacktouploadinglibrariesunderSPARK_HOME

lishengping_max·2024-02-04 05:11

Spark提交任务到yarn 报错提示虚拟内存不足解决办法

sparkcontext初始化失败ERRORspark.SparkContext:ErrorinitializingSparkContext.java.lang.IllegalStateException

动若脱兔--·2024-02-04 05:11

推荐频道

spark任务调度