E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark任务调度
使用Py
Spark
处理DataFrame以拆分数组列
问题:用py
spark
处理df1,df1有三列,第一列是商品pid,第二列是商品name,第三列是候选标品cid_list(有多个cid),将df1中的cid_list拆开,转换成一个商品id和name
samoyan
·
2024-02-05 12:41
python
linux
服务器
运维
Spark
的JVM调优
目录导致gc因素内存不充足的时候,出现的问题降低cache操作的内存占比调节executor堆外内存与连接等待时长调节executor堆外内存调节连接等待时长
Spark
JVM参数优化设置
Spark
streaming
王一1995
·
2024-02-05 10:55
jvm
spark
Hadoop3.x单机安装教程
以最小化的成本学习和测试Hadoop;搭建基于Hadoop的上层应用,比如单机
Spark
环境需要先拥有单机的Hadoop;如果需要搭建分布式集群环境的Hadoop环境,请参考另外一篇:Hadoop3.x
文景大大
·
2024-02-05 10:06
[qtp581715564-18] ERROR
spark
.http.matching.GeneralError - org.neo4j.driver.exceptions.ResultConsum
今天使用java连接neo4j执行查询的时候遇到了这个问题,报错如下:[qtp581715564-18]ERROR
spark
.http.matching.GeneralError-org.neo4j.driver.exceptions.ResultConsumedException
路过Coder
·
2024-02-05 09:36
spark
neo4j
大数据
java
趣头条
Spark
Remote Shuffle Service最佳实践
1.业务场景与现状趣头条是一家依赖大数据的科技公司,在2018-2019年经历了业务的高速发展,主App和其他创新App的日活增加了10倍以上,相应的大数据系统也从最初的100台机器增加到了1000台以上规模。多个业务线依赖于大数据平台展开业务,大数据系统的高效和稳定成了公司业务发展的基石,在大数据的架构上我们使用了业界成熟的方案,存储构建在HDFS上、计算资源调度依赖Yarn、表元数据使用Hiv
阿里云技术
·
2024-02-05 09:29
大数据
spark
Spark
Sql读取外部Hql文件的公共类开发
Spark
Sql读取外部Hql文件的公共类开发
Spark
SQL与Hive的区别简介一、什么是
Spark
SQL?
岁月的眸
·
2024-02-05 09:27
#
Hive总结
#
Spark总结
大数据
hive
大数据
spark
在 CDH 中调优 Apache Hive on
Spark
Spark
上的Hive在提供相同功能的同时提供比MapReduce上的Hive更好的性能。在
Spark
上运行Hive不需要更改用户查询。
海阔天空&沫语
·
2024-02-05 09:27
大数据/架构
hive
hadoop
spark
Spark
Shuffle Service简介与测试
Spark
管理资源有两种方式:静态资源分配和动态资源分配。静态资源分配:
spark
提交任务前,指定固定的资源,在
spark
运行任务过程中,一直占用这些资源不释放,job运行结束后才会释放。
大数据AI
·
2024-02-05 09:26
spark
大数据
CDH6.3.2 多
Spark
版本共存
一部署
Spark
客户端1.1部署
spark
3客户端tar-zxvf
spark
-3.3.1-bin-3.0.0-cdh6.3.2.tgz-C/opt/cloudera/parcels/CDH/libcd/
大数据AI
·
2024-02-05 09:56
大数据从入门到精通
spark
cdh
大数据-
Spark
调优(一)
大数据-
Spark
调优(一)分配更多的资源分配更多的资源是性能优化调优的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的
海恋北斗星
·
2024-02-05 09:29
大数据
spark
大数据笔记--
Spark
(第五篇)
目录一、
Spark
的调优1、更改序列化为kryo2、配置多临时文件目录3、启动推测执行机制4、某些特定场景,用mapPartitions代替map5、避免使用collect二、
Spark
的共享变量1、广播变量
是小先生
·
2024-02-05 09:59
大数据08-Spark
spark
大数据 -
Spark
系列《三》- 加载各种数据源创建RDD
Spark
系列文章:大数据-
Spark
系列《一》-从Hadoop到
Spark
:大数据计算引擎的演进-CSDN博客大数据-
Spark
系列《二》-关于
Spark
在Idea中的一些常用配置-CSDN博客目录3.1
王哪跑nn
·
2024-02-05 09:28
spark
大数据
spark
分布式
大数据原理-
Spark
概述:基于内存计算三大分布式计算系统:Hadoop、
Spark
、Storm特点:采用有向无环图DAG作业调度运行速度快循环数据流容易使用:可以通过
Spark
Shell交互式编程用途:SQL查询、流式计算
monster++
·
2024-02-05 09:28
大数据原理
分布式
编程语言
分布式计算
hadoop
spark
大数据 -
Spark
系列《四》-
Spark
分布式运行原理
Spark
系列文章:大数据-
Spark
系列《一》-从Hadoop到
Spark
:大数据计算引擎的演进-CSDN博客大数据-
Spark
系列《二》-关于
Spark
在Idea中的一些常用配置-CSDN博客大数据
王哪跑nn
·
2024-02-05 08:54
spark
大数据
分布式
spark
SpringBoot 使用定时任务(SpringTask)
org.springframework.bootspring-boot-starter-web2.在启动类中开启
任务调度
packagecom.***;
清山博客
·
2024-02-05 07:26
SpringBoot/MVC
spring
boot
java
spring
Windows系统运行py
spark
报错:Py4JJavaError
运行py
spark
时出现以下错误---------------------------------------------------------------------------Py4JJavaErrorTraceback
赫桃
·
2024-02-05 07:25
windows
spark
scala
py
spark
报错TypeError: an integer is required (got type bytes)
安装配置py
spark
,计算时报错如下:Using
Spark
'sdefaultlog4jprofile:org/apache/
spark
/log4j-defaults.propertiesSettingdefaultloglevelto"WARN
helluy
·
2024-02-05 07:23
bug解决
bug
spark
python
py
spark
报错:ValueError: object of IntegerType out of range
背景:py
spark
任务中,调用了udf处理数据,并使用了链接:py
spark
并行调用udf函数的方式,报错如上。但是在python中很少遇到整型越界问题。
leap_ruo
·
2024-02-05 07:53
pyspark
spark
Python调用py
spark
报错整理
Pycharm配置了SSH服务器和Anaconda的python解释器,如果没有配置可参考大数据单机学习环境搭建(8)Linux单节点Anaconda安装和Pycharm连接Pycharm执行的脚本执行如下py
spark
_model.py
赫加青空
·
2024-02-05 07:52
Python
spark
大数据
python
开发语言
基于hadoop+
spark
的大规模日志的一种处理方案
而且CDN上的访问日志一般都非常大,需要用大数据处理架构来进行处理,本文描述了一种利用hadoop+
spark
来处理大量CDN日志的方法,当然本方
码农心语
·
2024-02-05 06:36
日志处理
大规模
大数据
hadoop
spark
cdn
Flink实时流计算入门系列——广播变量使用
Flink和
Spark
一样,都有支持广播变量这定义。广播变量,可以理解成为日常的广播,是一个公共的变量。广播变量创建后,它可以运行在集群中的任何function上,而不需要多次传递给集群节
晨冉1688
·
2024-02-05 06:19
5个.NET开源且强大的快速开发框架(帮助你提高生产效率)
支持多租户、接口权限、数据权限、动态Api、
任务调度
、OSS文件上传、滑块拼图验证、国内外主流数据库自由切换和动态高级查询。
追逐时光者
·
2024-02-05 04:23
.NET
.NET
Core
开源项目
开源
.net
c#
.netcore
WPF DispatcherTimer用法
System.Windows.Threading.DispatcherTimer类主要用于WPF应用程序中进行周期性
任务调度
,并且保证这些任务在UI线程上执行。
wangnaisheng
·
2024-02-05 00:45
WPF
wpf
HIVE
--------hive数据仓库hive底层执行引擎有MapReduceTez
Spark
压缩GZIPLZOSnappyBZIP2等存储TextFileSequenceFileRCFileORCParquetUDF
Yagami_
·
2024-02-05 00:23
spark
-submit 任务提交过程分析
https://blog.csdn.net/u013332124/article/details/91456422一、
spark
-submit脚本分析
spark
-submit的脚本内容很简单:#如果没设置
疯狂的哈丘
·
2024-02-04 22:08
STM32—系统定时器
1.SysTick简介SysTick是一种系统定时器,可以用于实现操作系统、
任务调度
、时钟管理等功能。它通常集成在微控制器中,并且是硬件实现的,具有高精度和可靠性。
m0_20230122
·
2024-02-04 22:35
stm32
嵌入式硬件
单片机
6个.NET开源且强大的快速开发框架(帮助你提高生产效率)
支持多租户、接口权限、数据权限、动态Api、
任务调度
、OSS文件上传、滑块拼图验证、国内外主流数据库自由切换和动态高级查询。
液态不合群
·
2024-02-04 21:47
开源
信息可视化
数据库
python
wpf
python 面试题6
"""1、描述并发和并行的概念并发:当前任务数大于cpu核数,通过
任务调度
算法,实现多个任务一起执行(实际是快速切换执行)并行:当前任务数小于cpu核数在,每个任务单独执行2、简单python线程的缺陷
足__迹
·
2024-02-04 20:31
运行环境jre版本和jar包编译版本不一致导致:Unsupported major.minor version 52.0
问题我在本地使用IntellijIdea打包了一个
spark
的程序jar包,放到linux集群上运行,报错信息是:Unsupportedmajor.minorversion52.0环境本机系统->windows10
stone_zhu
·
2024-02-04 18:51
嵌入式学习第十六天!(Linux文件查看、查找命令、标准IO)
Linux软件编程1.Linux:操作系统的内核:1.管理CPU2.管理内存3.管理硬件设备4.管理文件系统5.
任务调度
2.Shell:1.保护Linux内核(用户和Linux内核不直接操作,通过操作Shell
Little_white_Zhang
·
2024-02-04 17:01
linux
学习
运维
Linux软件编程以及IO输入输出——linux——day1
Linux软件编程以及其IO输入输出Linux软件编程linux是操作系统的内核主要有以下几个功能:①管理CPU②管理内存③管理硬件设备④管理文件系统⑤
任务调度
shell指令shell命令主要保护Linux
Yifannn~
·
2024-02-04 15:28
Linux
linux
运维
服务器
win10环境下通过anaconda安装py
spark
解决方法本来应该可以在anaconda上直接搜索安装,但是非常慢,而且还有错误,说python3.8无法和和py
spark
3.1.2兼容,需要安装python3.8之前的版本才行。
零下2度
·
2024-02-04 14:36
笔记
python
大数据
大数据技术未来发展前景及趋势分析
Spark
:
Spark
是一个兼容Hadoop数据源的内存数据处理平台,运行速度相比于HadoopMapReduce更快。
丨程序之道丨
·
2024-02-04 12:54
分布式
任务调度
框架XXL-JOB详解
分布式
任务调度
概述场景:如12306网站根据不同车次设置放票时间点,商品成功发货后向客户发送短信提醒等任务,某财务系统需要在每天上午10天前统计前一天的账单数据任务的调度是指系统为了完成特定业务,基于给定的时间点
echo 云清
·
2024-02-04 11:02
#
分布式文件系统
分布式
wpf
XXL-JOB
java
大数据入门-大数据技术概述(二)
目录大数据入门系列文章1.大数据入门-大数据是什么2.大数据入门-大数据技术概述(一)一、简介二、技术详解1.分布式协调服务:Zookeeper2.分布式资源管理器:Yarn3.计算引擎:
Spark
4.
水坚石青
·
2024-02-04 11:11
大数据理论
大数据
spark
kafka
SpringTask
SpringTask介绍:SpringTask是Spring框架提供的
任务调度
工具,可以按照约定的时间自动执行某个代码逻辑。
无问287
·
2024-02-04 10:35
Java
spring
java
后端
如何通过编码的方式手动触发xxl-job执行器
前言xxl-job是一个分布式
任务调度
平台,其核心设计目标是开发迅速、学习简单、轻量级、易扩展、开箱即用。我部门大部分定时
任务调度
都是基于xxl-job,诸如报表统计、定时数据同步等。
linyb极客之路
·
2024-02-04 09:17
完结,从零开始学python(十八)想成为一名APP逆向工程师,需要掌握那些技术点?
我们来简单的回顾一下内容1.编程语法语法编程并发编程网络编程多线程/多进程/协程数据库编程MySQLRedisMongoDB2.机器学习3.全栈开发4.数据分析Numpy+pandas+MatplotlibHadoop
Spark
5
爬完虫变成龙
·
2024-02-04 07:52
python
python开发
APP逆向
python
开发语言
python爬虫
python开发
java
APP逆向
NDK
vulhub中 Apache Airflow Celery 消息中间件命令执行漏洞复现(CVE-2020-11981)
ApacheAirflow是一款开源的,分布式
任务调度
框架。
余生有个小酒馆
·
2024-02-04 07:41
vulhub漏洞复现
apache
vulhub中Apache Airflow 默认密钥导致的权限绕过(CVE-2020-17526)
ApacheAirflow是一款开源的,分布式
任务调度
框架。
余生有个小酒馆
·
2024-02-04 07:41
vulhub漏洞复现
apache
vulhub中Apache Airflow 示例dag中的命令注入漏洞复现(CVE-2020-11978)
ApacheAirflow是一款开源的,分布式
任务调度
框架。在其1.10.10版本及以前的示例DAG中存在一处命令注入漏洞,未授权的访问者可以通过这个漏洞在Worker中执行任意命令。
余生有个小酒馆
·
2024-02-04 07:11
vulhub漏洞复现
spring
java
后端
Fink CDC数据同步(三)Flink集成Hive
利用Flink来读写Hive的表Flink打通了与Hive的集成,如同使用
Spark
SQL或者Impala操作Hive中的数据一样,我们可以使用Flink直接读写Hive中的表。
苡~
·
2024-02-04 07:20
flink
hive
大数据
学成在线:采用XXL-JOB
任务调度
方案使用FFmpeg处理视频转码业务
分片技术方案概述XXL-JOB并不直接提供数据处理的功能,它只会给所有注册的执行器分配好分片序号,在向执行器下发
任务调度
的同时携带分片总数和当前分片序号等参数设计作业分片方案保证多个执行器之间不会查询到重复的任务
echo 云清
·
2024-02-04 07:18
#
分布式文件系统
ffmpeg
音视频
服务器
XXL-JOB
学成在线
java
视频转码
子雨大数据之
Spark
入门教程---
Spark
入门:RDD的设计与运行原理1.3
Spark
的核心是建立在统一的抽象RDD之上,使得
Spark
的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。
千寻~
·
2024-02-04 06:38
spark
rdd
Spark
Exception: A master URL必须在配置中设置
问题描述当你遇到org.apache.
spark
.
Spark
Exception:AmasterURLmustbesetinyourconfiguration错误时,这意味着你的
Spark
应用程序尝试启动时没有找到有效的
小湘西
·
2024-02-04 06:07
Spark
spark
大数据
分布式
Spark
部署模式
目录部署模式概述1.LocalMode2.StandaloneMode3.YARNMode4.MesosMode5.KubernetesMode部署模式选择部署模式概述Apache
Spark
支持多种部署模式
小湘西
·
2024-02-04 06:02
Spark
spark
大数据
分布式
Spark
的Driver程序中定义的外部变量或连接为什么不能在各种算在中直接用,如果要要如何做?
在Driver程序中定义的外部变量或连接不能在算子中直接使用,因为它们不会被序列化并发送到各个Executor。如果需要在算子使用外部资源,应该在算子内部初始化这些资源。例如,将RDD数据写入数据库可以这样实现:rdd.foreach(record=>{//在这里初始化数据库连接valconnection=createNewConnection()//假设这是创建连接的函数connection.s
小湘西
·
2024-02-04 06:32
Spark
spark
大数据
分布式
大数据本地环境搭建03-
Spark
搭建
pwd=e20h提取码:e20h将
spark
-3.1.2-bin-hadoop3.2.tar.gz压缩包到node1下的/export/server目录1.2解压压缩包tar-zxvf/export
OnePandas
·
2024-02-04 06:31
Spark
大数据集群环境搭建
大数据
spark
分布式
spark
运维问题记录
环境:
spark
-2.1.0-bin-hadoop2.71.
Spark
启动警告:neither
spark
.yarn.jarsnot
spark
.yarn.archiveisset,fallingbacktouploadinglibrariesunder
SPARK
_HOME
lishengping_max
·
2024-02-04 05:11
Spark
spark
Spark
提交任务到yarn 报错提示虚拟内存不足解决办法
spark
context初始化失败ERROR
spark
.
Spark
Context:Errorinitializing
Spark
Context.java.lang.IllegalStateException
动若脱兔--
·
2024-02-04 05:11
Spark
spark
大数据
scala
上一页
6
7
8
9
10
11
12
13
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他