E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark调优
使用Py
Spark
处理DataFrame以拆分数组列
问题:用py
spark
处理df1,df1有三列,第一列是商品pid,第二列是商品name,第三列是候选标品cid_list(有多个cid),将df1中的cid_list拆开,转换成一个商品id和name
samoyan
·
2024-02-05 12:41
python
linux
服务器
运维
[Hadoop]万字长文Hadoop相关优化和问题排查总结
namenode优化namenode内存生产配置NameNode心跳并发配置开启回收站配置datanode的优化hdfs
调优
hadoop的优化YARN的优化HDFS
调优
的基本原则HDFS
调优
的常用参数排查哪个任务的
王一1995
·
2024-02-05 10:55
hadoop
jvm
java
Spark
的JVM
调优
目录导致gc因素内存不充足的时候,出现的问题降低cache操作的内存占比调节executor堆外内存与连接等待时长调节executor堆外内存调节连接等待时长
Spark
JVM参数优化设置
Spark
streaming
王一1995
·
2024-02-05 10:55
jvm
spark
Hadoop3.x单机安装教程
以最小化的成本学习和测试Hadoop;搭建基于Hadoop的上层应用,比如单机
Spark
环境需要先拥有单机的Hadoop;如果需要搭建分布式集群环境的Hadoop环境,请参考另外一篇:Hadoop3.x
文景大大
·
2024-02-05 10:06
[qtp581715564-18] ERROR
spark
.http.matching.GeneralError - org.neo4j.driver.exceptions.ResultConsum
今天使用java连接neo4j执行查询的时候遇到了这个问题,报错如下:[qtp581715564-18]ERROR
spark
.http.matching.GeneralError-org.neo4j.driver.exceptions.ResultConsumedException
路过Coder
·
2024-02-05 09:36
spark
neo4j
大数据
java
趣头条
Spark
Remote Shuffle Service最佳实践
1.业务场景与现状趣头条是一家依赖大数据的科技公司,在2018-2019年经历了业务的高速发展,主App和其他创新App的日活增加了10倍以上,相应的大数据系统也从最初的100台机器增加到了1000台以上规模。多个业务线依赖于大数据平台展开业务,大数据系统的高效和稳定成了公司业务发展的基石,在大数据的架构上我们使用了业界成熟的方案,存储构建在HDFS上、计算资源调度依赖Yarn、表元数据使用Hiv
阿里云技术
·
2024-02-05 09:29
大数据
spark
Spark
Sql读取外部Hql文件的公共类开发
Spark
Sql读取外部Hql文件的公共类开发
Spark
SQL与Hive的区别简介一、什么是
Spark
SQL?
岁月的眸
·
2024-02-05 09:27
#
Hive总结
#
Spark总结
大数据
hive
大数据
spark
在 CDH 中
调优
Apache Hive on
Spark
Spark
上的Hive在提供相同功能的同时提供比MapReduce上的Hive更好的性能。在
Spark
上运行Hive不需要更改用户查询。
海阔天空&沫语
·
2024-02-05 09:27
大数据/架构
hive
hadoop
spark
Spark
Shuffle Service简介与测试
Spark
管理资源有两种方式:静态资源分配和动态资源分配。静态资源分配:
spark
提交任务前,指定固定的资源,在
spark
运行任务过程中,一直占用这些资源不释放,job运行结束后才会释放。
大数据AI
·
2024-02-05 09:26
spark
大数据
CDH6.3.2 多
Spark
版本共存
一部署
Spark
客户端1.1部署
spark
3客户端tar-zxvf
spark
-3.3.1-bin-3.0.0-cdh6.3.2.tgz-C/opt/cloudera/parcels/CDH/libcd/
大数据AI
·
2024-02-05 09:56
大数据从入门到精通
spark
cdh
大数据-
Spark
调优
(一)
大数据-
Spark
调优
(一)分配更多的资源分配更多的资源是性能优化
调优
的王道,就是增加和分配更多的资源,这对于性能和速度上的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升,是成正比的;写完了一个复杂的
海恋北斗星
·
2024-02-05 09:29
大数据
spark
大数据笔记--
Spark
(第五篇)
目录一、
Spark
的
调优
1、更改序列化为kryo2、配置多临时文件目录3、启动推测执行机制4、某些特定场景,用mapPartitions代替map5、避免使用collect二、
Spark
的共享变量1、广播变量
是小先生
·
2024-02-05 09:59
大数据08-Spark
spark
大数据 -
Spark
系列《三》- 加载各种数据源创建RDD
Spark
系列文章:大数据-
Spark
系列《一》-从Hadoop到
Spark
:大数据计算引擎的演进-CSDN博客大数据-
Spark
系列《二》-关于
Spark
在Idea中的一些常用配置-CSDN博客目录3.1
王哪跑nn
·
2024-02-05 09:28
spark
大数据
spark
分布式
大数据原理-
Spark
概述:基于内存计算三大分布式计算系统:Hadoop、
Spark
、Storm特点:采用有向无环图DAG作业调度运行速度快循环数据流容易使用:可以通过
Spark
Shell交互式编程用途:SQL查询、流式计算
monster++
·
2024-02-05 09:28
大数据原理
分布式
编程语言
分布式计算
hadoop
spark
大数据 -
Spark
系列《四》-
Spark
分布式运行原理
Spark
系列文章:大数据-
Spark
系列《一》-从Hadoop到
Spark
:大数据计算引擎的演进-CSDN博客大数据-
Spark
系列《二》-关于
Spark
在Idea中的一些常用配置-CSDN博客大数据
王哪跑nn
·
2024-02-05 08:54
spark
大数据
分布式
spark
Windows系统运行py
spark
报错:Py4JJavaError
运行py
spark
时出现以下错误---------------------------------------------------------------------------Py4JJavaErrorTraceback
赫桃
·
2024-02-05 07:25
windows
spark
scala
py
spark
报错TypeError: an integer is required (got type bytes)
安装配置py
spark
,计算时报错如下:Using
Spark
'sdefaultlog4jprofile:org/apache/
spark
/log4j-defaults.propertiesSettingdefaultloglevelto"WARN
helluy
·
2024-02-05 07:23
bug解决
bug
spark
python
py
spark
报错:ValueError: object of IntegerType out of range
背景:py
spark
任务中,调用了udf处理数据,并使用了链接:py
spark
并行调用udf函数的方式,报错如上。但是在python中很少遇到整型越界问题。
leap_ruo
·
2024-02-05 07:53
pyspark
spark
Python调用py
spark
报错整理
Pycharm配置了SSH服务器和Anaconda的python解释器,如果没有配置可参考大数据单机学习环境搭建(8)Linux单节点Anaconda安装和Pycharm连接Pycharm执行的脚本执行如下py
spark
_model.py
赫加青空
·
2024-02-05 07:52
Python
spark
大数据
python
开发语言
基于hadoop+
spark
的大规模日志的一种处理方案
而且CDN上的访问日志一般都非常大,需要用大数据处理架构来进行处理,本文描述了一种利用hadoop+
spark
来处理大量CDN日志的方法,当然本方
码农心语
·
2024-02-05 06:36
日志处理
大规模
大数据
hadoop
spark
cdn
Flink实时流计算入门系列——广播变量使用
Flink和
Spark
一样,都有支持广播变量这定义。广播变量,可以理解成为日常的广播,是一个公共的变量。广播变量创建后,它可以运行在集群中的任何function上,而不需要多次传递给集群节
晨冉1688
·
2024-02-05 06:19
Hive
调优
Hive
调优
一、SQL语句分析——EXPLAIN二、Fetch抓取三、本地模式四、表的优化1、小表大表JOIN2、大表JOIN大表3、Groupby4、Count(Distinct)去重统计5、笛卡尔积
长不大的大灰狼
·
2024-02-05 04:03
大数据
hive
大数据
hadoop
HIVE
--------hive数据仓库hive底层执行引擎有MapReduceTez
Spark
压缩GZIPLZOSnappyBZIP2等存储TextFileSequenceFileRCFileORCParquetUDF
Yagami_
·
2024-02-05 00:23
达梦数据库性能诊断与
调优
前言:达梦数据库性能诊断与
调优
是一个复杂的过程,需要综合考虑多个方面。
沃金z
·
2024-02-04 22:49
数据库
spark
-submit 任务提交过程分析
https://blog.csdn.net/u013332124/article/details/91456422一、
spark
-submit脚本分析
spark
-submit的脚本内容很简单:#如果没设置
疯狂的哈丘
·
2024-02-04 22:08
运行环境jre版本和jar包编译版本不一致导致:Unsupported major.minor version 52.0
问题我在本地使用IntellijIdea打包了一个
spark
的程序jar包,放到linux集群上运行,报错信息是:Unsupportedmajor.minorversion52.0环境本机系统->windows10
stone_zhu
·
2024-02-04 18:51
基于Loadrunner的性能分析及
调优
经验分享
背景公司某个系统的微信端计划将开放给几百上千的人员登录查询,并且登录账号为同一账号多人使用。后台服务能够支撑起多用户的并发操作以及成百上千人登录微信端对生产数据库或者登录查询的性能效率高成为交付可靠生产环境的必要条件。因此,项目组决定提交测试,由测试人员通过自动化方式模拟并发场景,以验证程序的可靠性。问题点描述测试初期,随着时间的推移,Loadrunner客户端不断出现事务通过率下降的情况,或因为
shanmao001
·
2024-02-04 17:10
经验分享
测试工具
单元测试
【深入浅出Java性能
调优
】「底层技术原理体系」详细分析探索Java服务器性能监控Metrics框架的实现原理分析(Dropwizard度量基础案例指南)
深入探索Java服务器性能监控Metrics框架的实现原理分析前提介绍DropwizardMetricsDropwizard的特点Dropwizard的开发案例需要引入Maven依赖常用度量类型Meter(每秒请求数为单位测量请求率)定义度量核心MetricRegistry构建对应的Meter指标对象请求标记采样业务方法控制报告器报告器的作用ConsoleReporter报告器定义输出控制组件实际
洛神灬殇
·
2024-02-04 16:42
深入浅出Java原理及实战
底层服务/编程功底系列
java
服务器
开发语言
evalml,一个有趣的 Python 库!
然而,构建和部署机器学习模型常常需要大量的时间和精力,涉及到数据预处理、特征工程、模型选择、超参数
调优
等一系列复杂任务。为了简化这个过
Sitin涛哥
·
2024-02-04 16:56
python
开发语言
ASTRAIOS: Parameter-Efficient Instruction Tuning Code Large Language Models
ASTRAIOS:参数高效指令
调优
代码大型语言模型摘要1引言2ASTRAIOS套机与基准3前言研究:交叉熵4主要结果:任务性能5更进一步分析6讨论7相关工作8结论摘要大型语言模型(LLM)的全参数微调(
UnknownBody
·
2024-02-04 16:46
LLM
语言模型
人工智能
自然语言处理
高级web前端开发工程师的岗位职责最新(合集)
前端开发及用户交互体验设计;3.基于HTML、CSS、JavaScript标准进行页面制作,编写界面组件;4.协同后台开发工程师,完成Web系统开发任务;5.优化代码并保持良好浏览器兼容性(IE10+);6.页面优化和效率
调优
matlab@com
·
2024-02-04 15:27
前端
Tomcat性能优化2大法宝
下面将从JVM参数
调优
、线程池优化两个方面,讲述如何对Tomcat进行性能优化:1.JVM参数
调优
首先,通过JVisualVM或JMX等工具监控系统运行状态,发现频繁的FullGC是导致响应变慢的主要原因
拥抱AI
·
2024-02-04 14:03
tomcat
性能优化
java
调优
publicclassGCLogTest{publicstaticvoidmain(String[]args){ArrayListlist=newArrayList2024K(18432K)]16313K->14454K(59392K),0.0037880secs][Times:user=0.02sys=0.14,real=0.00secs][GC(AllocationFailure)[PSYou
南园故剑00
·
2024-02-04 14:05
Encoder-based Domain Tuning for Fast Personalization of Text-to-Image Models——【论文笔记】
ACMTransactionsonGraphics期刊上的一篇论文论文地址:[2302.12228]基于编码器的域优化,用于文本到图像模型的快速个性化(arxiv.org)官方代码:mkshing/e4t-diffusion:实现基于编码器的域
调优
我是浮夸
·
2024-02-04 14:51
论文笔记
论文阅读
深度学习
人工智能
stable
diffusion
图像处理
【云计算】opentack的高级服务部署与
调优
opentack的高级服务部署与
调优
swift对象存储安装Swift服务。
勇敢许牛牛在线大闯关
·
2024-02-04 14:10
云计算
云计算
windows
openstack
win10环境下通过anaconda安装py
spark
解决方法本来应该可以在anaconda上直接搜索安装,但是非常慢,而且还有错误,说python3.8无法和和py
spark
3.1.2兼容,需要安装python3.8之前的版本才行。
零下2度
·
2024-02-04 14:36
笔记
python
大数据
大数据技术未来发展前景及趋势分析
Spark
:
Spark
是一个兼容Hadoop数据源的内存数据处理平台,运行速度相比于HadoopMapReduce更快。
丨程序之道丨
·
2024-02-04 12:54
大数据入门-大数据技术概述(二)
目录大数据入门系列文章1.大数据入门-大数据是什么2.大数据入门-大数据技术概述(一)一、简介二、技术详解1.分布式协调服务:Zookeeper2.分布式资源管理器:Yarn3.计算引擎:
Spark
4.
水坚石青
·
2024-02-04 11:11
大数据理论
大数据
spark
kafka
JVM系列——垃圾收集器Parrlel Scavenge、CMS、G1常用参数和使用场景
因此,为了在业务应用中更加高效地进行开发和性能
调优
,我们需要对这些垃圾收集器的工作原理和特性有一个全面的理解和认识。
吴代庄
·
2024-02-04 10:11
Java
jvm
java
模块五_Tomcat&Nginx深度剖析及性能
调优
序言:文章内容输出来源:拉勾教育Java高薪训练营。本篇文章是学习课程中的一部分课后笔记一、浏览器访问服务器的流程浏览器访问服务器使用的是HTTP协议,HTTP是应用层协议,用于定义数据通信的格式,具体的数据传输使用的是TCP/IP协议HTTP请求处理过程.png二、Tomcat系统总体架构流程处理.pngTomcat两个核⼼组件连接器(Connector)和容器(Container)来完成Tom
西西弗斯XD
·
2024-02-04 09:38
技术分享 | MySQL 大对象一例
擅长MySQL、PostgreSQL、MongoDB等开源数据库相关的备份恢复、SQL
调优
、监控运维、高可用架构设计等。
爱可生开源社区
·
2024-02-04 08:07
完结,从零开始学python(十八)想成为一名APP逆向工程师,需要掌握那些技术点?
我们来简单的回顾一下内容1.编程语法语法编程并发编程网络编程多线程/多进程/协程数据库编程MySQLRedisMongoDB2.机器学习3.全栈开发4.数据分析Numpy+pandas+MatplotlibHadoop
Spark
5
爬完虫变成龙
·
2024-02-04 07:52
python
python开发
APP逆向
python
开发语言
python爬虫
python开发
java
APP逆向
NDK
Fink CDC数据同步(三)Flink集成Hive
利用Flink来读写Hive的表Flink打通了与Hive的集成,如同使用
Spark
SQL或者Impala操作Hive中的数据一样,我们可以使用Flink直接读写Hive中的表。
苡~
·
2024-02-04 07:20
flink
hive
大数据
子雨大数据之
Spark
入门教程---
Spark
入门:RDD的设计与运行原理1.3
Spark
的核心是建立在统一的抽象RDD之上,使得
Spark
的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。
千寻~
·
2024-02-04 06:38
spark
rdd
Spark
Exception: A master URL必须在配置中设置
问题描述当你遇到org.apache.
spark
.
Spark
Exception:AmasterURLmustbesetinyourconfiguration错误时,这意味着你的
Spark
应用程序尝试启动时没有找到有效的
小湘西
·
2024-02-04 06:07
Spark
spark
大数据
分布式
Spark
部署模式
目录部署模式概述1.LocalMode2.StandaloneMode3.YARNMode4.MesosMode5.KubernetesMode部署模式选择部署模式概述Apache
Spark
支持多种部署模式
小湘西
·
2024-02-04 06:02
Spark
spark
大数据
分布式
Spark
的Driver程序中定义的外部变量或连接为什么不能在各种算在中直接用,如果要要如何做?
在Driver程序中定义的外部变量或连接不能在算子中直接使用,因为它们不会被序列化并发送到各个Executor。如果需要在算子使用外部资源,应该在算子内部初始化这些资源。例如,将RDD数据写入数据库可以这样实现:rdd.foreach(record=>{//在这里初始化数据库连接valconnection=createNewConnection()//假设这是创建连接的函数connection.s
小湘西
·
2024-02-04 06:32
Spark
spark
大数据
分布式
大数据本地环境搭建03-
Spark
搭建
pwd=e20h提取码:e20h将
spark
-3.1.2-bin-hadoop3.2.tar.gz压缩包到node1下的/export/server目录1.2解压压缩包tar-zxvf/export
OnePandas
·
2024-02-04 06:31
Spark
大数据集群环境搭建
大数据
spark
分布式
MySQL
调优
参考博客MySQL
调优
篇:单机数据库如何在高并发场景下健步如飞?
whiteBrocade
·
2024-02-04 06:48
MySQL
mysql
数据库
性能优化
spark
运维问题记录
环境:
spark
-2.1.0-bin-hadoop2.71.
Spark
启动警告:neither
spark
.yarn.jarsnot
spark
.yarn.archiveisset,fallingbacktouploadinglibrariesunder
SPARK
_HOME
lishengping_max
·
2024-02-04 05:11
Spark
spark
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他