E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark性能调优
Spark
:Task Locality参考
Datalocalitycanhaveamajorimpactontheperformanceof
Spark
jobs.Ifdataandthecodethatoperatesonitaretogetherthencomputationtendstobefast.Butifcodeanddataareseparated
liuzx32
·
2024-01-28 12:38
netty
性能调优
netty
性能调优
文件句柄一个tcp连接占用一个文件句柄,可调大服务器文件句柄限制,让netty服务端处理更多连接************进程文件句柄查看句柄限制:ulimit-u#centosroot
o_瓜田李下_o
·
2024-01-28 11:56
netty
netty
前传04 | Netty
性能调优
前传04|Netty
性能调优
一、操作系统参数调试01文件描述符1)最大文件句柄数2)单进程打开的最大句柄数ulimit-n3)并发接入的TCP连接数02TCP/IP相关参数03多网卡队列和软中断二、Netty
天罚神
·
2024-01-28 11:26
netty4
java
nio
netty
性能调优
转载自STEPHEN的博客调优思路关于netty的学习和介绍,可以去github看官方文档,这里良心推荐《netty实战》和《netty权威指南》两本书,前者对于新手更友好,原理和应用都有讲到,多读读会发现很多高性能的优化点。netty高性能优化点最近参加了阿里中间价性能比赛,为了提升netty写的servivemesh的网络通信的性能,最近几天查了书、博客(这里强力推荐netty作者的博客,干货
tinysakurac
·
2024-01-28 11:54
netty
Spark
的宽依赖和窄依赖
Apache
Spark
中的依赖关系指的是转换操作(transformations)之间的依赖类型。这些依赖关系决定了任务是如何在集群上分布执行的。
小湘西
·
2024-01-28 08:52
Spark
spark
大数据
分布式
Spark
——
Spark
SQL逻辑计划(Logical Plan)、物理计划(Physical Plan)和Catalyst优化器(Catalyst Optimizer)
文章目录TreesRules
Spark
SQL中使用CatalystAnalysis逻辑优化(LogicalOptimizations)物理计划(PhysicalPlanning)代码生成(CodeGeneration
Southwest-
·
2024-01-28 08:18
Spark
Spark
Spark
——
Spark
覆盖分区表中指定的分区
问题描述
Spark
中向分区表写数据的时候,如果写入模式为“overwrite”,那会将整个表覆盖掉;如果写入模式为“ap
Southwest-
·
2024-01-28 08:18
Spark
Spark
Spark
——
Spark
OOM Error问题汇总分析
.广播了大变量Executor端OOMError1.低效的查询2.不合适的Driver端和Executor端内存3.不合适的YARNContainer内存4.内存中缓存大量数据5.不合适任务并行度参考
Spark
Southwest-
·
2024-01-28 08:17
Spark
Spark
Spark
——
Spark
写MySQL太慢、很慢、非常慢的原因分析及优化方法
文章目录问题背景原因分析解决方法参考问题背景有这样一个业务场景:需要将通过
Spark
处理之后的数据写入MySQL,并在在网页端进行可视化输出。
Southwest-
·
2024-01-28 08:17
Spark
Spark
MySQL
Spark
——
Spark
/Hive向量化查询执行原理分析(Vectorization Query Execution)
文章目录什么是向量化查询执行列式存储
Spark
向量化查询执行Hive向量化查询执行参考什么是向量化查询执行在标准的查询执行系统中,每次只处理一行数据,每次处理都要走过较长的代码路径和元数据解释,从而导致
Southwest-
·
2024-01-28 08:47
Spark
Spark
Hive
向量化
Spark
——
Spark
缓存临时视图(View)
文章目录RDD/Dataset缓存复用纯SQL结果缓存复用RDD/Dataset缓存复用我们知道在使用RDD和DatasetAPI开发
Spark
应用程序的时候,如果要缓存某个RDD或Dataset来进行复用
Southwest-
·
2024-01-28 08:47
Spark
Spark
Spark
——
Spark
DataFrame导出为Excel文件
文章目录问题背景实现1.Maven依赖2.代码实现3.参数详解1.'sheet_name'!B3:C35。2.sheet_name[#All]参考问题背景有时候我们在进行一些表的计算之后,会生成一些指标,需要导出来给其它同事用,虽说可以将DataFrame直接写成表,然后通过工具(比如Hue)导出为Excel,但是步骤就多了,而且如果要导出的表比较多的话,就更浪费时间了,那么这时候调用第三方插件就
Southwest-
·
2024-01-28 08:17
Spark
spark
Spark
—— JSON对象/数组转成
Spark
Dataset/DataFrame
JSON转DataFrame在日常使用
Spark
处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构,那么能熟练并快速地处理JSON格式数据应该是数据开发人员的必备技能
Southwest-
·
2024-01-28 08:16
Spark
spark
json
Spark
——
Spark
读写MongoDB
文章目录
Spark
直连MongoDB1.通过
Spark
Conf2.通过ReadConfig3.通过DataFrameReaderHive中创建映射表mongoexport导出文件参考如果我们要想通过
Spark
Southwest-
·
2024-01-28 08:46
Spark
Spark
MongoDB
一波三折:一次CPU使用率过高故障分析SQL优化解决过程
关注我们获得更多内容作者|罗贵林:云和恩墨技术工程师,具有8年以上的Oracle数据库工作经验,曾任职于大型的国家电信、省级财政、省级公安的维护,
性能调优
等。
数据和云
·
2024-01-28 08:15
Spark
——
Spark
读写Greenplum/Greenplum-
Spark
Connector高速写Greenplum
文章目录问题背景解决方式代码实现
Spark
写Greenplum
Spark
读Greenplum参考问题背景通过数据平台上的DataX把Hive表数据同步至Greenplum(因为DataX原生不支持GreenplumWriter
Southwest-
·
2024-01-28 08:42
Spark
spark
大数据
分布式
Hive之set参数大全-18
指定在执行
Spark
上的动态分区裁剪时,用于评估分区数据大小的最大限制在Hive中,hive.
spark
.dynamic.partition.pruning.max.data.size是一个配置参数,用于指定在执行
OnePandas
·
2024-01-28 07:33
Hive
hive
数据仓库
hive面试题
本质上是将SQL转换为MapReduce或者
spark
来进行计算,数据是存储在hdfs上,简单理解来说hive就是MapReduce的一个客户端工具。补充1:你可以说一下HQL转换为MR的任务流程吗?
韩顺平的小迷弟
·
2024-01-28 07:29
大数据面试题
hive
hadoop
数据仓库
大数据——Flink 知识点整理
目录1.Flink的特点2.Flink和
Spark
Streaming的对比3.Flink和Blink、Alink之间的关系4.JobManager和TaskManager的职责5.Flink集群部署有哪些模式
Vicky_Tang
·
2024-01-28 06:17
Flink
flink
面试
big
data
大数据
借助arthas
性能调优
全过程
使用arthas的trace命令分析方法耗时瓶颈:可以看出bindReloadZoneTimeLimite耗时最久,通过分析Bind底层,将业务粒度进行拆分,加入并发执行再次使用arthas追踪单个方法耗时时间:核心耗时方法,速度优化将近4倍,总方法耗时优化1.5倍
CodingPeppa
·
2024-01-28 04:44
性能优化
Apache
Spark
架构与特点
1.背景介绍Apache
Spark
是一个开源的大数据处理框架,由AMLLabs公司开发,后被Apache软件基金会所支持。
OpenChat
·
2024-01-27 23:35
apache
spark
架构
大数据
分布式
Spark
-core
什么是
Spark
Spark
是基于内存的快速,通用,可扩展的大数据分析引擎
Spark
的内置模块
Spark
Core是
Spark
可以离线处理的部分,实现了
spark
的基本功能,包含任务调度,错误恢复,与存储系统交互等模块
luckboy0000
·
2024-01-27 23:12
学习笔记
JVM-G1
性能调优
思路与实战
现在大多数公司的Java生产版本都是再JDK8,所以本次
性能调优
主要针对G1来展开GC的主要回收区域就是年轻代(younggen)、老年代(tenuredgen)、持久区(permgen),在jdk8之后
菠萝-琪琪
·
2024-01-27 21:53
后端技术
应用服务器技术
文档类
G1
性能调优
G1
性能调优实战
G1
性能调优分析
JVM性能调优
JVM系列之故障排查与
性能调优
(重点)
1、故障排查与
性能调优
1.1、概述1.1.1、生产环境中的问题?生产环境发生了OOM,该如何处理?如何判断是否是内存泄漏导致的?生产环境应该给Java进程分配多少内存?生产环境应该如何选择垃圾收集器?
后端技术那点事
·
2024-01-27 21:52
面试系列
JVM系列
jvm
java
开发语言
JVM
性能调优
详解(值得收藏)
JVM
性能调优
详解前面我们学习了整个JVM系列,最终目标的不仅仅是了解JVM的基础知识,也是为了进行JVM
性能调优
做准备。这篇文章带领大家学习JVM
性能调优
的知识。
java领域
·
2024-01-27 21:20
运维
linux
服务器
spring
java
JVM系列-9.
性能调优
JVM原理如果感觉博主的文章还不错的话,请三连支持一下博主哦博主正在努力完成2023计划中:源码溯源,一探究竟联系方式:nhs19990716,加我进群,大家一起学习,一起进步,一起对抗互联网寒冬文章目录
性能调优
性能调优
解决的问题性能调
爱吃芝士的土豆倪
·
2024-01-27 21:19
JVM
jvm
java
开发语言
独家解读 | 滴滴机器学习平台架构演进之路
所谓大同是指大家所要处理的问题都相似,技术架构和选型也差不太多,比如都会使用GPU集群、采用
Spark
或K8s平台等。
csdn产品小助手
·
2024-01-27 19:18
人工智能
运维
大数据
apache 前30个开源项目
高性能Web服务器提供HTTP服务支持非常活跃2ApacheTomcatJava应用服务器部署JavaWeb应用程序非常活跃3ApacheHadoop分布式存储和计算框架大数据处理非常活跃4Apache
Spark
临水逸
·
2024-01-27 17:35
apache
开源
性能测试准备方案
性能测试目的
性能调优
开发人员对系统调优后,需要测试人员配合去做性能测试,验证这次优化是否有效果。如果性能指标相比较之前的性能指标更好了,说明系统优化的有效果。
美团程序员
·
2024-01-27 17:57
软件测试
自动化测试
技术分享
功能测试
测试用例
开发语言
如何使用irsa将火花提交给亚马逊eks集群
Inpreviousarticle,Ihaveintroducedhowwesubmita
Spark
jobtoanEKScluster.Aslongaswe’reusingotherAWScomponentsforourpipelinestointeract
weixin_26755331
·
2024-01-27 15:26
java
(lvs)高性能Linux服务器构建实战:运维监控、
性能调优
与集群应用
LVS三种模式:NAT,TUN,DR调度算法:rrwrrlcwlclblclblcrdhshLVS查看哪些IP连接过来:ipvsadm-LncLVS+keepalivedLVS+heartbeatLVS+piranha
SkTj
·
2024-01-27 15:19
Py
spark
分类--LogisticRegression
LogisticRegression:逻辑回归分类classpy
spark
.ml.classification.LogisticRegression(featuresCol=‘features’,labelCol
Gadaite
·
2024-01-27 14:53
ML基础
分类
机器学习
人工智能
搭建大数据平台常用的端口号
journalnode默认的端口号9000:非高可用访问数rpc端口8020:高可用访问数据rpc8088:yarn的webUI的端口号8080:master的webUI,Tomcat的端口号7077:
spark
修勾勾L
·
2024-01-27 13:51
Linux
大数据
Spark
连接Hive的两种方式
一、使用hive-site.xml第一步:将集群中的hive-site.xml的内容复制出来,并放在idea项目的resources下,要求文件命名为:hive-site.xmldatanucleus.schema.autoCreateAlltruejavax.jdo.option.ConnectionURLjdbc:mysql://192.168.38.160:3306/hive_db?crea
修勾勾L
·
2024-01-27 13:50
Spark
Hive
hive
spark
mysql
项目中常用的utils
importcryptofrom'crypto'import
Spark
MD5from'
spark
-md5'importCryptoJsfrom'crypto-js'importJSEncryptfrom'jsencrypt'importstoragefrom
乐夫天命兮
·
2024-01-27 13:05
javascript
前端
开发语言
flume+kafka+
Spark
Streaming+mysql+ssm+高德地图热力图项目
第一步、编写python脚本,产生模拟数据#coding=UTF-8importrandomimporttimephone=["13869555210","18542360152","15422556663","18852487210","13993584664","18754366522","15222436542","13369568452","13893556666","1536669855
printf200
·
2024-01-27 12:24
Java 自带的
性能调优
神器!!你还没用过吗?
VisualVM是Netbeans的profile子项目,已在JDK6.0update7中自带,能够监控线程,内存情况,查看方法的CPU时间和内存中的对象,已被GC的对象,反向查看分配的堆栈(如100个String对象分别由哪几个对象分配出来的)。在JDK_HOME/bin(默认是C:\ProgramFiles\Java\jdk1.6.0_13\bin)目录下面,有一个jvisualvm.exe文
就要学Java
·
2024-01-27 12:55
java
jvm
开发语言
性能优化
数据库
【Scala-
spark
.mlib】分布式矩阵——分布式计算的基石与利器
分布式矩阵1.mlib.linalg.distributed包2.DistributedMatrix特质3.BlockMatrix类4.CoordinateMatrix类5.IndexedRowMatrix类6.RowMatrix类7.小结1.mlib.linalg.distributed包 矩阵计算是很多科学计算的重要步骤,而分布式矩阵存储则是分布式计算的基础。根据不同的计算需求,需要将用于计
JimmyShis
·
2024-01-27 10:12
spark
大数据
分布式
scala
分布式计算
Flink问题解决及
性能调优
-【Flink根据不同场景状态后端使用调优】
Flink实时groupby聚合场景操作时,由于使用的是rocksdb状态后端,发现CPU的高负载卡在rocksdb的读写上,导致上游算子背压特别大。通过调优使用hashmap状态后端代替rocksdb状态后端,使吞吐量有了质的飞跃(20倍的性能提升),并分析整理。实例代码--SETtable.exec.state.ttl=86400s;--24hour,默认:0msSETtable.exec.s
PONY LEE
·
2024-01-27 08:21
Flink问题解决及性能调优
flink
大数据
2019年12月10日
今天在公司继续看
spark
教程,这么说来我已经快一个月没啥正事了(望向每日记录Excel文档),究竟说明公司药丸还是我药丸……反正先做好多手准备【今天明明温度不低办公室的三恒系统却还是开着高温,仿佛电费不要钱
真昼之月
·
2024-01-27 08:49
Spark
-RDD持久化
(1)persist算子使用方法:varrdd=sc.textFile("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count()//或者其他操作StorageLevel说明:StorageLevel的构造函数:classStorageLevelprivate(privatevar_useDisk:Boolean,#是否
printf200
·
2024-01-27 08:02
Spark
SQL中掌控sql语句的执行 - 了解你的查询计划
本文翻译自BeinchargeofQueryExcutionin
Spark
SQL背景自
spark
2.x的sql以及申明行DataFrameAPi以来,在
spark
查询数据越来越方便。
鸿乃江边鸟
·
2024-01-27 08:18
Hadoop与
Spark
横向比较【大数据扫盲】
大数据场景下的数据库有很多种,每种数据库根据其数据模型、查询语言、一致性模型和分布式架构等特性,都有其特定的使用场景。以下是一些常见的大数据数据库:1.**NoSQL数据库**:这类数据库通常用于处理大规模、非结构化的数据。它们通常提供简单的查询语言,并强调水平扩展和高可用性。例如:-**键值存储**:如Redis,AmazonDynamoDB-**列式存储**:如ApacheCassandra,
super_journey
·
2024-01-27 07:51
大数据
hadoop
spark
使用
spark
mllib训练中文文本分类器的
importorg.apache.
spark
.mllib.classification.NaiveBayesimportorg.apache.
spark
.mllib.feature.HashingTFimportorg.apache.
spark
.mllib.linalg.Vectorsimportorg.apache.
spark
.sql.functions
DreamNotOver
·
2024-01-27 07:45
spark-ml
中文分类
使用
Spark
MLlib 使用 jieba 分词训练中文分类器
importorg.apache.
spark
.ml.classification.NaiveBayesimportorg.apache.
spark
.ml.feature.HashingTFimportorg.apache.
spark
.sql.functions
DreamNotOver
·
2024-01-27 07:45
spark-ml
中文分类
集群
Spark
Thrift Server 架构和原理介绍
也可以看我CSDN的博客:https://blog.csdn.net/u013332124/article/details/90339850一、
Spark
ThriftServer介绍
Spark
ThriftServer
疯狂的哈丘
·
2024-01-27 04:17
实时分析海量新数据的难点 和解决方案
解决方案:使用分布式计算和存储技术,如Hadoop、
Spark
、Kafka等,将数据分散存储在多个节点上,同时进行分布式计算和处理,以实现数据的实时处理和分析。2.数据质量的保障:海量新
云台095
·
2024-01-27 03:40
大数据的应用
大数据
idea上搭建py
spark
开发环境
1环境版本说明python版本:Anaconda3.6.5
spark
版本:
spark
-2.4.8-bin-hadoop2.7idea版本:2019.32环境变量配置2.1python环境变量配置将python.exe
jackyan163
·
2024-01-27 00:06
Spark
2.3.4 StandAlone 集群模式部署
Spark
2.3.4StandAlone集群模式部署相关文档依赖服务系统优化创建路径配置/etc/profile配置$
SPARK
_HOME/conf/
spark
-env.sh配置$
SPARK
_HOME/
JP.Hu
·
2024-01-26 19:07
Spark
spark
大数据
分布式
Flink 基础入门
前言
Spark
Streaming准确来说算是一个微批处理伪实时的做法,可是Flink是真的来一条就会处理一条,而且在
Spark
Streaming和Kafka进行整合时我们需要手动去管理偏移量的问题,而在
IT领域君
·
2024-01-26 19:28
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他