Spark调优第21页

Spark——Spark读写MongoDB

文章目录Spark直连MongoDB1.通过SparkConf2.通过ReadConfig3.通过DataFrameReaderHive中创建映射表mongoexport导出文件参考如果我们要想通过Spark

Southwest-·2024-01-28 08:46

一波三折：一次CPU使用率过高故障分析SQL优化解决过程

数据和云·2024-01-28 08:15

Spark——Spark读写Greenplum/Greenplum-Spark Connector高速写Greenplum

文章目录问题背景解决方式代码实现Spark写GreenplumSpark读Greenplum参考问题背景通过数据平台上的DataX把Hive表数据同步至Greenplum（因为DataX原生不支持GreenplumWriter

Southwest-·2024-01-28 08:42

自动驾驶代客泊车AVP决策规划详细设计

为了打磨巡航规划的能力，算法架构应当设计的更为灵活，可以针对使用场景迁入更为先进有效的算法，同时也可以更好的结合现有成熟的仿真平台进行算法的离线调优；此外考虑到产品的设计需求以及硬件算力的限制，算法性能的优化也是十分重要的课题

电气_空空·2024-01-28 07:35

Hive之set参数大全-18

指定在执行Spark上的动态分区裁剪时，用于评估分区数据大小的最大限制在Hive中，hive.spark.dynamic.partition.pruning.max.data.size是一个配置参数，用于指定在执行

OnePandas·2024-01-28 07:33

hive面试题

本质上是将SQL转换为MapReduce或者spark来进行计算，数据是存储在hdfs上，简单理解来说hive就是MapReduce的一个客户端工具。补充1：你可以说一下HQL转换为MR的任务流程吗？

韩顺平的小迷弟·2024-01-28 07:29

大数据——Flink 知识点整理

目录1.Flink的特点2.Flink和SparkStreaming的对比3.Flink和Blink、Alink之间的关系4.JobManager和TaskManager的职责5.Flink集群部署有哪些模式

Vicky_Tang·2024-01-28 06:17

借助arthas 性能调优全过程

使用arthas的trace命令分析方法耗时瓶颈：可以看出bindReloadZoneTimeLimite耗时最久，通过分析Bind底层，将业务粒度进行拆分，加入并发执行再次使用arthas追踪单个方法耗时时间：核心耗时方法，速度优化将近4倍，总方法耗时优化1.5倍

CodingPeppa·2024-01-28 04:44

项目优化之Redis调优

公司项目使用的Redis调优1.最大物理内存2.键名简短(存储key)3.请求超时时间4.数据持久化策略5.优化AOF和RDB6.监控客户端的连接7.限制客户端连接数8.Redis的key过期策略以及内存淘汰机制

一只Black·2024-01-28 01:52

Apache Spark架构与特点

1.背景介绍ApacheSpark是一个开源的大数据处理框架，由AMLLabs公司开发，后被Apache软件基金会所支持。

OpenChat·2024-01-27 23:35

Spark-core

什么是SparkSpark是基于内存的快速，通用，可扩展的大数据分析引擎Spark的内置模块SparkCore是Spark可以离线处理的部分，实现了spark的基本功能，包含任务调度，错误恢复，与存储系统交互等模块

luckboy0000·2024-01-27 23:12

MySQL使用show profile调优

showprofile调优有时候使用explain执行计划发现其实是命中了索引的，但是还是很慢，此时可以使用profile功能，showprofile是mysql提供的可以用来分析当前会话中语句执行的资源消耗情况

拾光师·2024-01-27 21:28

JVM-G1 性能调优思路与实战

现在大多数公司的Java生产版本都是再JDK8，所以本次性能调优主要针对G1来展开GC的主要回收区域就是年轻代(younggen)、老年代(tenuredgen)、持久区（permgen）,在jdk8之后

菠萝-琪琪·2024-01-27 21:53

备战面试日记（2.6） - （JVM.JVM调优）

文章目录JVM-JVM调优JVM参数JVM参数设置方法JVM调优工具JPS、JMAP、JSTACKjconsolejvisualvm使用方式JVM调优方案调优原则调优目的从应用层面来说从虚拟机层面来说调优方案调

舍其小伙伴·2024-01-27 21:23

JVM系列之故障排查与性能调优（重点）

1、故障排查与性能调优1.1、概述1.1.1、生产环境中的问题？生产环境发生了OOM，该如何处理？如何判断是否是内存泄漏导致的？生产环境应该给Java进程分配多少内存？生产环境应该如何选择垃圾收集器？

后端技术那点事·2024-01-27 21:52

JVM性能调优详解（值得收藏）

JVM性能调优详解前面我们学习了整个JVM系列，最终目标的不仅仅是了解JVM的基础知识，也是为了进行JVM性能调优做准备。这篇文章带领大家学习JVM性能调优的知识。

java领域·2024-01-27 21:20

JVM系列-9.性能调优

原理如果感觉博主的文章还不错的话，请三连支持一下博主哦博主正在努力完成2023计划中：源码溯源，一探究竟联系方式：nhs19990716，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬文章目录性能调优性能调优解决的问题性能调

爱吃芝士的土豆倪·2024-01-27 21:19

独家解读 | 滴滴机器学习平台架构演进之路

所谓大同是指大家所要处理的问题都相似，技术架构和选型也差不太多，比如都会使用GPU集群、采用Spark或K8s平台等。

csdn产品小助手·2024-01-27 19:18

apache 前30个开源项目

高性能Web服务器提供HTTP服务支持非常活跃2ApacheTomcatJava应用服务器部署JavaWeb应用程序非常活跃3ApacheHadoop分布式存储和计算框架大数据处理非常活跃4ApacheSpark

临水逸·2024-01-27 17:35

性能测试准备方案

性能测试目的性能调优开发人员对系统调优后，需要测试人员配合去做性能测试，验证这次优化是否有效果。如果性能指标相比较之前的性能指标更好了，说明系统优化的有效果。

美团程序员·2024-01-27 17:57

粒子群算法pos优化transformer 时间序列预测

对于Transformer模型，使用粒子群优化（ParticleSwarmOptimization,PSO）进行参数调优是一种策略。

mqdlff_python·2024-01-27 16:40

如何使用irsa将火花提交给亚马逊eks集群

Inpreviousarticle,IhaveintroducedhowwesubmitaSparkjobtoanEKScluster.Aslongaswe’reusingotherAWScomponentsforourpipelinestointeract

weixin_26755331·2024-01-27 15:26

(lvs)高性能Linux服务器构建实战：运维监控、性能调优与集群应用

LVS三种模式：NAT，TUN,DR调度算法：rrwrrlcwlclblclblcrdhshLVS查看哪些IP连接过来：ipvsadm-LncLVS+keepalivedLVS+heartbeatLVS+piranha

SkTj·2024-01-27 15:19

Pyspark分类--LogisticRegression

LogisticRegression：逻辑回归分类classpyspark.ml.classification.LogisticRegression(featuresCol=‘features’,labelCol

Gadaite·2024-01-27 14:53

搭建大数据平台常用的端口号

journalnode默认的端口号9000：非高可用访问数rpc端口8020：高可用访问数据rpc8088：yarn的webUI的端口号8080：master的webUI，Tomcat的端口号7077：spark

修勾勾L·2024-01-27 13:51

Spark连接Hive的两种方式

一、使用hive-site.xml第一步：将集群中的hive-site.xml的内容复制出来，并放在idea项目的resources下，要求文件命名为：hive-site.xmldatanucleus.schema.autoCreateAlltruejavax.jdo.option.ConnectionURLjdbc:mysql://192.168.38.160:3306/hive_db?crea

修勾勾L·2024-01-27 13:50

JVM调优

JVM调优-VisualVmVisualVm/Jconsule远程连接第一种方式第二种方式：java11开启远程GC连接(jstatd配置开启)如果还连不上考虑防火墙拦截了端口，firewall-cmd

程序员不是狗·2024-01-27 13:48

项目中常用的utils

importcryptofrom'crypto'importSparkMD5from'spark-md5'importCryptoJsfrom'crypto-js'importJSEncryptfrom'jsencrypt'importstoragefrom

乐夫天命兮·2024-01-27 13:05

flume+kafka+SparkStreaming+mysql+ssm+高德地图热力图项目

第一步、编写python脚本，产生模拟数据#coding=UTF-8importrandomimporttimephone=["13869555210","18542360152","15422556663","18852487210","13993584664","18754366522","15222436542","13369568452","13893556666","1536669855

printf200·2024-01-27 12:24

Java 自带的性能调优神器！！你还没用过吗？

VisualVM是Netbeans的profile子项目，已在JDK6.0update7中自带，能够监控线程，内存情况，查看方法的CPU时间和内存中的对象，已被GC的对象，反向查看分配的堆栈(如100个String对象分别由哪几个对象分配出来的)。在JDK_HOME/bin(默认是C:\ProgramFiles\Java\jdk1.6.0_13\bin)目录下面，有一个jvisualvm.exe文

就要学Java·2024-01-27 12:55

基于springboot和bootstrap的开源运维监控工具

如果做一些调优和加强，可支持5000+节点监控2.CPU监控，内存监控，系

王逅逅_f6c0·2024-01-27 11:57

【Scala-spark.mlib】分布式矩阵——分布式计算的基石与利器

分布式矩阵1.mlib.linalg.distributed包2.DistributedMatrix特质3.BlockMatrix类4.CoordinateMatrix类5.IndexedRowMatrix类6.RowMatrix类7.小结1.mlib.linalg.distributed包矩阵计算是很多科学计算的重要步骤，而分布式矩阵存储则是分布式计算的基础。根据不同的计算需求，需要将用于计

JimmyShis·2024-01-27 10:12

Flink问题解决及性能调优-【Flink根据不同场景状态后端使用调优】

通过调优使用hashmap状态后端代替rocksdb状态后端，使吞吐量有了质的飞跃（20倍的性能提升），并分析整理。

PONY LEE·2024-01-27 08:21

2019年12月10日

今天在公司继续看spark教程，这么说来我已经快一个月没啥正事了（望向每日记录Excel文档），究竟说明公司药丸还是我药丸……反正先做好多手准备【今天明明温度不低办公室的三恒系统却还是开着高温，仿佛电费不要钱

真昼之月·2024-01-27 08:49

Spark-RDD持久化

(1)persist算子使用方法：varrdd=sc.textFile("test")rdd=rdd.persist(StorageLevel.MEMORY_ONLY)valcount=rdd.count()//或者其他操作StorageLevel说明：StorageLevel的构造函数：classStorageLevelprivate(privatevar_useDisk:Boolean,#是否

printf200·2024-01-27 08:02

JVM系列-8.GC调优

原理如果感觉博主的文章还不错的话，请三连支持一下博主哦博主正在努力完成2023计划中：源码溯源，一探究竟联系方式：nhs19990716，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬文章目录GC调优

爱吃芝士的土豆倪·2024-01-27 08:06

Spark SQL中掌控sql语句的执行 - 了解你的查询计划

本文翻译自BeinchargeofQueryExcutioninSparkSQL背景自spark2.x的sql以及申明行DataFrameAPi以来，在spark查询数据越来越方便。

鸿乃江边鸟·2024-01-27 08:18

JVM系列-7内存调优

原理如果感觉博主的文章还不错的话，请三连支持一下博主哦博主正在努力完成2023计划中：源码溯源，一探究竟联系方式：nhs19990716，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬文章目录内存调优内存泄漏和内存溢出常见场

爱吃芝士的土豆倪·2024-01-27 08:32

Hadoop与Spark横向比较【大数据扫盲】

大数据场景下的数据库有很多种，每种数据库根据其数据模型、查询语言、一致性模型和分布式架构等特性，都有其特定的使用场景。以下是一些常见的大数据数据库：1.**NoSQL数据库**：这类数据库通常用于处理大规模、非结构化的数据。它们通常提供简单的查询语言，并强调水平扩展和高可用性。例如：-**键值存储**：如Redis，AmazonDynamoDB-**列式存储**：如ApacheCassandra，

super_journey·2024-01-27 07:51

使用spark mllib训练中文文本分类器的

importorg.apache.spark.mllib.classification.NaiveBayesimportorg.apache.spark.mllib.feature.HashingTFimportorg.apache.spark.mllib.linalg.Vectorsimportorg.apache.spark.sql.functions

DreamNotOver·2024-01-27 07:45

使用 Spark MLlib 使用 jieba 分词训练中文分类器

importorg.apache.spark.ml.classification.NaiveBayesimportorg.apache.spark.ml.feature.HashingTFimportorg.apache.spark.sql.functions

DreamNotOver·2024-01-27 07:45

我理解的虚拟电厂

概念虚拟电厂：是一种通过先进信息通信技术和软件系统，实现DG、储能系统、可控负荷、电动汽车等DER的聚合和协调优化，以作为一个特殊电厂参与电力市场和电网运行的电源协调管理系统。

杜占坤·2024-01-27 04:35

Spark Thrift Server 架构和原理介绍

也可以看我CSDN的博客：https://blog.csdn.net/u013332124/article/details/90339850一、SparkThriftServer介绍SparkThriftServer

疯狂的哈丘·2024-01-27 04:17

实时分析海量新数据的难点和解决方案

解决方案：使用分布式计算和存储技术，如Hadoop、Spark、Kafka等，将数据分散存储在多个节点上，同时进行分布式计算和处理，以实现数据的实时处理和分析。2.数据质量的保障：海量新

云台095·2024-01-27 03:40

idea上搭建pyspark开发环境

1环境版本说明python版本：Anaconda3.6.5spark版本：spark-2.4.8-bin-hadoop2.7idea版本：2019.32环境变量配置2.1python环境变量配置将python.exe

jackyan163·2024-01-27 00:06

Hive调优策略

Hive调优策略Hive作为大数据领域常用的数据仓库组件，在设计和开发阶段需要注意效率。

奋斗的蛐蛐·2024-01-26 23:24

Adaboost处理多分类问题(参数调优，解决数据不平衡问题)

AdaBoostClassifier和AdaBoostRegressor框架参数我们首先来看看AdaBoostClassifier和AdaBoostRegressor框架参数。两者大部分框架参数相同，下面我们一起讨论这些参数，两个类如果有不同点我们会指出。1）base_estimator：AdaBoostClassifier和AdaBoostRegressor都有，即我们的弱分类学习器或者弱回归学

m0_51876286·2024-01-26 20:15

Spark 2.3.4 StandAlone 集群模式部署

Spark2.3.4StandAlone集群模式部署相关文档依赖服务系统优化创建路径配置/etc/profile配置$SPARK_HOME/conf/spark-env.sh配置$SPARK_HOME/

JP.Hu·2024-01-26 19:07

Flink 基础入门

前言SparkStreaming准确来说算是一个微批处理伪实时的做法，可是Flink是真的来一条就会处理一条，而且在SparkStreaming和Kafka进行整合时我们需要手动去管理偏移量的问题，而在

IT领域君·2024-01-26 19:28

索引是越多越好吗？

理解索引的适当使用和潜在的代价是数据库设计和性能调优的关键部分。以下是索引数量的权衡：索引的优势：提高查询速度：索引可以显著提高数据检索的速度，尤其是在大型数据集上。

来自宇宙的曹先生·2024-01-26 18:03

推荐频道

Spark调优