spark调优第16页

生产环境_Spark找出两DataFrame之间的差集（技巧）

在生产作业中，经常在工作流中遇到前后两DataFrame的数据缺失，比如df1为410条，下一个节点的df2就变成409条了，用眼睛看很费劲，因此不得不做一个差集。代码：/假设df1和df2是你的两个DataFramevaldf1=xxxvaldf2=ccc//使用except操作找出df1中存在但df2中不存在的数据valonlyInDf1=df1.except(df2)//使用except操作

Matrix70·2024-02-02 13:10

浅谈Spark Livy

SparkLivy什么是LivyLivy的特点Livy的运作流程阐述Livy的安装、启动、访问Livy的使用1.什么是Livylivy是cloudera开发的通过REST来连接、管理spark的解决方案

浅汐yt·2024-02-02 13:40

【Spark实践6】特征转换FeatureTransformers实践Scala版--补充算子

本节介绍了用于处理特征的算法，大致可以分为以下几组：提取（Extraction）：从“原始”数据中提取特征。转换（Transformation）：缩放、转换或修改特征。选择（Selection）：从更大的特征集中选择一个子集。局部敏感哈希（LocalitySensitiveHashing,LSH）：这类算法结合了特征转换的方面与其他算法。FeatureTransformersIndexToStri

周润发的弟弟·2024-02-02 13:39

spark相关面试题总结

1.spark中的RDD是什么，有哪些特性？

专注于大数据技术栈·2024-02-02 13:39

[Scala学习笔记] Spark开发小笔记

Spark开发小笔记：从0开始的Spark建图生活持续更新中……0.开发平台Zeppelin支持多种语言，默认是scala(背后是sparkshell)，SparkSQL,Markdown和Shell。

Rinnki·2024-02-02 13:39

Scala 与spark 7.23

例如：@transientvalsparkContext:SparkContext,Scala多行字符串之stripMargin方法https://www.jianshu.com/

qq_34872215·2024-02-02 13:09

生产环境踩坑系列::Hive on Spark的connection timeout 问题

起因7/16凌晨，钉钉突然收到了一条告警，一个公司所有业务部门的组织架构表的ETL过程中，数据推送到DIM层的过程中出现异常，导致任务失败。因为这个数据会影响到第二天所有大数据组对外的应用服务中组织架构基础数据，当然，我们的Pla-nB也不是吃素的，一旦出现错误，后面的权限管理模块与网关会自动配合切换前一天的最后一次成功处理到DIM中的组织架构数据，只会影响到在前一天做过组织架构变化的同事在系统上

dclar_·2024-02-02 13:08

【SparkML实践5】特征转换FeatureTransformers实战scala版

本节介绍了用于处理特征的算法，大致可以分为以下几组：提取（Extraction）：从“原始”数据中提取特征。转换（Transformation）：缩放、转换或修改特征。选择（Selection）：从更大的特征集中选择一个子集。局部敏感哈希（LocalitySensitiveHashing,LSH）：这类算法结合了特征转换的方面与其他算法。本章节主要讲转换1FeatureTransformersTo

周润发的弟弟·2024-02-02 13:08

spark livy hue

1.下载livylivy为Spark提供了REST接口，有如下特性:*提供交互式shell*批量提交*多用户使用用一个服务(用户模拟)*可以从任何地方使用REST的方式提交*无需对代码进行任何修改wgethttp

bigdataf·2024-02-02 13:08

PySpark（二）RDD基础、RDD常见算子

目录RDDRDD五大特性RDD创建RDD算子常见的Transformation算子mapflatMapmapValuesreduceByKeygroupByfilterdistinctunionjoinintersectionglomgroupByKeygroupByKey和reduceByKey的区别?sortBysortByKey常见的action算子countByKeycollectredu

独憩·2024-02-02 13:07

【livy】Spark Livy深究

什么是livyLivy的特点Livycloudera开发通过REST来连接、管理spark的解决方案从任何地方提交job使用交互式的Scala、Python语言与远程的spark集群进行通信无需更改代码

小赵要加油·2024-02-02 13:07

Python之PySpark简单应用

文章目录一、介绍1.准备工作2.创建SparkSession对象：3.读取数据：4.数据处理与分析：5.停止SparkSession：二、示例1.读取解析csv数据2.解析计算序列数据map\flatmap

陈年小趴菜·2024-02-02 13:37

【SparkML实践4】Pipeline实战scala版

DataFrame：这个机器学习API使用来自SparkSQL的DataFrame作为机器学习数据集，它可以包含多种数据类型。例如，一个DataFrame可以有不同的列存

周润发的弟弟·2024-02-02 13:36

生产环境_Spark接收传入的sql并替换sql中的表名与解析_非常NB

背景开发时遇到一个较为复杂的周期需求，为了适配读取各种数据库中的数据并将数据库数据转换为DataFrame并进行后续的开发分析工作，做了如下代码。在爷们开发这段生产中的代码，可适配mysql,hive,hbase，gbase等等等等，基本涉及到数据库的情况基本可以进行。可以说是非常之NB！！！！！了数据流程：由于该代码片段主要关注数据处理流程，而非实际数据内容，,当然，我也不能把特殊数据给大家展示

Matrix70·2024-02-02 13:06

Iceberg从入门到精通系列之二十四：Spark Structured Streaming

Iceberg从入门到精通系列之二十四：SparkStructuredStreaming一、StreamingReads二、StreamingWrites三、Partitionedtable四、流表的维护

最笨的羊羊·2024-02-02 12:52

Iceberg从入门到精通系列之二十三：Spark查询

Iceberg从入门到精通系列之二十三：Spark查询一、使用SQL查询二、使用DataFrame进行查询三、Timetravel四.Incrementalread五、检查表六、History七、元数据日志条目八

最笨的羊羊·2024-02-02 12:51

Iceberg从入门到精通系列之二十一：Spark集成Iceberg

Iceberg从入门到精通系列之二十一：Spark集成Iceberg一、在Spark3中使用Iceberg二、添加目录三、创建表四、写五、读六、Catalogs七、目录配置八、使用目录九、替换会话目录十

最笨的羊羊·2024-02-02 12:20

实时数据湖：Flink CDC流式写入Hudi

点击上方蓝色字体，选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•Spark2.4.5、Hadoop3.1.3

王知无(import_bigdata)·2024-02-02 12:01

使用 Flink Hudi 构建流式数据湖

通过MR/Spark的

浪尖聊大数据-浪尖·2024-02-02 12:30

Iceberg从入门到精通系列之二十二：Spark DDL

Iceberg从入门到精通系列之二十二：SparkDDL一、SparkDDL二、SparkDDL-创建表三、SparkDDL-PARTITIONEDBY四、SparkDDL-CREATETABLE...

最笨的羊羊·2024-02-02 12:47

pyspark的安装及使用

jdk安装必须要求为jdk1.8版本JDK下载后环境变量配置新增系统变量JAVA_HOMEPath新增测试是否安装成功：javac-versionspark安装官网下载，遇到加载不了选项框的情况可以尝试用手机打开网址获取下载链接后下载直接解压

a013067506e4·2024-02-02 11:56

调优IntelliJ IDEA的JVM参数

古人说得好，工欲善其事，必先利其器，这篇小随笔其实很久之前就该写了（因为是很久之前做的事情了）。现在为了写它，还得手动复现当时的场景，真麻烦呐。笔者的机器配置和环境如下：IntelCorei7-4870HQ,4C/[email protected]~3.7GHz16GBDDR3L1600MHzRAM512GBPCIeSSDmacOSMojave10.14.4IntelliJIDEA2018.2.7调整IDEA的JVM参

LittleMagic·2024-02-02 11:16

网站性能调优实战-学相伴KuangStudy

面对并发我们是如何优化KuangStudy网站性能的？每个项目都会随着用户和数据的增长调整架构，来面对未来的问题，我们也不例外，在1月5号我们平台正式公测后，引起了很多观众的热烈反响，仅仅4天，注册用户便破万。随之而来的就是平台开始变得卡顿，所以我们开始了我们的问题排查和优化，下面就和大家聊聊我们是如何处理的吧。Nginx一个网站，核心会分为几部分：前端、后台服务、数据库，服务器。我们最开始项目是

KuangStudy·2024-02-02 10:22

linux服务器springboot或tomcat项目启动，进行jvm参数调优设置

，但是项目启动占用的jvm内存默认值基本上都是很大的，800m到2G都有，这样很容易将服务器的内存吃垮，从而导致系统强制oom（内存泄露），不留任何情面；所以，我们在部署项目的时候需要进行jvm参数的调优设置

liaozk_c·2024-02-02 10:39

spark题06

6.列举Spark中常见的端口，分别有什么功能？8.Spark官网中，你常用哪几个模块？11.yarn的原理？14.看过源码？你熟悉哪几个部分的源码？

博弈史密斯·2024-02-02 09:59

Flink实现高斯朴素贝叶斯

Flink实现高斯朴素贝叶斯在之前的文章中提到了多项式的朴素贝叶斯，在spark的ML里也实现了多项式的朴素贝叶斯和伯努利朴素贝叶斯，在实际情况当中我们处理的变量除了离散型，还有连续型。

k_wzzc·2024-02-02 08:49

记录一下我们最近在压测过程中调优的过程

一、项目背景先说下项目背景，我们要为某个项目组开发一个联机交易平台，联机交易在金融业是比较常见的概念，实际上就是分布式系统调度，只是对每一个微服务是有规范的。作为联机交易平台，所有交易都会走我们的系统，因此对性能、可用性等都有严格的要求。由于我之前接触了很多公司的实际生产事故复盘（之前也发了一篇复盘相关的文章，感兴趣的可以查阅），所以我也要求我们所有项目组成员都要注意自己平时的代码开发，我也会不定

hbnn111·2024-02-02 08:12

JVM中一次完整的GC回收流程

还有经常说的JVM调优，也是对堆进行参数优化配置，达到最接近理想状态。结构详情新生代大部分刚创建的对象首先都是放在年轻代，新生代内存按

创作小达人·2024-02-02 07:21

【JVM调优及常见的JVM调优参数以及作用】

JVM调优及常见的JVM调优参数以及作用JVM调优通常涉及以下几个方面：1.堆内存调优：2.垃圾回收调优：3.线程调优：4.类加载调优：JVM的优化配置可以通过设置JVM的启动参数来实现。

数据科学与艺术的贺公子·2024-02-02 07:49

Hadoop-生产调优(更新中)

第1章HDFS-核心参数1.1NameNode内存生产配置1）NameNode内存计算每个文件块大概占用150byte，一台服务器128G内存为例，能存储多少文件块呢？128*1024*1024*1024/150byte≈9.1亿GMBKBByte2）Hadoop2.x系列，配置NameNode内存NameNode内存默认2000m，如果内存服务器内存4G，NameNode内存可以配置3g。在ha

OnePandas·2024-02-02 07:47

机器学习——泰坦尼克号乘客生存预测

是dream·2024-02-02 07:03

超全的 Elasticsearch 性能调优技巧，值的收藏！

原文：http://elasticsearch.cn/article/6202因为总是看到很多同学在说elasticsearch性能不够好，集群不够稳定，询问关于elasticsearch的调优，但是每次都是一个个点的单独讲

小霸戈·2024-02-02 06:18

Flink 实时写入数据到 ElasticSearch 性能调优

本着复现问题进行优化就能解决的思路进行调优测试。测试环境elasticsearch2.3.3flink1.6.3flink-connector-

zhisheng_blog·2024-02-02 06:45

ElasticSearch性能调优

ES性能调优ES的默认配置，是综合了数据可靠性、写入速度、搜索实时性等因素。实际使用时，我们需要根据公司要求，进行偏向性的优化。

会飞的鹅_·2024-02-02 06:42

【Elasticsearch】Elasticsearch性能调优

1.概述转载：Elasticsearch性能调优因为总是看到很多同学在说elasticsearch性能不够好，集群不够稳定，询问关于elasticsearch的调优，但是每次都是一个个点的单独讲，很多时候都是

九师兄·2024-02-02 06:42

Elasticsearch性能调优

背景项目上是用ES做数据库，存储的告警数据，量级在千万级别左右。测试在压测之后，系统频繁出现告警记录查询报错，系统不可用。基于此排查分析项目上Elasticsearch的使用是否合理。版本及硬件环境：10.xx.xxx.xxjdk：1.8.0elasticsearch：6.5.4es集群：1个client(预处理节点)，1个data(即做主节点，又做数据节点)os：centos764核128G垃圾

Hyatt1024·2024-02-02 06:37

池化技术

通过优化资源分配的效率，达到性能的调优。java中常见的池化技术有对象池，复用对象；连接池，复用连接；线程池，复用线程。对象池java中，万物皆对象，如果硬是要说连接池、线程池都是对象池看似也没问题。

ludan110·2024-02-02 05:00

技术分享 | 灭霸与普罗米修斯之无限存储的高可用方案

作者：王继顺宝尊电商DBA，主要负责数据库监控告警以及自动化平台的设计开发工作，擅长数据库性能调优、故障诊断。

爱可生开源社区·2024-02-02 04:58

微服务技术选型之路

微服务模式的项目从初建到上线部署应用，每一个环节都会涉及到相当多的技术细节（上线后的性能调优更需要）。

java菜·2024-02-02 04:39

Spark GraphX原理介绍

背景现实应用中，数据内部可能存在较高的关联度，如图模型应用。在对这样的数据进行处理时，并行计算框架就会面临较大的挑战，会引入大量的数据连接（join）和聚合（aggregation）操作，带来大量的计算和数据迁移，严重消耗集群资源，因此对此类算法的优化就显得极为重要。互联网上网页权值计算的PageRank算法是一个典型的图模型问题，它依据网页之间的链接指向关系来判断网页的重要性，指向一个网页的链接

tanglizhe1105·2024-02-02 01:38

阿里巴巴Java性能调优实战：网络通信优化之序列化：避免使用Java序列化

网络通信优化之序列化：避免使用Java序列化当前大部分后端服务都是基于微服务架构实现的。服务按照业务划分被拆分，实现了服务的解偶，但同时也带来了新的问题，不同业务之间通信需要通过接口实现调用。两个服务之间要共享一个数据对象，就需要从对象转换成二进制流，通过网络传输，传送到对方服务，再转换回对象，供服务方法调用。这个编码和解码过程我们称之为序列化与反序列化。在大量并发请求的情况下，如果序列化的速度慢

Charles__LUO·2024-02-02 01:57

Java Spark Config

我们可以自己实现一个SparkConfig默认配置工具以便统一管理packagecom.yzy.spark;importorg.apache.spark.SparkConf;publicclassSparkConfig

憨人Zoe·2024-02-02 00:43

基于RF算法的侧信道攻击方法研究

文章提出一种基于RF算法的侧信道攻击方法,分别从输入数据处理和参数控制两方面进行模型优化,在特征点选择和RF算法参数调优两方面进行改进。

罗伯特之技术屋·2024-02-01 21:18

Elasticsearch高性能优化实践

Elasticsearch高性能优化实践_es批量导入数据多少为最优-CSDN博客ES性能调优ES的默认配置，是综合了数据可靠性、写入速度、搜索实时性等因素。

大叶子不小·2024-02-01 21:39

介绍 Apache Spark 的基本概念和在大数据分析中的应用

ApacheSpark是一个开源的大数据处理框架，旨在提供高速、易用和通用的大数据分析平台。它所提供的一系列工具和库可以帮助用户处理大规模数据集，并支持复杂的数据分析任务。

做一个AC梦·2024-02-01 21:07

性能超Spark 100倍，算立方补上邦盛科技实时智能技术体系的关键拼图丨爱分析访谈

随着互联网和物联网的逐渐普及，各行业都开始源源不断产生单源或多源数据，这些高并发的数据具有高度的实时性和明显的时间序列，数据越热的时候处理，获得的业务价值越高。随着数字化转型的深入，企业都在积极建设数据能力，开发数据应用，以实现数据驱动业务。邦盛科技是一家专注于大数据实时智能领域的人工智能厂商，提出“时序中间态”技术体系，针对高并发的热数据可毫秒间完成计算。其核心技术之一是能够实时快速、高并发处理

ifenxi爱分析·2024-02-01 20:10

[Python] 什么是网格搜索以及scikit-learn中GridSearch类的介绍和使用案例？

网格搜索是一种参数调优的方法，它可以帮助找到最佳的模型参数。在网格搜索中，我们先指定参数的候选值范围，然后枚举所有可能的参数组合，计算每个模型的性能指标（比如准确率、精确率等）。

老狼IT工作室·2024-02-01 20:39

Spark基础

Spark基础几个重要的概念：RDD：是弹性分布式数据集（ResilientDistributedDataset）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型；DAG：是DirectedAcyclicGraph

cjyang·2024-02-01 19:23

LoaRunner性能测试系统学习教程：Apache调优(4)

上期我们讲到LoaRunner性能测试Apachetop监控，这期我们讲LoaRunner性能测试Apache调优。

川石教育·2024-02-01 18:48

【yarn】 kill 一个spark任务

要关闭一个正在运行的Spark任务，你可以使用以下命令来终止执行：yarnapplication-kill将替换为你要关闭的Spark应用程序的ID。

言之。·2024-02-01 17:54

推荐频道

spark调优