spark性能调优第38页

CentOS服务器搭建Miniconda环境

异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据PySpark

数据科学知识库·2023-12-18 11:34

数据科学知识库·2023-12-18 11:04

Spark中广播变量和累加器

一、前述Spark中因为算子中的真正逻辑是发送到Executor中去运行的，所以当Executor中需要引用外部变量时，需要使用广播变量。累机器相当于统筹大变量，常用于计数，统计。

printf200·2023-12-18 10:06

机器学习算法---时间序列

异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据PySpark

数据科学知识库·2023-12-18 08:23

机器学习算法---聚类

异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据PySpark

数据科学知识库·2023-12-18 08:23

pyspark Exception: Java gateway process exited before sending its port number（2021年10月29日版）

前奏为了实现一个spark的客户端访问服务端的python访问，折腾了好几天，现在终于解决了，查了网上的很多人写的文章，都没解决，跟着他们说的改，也没解决问题。

明天,今天,此时·2023-12-18 07:05

【Spark面试】Spark面试题&答案

目录1、spark的有几种部署模式，每种模式特点？（☆☆☆☆☆）2、Spark为什么比MapReduce块？（☆☆☆☆☆）3、简单说一下hadoop和spark的shuffle相同和差异？

话数Science·2023-12-18 06:52

Hudi 在 vivo 湖仓一体的落地实践

vivo互联网技术·2023-12-18 03:15

spark_shuffle相关参数整理

1、spark.shuffle.file.buffer默认值：32k参数说明：该参数用于设置shufflewritetask的BufferedOutputStream的buffer缓冲大小。

耗子背刀PK猫·2023-12-18 02:23

吸血鬼日记第1季第5集台词

,Ihavelivedinsecretuntilnow.一个多世纪以来我都秘密地活着IknowtheriskbutIhavetoknowher.我知道很冒险但我必须要认识她Howcouldyounotsparkle

英美剧台词·2023-12-18 01:32

提交Application的两种方式

一.提交Application的两种方式分别是client方式和cluster方式1.client方式这种方式，Driver进程是在client端启动启动代码样例spark-submit--masterspark

0_9f3a·2023-12-17 23:54

备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

//www.mysql.com/软件名称版本ubuntu18.0464位Hadoop：hadoop-3.1.3.tar.gz3.1.3Jdk：jdk-8u212-linux-x64.tar.gz1.8Spark

Stitch .·2023-12-17 22:18

Spark基础入门

spark基础入门环境搭建localstandlonesparkhasparkcodesparkcoresparksqlsparkstreaming环境搭建准备工作创建安装目录mkdir/opt/softcd

李昊哲小课·2023-12-17 21:04

Spark课程大纲

Spark环境搭建CentosSpark单机版伪分布式模式Spark单机版intelij开发(maven)Spark完全分布式集群搭建Sparkhistoryserver配置使用二种方法实现Spark计算

小猪Harry·2023-12-17 19:11

91、Spark Streaming之transform以及广告计费日志实时黑名单过滤案例实战

transform以及实时黑名单过滤案例实战transform操作，应用在DStream上时，可以用于执行任意的RDD到RDD的转换操作。它可以用于实现，DStreamAPI中所没有提供的操作。比如说，DStreamAPI中，并没有提供将一个DStream中的每个batch，与一个特定的RDD进行join的操作。但是我们自己就可以使用transform操作来实现该功能。DStream.join()

ZFH__ZJ·2023-12-17 19:31

Spark SQL中coalesce()函数

在SparkSQL中，`coalesce()`函数用于从给定列中选择非空值。它接受一个或多个列作为参数，并返回第一个非空值。

小辉懂编程·2023-12-17 18:16

Spark SQL 写入hive表字段名称或者类型不一致

解决方案：valtargetTableSchemaArray=spark.catalog.listColumns(dbName,tableName).select("name","dataType","

团团饱饱·2023-12-17 17:12

大数据存储技术（3）—— HBase分布式数据库

）概念（二）特点（三）HBase架构二、HBase原理（一）读流程（二）写流程（三）数据flush过程（四）数据合并过程三、HBase安装与配置（一）解压并安装HBase（二）配置HBase（三）配置Spark

Francek Chen·2023-12-17 17:44

Linux Ubuntu环境下使用docker构建spark运行环境（超级详细）

LinuxUbuntu环境下使用docker构建spark运行环境（超级详细）这篇文章深入研究了在LinuxUbuntu环境下使用Docker构建Spark运行环境的详细步骤。

星川皆无恙·2023-12-17 15:39

流批一体神器 Flink 之 Flink State 架构原理解析

身为大数据工程师，你还在苦学Spark、Hadoop、Storm，却还没搞过Flink？醒醒吧！

zhisheng_blog·2023-12-17 14:32

大规模异常滥用检测：基于局部敏感哈希算法——来自Uber Engineering的实践

为了解决我们和其他系统中的类似挑战，UberEngineering和Databricks共同向ApacheSpark2.1开发了局部敏感哈希（LSH）。LSH是大规模

djph26741·2023-12-17 14:49

SQL SERVER性能优化综述 - TravyLee的专栏 - 博客频道 - CSDN.NET

我始终认为，一个系统的性能的提高，不单单是试运行或者维护阶段的性能调优的任务，也不单单是开发阶段的事情，而

weixin_33778778·2023-12-17 14:30

在 idea 中以 yarn-client 远程提交 Spark 作业

示例代码RemoteSubmitApp主类packagecom.clouderaimportorg.apache.kafka.clients.consumer.ConsumerConfigimportorg.apache.kafka.common.serialization.StringDeserializerimportorg.apache.log4j.Loggerimportorg.apach

lei_charles·2023-12-17 13:41

JVM 性能调优及监控诊断工具 jps、jstack、jmap、jhat、jstat、hprof 使用详解

一.前言工欲善其事，必先利其器。在日常的企业级Java应用开发、维护中，我们可能会碰到下面这些问题：OutOfMemoryError，内存不足；内存泄露；线程死锁；锁争用（LockContention）；Java进程消耗CPU过高等。那么如何快速找出问题根本原因及如何解决成了我们需要掌握的基本技能，而这种技能的掌握除了自身的经验之外，更重要的是能够熟练地使用各种工具。很多问题在日常开发、维护中可能

懒鸟一枚·2023-12-17 10:34

Flink 简介

Flink简介#一、Flink简介#1.Flink发展这几年大数据的飞速发展，出现了很多热门的开源社区，其中著名的有Hadoop、Storm，以及后来的Spark，他们都有着各自专注的应用场景。

lz_matlab·2023-12-17 09:09

图解Spark Graphx实现顶点关联邻接顶点的collectNeighbors函数原理

在用Sparkgraphx中，通过函数collectNeighbors便可以获取到源顶点邻接顶点的数据。下面以一个例子来说明，首先，先基于顶点集和边来创建一个Graph图。

朱季谦·2023-12-17 09:31

Spark sql 写分区表，设置format报错

sparksqldataset写入表的时候，我写的是一个用ymd分区的表，我想设置输出格式format("hive")，然后报错了代码如下ds.write().partitionBy(partitionsStr

南修子·2023-12-17 07:25

JVM 性能调优及监控诊断工具 jps、jstack、jmap、jhat、jstat、hprof 使用详解

目录一.前言二.jps（JavaVirtualMachineProcessStatusTool）三.jstack四.jmap（MemoryMap）和jhat（JavaHeapAnalysisTool）五.jstat（JVM统计监测工具）六.hprof（Heap/CPUProfilingTool）七.总结一.前言工欲善其事，必先利其器。在日常的企业级Java应用开发、维护中，我们可能会碰到下面这些问

流华追梦^_^·2023-12-17 07:33

Hadoop，Hive和Spark大数据框架的联系和区别

Hadoop，Hive和Spark是大数据相关工作中最常用的三种框架。1Hadoophadoop是一个分布式计算框架，是大数据处理的基石，大多其他框架都是以hadoop为基础。

Weiyaner·2023-12-17 06:00

Win10下安装大数据开发环境 spark+hadoop+hive（实测可用）

Win10下安装大数据开发环境spark+hadoop+hive（实测可用）基础环境安装spark安装Hadoop安装hive安装总结参考博客基础环境安装首先，我们需要搭建软件的运行环境，本文中所使用的软件均需要运行在

YannAdams·2023-12-17 06:30

大数据生态中‘Hadoop’、‘Hive’、‘Spark’、‘Mapreduce’、‘HDFS’、‘Yarn’是什么关系

小书生啊·2023-12-17 06:29

大数据 | Hadoop、Hive、Spark的关系

文章总括图数据存储单机数据库时代所有数据在单机都能存的下，数据处理的任务都是IO密集型，更谈不上分布式系统一个典型的2U服务器可以插6块硬盘，每块硬盘4T，共24T原始容量，再加上一些数据包的可用冗余，再加上一些格式化的损失，保守估计一台服务器至少可以有10T以上的可用容量，再加上128G内存和两颗CPU，装入DBMS，稍微调优，单表处理10e条数据问题不大多机数据库时代当数据量变多时，单台机器无

xyzhang2018·2023-12-17 06:58

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅

在这个充满机遇和挑战的领域中，我深入研究了Hadoop、HDFS、Hive和Spark等关键技术。本篇博客将从"是什么"、"为什么"和"怎么办"三个角度，系统地介绍这些技术。文章目录是什么？

程序员三木·2023-12-17 06:55

Spark报错处理系列之：Caused by: java.lang.StackOverflowError

Spark报错处理系列之：Causedby:java.lang.StackOverflowError一、完整报错二、错误原因三、解决方法一、完整报错INFOApplicationMaster:UnregisteringApplicationMasterwithFAILED

最笨的羊羊·2023-12-17 06:38

Spark-Streaming+HDFS+Hive实战

文章目录前言一、简介1.Spark-Streaming简介2.HDFS简介3.Hive简介二、需求说明1.目标：2.数据源：3.数据处理流程：4.HDFS文件保存：5.Hive外部表映射：三、实战示例演练

大数据魔法师·2023-12-17 06:38

《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-17 05:16

《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

对大数据技术栈Hadoop、Hive、Spark、Kafka等有深入研究，对Data

wux_labs·2023-12-17 05:10

175、Spark运维管理进阶之作业资源调度standalone模式下使用动态资源分配

/sbin/.start-shuffle-service.sh启动spark-shell，启用动态资源分配添加如下配置--confspark.shuffle.service.enabled=true\-

ZFH__ZJ·2023-12-17 04:18

Spark SQL之读取复杂的json数据

text":"Nicedayouttoday"}{"user":{"name":"Matei","location":"Berkeley"},"text":"Evennicerhere:)"}2、直接使用spark

kun2736·2023-12-17 03:41

Spark数据倾斜（一）：描述及定位

1、数据倾斜的原理在执行shuffle操作的时候，是按照key，来进行values的数据的输出、拉取和聚合的。同一个key的values，一定是分配到一个reducetask进行处理的。假如现在有多个key对应的values，总共是90万，但是问题是，可能某个key对应了88万数据，key-values(88万数据)分配到一个task上去面去执行，另外两个task，可能各分配到了1万数据，可能是数

雪飘千里·2023-12-17 02:04

spark-常用算子

一，Transformation变换/转换算子：这种变换并不触发提交作业，这种算子是延迟执行的，也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行，需要等到有Action操作的时候才会真正触发。1.Value数据类型的Transformation算子这种变换并不触发提交作业，针对处理的数据项是Value型的数据（1）输入分区与输出分区一对一型：1.map算子处理数据是一对一的关系，进入

Logan_addoil·2023-12-17 02:04

Flink 有状态流式处理

传统批次处理方法【1】持续收取数据（kafka等），以window时间作为划分，划分一个一个的批次档案（按照时间或者大小等）；【2】周期性执行批次运算（Spark/Stom等）；传统批次处理方法存在的问题

程序猿进阶·2023-12-17 00:30

spark在standalone模式下提交任务流程

1、application（自己编写的应用程序），拷贝到用来提交spark应用的机器上，用spark-summit来提交这个application，在standalone模式下，会在本机客户端直接启动一个

程序媛啊·2023-12-16 23:22

Spark - 直接操作数据源 MySQL

答案就是使用spark的计算能力的，我们可以将mysql数据源接入到spark中。

kikiki4·2023-12-16 23:31

Spark(一): 基本架构及原理

Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升

hedgehog1112·2023-12-16 22:33

Linux 的性能调优的思路

Linux操作系统是一个开源产品，也是一个开源软件的实践和应用平台，在这个平台下有无数的开源软件支撑，我们常见的apache、tomcat、mysql等。开源软件的最大理念是自由、开放，那么Linux作为一个开源平台，最终要实现的是通过这些开源软件的支持，以最低廉的成本，达到应用最优的性能。因此，谈到性能问题，主要实现的是Linux操作系统和应用程序的最佳结合。01性能问题综述系统的性能是指操作系

测试界的世清·2023-12-16 21:39

【Scala】Scala中的一些基本数据类型的特性列表、元组、构造器、单例对象、伴生类、伴生对象、抽象类与特质

列表使用List(“”,“”,“”)去声明sliding和groued表示迭代器valiter=List("Hadoop","Spark","Scala")sliding2//sliding和groued

冲鸭嘟嘟可·2023-12-16 20:17

Weblogic 中间件性能调优

主要讨论WeblogicServer性能调优方法和经验，供技术人员参考。处理过程WebLogicServer的核心组件由监听线程,套接字复用器和可执行线程的执行队列组成。

it技术分享just_free·2023-12-16 20:27

Spark

1.请解释Spark中的RDD是什么？

编织幻境的妖·2023-12-16 20:22

Spark

1.请简要介绍一下ApacheSpark的基本架构和组件。

编织幻境的妖·2023-12-16 20:21

推荐频道

spark性能调优

CentOS服务器搭建Miniconda环境

面试题---推荐系统

Spark中广播变量和累加器

机器学习算法---时间序列

机器学习算法---聚类

pyspark Exception: Java gateway process exited before sending its port number（2021年10月29日版）

【Spark面试】Spark面试题&答案

Hudi 在 vivo 湖仓一体的落地实践

spark_shuffle相关参数整理

吸血鬼日记第1季第5集台词

提交Application的两种方式

备赛笔记——2024全国职业院校技能大赛“大数据应用开发”赛项——任务2：离线数据处理

Spark基础入门

Spark课程大纲

91、Spark Streaming之transform以及广告计费日志实时黑名单过滤案例实战

Spark SQL中coalesce()函数

Spark SQL 写入hive表 字段名称或者类型不一致

大数据存储技术（3）—— HBase分布式数据库

Linux Ubuntu环境下使用docker构建spark运行环境（超级详细）

流批一体神器 Flink 之 Flink State 架构原理解析

大规模异常滥用检测：基于局部敏感哈希算法——来自Uber Engineering的实践

SQL SERVER性能优化综述 - TravyLee的专栏 - 博客频道 - CSDN.NET

在 idea 中以 yarn-client 远程提交 Spark 作业

JVM 性能调优及监控诊断工具 jps、jstack、jmap、jhat、jstat、hprof 使用详解

Flink 简介

图解Spark Graphx实现顶点关联邻接顶点的collectNeighbors函数原理

Spark sql 写分区表，设置format报错

JVM 性能调优及监控诊断工具 jps、jstack、jmap、jhat、jstat、hprof 使用详解

Hadoop，Hive和Spark大数据框架的联系和区别

Win10下安装大数据开发环境 spark+hadoop+hive（实测可用）

大数据生态中‘Hadoop’、‘Hive’、‘Spark’、‘Mapreduce’、‘HDFS’、‘Yarn’是什么关系

大数据 | Hadoop、Hive、Spark的关系

[AIGC ~大数据] 深入理解Hadoop、HDFS、Hive和Spark：Java大师的大数据研究之旅

Spark报错处理系列之：Caused by: java.lang.StackOverflowError

Spark-Streaming+HDFS+Hive实战

《PySpark大数据分析实战》-11.Spark on YARN模式安装Hadoop

《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

175、Spark运维管理进阶之作业资源调度standalone模式下使用动态资源分配

Spark SQL之读取复杂的json数据

Spark数据倾斜（一）：描述及定位

spark-常用算子

Flink 有状态流式处理

spark在standalone模式下提交任务流程

Spark - 直接操作数据源 MySQL

Spark(一): 基本架构及原理

Linux 的性能调优的思路

【Scala】Scala中的一些基本数据类型的特性 列表、元组、构造器、单例对象、伴生类、伴生对象、抽象类与特质

Weblogic 中间件性能调优

Spark

Spark

Spark SQL 写入hive表字段名称或者类型不一致

【Scala】Scala中的一些基本数据类型的特性列表、元组、构造器、单例对象、伴生类、伴生对象、抽象类与特质