Spark学习之路第54页

Spark---基于Yarn模式提交任务

/spark-submit--masteryarn--classorg.apache.spark.examples.SparkPi..

30岁老阿姨·2023-11-25 01:14

Spark是什么？以及它有哪些应用场景呢？

首先说说Spark的起源：Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用的并行计算框架，Spark基于mapreduce算法实现的分布式计算，拥有HadoopMapReduce

陈影鸿在进步·2023-11-25 01:07

Apache Linkis 修复多个漏洞

编译：代码卫士ApacheLinkis是一款热门的计算中间件，用于弥合上层应用程序和底层引擎之间的差距，从而能够无缝访问多个引擎如MySQL、Spark、Hive、Presto和Flink。

奇安信代码卫士·2023-11-24 23:31

给全体同学的一封信

因为在学习之路上，有的同学已向顶峰攀登，体会一览众山小的愉悦，有的学生还在山脚迷茫徘徊，一直没有上路。有一句话说:不怕同学是学霸，就怕同学放寒暑假。因为你的假期是休息，看电视，玩

天净沙张兴晓·2023-11-24 23:10

Vue学习之路

1.vue是什么概念：vue是一个用于构建用户界面的渐进式框架声明式渲染=>组件系统=>客户端路由(VueRouter)=>大规模状态管理(Vuex)=>构建工具(Webpack/vite)vue的两种使用方式：1:Vue核心包开发场景：局部模块改造2::Vue核心包&Vue插件工程化开发场景：整站开发2.插值表达式{{}}1:作用：利用表达式进行插值，渲染到页面中2:语法：{{表达式}}3.响应

wuhuajun_123456·2023-11-24 23:09

Vue学习之路------指令

Vue指令vue会根据不同的指令，针对标签实现不同的功能指令:带有v-前缀的特殊标签属性1：v-html：指令2：v-show作用：控制元素显示隐藏语法：v-show="表达式"表达式值true显示，false隐藏原理：切换display:none控制显示隐藏场景：频繁切换显示隐藏的场景3:v-if作用：控制元素显示隐藏(条件渲染)语法：v-if="表达式"表达式值true显示，false隐藏原理

wuhuajun_123456·2023-11-24 23:34

机器学习之分类

spark.mllib支持两种线性分类方法：线性支持向量机（SVM）和逻辑回归。线性SVM仅支持二进制分类，而逻辑回归支持二进制和多类分类问题。

辣椒种子·2023-11-24 22:01

机器学习之基本的统计工具

除此之外，spark.mllib库也提供了一些其他的基本的统计分析工具，包括相关性、分层抽样、假设检验，随机数生成等。

辣椒种子·2023-11-24 22:30

docker安装部署Apache Griffin

1）下载docker镜像dockerpullapachegriffin/griffin_spark2:0.3.0dockerpullapachegriffin/elasticsearchdockerpullapachegriffin

柒柒钏·2023-11-24 21:35

ARTS-第八周第九周

Tips/Technology一、Kerberos与hadoop生态相关配置与操作HDFS使用kerberosYARN、Spark、Hive使用kerberoskerberos+LDA

梧上擎天·2023-11-24 17:02

Java Web 学习之路（1） —— 前端篇

文章目录前言1.JS1.1引入方式1.2基础语法1.3函数1.4对象1.5事件监听2.Vue3.Ajax4.Element5.Nginx前言在学习后端前，还需要大致了解下前端的一些知识，所以本篇就先快速把前端的一些知识过一遍。本篇不含过多干货和技术知识，仅仅是一些概念，因为博主的重心还是在后面的后端SSM。1.JS1.1引入方式内部脚本：定义在HTML中的JS脚本必须位于标题之间外部脚本：只包含J

JehanRio·2023-11-24 17:07

Serverless 在数据处理场景下的最佳应用

我们知道传统的数据处理无外乎涉及Kafka、Logstash、FileBeats、Spark、Flink、CLS、COS等组件。

Serverless·2023-11-24 17:49

spark 源码分析之三 -- LiveListenerBus介绍

LiveListenerBus官方说明如下：AsynchronouslypassesSparkListenerEventstoregisteredSparkListeners.即它的功能是异步地将SparkListenerEvent

weixin_30457465·2023-11-24 16:08

Spark重要源码解读

SparkConf类/***ConfigurationforaSparkapplication.UsedtosetvariousSparkparametersaskey-valuepairs.

Winyar Wen·2023-11-24 16:08

Spark一级资源调度Shedule机制及SpreadOut模式源码深入剖析

weixin_34210740·2023-11-24 16:38

Spark事件监听总线流程分析-Spark商业环境实战

weixin_34268753·2023-11-24 16:38

spark源码：SparkContext初始化需要启动的组件

spark源码分析之SparkContext1.SparkContext简介2初始化SparkContext需要启动的组件2.0SparkContext私有的可变成员变量2.1SpaekEnv2.2LiveListenerBus2.3SparkUI2.4SparkStatusTracker2.5ConsoleProgressBar2.6DAGScheduler2.7TaskScheduler2.8

weixin_38842855·2023-11-24 16:38

spark streaming2.4.0 任务启动源码剖析

官方案例首先以官方启动入手objectSparkStreamingTest{defmain(args:Array[String]):Unit={valconf=newSparkConf().setAppName

乾坤瞬间·2023-11-24 16:07

【源码解读】|SparkContext源码解读

【源码解读】|SparkContext源码解读导读须知一、CallSite创建什么叫CallSite？CallSite有什么用？

857技术社区·2023-11-24 16:06

Spark UI实现原理与事件监听机制

SparkUI实现原理与事件监听机制一、引言SparkUI是了解spark任务运行情况的入口，也是进行spark任务性能优化与调试必不可少的工具。

涛声依旧（竞涛）·2023-11-24 16:35

Spark Task执行流程源码分析系列之二: 任务构建&调度&资源分配

上一节我们介绍了Task各个环节用到的主要数据结构，本节我们来看看Spark中一个Task是如何构建起来的，又是如何获取到资源，然后提交给集群相应的资源进行启动的。

小白数据猿·2023-11-24 16:04

Spark异步事件总线机制源码分析

收录于话题#大数据常用技术15#大数据17#spark2Spark事件总线贯彻整个应用，TaskScheduler、Executor、JobScheduler、SQLExecution等关键交互逻辑离不开

跃ge·2023-11-24 16:03

Spark核心机制总结

文章目录1.RDD2.与MapReduce对比3.Spark的各大组件4.Spark执行流程5.执行过程中的一些细节6.Spark的部署模式和作业提交部署模式Spark的作业提交7.宽窄依赖DAGScheduler

Icedzzz·2023-11-24 16:33

Spark读取外部数据的原理解读

收录于话题#spark2#大数据17#大数据常用技术15为了简化理解，该文尝试使用SparkContext.textFile()为入口进行分析。

跃ge·2023-11-24 16:33

【Spark源码分析】事件总线机制分析

Spark事件总线机制采用Spark2.11源码，以下类或方法被@DeveloperApi注解额部分，可能出现不同版本不同实现的情况。Spark中的事件总线用于接受事件并提交到对应的监听器中。

顧棟·2023-11-24 16:02

大数据集群报错集锦及解决方案

4Azkaban4.1Azkaban页面登陆乱码5Oozie5.1Oozie初始化失败5.2脚本修改之后Oozie任务执行失败6Kerberos6.1启用Kerberos之后，hdfs浏览器打开鉴权失败7Spark7.1Spa

陈舟的舟·2023-11-24 16:22

Doris系列之高级功能-Rollup操作

Doris系列注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关的内容，内容多为原创，PythonJavaScalaSQL代码，CVNLP推荐系统等，SparkFlinkKafkaHbaseHiveFlume

陈万君Allen·2023-11-24 16:31

Doris系列之物化视图操作

Doris系列注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关的内容，内容多为原创，PythonJavaScalaSQL代码，CVNLP推荐系统等，SparkFlinkKafkaHbaseHiveFlume

陈万君Allen·2023-11-24 16:31

实时分析海量新数据的难点和解决方案

解决方案：使用分布式计算和存储技术，如Hadoop、Spark、Kafka等，将数据分散存储在多个节点上，同时进行分布式计算和处理，以实现数据的实时处理和分析。2.数据质量的保障：海量新

29597739c454·2023-11-24 15:56

【spark on kubernetes】spark operator部署安装 v1beta2-1.2.0-3.0.0

最近开始研究sparkonkubernetes，经过调研，sparkonkubernetes有两种方案，一种是官方的spark提供的原生支持按照spark-submit方式提交任务，第二种是google

秦拿希·2023-11-24 11:18

【大数据】Docker部署HMS(Hive Metastore Service)并使用Trino访问Minio

HiveStandaloneMetastore管理MinIO（S3）_hiveminio_BigDataToAI的博客-CSDN博客一.背景团队要升级大数据架构，需要摒弃hadoop，底层使用Minio做存储，应用层用trino火spark

秦拿希·2023-11-24 11:35

spark中write算子和format算子详解

在spark中，想要往数据库或者某sink路径里面写数据，存到外部存储系统，如文件系统、数据库或数据仓库，经常会用到write算子。

后季暖·2023-11-24 11:02

spark写入关系型数据库的duplicateIncs参数使用

在看一段spark写数据到关系型数据库代码时，发现一个参数没有见过：df.write.format("org.apache.spark.sql.execution.datasources.jdbc2")

后季暖·2023-11-24 11:25

思考: 为什么 Flink 要弃用Scala API呢？

2.个人浅薄的理解在使用FlinkScalaAPI的时候，发下很多Scala代码都是对JavaAPI的调用，这样就带来了很多不必须要的使用麻烦，不像Spark底层使用Scala开发一样，所以我们可以使用

广阔天地大有可为·2023-11-24 11:22

spark sql本地测试Demo

spark本地测试Demoimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.functions.

jiayeliDoCn·2023-11-24 11:52

为什么 Flink 抛弃了 Scala

曾经红遍一时的Scala想当初Spark横空出世之后，Scala简直就是语言界的一颗璀璨新星，惹得大家纷纷侧目，连Kafka这类技术框架也选择用Scala语言进行开发重构。

shengjk1·2023-11-24 10:40

C++学习之路-类模板之泛型动态数组的实现

类模板-动态数组技术动态数组的需求int型动态数组的实现过程类模板实现泛型动态数组打印数组的实现动态数组的需求可以向数组中添加元素，且无限制添加。这也就意味着该数组可以动态扩容array.append(value0)array.append(value1)...array.append(value2)可以通过get方法取出数组中某个索引处的元素array.get(index)可以删除数组中某个索引

Struggle￥·2023-11-24 10:02

【大数据实训】基于赶集网租房信息的数据分析与可视化(七)

CSDN平台官方提供的博主的联系方式，有偿帮忙部署基于赶集网租房信息的数据分析与可视化一、实验环境（1）Linux：Ubuntu16.04（2）Python:3.6（3）Hadoop：3.1.3（4）Spark

AI_Maynor·2023-11-24 10:54

Spark数据倾斜解决方案

数据倾斜的解决，跟之前讲解的性能调优，有一点异曲同工之妙。性能调优，跟大家讲过一个道理，“重剑无锋”。性能调优，调了半天，最有效，最直接，最简单的方式，就是加资源，加并行度，注意RDD架构（复用同一个RDD，加上cache缓存）；shuffle、jvm等，都是次要的。数据倾斜的解决方案，第一个方案和第二个方案，是最朴素、最简谱、最直接、最有效、最简单的，解决数据倾斜问题的方案。重剑无锋。后面的五个

000X000·2023-11-24 09:52

Spark数据倾斜解决办法

Spark数据倾斜解决办法一个Spark程序会根据其内部的Action操作划分成多个job，每个作业内部又会根据shuffle操作划分成多个Stage，每个Stage由多个Task任务并行进行计算，每个

不会打球的摄影师不是好程序员·2023-11-24 09:50

Spark 优化——数据倾斜解决方案

目录一、什么是数据倾斜数据倾斜的表现：定位数据倾斜问题：二、解决方案解决方案一：聚合原数据1)避免shuffle过程2)缩小key粒度（增大数据倾斜可能性，降低每个task的数据量）3)增大key粒度（减小数据倾斜可能性，增大每个task的数据量）解决方案二：过滤导致倾斜的key解决方案三：提高shuffle操作中的reduce并行度reduce端并行度的设置reduce端并行度设置存在的缺陷解决

TRX1024·2023-11-24 09:49

Spark 数据倾斜及其解决方案

一、什么是数据倾斜对Spark/Hadoop这样的分布式大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。对于分布式系统而言，理想情况下，随着系统规模（节点数量）的增加，应用整体耗时线性下降。

沐白的微笑·2023-11-24 09:17

Spark 数据倾斜解决方案

文章目录Spark数据倾斜解决方案1聚合原数据1.1避免shuffle过程1.2缩小key粒度（增大数据倾斜可能性，降低每个task的数据量）1.3增大key粒度（减小数据倾斜可能性，增大每个task的数据量

陈舟的舟·2023-11-24 09:46

spark 数据倾斜解决思路

比如，总共有1000个task，997个task都在1分钟之内执行完了，但是剩余两三个task却要一两个小时,这种情况很常见-原本能够正常执行的Spark作业，某天突然报出OOM（内存溢出）异常，观察异常栈

maketubu7·2023-11-24 09:44

Spark 数据倾斜解决思路

１．优化数据结构２．修改并行度1.改变并行度可以改善数据倾斜的原因是因为如果某个task有100个key并且数据巨大，那么有可能导致OOM或者任务运行缓慢;2.此时如果把并行度变大，那么可以分解每个task的数据量，比如把该task分解给10个task,那么每个task的数据量将变小，从而可以解决OOM或者任务执行慢.对应reduceByKey而言可以传入并行度参数也可以自定义partition．

仰望星空的我·2023-11-24 09:44

34-spark数据倾斜解决

1.聚合源数据（1）避免shuffle过程绝大多数情况下，spark作业的数据来源都是Hive表，这些Hive表基本都是经过ETL之后的昨天的数据。

大数据捌圆·2023-11-24 09:13

【云计算大数据】Spark数据倾斜解决方案，java程序设计简明教程答案

spark代码，是怎么划分成一个一个的stage的。哪一个stage生成的task特别慢，就能够自己用肉眼去对你的spark《一线大厂Java面试

m0_64867435·2023-11-24 09:13

spark数据倾斜的解决思路

数据倾斜是：多个分区中，某个分区的数据比其他分区的数据多的多数据倾斜导致的问题：导致某个spark任务耗时较长，导致整个任务耗时增加，甚至出现OOM运行速度慢：主要发生在shuffle阶段，同样的key

阿君聊风控·2023-11-24 09:09

jdk11新特性，是否有必要从JDK8切换到JDK11

1.完全支持Linux容器（包括docker）许多运行在Java虚拟机中的应用程序（包括ApacheSpark和Kafk

程小明的coding·2023-11-24 09:30

推荐频道

Spark学习之路