-----Spark 第15页

Spark累加器LongAccumulator

Accumulator有两个性质：1、只会累加，合并即累加；2、不改变Spark作业懒执行的特点，即没有action操作触发job的情况下累加器的值有可能是初始值。o

新鲜氧气·2024-01-25 19:53

pyspark排雷

问题执行计算时，抛出异常：...java.lang.IllegalArgumentException:Unsupportedclassfilemajorversion57...经过查询，发现时pysparkjar

_Rango_·2024-01-25 16:05

Flink1.17总结

1.Flink介绍1.Flink和SparkStreaming区别2.Flink分层API3.WordCount案例需求：写一个文本，统计出单词的个数1.使用flink批处理查看WordCountBatchDemo

asxyyjh·2024-01-25 14:29

【hudi学习笔记】hudi基础教程-hudi表设计

一.hudi表设计在较高的层次上，用于写Hudi表的组件使用了一种受支持的方式嵌入到ApacheSpark作业中，它会在支持DFS的存储上生成代表Hudi表的一组文件。

菜鸟老胡~·2024-01-25 09:13

Hudi学习笔记4 - Hudi配置之Spark配置

SparkDatasourceConfigs读配置配置项是否必须默认值配置说明as.of.instantYN/A0.9.0版本新增，时间旅行查询从哪儿开始，有两种格式的值：yyyyMMddHHmmss和

一见·2024-01-25 09:40

Hudi学习笔记2 - Hudi配置

https://hudi.apache.org/docs/configurationsHudi配置分类SparkDatasourceConfigsSparkDatasource的配置。

一见·2024-01-25 09:39

Hudi学习笔记1

使用SparkSQL创建hudi表时，默认设置：hoodie.da

一见·2024-01-25 09:09

Hudi学习笔记(一)

大数据发展背景Hudi用于管理分布式文件系统上大型分析数据集存储，支持Spark和Flink整合。它能够是DFS数据集在分钟级时延内支持变更，也支持下游系统对这个数据集的增量处理。

一一|一一一亅·2024-01-25 09:37

上万字详解Spark Core（建议收藏）

先来一个问题，也是面试中常问的：Spark为什么会流行？

废柴程序员·2024-01-25 09:06

spark 3.2 reuse pvc 功能改造

背景sparkreusepvcfeaturePVC:PersistentVolumeClaim.APersistentVolumeClaim(PVC)isarequestforstoragebyauser.ItissimilartoaPod.PodsconsumenoderesourcesandPVCsconsumePVresources.Podscanrequestspecificlevelso

todd5167·2024-01-25 07:23

大数据平台组件日常运维操作说明（Hadoop/Zookeeper/Kafa/ES/Mysql/Spark/Flume/Logstash/Tomcat）

Hadoop日常运维操作说明hdfs生产环境hadoop为30台服务器组成的集群，统一安装配置，版本号为2.7.7部署路径：/opt/hadoop启动用户：hadoop配置文件：/opt/hadoop/config/hdfs-site.xml/opt/hadoop/config/core-site.xmlhadoopy运行环境变量配置文件：hadoop-env.shjournalnode.envd

love6a6·2024-01-25 07:12

一个女人和一座公园

图片发自App后来知道这座公园有一个很阴柔的名字“Women‘sPark”。鉴于这是所知范围内最近的公园，所以似乎也没有更好的选择。于是这名孕妇经常踟蹰在这异国他乡清

七月的薰衣草天空·2024-01-25 07:13

【Java Kubernates】Java调用kubernates提交Yaml到SparkOperator

考虑使用spark，sparkoperator也已经部署到k8s，现在需要定向提交sparksql到k8s的sparkoperator上，使用k8s资源执行sql。

秦拿希·2024-01-25 07:13

spark广播变量

-1-24广播变量特点BroadcastVariable会将使用到的变量，只会为每个节点拷贝一份，不会为每个task进行拷贝，能够优化性能（在task数量比较大体现更明显），减少网络传输及内存消耗通过SparkContext

新鲜氧气·2024-01-25 07:37

SparkStreaming稽查布控/动态广播变量(处理电信数据)

SparkStreaming稽查布控/动态广播变量需求：1.在mysql中建表2.在虚拟机中使用指令：nc-lk88883.在IDEA中编写代码数据如下需求：1.在mysql中建表CREATETABLE

莫尼莫尼·2024-01-25 05:54

pyspark udf

目录简单的注册UDF自己定义函数UDFpysparkudf源码解析复杂数据类型：ArrayType、MapType、StructTypeArrayTypeMapTypeStructType简单的注册UDF

小赵要加油·2024-01-25 05:33

【spark】SparkSQL

目录SparkSQL01.快速入门什么是SparkSQL为什么学习SparkSQLSparkSQL的特点SparkSQL发展历史-前身Shark框架SparkSQL发展历史02.SparkSQL概述SparkSQL

小赵要加油·2024-01-25 05:00

Spark难点 | Join的实现原理

Join背景当前SparkSQL支持三种join算法：ShuffleHashJoin、BroadcastHashJoin以及SortMergeJoin。

王知无·2024-01-25 03:35

大数据开发之Spark（累加器、广播变量、Top10热门品类实战）

1、累加器使用1）累加器定义（sparkcontext.accumulator(in

Key-Key·2024-01-25 00:25

大数据开发之SparkSQL

第1章：sparksql概述1.1什么是sparksql1、sparksql是spark用于结构化数据处理的spark模块1）半结构化数据（日志数据）2）结构化数据（数据库数据）1.2为什么要有sparksqlhiveonspark

Key-Key·2024-01-25 00:24

请手动写出wordcount的spark代码实现

valconf=newSparkConf().setMaster("local[6]").setAppName("wordCount")valsc=newSparkContext(conf)sc.textFile

scott_alpha·2024-01-24 23:28

js快速计算文件hash值

1.通过requestIdleCallbackorspark-md5利用浏览器空闲时间切片计算文件hash值:requestIdleCallback简介：window.requestIdleCallback

舜岳·2024-01-24 22:01

【无标题】

Github：https://github.com/SparkDevNetwork/Rock详细介绍：点击查看145、用于自动化测试Windows应用程序的开

sophiemantela·2024-01-24 21:15

Spark基本架构及原理

Hadoop和Spark的关系Spark运算比Hadoop的MapReduce框架快的原因是因为Hadoop在一次MapReduce运算之后,会将数据的运算结果从内存写入到磁盘中,第二次Mapredue

李飞_fd28·2024-01-24 20:50

Spark性能优化指南数据倾斜——高级篇

继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后，本文作为《Spark性能优化指南》的高级篇，将深入分析数据倾斜调优与shuffle调优，以解决更加棘手的性能问题。

吃胖点儿·2024-01-24 17:15

Spark源码之CacheManager

Spark源码之CacheManager篇CacheManager介绍1.CacheManager管理spark的缓存，而缓存可以基于内存的缓存，也可以是基于磁盘的缓存；2.CacheManager需要通过

小狼星I·2024-01-24 12:38

Hudi0.14.0 集成 Spark3.2.3（IDEA编码方式）

本次在IDEA下使用Scala语言进行开发，具体环境搭建查看文章IDEA下ScalaMaven开发环境搭建。1环境准备1.1添加maven依赖创建Maven工程，pom文件：<projectxmlns="http://maven.apache.org/POM/4.0.0"

跟着大数据和AI去旅行·2024-01-24 11:46

Hudi0.14.0集成Spark3.2.3（Spark Shell方式）

1启动1.1启动SparkShell#ForSparkversions:3.2-3.4spark-shell--jars/path/to/jars/hudi-spark3.2-bundle_2.12-0.14.0

跟着大数据和AI去旅行·2024-01-24 08:11

Hudi0.14.0集成Spark3.2.3（Spark SQL方式）

1整合HiveForuserswhohaveSpark-Hiveintegrationintheirenvironment,thisguideassumesthatyouhavetheappropriatesettingsconfiguredtoallowSparktocreatetablesandregisterinHiveMetastore

跟着大数据和AI去旅行·2024-01-24 08:05

学习Spark遇到的问题

【报错】AttributeError:‘SparkContext’objecthasnoattribute‘setcheckpointDir’本人传参：conf=SparkConf().setAppName

黄黄黄黄黄莹·2024-01-24 07:20

Spark详解（八）：Spark 容错以及高可用性HA

1.Executor容错Spark支持多种运行模式，这些运行模型中的集群管理器会为任务分配运行资源，在运行资源中启动Executor，由Ex

MasterT-J·2024-01-24 07:19

Spark DataFrame：从底层逻辑到应用场景的深入解析

本文将深入探讨SparkDataFrame的底层逻辑、发展由来以及应用场景。通过了解DataFrame的底层逻辑，我们可以更好地理解其在Spark中的重要地位。

{BOOLEAN}·2024-01-24 07:18

Apache Spark中的广播变量分发机制

ApacheSpark中的广播变量提供了一种机制，允许用户在集群中共享只读变量，并且每个任务都可以访问这个变量，而不需要在每次任务之间重新发送该变量。

{BOOLEAN}·2024-01-24 07:18

大数据开发之Spark（RDD弹性分布式数据集）

第1章：rdd概述1.1什么是rddrdd（resilientdistributeddataset）叫做弹性分布式数据集，是spark中最基本的数据抽象。

Key-Key·2024-01-24 07:17

深入理解Spark编程中的map方法

在Spark的上下文

{BOOLEAN}·2024-01-24 07:47

Spark运行架构以及容错机制

Spark运行架构以及容错机制1.Spark的角色区分1.1Driver1.2Excuter2.Spark-Cluster模式的任务提交流程2.1SparkOnYarn的任务提交流程2.1.1yarn相关概念

李姓门徒·2024-01-24 07:41

spark-flink设计思想之吸星大法-1

Spark和Flink都是大数据处理框架，它们的设计思想有一些不同之处。以下是对它们设计思想的简要对比：数据模型和计算模型：Spark：Spark使用弹性分布式数据集（RDD）作为其核心数据结构。

{BOOLEAN}·2024-01-24 07:47

reduceByKey应用举例

PhotobyStefanStefancikfromPexels在进行Spark开发算法时，最有用的一个函数就是reduceByKey。

学习之术·2024-01-24 05:16

Spark - 动态注册UDF

>昨天有位大哥问小弟一个Spark问题，他们想在不停Spark程序的情况下动态更新UDF的逻辑，他一问我这个问题的时候，本猪心里一惊，Spark**还能这么玩?

kikiki4·2024-01-24 03:22

Spark 编程模型 RDD

Spark编程模型有两个主要的抽象，第一个是弹性数据集RDD（ResilientDistributedDataset），第二个是共享变量：广播变量和累加器。首先了解以下RDD。

Alex90·2024-01-23 23:44

Grafana panel之Singlestat

它还可以将单个数字转换为文本值，并显示该时间序列的sparkline摘要。在Grafana7.0中已将Stat面板代替Singlestat。但由于我用的还是老版的grafana所以还是决定

jeongee0328·2024-01-23 19:15

Spark - 动态注册UDF

>昨天有位大哥问小弟一个Spark问题，他们想在不停Spark程序的情况下动态更新UDF的逻辑，他一问我这个问题的时候，本猪心里一惊，Spark**还能这么玩?

kikiki5·2024-01-23 16:08

Spark Core源码精读计划#22：BlockInfoManager与其实现的块锁机制

目录前言BlockInfoManager的成员属性及构造方法BlockInfoManager提供的锁方法获取读锁获取写锁释放锁锁降级删除BlockInfo总结前言在上一篇文章中，我们对与块相关的BlockId、BlockData和BlockInfo有了比较全面的理解。前面已经提到过，块在读写时有锁机制，并且委托给BlockInfoManager来管理。虽然BlockInfoManager的字面意思

LittleMagic·2024-01-23 15:23

Spark RDD分区数和分区器

一、分区数如何决定1、数据源RDD数据源RDD的分区数由数据源的读取器决定,比如sc.textFile产生的rdd,分区数由TextInputFormat.getInputSplits()方法决定,具体源码追踪及解析如下:valrdd1=sc.textFile("data/tbPerson.txt")①Ctrl+B进入textFiletextFile底层其实就是通过hadoopFile去读文件②C

maplea2012·2024-01-23 15:40

AI绘画Midjourney绘画提示词Prompt入门到精通【宝藏级收藏】

一、AI绘画工具SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2024-01-23 15:35

2024最新AI系统ChatGPT网站源码+搭建部署教程文档，Midjourney绘画，GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+GPT-4识图理解/自定义知识库

一、前言SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2024-01-23 15:05

2024最新AI创作系统ChatGPT源码，支持Midjourney绘画，GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+GPT-4识图理解

一、前言SparkAi创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统，支持OpenAI-GPT全模型+国内AI全模型。

白云如幻·2024-01-23 15:04

推荐频道

-----Spark

Spark累加器LongAccumulator

pyspark排雷

Flink1.17总结

【hudi学习笔记】hudi基础教程-hudi表设计

Hudi学习笔记4 - Hudi配置之Spark配置

Hudi学习笔记2 - Hudi配置

Hudi学习笔记1

Hudi学习笔记(一)

上万字详解Spark Core（建议收藏）

spark 3.2 reuse pvc 功能改造

大数据平台组件日常运维操作说明（Hadoop/Zookeeper/Kafa/ES/Mysql/Spark/Flume/Logstash/Tomcat）

一个女人和一座公园

【Java Kubernates】Java调用kubernates提交Yaml到SparkOperator

spark广播变量

SparkStreaming稽查布控/动态广播变量(处理电信数据)

pyspark udf

【spark】SparkSQL

Spark难点 | Join的实现原理

大数据开发之Spark（累加器、广播变量、Top10热门品类实战）

大数据开发之SparkSQL

请手动写出wordcount的spark代码实现

js快速计算文件hash值

【无标题】

Spark基本架构及原理

最新AI系统ChatGPT网站H5系统源码，支持Midjourney绘画，GPT语音对话+ChatFile文档对话总结+DALL-E3文生图

Spark性能优化指南数据倾斜——高级篇

Spark源码之CacheManager

Hudi0.14.0 集成 Spark3.2.3（IDEA编码方式）

Hudi0.14.0集成Spark3.2.3（Spark Shell方式）

Hudi0.14.0集成Spark3.2.3（Spark SQL方式）

学习Spark遇到的问题

Spark详解（八）：Spark 容错以及高可用性HA

Spark DataFrame：从底层逻辑到应用场景的深入解析

Apache Spark中的广播变量分发机制

大数据开发之Spark（RDD弹性分布式数据集）

深入理解Spark编程中的map方法

Spark运行架构以及容错机制

spark-flink设计思想之吸星大法-1

reduceByKey应用举例

Spark - 动态注册UDF

Spark 编程模型 RDD

Grafana panel之Singlestat

Spark - 动态注册UDF

Spark Core源码精读计划#22：BlockInfoManager与其实现的块锁机制

Spark RDD分区数和分区器

AI绘画Midjourney绘画提示词Prompt入门到精通【宝藏级收藏】

2024最新AI系统ChatGPT网站源码+搭建部署教程文档，Midjourney绘画，GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+GPT-4识图理解/自定义知识库

2024最新AI创作系统ChatGPT源码，支持Midjourney绘画，GPT语音对话+ChatFile文档对话总结+DALL-E3文生图+GPT-4识图理解

最新ChatGPT商业运营版源码，AI绘画，Midjourney绘画，GPT-4V多模态模型识图理解+GPT语音对话+ChatFile文档对话总结+DALL-E3文生图

最新AI系统ChatGPT网站系统源码,支持AI绘画,GPT语音对话,ChatFile文档对话总结,DALL-E3文生图,MJ绘画局部编辑重绘