.spark 第18页

spark Failed to get main class in JAR with error null . Please specify one with --class.

运行spark-submit命令示例bin/spark-submit\--classorg.apache.spark.examples.SparkPi\--masteryarn\--deploy-modecluster

linpaomian·2024-01-17 02:13

Spark Core源码精读计划#25：UnifiedMemoryManager——统一内存管理机制

借用存储内存申请/借用执行内存总结前言在前文的末尾，我们分析了静态内存管理器StaticMemoryManager的优缺点，并指出统一内存管理器UnifiedMemoryManager能够弥补它的缺点，同时也是目前Spark

LittleMagic·2024-01-16 23:51

Spark详解

Spark概念Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。

武昌库里写JAVA·2024-01-16 21:15

IDEA-scala：java.lang.NoClassDefFoundError：org / apache / commons / csv / CSVFormat and Static met...

在IDEA构建了一个spark+smile的maven项目，用起来还是有各种bug。

bensonrachel·2024-01-16 21:08

Hudi0.14.0最新编译（修订版）

1编译环境Java1.8maven3.9.3hadoop3.3.4hive3.1.3spark3.2.1flink1.16.0hudi0.14.02hudi准备2.1源码$gitclonehttps:/

跟着大数据和AI去旅行·2024-01-16 20:40

【js】spark-md5来计算文件的MD5值

在React中，可以使用开源的JavaScript库spark-md5来计算文件的MD5值。该库可以在浏览器中计算文件的MD5值，而不需要上传文件到服务器。

bulucc·2024-01-16 19:21

结构化流的介绍

目录有界数据和无界数据有界数据无界数据结构化流基本介绍入门案例结构化流的编程模型数据结构数据源(Source)FileSourceKafkaSource(Spark和Kafka整合)整合Kafka准备工作从

Sisi525693·2024-01-16 19:58

大数据学习入门到实战教程，精心整理万字长文入门，老奶奶看了都说学会了

换个角度说，大数据是：1、有海量的数据2、有对海量数据进行挖掘的需求3、有对海量数据进行挖掘的软件工具（hadoop、spark、storm、flink、tez

悦悦学Python·2024-01-16 18:10

hive:创建自定义python UDF

addfilehdfs://home/user/py3_script/;setspark.yarn.dist.archives=hdfs://home/user/py3.tar.gz;setspark.shuffle.hdfs.enabled

青盏·2024-01-16 16:35

Spark-RDD算子大全

SparkRDD（弹性分布式数据集）是Spark中的核心抽象，它代表一个不可变、分区的分布式数据集合。

Young_IT·2024-01-16 15:17

78、Spark SQL之延伸知识之Hive On Spark

SparkSQL与HiveOnSpark区别Hive是目前大数据领域，事实上的SQL标准。

ZFH__ZJ·2024-01-16 15:10

记录学习Spark+Kafka构建实时分析Dashboard案例中遇到的问题（一）安装

白令屿·2024-01-16 13:53

Python 与 PySpark数据分析实战指南：解锁数据洞见

Python和PySpark作为强大的工具，提供了丰富的库和功能，使得数据分析变得更加高效和灵活。在这篇文章中，我们将深入探讨如何使用Python和PySpark进行数据分析，包

库库的里昂·2024-01-16 12:27

Sparkr

https://spark.rstudio.com/index.html如何使用spark在上述这个链接有详细文档。下一个问题，如搭建一个spark平台！

Liam_ml·2024-01-16 12:57

【Flink-1.17-教程】-【一】Flink概述、Flink快速入门

【Flink-1.17-教程】-【一】Flink概述、Flink快速入门1）Flink是什么1.1.有界流和无界流1.2.Flink的发展史2）Flink特点3）FlinkvsSparkStreaming4

bmyyyyyy·2024-01-16 08:16

Spark Structured Streaming + Kafka +Json

org.apache.spark spark-sql-kafka-0-10_2.11 2.1.1 org.apache.spark spark-sql_2.11 2.1.1importorg.apache.spark.sql.SparkSessionobjectMyTest

zhangxl-jc·2024-01-16 07:00

StructStreaming整合Kafka操作

StructStreaming整合Kafka操作Maven依赖org.apache.sparkspark-sql-kafka-0-10_2.123.3.1实时数据ETL准备数据/***模拟产生基站日志数据

健鑫.·2024-01-16 07:29

SparkSQL和Hive语法差异

SparkSQL和Hive语法差异1、仅支持HiveSparkSQL关联条件on不支持函数rand()创建零时表时，Spark不支持直接赋值nullSpark无法读取字段类型为void的表SparkSQL

中长跑路上crush·2024-01-16 07:28

Structured Streaming 整合 Kafka指南

从kafka读取数据//Subscribeto1topicvaldf=spark.readStream.format("kafka").option("kafka.bootstrap.servers",

鸭梨山大哎·2024-01-16 07:27

PySpark Structured Streaming kafka示例

PySparkStructuredStreamingkafka示例直接上代码：#!

张行之·2024-01-16 07:52

Structured Streaming配置Kafka参数

overridedefstream():DataFrame={valkafkaConf=newKafkaConfigurationvalspark=GxSparkSession().session()valdf

sunyang098·2024-01-16 07:18

Structured_Streaming和Kafka整合

结构化编程模型输出终端/位置默认情况下，Spark的结构化流支持多种输出方案：1-consolesink:将结果数据输出到控制台。

小希 fighting·2024-01-16 06:14

seatunnel 消费kafka数据写入clickhouse

SeaTunnel是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台，架构于ApacheSpark和ApacheFlink之上，支持海量数据的实时同步与转换。

冰帆<·2024-01-16 05:41

大数据技术原理与应用第三版林子雨期末复习（五）第十章 SPARK

大数据技术原理与应用第三版林子雨期末复习（五）第十章SPARK简介spark特点spark与Hadoop对比Hadoop缺点spark优点RDDRDD概念RDD间存在依赖关系分为宽依赖与窄依赖RDD的两种常用操作简介

头发多多，肆意生长·2024-01-16 05:22

Spark - 资源动态释放

>通过spark-submit会固定占用一占的资源，有什么办法，在任务不运作的时候将资源释放，让其它任务使用呢，yarn新版本默认已经支持了，我们使用的是HDP。##版本如下!

kikiki4·2024-01-16 03:58

Spark MLlib ----- ALS算法

补充在谈ALS（AlternatingLeastSquares）之前首先来谈谈LS，即最小二乘法。LS算法是ALS的基础，是一种数优化技术，也是一种常用的机器学习算法，他通过最小化误差平方和寻找数据的最佳匹配，利用最小二乘法寻找最优的未知数据，保证求的数据与已知的数据误差最小。LS也被用于拟合曲线，比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y

创作者mateo·2024-01-16 02:54

ClickHouse - 01

与其特性在大数据处理场景中，流处理和批处理使用到的技术大致如下：大数据处理场景流程.png批处理会将源业务系统中的数据通过数据抽取工具（例如Sqoop）将数据抽取到HDFS中，这个过程可以使用MapReduce、Spark

ArthurHC·2024-01-16 02:17

Python语法进阶学习--进程和线程

后续很快就要进入Spark的学习，在学习之前也是要铺垫一个知识点：进程是什么？线程是什么？两者有什么区别？又有什么关系？

Yan_bigdata·2024-01-15 23:34

【Spark】Spark原理简述

发现一篇很好的文章，适合对Spark有一定了解的小伙伴阅读主要介绍下自己在学习spark当中的一些理解和学习过程中踩到的坑，对spark时间效率优化的点做个总结，各位大佬轻拍。

turboSniper·2024-01-15 14:57

streaming 101

看之前就知道这是两篇能够提升你对流处理理解的文章，不是一般的提升，可以说是一种升华，因为他谈的不是一个具体的工具（sparkstreaming，flink等），而是谈流处理应该是怎么样的，流处理要打败批处理一统天下的话需要有什么特性

Bitson·2024-01-15 12:31

Spark原理——Shuffle 过程

Shuffle过程Shuffle过程的组件结构从整体视角上来看,Shuffle发生在两个Stage之间,一个Stage把数据计算好,整理好,等待另外一个Stage来拉取放大视角,会发现,其实Shuffle发生在Task之间,一个Task把数据整理好,等待Reducer端的Task来拉取如果更细化一下,Task之间如何进行数据拷贝的呢?其实就是一方Task把文件生成好,然后另一方Task来拉取现在是

我像影子一样·2024-01-15 09:47

Spark高级特性 (难)

Spark高级特性(难)闭包/**编写一个高阶函数，在这个函数要有一个变量，返回一个函数，通过这个变量完成一个计算**/@Testdeftest():Unit={//valf:Int=>Double=closure

我像影子一样·2024-01-15 09:11

sparkStreaming 连接kafka的方式

sparkStreaming消费kafak有两种方式1：receiver方式2：direct方式receiver方式：1：sparkStreaming将kafka之中的数据读取到spark内存之中，然后对

流砂月歌·2024-01-15 06:59

大数据问答汇总

ApacheSpark有哪些常见的稳定版本，Spark1.6.0的数字分别代表什么意思？

Sql强·2024-01-15 03:28

Java 与 Scala 使用Maven混合编译打包

在SpringBoot上使用spark的时候会遇到的混合编译问题，在java代码中打包会找不到scala定义的包，即可参考使用如下配置。

kikiki4·2024-01-15 02:07

centos spark单机版伪分布式模式

Spark的部署方式包括Standalone、YARN、Mesos，在我们学习Spark编程的过程中，往往机器资源有限，于是可以采用伪分布式部署。

piziyang12138·2024-01-15 00:05

FLINK学习笔记（一）-- Word Count

defmain(args:Array[String]):Unit={/***flink的运行模型*1.DataSource*2.Transformation*3.DataSink*///获取环境，类似于sparkcontextvalenv

k_wzzc·2024-01-14 22:15

Building online HBase cluster of Zhihu based on Kubernetes

utm_campaign=profiletracking&utm_medium=sssite&utm_source=ssslideview同样对spark或者yarnr

mtj66·2024-01-14 21:24

深入理解 Spark（二）SparkApplication 提交和运行源码分析

spark核心流程yarn-clientyarn-clusterspark任务调度sparkstage级别调度sparktask级别调度失败重试和白名单对于运行失败的Task，TaskSetManager

我很ruo·2024-01-14 21:19

深入理解 Spark（三）SparkTask 执行与 shuffle 详解

SparkTask的分发部署与启动流程分析SparkAction算子触发job提交Spark当中Stage切分源码详解Task的提交与执行SparkShuffle机制详解MapReduceShuﬄe全流程深度剖析

我很ruo·2024-01-14 21:19

深入理解 Spark（四）Spark 内存管理模型

Spark中的内存管理和资源管理模型Executor进程作为一个JVM进程，其内存管理建立在JVM的内存管理之上，整个大致包含两种方式：堆内内存和堆外内存。

我很ruo·2024-01-14 21:16

SparkSQL函数定义——UDF函数，窗口函数

目录1定义UDF函数1.1返回值是数组类型的UDF定义1.2返回字典类型的UDF定义2窗口函数1定义UDF函数目前python仅支持UDF两种定义方式：1.sparksession.udf.register

油豆皮·2024-01-14 20:03

spark | scala | 线性代数库Breeze学习

最近在学习spark，对线性代数库Breeze做了学习，介绍下常用的函数前提，使用Breeze库，必须导入相关的包importbreeze.linalg._importbreeze.numerics.

茁壮小草·2024-01-14 18:55

Spark线性代数,绘图工具入门;scala, java下的Breeze线性代数以及数据绘图工具breeze-viz入门

//官方地址,https://github.com/scalanlp/breeze/wiki/Quickstar//由于编辑器的格式原因,自行拷贝到集成开发环境中调试格式,代码都可以正确运行defbreezeTest:Unit={//Vector支持访问和更新,DenseVector是列向量valx=DenseVector.zeros[Double](5);//构建一个5维的稠密向量SparseV

stableMusic·2024-01-14 18:23

利用 Azure Data Bricks的免费资源学习云上大数据

AzureDatabricks是一个基于ApacheSpark的分析平台，专为大数据处理和机器学习而设计。它结合了Data

AI普惠大师·2024-01-14 16:42

科大讯飞星火大模型接入API js 部分接口安装注意事项

下载以下链接例子运行程序https://xfyun-doc.xfyun.cn/static%2F16968175055332330%2Fspark_js_demo.zip官网给的说明准备1.在demo中填写

guoruijun_2012_4·2024-01-14 15:37

RDD转换为DataFrame

SparkSQL它支持两种不同的方式转换已经存在的RDD到DataFrame1.反射（Java中的概念，scala是隐式转换）2.运行编程接口用反射去推倒出来RDD里面的schema。

起个什么呢称呢·2024-01-14 14:42

2022-03-01 回春的三月——交学期费

昨天2月的最后一天，也是交学期票的最后一天，超期的话要多付费，可我的SPARKASSE卡长时间没使用，账户被锁了。

keivenbear·2024-01-14 11:40

深入理解 Spark（一）spark 运行模式简介与启动流程源码分析

spark的运行模式standalone模式以standalone-client为例，运行过程如下：SparkContext连接到Master，向Master注册并申请资源（CPUCore和Memory

我很ruo·2024-01-14 10:56

推荐频道

.spark