spark技术篇第18页

spark之checkpoint原理机制

当RDD使用cache机制从内存中读取数据，如果数据没有读到，会使用checkpoint机制读取数据。此时如果没有checkpoint机制，那么就需要找到父RDD重新计算数据了，因此checkpoint是个很重要的容错机制。checkpoint就是对于一个RDDchain（链）如果后面需要反复使用某些中间结果RDD，可能因为一些故障导致该中间数据丢失，那么就可以针对该RDD启动checkpoint

临界爵迹·2024-01-17 06:44

spark之shuffle参数优化

spark.shuffle.file.buffer默认32kshufflewritetask端的缓冲区，到达阈值后，溢写到磁盘。

临界爵迹·2024-01-17 06:43

Spark面试

1、Spark如何保证宕机迅速恢复?

lune_Lucky·2024-01-17 05:30

Apriori

Apriori算法原理总结-刘建平FPTree算法原理总结-刘建平PrefixSpan算法原理总结-刘建平用Spark学习FPTree算法和PrefixSpan算法-刘建平

BluthLeee·2024-01-17 05:41

基于spark的淘宝用户行为数据分析及其可视化研究

数据准备1、数据来源：淘宝用户购物行为数据集数据的相关介绍：数据的一条记录包括：用户id，商品id，商品类目id，行为类型（行为类型：pv——点击，buy——购买，cart——加入购物车，fav——收藏），时间戳数据包含了2017年11月25日至2017年12月3日之间淘宝用户的数据行为用户数量：987994商品数量：4162024用户数量：987994商品类目数量：9439所有行为数量：1001

简单的小呆瓜·2024-01-17 02:14

基于SPARK的淘宝用户购物行为可视化分析

基于SPARK的淘宝用户购物行为可视化分析这篇文章旨在练习大数据Spark操作，做一些简单的分析。后续阶段将基于三台虚拟机情况下进行调优，以期实现性能最优化。

番茄薯仔·2024-01-17 02:14

【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、Spark计算机程序开发

注意：该项目只展示部分功能，如需了解，评论区咨询即可。本文目录1设计背景2设计意义3系统展示3.1页面展示3.2视频展示4更多推荐5部分功能代码1设计背景在当今数字化时代，电商行业成为全球商业生态系统的关键组成部分，电商平台已经深入各行各业，影响了人们的购物方式和消费习惯。随着互联网技术的不断发展，电商平台产生了大量的用户数据，包括点击、购买、搜索、浏览历史等行为数据。这些数据蕴含着宝贵的商业洞察

Q2643365023·2024-01-17 02:43

大数据实战（hadoop+spark+python）：淘宝电商数据分析

一，运行环境与所需资源：虚拟机：Ubuntu20.04.6LTSdocker容器hadoop-3.3.4spark-3.3.2-bin-hadoop3python，pyspark,pandas，matplotlibmysql

linpaomian·2024-01-17 02:13

spark Failed to get main class in JAR with error null . Please specify one with --class.

运行spark-submit命令示例bin/spark-submit\--classorg.apache.spark.examples.SparkPi\--masteryarn\--deploy-modecluster

linpaomian·2024-01-17 02:13

Spark Core源码精读计划#25：UnifiedMemoryManager——统一内存管理机制

借用存储内存申请/借用执行内存总结前言在前文的末尾，我们分析了静态内存管理器StaticMemoryManager的优缺点，并指出统一内存管理器UnifiedMemoryManager能够弥补它的缺点，同时也是目前Spark

LittleMagic·2024-01-16 23:51

Spark详解

Spark概念Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实时的流数据）的大数据处理的需求。

武昌库里写JAVA·2024-01-16 21:15

IDEA-scala：java.lang.NoClassDefFoundError：org / apache / commons / csv / CSVFormat and Static met...

在IDEA构建了一个spark+smile的maven项目，用起来还是有各种bug。

bensonrachel·2024-01-16 21:08

Hudi0.14.0最新编译（修订版）

1编译环境Java1.8maven3.9.3hadoop3.3.4hive3.1.3spark3.2.1flink1.16.0hudi0.14.02hudi准备2.1源码$gitclonehttps:/

跟着大数据和AI去旅行·2024-01-16 20:40

【js】spark-md5来计算文件的MD5值

在React中，可以使用开源的JavaScript库spark-md5来计算文件的MD5值。该库可以在浏览器中计算文件的MD5值，而不需要上传文件到服务器。

bulucc·2024-01-16 19:21

结构化流的介绍

目录有界数据和无界数据有界数据无界数据结构化流基本介绍入门案例结构化流的编程模型数据结构数据源(Source)FileSourceKafkaSource(Spark和Kafka整合)整合Kafka准备工作从

Sisi525693·2024-01-16 19:58

大数据学习入门到实战教程，精心整理万字长文入门，老奶奶看了都说学会了

换个角度说，大数据是：1、有海量的数据2、有对海量数据进行挖掘的需求3、有对海量数据进行挖掘的软件工具（hadoop、spark、storm、flink、tez

悦悦学Python·2024-01-16 18:10

hive:创建自定义python UDF

addfilehdfs://home/user/py3_script/;setspark.yarn.dist.archives=hdfs://home/user/py3.tar.gz;setspark.shuffle.hdfs.enabled

青盏·2024-01-16 16:35

Spark-RDD算子大全

SparkRDD（弹性分布式数据集）是Spark中的核心抽象，它代表一个不可变、分区的分布式数据集合。

Young_IT·2024-01-16 15:17

78、Spark SQL之延伸知识之Hive On Spark

SparkSQL与HiveOnSpark区别Hive是目前大数据领域，事实上的SQL标准。

ZFH__ZJ·2024-01-16 15:10

记录学习Spark+Kafka构建实时分析Dashboard案例中遇到的问题（一）安装

白令屿·2024-01-16 13:53

Python 与 PySpark数据分析实战指南：解锁数据洞见

Python和PySpark作为强大的工具，提供了丰富的库和功能，使得数据分析变得更加高效和灵活。在这篇文章中，我们将深入探讨如何使用Python和PySpark进行数据分析，包

库库的里昂·2024-01-16 12:27

Sparkr

https://spark.rstudio.com/index.html如何使用spark在上述这个链接有详细文档。下一个问题，如搭建一个spark平台！

Liam_ml·2024-01-16 12:57

【Flink-1.17-教程】-【一】Flink概述、Flink快速入门

【Flink-1.17-教程】-【一】Flink概述、Flink快速入门1）Flink是什么1.1.有界流和无界流1.2.Flink的发展史2）Flink特点3）FlinkvsSparkStreaming4

bmyyyyyy·2024-01-16 08:16

Spark Structured Streaming + Kafka +Json

org.apache.spark spark-sql-kafka-0-10_2.11 2.1.1 org.apache.spark spark-sql_2.11 2.1.1importorg.apache.spark.sql.SparkSessionobjectMyTest

zhangxl-jc·2024-01-16 07:00

StructStreaming整合Kafka操作

StructStreaming整合Kafka操作Maven依赖org.apache.sparkspark-sql-kafka-0-10_2.123.3.1实时数据ETL准备数据/***模拟产生基站日志数据

健鑫.·2024-01-16 07:29

SparkSQL和Hive语法差异

SparkSQL和Hive语法差异1、仅支持HiveSparkSQL关联条件on不支持函数rand()创建零时表时，Spark不支持直接赋值nullSpark无法读取字段类型为void的表SparkSQL

中长跑路上crush·2024-01-16 07:28

Structured Streaming 整合 Kafka指南

从kafka读取数据//Subscribeto1topicvaldf=spark.readStream.format("kafka").option("kafka.bootstrap.servers",

鸭梨山大哎·2024-01-16 07:27

PySpark Structured Streaming kafka示例

PySparkStructuredStreamingkafka示例直接上代码：#!

张行之·2024-01-16 07:52

Structured Streaming配置Kafka参数

overridedefstream():DataFrame={valkafkaConf=newKafkaConfigurationvalspark=GxSparkSession().session()valdf

sunyang098·2024-01-16 07:18

Structured_Streaming和Kafka整合

结构化编程模型输出终端/位置默认情况下，Spark的结构化流支持多种输出方案：1-consolesink:将结果数据输出到控制台。

小希 fighting·2024-01-16 06:14

seatunnel 消费kafka数据写入clickhouse

SeaTunnel是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台，架构于ApacheSpark和ApacheFlink之上，支持海量数据的实时同步与转换。

冰帆<·2024-01-16 05:41

大数据技术原理与应用第三版林子雨期末复习（五）第十章 SPARK

大数据技术原理与应用第三版林子雨期末复习（五）第十章SPARK简介spark特点spark与Hadoop对比Hadoop缺点spark优点RDDRDD概念RDD间存在依赖关系分为宽依赖与窄依赖RDD的两种常用操作简介

头发多多，肆意生长·2024-01-16 05:22

Spark - 资源动态释放

>通过spark-submit会固定占用一占的资源，有什么办法，在任务不运作的时候将资源释放，让其它任务使用呢，yarn新版本默认已经支持了，我们使用的是HDP。##版本如下!

kikiki4·2024-01-16 03:58

Spark MLlib ----- ALS算法

补充在谈ALS（AlternatingLeastSquares）之前首先来谈谈LS，即最小二乘法。LS算法是ALS的基础，是一种数优化技术，也是一种常用的机器学习算法，他通过最小化误差平方和寻找数据的最佳匹配，利用最小二乘法寻找最优的未知数据，保证求的数据与已知的数据误差最小。LS也被用于拟合曲线，比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y

创作者mateo·2024-01-16 02:54

ClickHouse - 01

与其特性在大数据处理场景中，流处理和批处理使用到的技术大致如下：大数据处理场景流程.png批处理会将源业务系统中的数据通过数据抽取工具（例如Sqoop）将数据抽取到HDFS中，这个过程可以使用MapReduce、Spark

ArthurHC·2024-01-16 02:17

Python语法进阶学习--进程和线程

后续很快就要进入Spark的学习，在学习之前也是要铺垫一个知识点：进程是什么？线程是什么？两者有什么区别？又有什么关系？

Yan_bigdata·2024-01-15 23:34

2023年AIGC发展研究报告1.0版

近日，清华大学沈阳教授团队发布了《AIGC发展研究报告1.0版》，总计192页，分为技术篇、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇、团队篇等多个篇章，对AIGC产业的发展现状和趋势进行了详尽研究和分析

huaxi20089·2024-01-15 15:59

【Spark】Spark原理简述

发现一篇很好的文章，适合对Spark有一定了解的小伙伴阅读主要介绍下自己在学习spark当中的一些理解和学习过程中踩到的坑，对spark时间效率优化的点做个总结，各位大佬轻拍。

turboSniper·2024-01-15 14:57

streaming 101

看之前就知道这是两篇能够提升你对流处理理解的文章，不是一般的提升，可以说是一种升华，因为他谈的不是一个具体的工具（sparkstreaming，flink等），而是谈流处理应该是怎么样的，流处理要打败批处理一统天下的话需要有什么特性

Bitson·2024-01-15 12:31

Spark原理——Shuffle 过程

Shuffle过程Shuffle过程的组件结构从整体视角上来看,Shuffle发生在两个Stage之间,一个Stage把数据计算好,整理好,等待另外一个Stage来拉取放大视角,会发现,其实Shuffle发生在Task之间,一个Task把数据整理好,等待Reducer端的Task来拉取如果更细化一下,Task之间如何进行数据拷贝的呢?其实就是一方Task把文件生成好,然后另一方Task来拉取现在是

我像影子一样·2024-01-15 09:47

Spark高级特性 (难)

Spark高级特性(难)闭包/**编写一个高阶函数，在这个函数要有一个变量，返回一个函数，通过这个变量完成一个计算**/@Testdeftest():Unit={//valf:Int=>Double=closure

我像影子一样·2024-01-15 09:11

sparkStreaming 连接kafka的方式

sparkStreaming消费kafak有两种方式1：receiver方式2：direct方式receiver方式：1：sparkStreaming将kafka之中的数据读取到spark内存之中，然后对

流砂月歌·2024-01-15 06:59

大数据问答汇总

ApacheSpark有哪些常见的稳定版本，Spark1.6.0的数字分别代表什么意思？

Sql强·2024-01-15 03:28

Java 与 Scala 使用Maven混合编译打包

在SpringBoot上使用spark的时候会遇到的混合编译问题，在java代码中打包会找不到scala定义的包，即可参考使用如下配置。

kikiki4·2024-01-15 02:07

centos spark单机版伪分布式模式

Spark的部署方式包括Standalone、YARN、Mesos，在我们学习Spark编程的过程中，往往机器资源有限，于是可以采用伪分布式部署。

piziyang12138·2024-01-15 00:05

FLINK学习笔记（一）-- Word Count

defmain(args:Array[String]):Unit={/***flink的运行模型*1.DataSource*2.Transformation*3.DataSink*///获取环境，类似于sparkcontextvalenv

k_wzzc·2024-01-14 22:15

Building online HBase cluster of Zhihu based on Kubernetes

utm_campaign=profiletracking&utm_medium=sssite&utm_source=ssslideview同样对spark或者yarnr

mtj66·2024-01-14 21:24

深入理解 Spark（二）SparkApplication 提交和运行源码分析

spark核心流程yarn-clientyarn-clusterspark任务调度sparkstage级别调度sparktask级别调度失败重试和白名单对于运行失败的Task，TaskSetManager

我很ruo·2024-01-14 21:19

深入理解 Spark（三）SparkTask 执行与 shuffle 详解

SparkTask的分发部署与启动流程分析SparkAction算子触发job提交Spark当中Stage切分源码详解Task的提交与执行SparkShuffle机制详解MapReduceShuﬄe全流程深度剖析