大数据处理Spark 第21页

深入理解 Spark（一）spark 运行模式简介与启动流程源码分析

spark的运行模式standalone模式以standalone-client为例，运行过程如下：SparkContext连接到Master，向Master注册并申请资源（CPUCore和Memory

我很ruo·2024-01-14 10:56

pyspark

pysparkversion输出spark的版本print("pysparkversion"+str(sc.version))mapsc=sparkcontext,parallelizecreatesanRDDfromthepassedobjectx

Tim在路上·2024-01-14 10:43

计算机毕业设计吊炸天spark+hive+nlp慕课在线教育课程数据分析可视化大屏知识图谱课程推荐系统课程爬虫文本分类 LSTM情感分析大数据毕业设计

将.csv上传到hdfs中，并使用hive建表后导入.csv数据；9个指标，一半使用spark/scala去做实时计算分析。一半使用hive_sql进行分层离线处

计算机毕业设计大神·2024-01-14 09:48

使用 spark-submit 部署应用、自定义分区器、checkpoint、共享变量

文章目录spark-submit部署应用附加的参数：spark-env.sh具体的属性配置信息配置资源分配参数调优案例分析自定义分区器检查点checkpointSpark共享变量spark-submit

Geek白先生·2024-01-14 09:31

spark--累加器-★★★

累加器现象比较难理解,但是代码很简单packagecn.hanjiaxiaozhi.coreimportorg.apache.spark.rdd.RDDimportorg.apache.spark.util.LongAccumulatorimportorg.apache.spark

韩家小志·2024-01-14 09:01

Spark-之自定义wordCount累加器

Spark-之自定义wordCount累加器SparkCore中的3种数据类型：累加器（只写）RDD广播变量（只读）累加器在多个action算子触发的job中重复累加，且需要action算子才能触发累加器操作

稳哥的哥·2024-01-14 09:01

Spark-累加器

Spark-累加器第一张图和java中的引用传递,和值传递很像你能改变内容,内存地址无法改变.你传你的,我传我的,没有把值给返回去双端对列当发送错误的时候要放回到要来头部对列一般是先进先出,要是发送错误

疯子@123·2024-01-14 09:00

Java操作spark-自定义累加器

Java操作spark-自定义累加器spark的累加器自定义累加器实现wordCountspark的累加器背景：如果我们在Driver端定义一个变量，然后将该变量发送Executor端进行累加赋值操作，

卡卡东~·2024-01-14 09:00

Spark-自定义分区器以及累加器

自定义分区器：valrdd=sc.makeRDD(List(("nba","xxxx"),("cba","xxxx"),("cba","xxxx"),("cba","xxxx"),("nba","xxxx"),("wnba","xxxx"),),3)valrdd1:RDD[(String,String)]=rdd.partitionBy(newMyPartitioner())rdd1.saveAs

_Ordinary丶·2024-01-14 09:00

spark-submit 与 spark-shell 介绍

一、spark-submit介绍1、spark-submit介绍程序一旦打包好，就可以使用bin/spark-submit脚本启动应用了。

火成哥哥·2024-01-14 09:59

Spark入门-累加器和广播变量

累加器Spark中累加器用来解决一些特殊的需求。

汪巡·2024-01-14 09:59

Spark--累加器

累加器累加器1.实现原理2.系统累加器3.自定义累加器累加器Spark计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。

小陈菜奈-·2024-01-14 09:59

Spark-core----累加器

一、原理累加器用来把Executor端变量信息聚合到Driver端。在Driver程序中定义的变量，在Executor端的每个Task都会得到这个变量的一份新的副本，每个task更新这些副本的值后，传回Driver端进行merge。二、基础编程2.1系统累加器valrdd=sc.makeRDD(List(1,2,3,4,5))//声明累加器varsum=sc.longAccumulator("su

梦痕长情·2024-01-14 09:28

Spark -- 累加器和广播变量

Spark–累加器和广播变量文章目录Spark--累加器和广播变量一.累加器1.系统累加器2.自定义累加器二.广播变量spark有三大数据结构：RDD：分布式弹性数据集累加器：分布式只写数据集广播变量：

Keep hunger·2024-01-14 09:58

Spark---累加器

//建立与Spark框架的连接valwordCount=newSparkConf().setMaster("local").setAppName("WordC

肥大毛·2024-01-14 09:27

记csv、parquet数据预览一个bug的解决

文章目录一、概述二、实现过程1.业务流程如图：2.业务逻辑3.运行结果三、bug现象1.单元测试2.运行结果三、流程梳理1.方向一2.方向二一、概述工作中遇到通过sparksession解析csv、parquet

爱码少年·2024-01-14 08:49

物理机本地和集群部署Spark

一、单机本地部署1）官网地址：http://spark.apache.org/2）文档查看地址：https://spark.apache.org/docs/3.1.3/3）下载地址：https://spark.apache.org

DIY……·2024-01-14 07:43

一种HBase数据备份及恢复方法

目录0.引言1.备份方法2.脚本的使用方法3获取HDFS文件到本地系统4数据恢复方法4.1将将备份文件添加到hdfs中4.2导入数据到HBase集群5.小结0.引言HBase在大数据处理中地位至关重要，

莫叫石榴姐·2024-01-14 06:42

一款国内研发的PCB设计软件-立创EDA

我们先来看下官方的一些样板工程和原理图PCB布好线的效果3D预览效果原理图简单的聊聊PCB设计软件：像当前免费的PCB设计软件还有KiCAD、DesignSpark(发烧友网)也是不错的，当然我们绝大部分人在学校接触最多的要属

想啥做啥·2024-01-14 05:38

SPARK--cache(缓存)和checkpoint检查点机制

SPARK–cache(缓存)和checkpoint检查点机制rdd的特性缓存和checkpoint作用都是进行容错rdd在计算是会有多个依赖，为了避免计算错误是从头开始计算，可以将中间*依赖rdd进行缓存或

中长跑路上crush·2024-01-14 04:58

Spark-RDD的依赖

RDD的依赖rdd之间是有依赖关系窄依赖每个父RDD的一个Partition最多被子RDD的一个Partition所使用父rdd和子rdd的分区是一对一mapflatMapfliter宽依赖父RDD的Partition会被多个子RDD的Partition所使用父rdd和子rdd的分区是一对多grouBy()grouByKey()sortBy()sortByKey()reduceBykey()dis

中长跑路上crush·2024-01-14 04:58

Spark算子（RDD）超细致讲解

SPARK算子（RDD）超细致讲解map,flatmap,sortBykey,reduceBykey,groupBykey,Mapvalues,filter,distinct,sortBy,groupBy

中长跑路上crush·2024-01-14 04:57

spark入门教程（3）--Spark 核心API开发

本教程源于2016年3月出版书籍《Spark原理、机制及应用》，在此以知识共享为初衷公开部分内容，如有兴趣，请支持正版书籍。

xwc35047·2024-01-14 04:45

基于Spark2.x新闻网大数据实时分析可视化系统项目

课程大纲第一章：案例需求分析与设计1.全套课程内容概述2.案例需求分析3.系统架构设计4.系统数据流程设计5.集群资源规划设计第二章：linux环境准备与设置1.Linux系统常规设置2.克隆虚拟机并进行相关的配置3.对集群中的机器进行基本配置第三章：Hadoop2.X分布式集群部署1.Hadoop2.X版本下载及安装2.Hadoop2.X分布式集群配置3.分发到其他各个机器节点4.HDFS启动集

飞雪雪团队·2024-01-13 23:30

spark中Rdd依赖和SparkSQL介绍--学习笔记

1，RDD的依赖1.1概念rdd的特性之一相邻rdd之间存在依赖关系（因果关系）窄依赖每个父RDD的一个Partition最多被子RDD的一个Partition所使用父rdd和子rdd的分区是一对一（多对一）触发窄依赖的算子map()，flatMap()，filter()宽依赖父RDD的一个partition会被子rdd的多个Partition所使用父rdd和子rdd的分区是一对多触发宽依赖的算子

祈愿lucky·2024-01-13 23:17

MySQL常见面试题汇总

一、引言MySQL是一种流行的关系型数据库管理系统，广泛应用于各种场景，如Web开发、数据分析和大数据处理等。在求职过程中，掌握MySQL的相关知识是必不可少的。

Dxy1239310216·2024-01-13 18:25

python字典转数据框,将标准python键值字典列表转换为pyspark数据框

Considerihavealistofpythondictionarykeyvaluepairs,wherekeycorrespondtocolumnnameofatable,soforbelowlisthowtoconvertitintoapysparkdataframewithtwocolsarg1arg2

恶少恶言·2024-01-13 13:45

Spark调试

编写代码//pom.xml4.0.0org.learn.examplespark-example1.0-SNAPSHOTorg.apache.sparkspark-core_2.112.2.0providedorg.apache.sparkspark-sql

Jorvi·2024-01-13 12:51

Hbase BulkLoad用法

要导入大量数据，Hbase的BulkLoad是必不可少的，在导入历史数据的时候，我们一般会选择使用BulkLoad方式，我们还可以借助Spark的计算能力将数据快速地导入。

kikiki1·2024-01-13 12:43

Spark 读excel报错，scala.MatchError

Spark3详细报错：scala.MatchError:Map(treatemptyvaluesasnulls->true,location->viewfs://path.xlsx,inferschema

CoderOnly·2024-01-13 10:35

大数据系列 | CDH6.3.2（Cloudera Distribution Hadoop）部署、原理和使用介绍

大数据系列|CDH6.3.2（ClouderaDistributionHadoop）部署、原理和使用介绍1.大数据技术生态中Hadoop、Hive、Spark的关系介绍2.CDN（ClouderaDistributionHadoop

降世神童·2024-01-13 10:50

Spark原理——逻辑执行图

逻辑执行图明确逻辑计划的边界在Action调用之前，会生成一系列的RDD,这些RDD之间的关系，其实就是整个逻辑计划valconf=newSparkConf().setMaster("local[6]"

我像影子一样·2024-01-13 09:17

Spark原理——物理执行图

物理执行图物理图的作用是什么?问题一:物理图的意义是什么?物理图解决的其实就是RDD流程生成以后,如何计算和运行的问题,也就是如何把RDD放在集群中执行的问题问题二:如果要确定如何运行的问题,则需要先确定集群中有什么组件首先集群中物理元件就是一台一台的机器其次这些机器上跑的守护进程有两种:Master,Worker每个守护进程其实就代表了一台机器,代表这台机器的角色,代表这台机器和外界通信例如我们

我像影子一样·2024-01-13 09:17

Spark原理——总体介绍

总体介绍编写小案例（wordcount）@TestdefwordCount():Unit={//1.创建sc对象valconf=newSparkConf().setMaster("local[6]").

我像影子一样·2024-01-13 09:17

RDD算子——转换操作（Transformations ）【map、flatMap、reduceByKey】

一、mapmap算子#spark-shellsc.parallelize(Seq(1,2,3)).map(num=>num*10).collect()#IDEA@TestdefmapTest():Unit

我像影子一样·2024-01-13 09:47

Spark原理——运行过程

运行过程逻辑图是什么怎么生成具体怎么生成valtextRDD=sc.parallelize(Seq("HadoopSpark","HadoopFlume","SparkSqoop"))valsplitRDD

我像影子一样·2024-01-13 09:44

时政新闻学英语之22：孙杨与361°的你来我往

本文选自chinadaily，文章链接见Sun'ssuitsparkscontroversy。

小书童札记·2024-01-13 09:12

使用spark将MongoDB数据导入hive

使用spark将MongoDB数据导入hive一、pyspark1.1pymongo+spark代码importjson,sysimportdatetime,timeimportpymongoimporturllib.parsefrompyspark.sqlimportSparkSessionfrompyspark.sql.typesimportStructType

awsless·2024-01-13 09:16

Spark---RDD持久化

文章目录1.RDD持久化1.1RDDCache缓存1.2RDDCheckPoint检查点1.3缓存和检查点区别1.RDD持久化在Spark中，持久化是将RDD存储在内存中，以便在多次计算之间重复使用。

肥大毛·2024-01-13 07:40

Spark---RDD依赖关系

文章目录1.1RDD依赖关系1.2血缘关系1.3依赖关系分类1.3.1窄依赖1.3.2宽依赖1.4RDD阶段划分和任务划分1.4.1RDD阶段划分1.4.2RDD任务划分1.1RDD依赖关系在Spark

肥大毛·2024-01-13 07:09

Spark-RDD详解

SPARK–RDD1、RDD的介绍RDD弹性分布式数据集合是Spark中的一种数据类型，管理spark的内存数据[1,2,3,4]spark中还有dataframe，dataset类型拓展：开发中可以通过类的形式自定以数据类型同时还提供各种计算方法弹性可以对海量数据根据需求分成多份

中长跑路上crush·2024-01-13 07:09

Spark Doris Connector 可以支持通过 Spark 读取 Doris 数据类型不兼容报错解决

1、版本介绍：doris版本：1.2.8SparkConnectorforApacheDoris版本：spark-doris-connector-3.3_2.12-1.3.0.jar:1.3.0-SNAPSHOTspark

Data_IT_Farmer·2024-01-13 07:57

Spark十一：面试问题

完整内容见：https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ1.通常来讲，Spark与MapReduce相比，Spark运行效率更高，请说明效率更高来源于

eight_Jessen·2024-01-13 07:57

Spark的内核调度

目录概述RDD的依赖DAG和StageDAG执行流程图形成和Stage划分Stage内部流程SparkShuffleSpark中shuffle的发展历程优化前的Hashshuffle经过优化后的HashshuffleSortshuffleSortshuffle

Sisi525693·2024-01-13 07:56

Spark十：故障排除

Spark常见故障和排除方法学习资料：https://mp.weixin.qq.com/s/caCk3mM5iXy0FaXCLkDwYQ一、避免OOM-outofmemory在Shuffle过程中，reduce

eight_Jessen·2024-01-13 07:22

使用Sqoop将数据导入Hadoop的详细教程

在大数据处理中，Sqoop是一个强大的工具，它可以将关系型数据库中的数据导入到Hadoop生态系统中，以便进行进一步的分析和处理。

晓之以理的喵~~·2024-01-13 07:43

git 提交符号

改进代码结构/代码格式⚡️(闪电):zap:提升性能(赛马):racehorse:提升性能(火焰):fire:移除代码或文件(bug):bug:修复bug(急救车):ambulance:重要补丁✨(火花):sparkles

思绪万千133·2024-01-13 07:12

Spark Streaming

SparkStreaming随着大数据技术的不断发展，人们对于大数据的实时性处理要求也在不断提高，传统的MapReduce等批处理框架在某些特定领域，例如实时用户推荐、用户行为分析这些应用场景上逐渐不能满足人们对实时性的需求

奋斗的蛐蛐·2024-01-13 06:13

hive三种计算引擎

1、配置mapreduce计算引擎sethive.execution.engine=mr;2、配置spark计算引擎sethive.execution.engine=spark;3、配置tez计算引擎sethive.execution.engine

IT达人_j·2024-01-13 05:45

推荐频道

大数据处理Spark

深入理解 Spark（一）spark 运行模式简介与启动流程源码分析

pyspark

计算机毕业设计吊炸天spark+hive+nlp慕课在线教育课程数据分析可视化大屏 知识图谱课程推荐系统 课程爬虫 文本分类 LSTM情感分析 大数据毕业设计

使用 spark-submit 部署应用、自定义分区器、checkpoint、共享变量

spark--累加器-★★★

Spark-之自定义wordCount累加器

Spark-累加器

Java操作spark-自定义累加器

Spark-自定义分区器以及累加器

spark-submit 与 spark-shell 介绍

Spark入门-累加器和广播变量

Spark--累加器

Spark-core----累加器

Spark -- 累加器和广播变量

Spark---累加器

记csv、parquet数据预览一个bug的解决

物理机本地和集群部署Spark

一种HBase数据备份及恢复方法

一款国内研发的PCB设计软件-立创EDA

SPARK--cache(缓存)和checkpoint检查点机制

Spark-RDD的依赖

Spark算子（RDD）超细致讲解

spark入门教程（3）--Spark 核心API开发

基于Spark2.x新闻网大数据实时分析可视化系统项目

spark中Rdd依赖和SparkSQL介绍--学习笔记

MySQL常见面试题汇总

python字典转数据框,将标准python键值字典列表转换为pyspark数据框

Spark调试

Hbase BulkLoad用法

Spark 读excel报错，scala.MatchError

大数据系列 | CDH6.3.2（Cloudera Distribution Hadoop）部署、原理和使用介绍

Spark原理——逻辑执行图

Spark原理——物理执行图

Spark原理——总体介绍

RDD算子——转换操作（Transformations ）【map、flatMap、reduceByKey】

Spark原理——运行过程

时政新闻学英语之22：孙杨与361°的你来我往

使用spark将MongoDB数据导入hive

Spark---RDD持久化

Spark---RDD依赖关系

Spark-RDD详解

Spark Doris Connector 可以支持通过 Spark 读取 Doris 数据类型不兼容报错解决

Spark十一：面试问题

Spark的内核调度

最新AI绘画Midjourney绘画提示词Prompt大全

Spark十：故障排除

使用Sqoop将数据导入Hadoop的详细教程

git 提交符号

Spark Streaming

hive三种计算引擎

计算机毕业设计吊炸天spark+hive+nlp慕课在线教育课程数据分析可视化大屏知识图谱课程推荐系统课程爬虫文本分类 LSTM情感分析大数据毕业设计