——Spark 第77页

Sparkplug 规范中涉及 MQTT Broker 的 5 个关键概念

引言Sparkplug是一种为SCADA系统量身定制的工业物联网通信协议。它为工业设备和应用提供了一种标准的通信格式，实现了不同厂商设备的互操作性。

·2023-09-26 14:00

[博学谷学习记录] 超强总结，用心分享|Pyspark基础入门1

Pyspark注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关的内容，内容多为原创，PythonJavaScalaSQL代码，CVNLP推荐系统等，SparkFlinkKafkaHbaseHiveFlume

陈万君Allen·2023-09-26 14:52

spark

day01_SparkBase今日内容:1-spark的基本介绍(了解)1.1:spark的基本概念1.2:spark的发展历程1.3:spark的特点2-spark的环境搭建(参考安装文档搭建成功)2.1

莽撞少年·2023-09-26 14:21

SparkBase

Spark是【大规模数据分析的统一引擎】Spark从数据的输入到结果的输出之间的所有数据结构都是基于【RDD】的。Spark4大特点1-【速度快】面试题为什么Spark比MapReduce快？

weixin_45882263·2023-09-26 14:21

Python+大数据-Spark技术栈(二)SparkBase&Core

Python+大数据-Spark技术栈(二)SparkBase&Core学习目标掌握SparkOnYarn搭建掌握RDD的基础创建及相关算子操作了解PySpark的架构及角色环境搭建-SparkonYARNYarn

呆猛的呆呆小哥·2023-09-26 14:48

【博学谷学习记录】超强总结，用心分享|狂野大数据课程【Spark On Yarn环境配置】的总结分析

1SparkOnYarn的本质本质：将Spark程序运行在Yarn集群中,由Yarn集群完成资源调度工作2配置SparkOnYarn关于整个配置操作,直接参考>文档3提交应用测试提交之前Spark中用于计算圆周率的

ZLWQ·2023-09-26 14:17

Python大数据之PySpark(一)SparkBase

文章目录SparkBase环境基础Spark框架概述Spark环境搭建-LocalSparkBase环境基础Spark学习方法：不断重复，28原则(使用80%时间完成20%重要内容)Spark框架概述Spark

Maynor996·2023-09-26 14:42

如何访问TDH中Inceptor 底层的元数据库TxSQL

在星环的大数据平台TDH中，在功能上对应开源HIVE的服务是Inceptor，Inceptor底层是基于开源的HIVE和Spark整合开发而来的，其中：InceptorServer对应HIVE的查询

明哥的IT随笔·2023-09-26 12:42

ChunJun源码分析——任务提交

ChunJun源码分析——任务提交任务提交的参数配置解析ChunJun任务-SYNCChunJun任务-SQL版本ChunJun1.12注：阅读过Spark任务提交、Flink任务提交源码的朋友，应该可以看出

蒋含竹·2023-09-26 12:20

Spark 计算框架

SparkSpark是什么?

记录哥·2023-09-26 10:25

Spark Streaming实时计算框架

SparkStreaming实时计算框架近年来，在Web应用、网络监控、传感监测、电信金融、生产制造等领域，增强了对数据实时处理的需求，而Spark中的SparkStreaming实时计算框架就是为实现对数据实时处理的需求而设计

-starshine丨·2023-09-26 10:52

“spark三剑客”之SparkStreaming流式计算框架

一流式计算概述1.1什么的流式计算数据流VS静态数据数据流静态数据不断产生的数据存储在磁盘中的固定的数据流式计算的概念对数据流进行计算，由于数据是炼苗不断的产生的，所以这个计算也是一直再计算，不会停止流式计算的数据流VS离线计算（特点大PK）流式计算的数据流离线计算数据是无界的(unbounded)数据是有界的(unbounded)数据是动态的数据是静态的计算速度是非常快的，还是基于内存的计算速度

南潇如梦·2023-09-26 10:52

Spark大数据计算框架知识总结

文章目录Spark简介Spark特点Spark架构Spark实例进程Driver驱动器Executor执行器Spark运行模式Local模式Standalone模式Yarn模式RDD分布式数据集RDD简介

iceburg-blogs·2023-09-26 10:22

云计算实验2 Spark分布式内存计算框架配置及编程案例

一、实验目的掌握分布式多节点计算平台Spark配置，Spark编程环境IDEA配置，示例程序启动与运行二、实验环境Linux的虚拟机环境、线上操作视频和实验指导手册三、实验任务完成Spark开发环境安装

MrNeoJeep·2023-09-26 10:22

Spark计算框架

Spark计算框架一、Spark概述二、Spark的安装部署（安装部署Spark的ClusterManager-资源调度管理器的）1、Spark的安装模式1.1、Spark（单节点）本地安装1.2Spark

Augenstern K·2023-09-26 10:51

大数据组件笔记 -- ElasticSearch

核心概念4.2系统架构4.3读写流程4.4分片原理4.4.1倒排索引4.4.2文档搜索4.5文档冲突五、集成5.1SpringData5.1.1添加、删除索引5.1.2文档操作5.1.3文档搜索5.2Spark

L小Ray想有腮·2023-09-26 10:19

【010】2022.12.27 周二和big死磕的一天

下午的一些问题排查和解决也都还好，不过待到晚上开项目会，总结问题时，发现了一个spark写入doris后，时间字段对不上的问题，看了半天也没结果，感觉很诡异。

算法成瘾者·2023-09-26 09:27

PySpark简介、搭建以及使用

目录一、PySpark简介使用场景结构体系二、PySpark集成搭建三、PySpark的使用PySpark包介绍PySpark处理数据PySpark中使用匿名函数加载本地文件PySpark中使用SparkSQLSpark

菜鸟也学大数据·2023-09-26 08:59

PySpark的运行出错：Py4JJavaError【python为3.9==＞pyspark版本为3.0】

详细错误信息：Py4JJavaErrorTraceback(mostrecentcalllast)~\AppData\Local\Temp/ipykernel_8396/2169931463.pyin---->1user_categorical_encoder.fit(feat_df)~\AppData\Local\Temp/ipykernel_8396/3161698003.pyinfit(se

u013250861·2023-09-26 08:58

pyspark学习(一)—pyspark的安装与基础语法

pyspark学习(一)原创StarryChallengeHub公众号一Pysaprk的安装最近想学pyspark，于是想起了要更这个系列，由于本人也是不是特别熟悉，如果有什么错误的地方希望大家多多见谅

starry0001·2023-09-26 08:57

PySpark（Spark3.0）

PySpark（Spark3.0）PySpark简单来说就是Spark提供的Python编程API，包括交互式的PySparkshell和非交互式的Python程序。

小宇0926·2023-09-26 08:57

【Python】PySpark 数据处理 ① ( PySpark 简介 | Apache Spark 简介 | Spark 的 Python 语言版本 PySpark | Python 语言场景 )

文章目录一、PySpark简介1、ApacheSpark简介2、Spark的Python语言版本PySpark3、PySpark应用场景4、Python语言使用场景一、PySpark简介1、ApacheSpark

韩曙亮·2023-09-26 08:25

Vue实现手动ajax上传并将文件转成Base64编码字符串传给后端

默认通过action上传，不够灵活，看了官方文档之后，改用其中属性http-request实现自定义上传（http-request：覆盖默认的上传行为，可以自定义上传的实现）前端计算MD5可以使用插件js-spark-md5

程序猿爱篮球·2023-09-26 07:30

Spark 源码分析（四）: Application 的注册

在前面一篇文章中分析到了SparkContext中的TaskScheduler创建及启动。

stone_zhu·2023-09-26 06:43

Spark或Hive数仓生命周期管理

在做数仓开发过程中，遇到一个问题就是随着数据量增大，存储空间增加惊人：hdfs的文件要存3份（可以修改副本份数），ods、dwd、dws、ads等各层都需要存储空间，指标计算过程如果内存不够又会缓冲在硬盘。而更严重的问题是：如果CDH依赖某个目录的存储空间严重不够，就会导致Yarn的任务执行失败。所以对数仓的生命周期管理尤为重要。数仓的生命周期管理的核心目的就是用最少的存储成本来满足最大的业务需求

大模型大数据攻城狮·2023-09-26 06:50

spark standalone模式

standalone模式是spark自己的资源调度框架,由master和worker组成.master有一个workerinfo的数组,里边有worker的基本信息,包括core数,内存,最后通信时间master

lllpanda·2023-09-26 04:09

Invalid signature file digest for Manifest main attributes

InvalidsignaturefiledigestforManifestmainattributes--文件签名不合法在运行spark程序的时候报下面的异常：18/03/0609:21:28ERRORyarn.ApplicationMaster

在路上_JD·2023-09-26 02:04

java.lang.SecurityException: Invalid signature file digest for Manifest main attributes

hadoop@master:/usr/local/hadoop/spark/spark-data$spark-submit--masterspark:192.168.71.128:7077--classPageRankproject.jarExceptioninthread"main"java.lang.SecurityException

小满锅lock·2023-09-26 02:04

生活工作中的暂停键

这种做法叫做：let’sparkittherethencomebacktoitlater的典型。

QBellC·2023-09-26 00:05

如何关闭 sparkstreaming 任务

因为SparkStreaming流程序比较特殊，所以不能直接执行kill-9这种暴力方式停掉，如果使用这种方式停程序，那么就有可能丢失数据或者重复消费数据。为什么呢？

小癫僧·2023-09-25 23:31

Spark sql 读文件的源码分析

从sparkjobs监控页面上经常看到这种job：Listingleaffilesanddirectoriesfor100paths:如图：这其实是sparksql在读一大堆文件。

Rover Ramble·2023-09-25 22:56

spark SQL(12)show函数的执行流程

DataSet中的show()调用select()执行，并打印结果。defshow(truncate:Boolean):Unit=show(20,truncate)//defshow(numRows:Int,truncate:Boolean):Unit=if(truncate){println(showString(numRows,truncate=20))}else{println(showSt

Rover Ramble·2023-09-25 22:55

presto升级操作文档

1、前言由于presto基于内存计算，相比较与hive（onspark）有更好的交互查询体验，组织决定使用presto作为主要的交互查询工具，hive作为跑批使用。

jhonshonjs·2023-09-25 22:02

spark常用操作

frompysparkimportSparkConf,SparkContext,SQLContextfrompyspark.sqlimportRowconf=SparkConf()sc=SparkContext

行走于无形之中·2023-09-25 21:54

黑马Hive+Spark离线数仓工业项目--数仓维度层DWS层构建（2）

日期时间维度设计目标：掌握日期时间维度的需求与设计路径-step1：需求-step2：设计实施需求：构建日期时间维度表，得到所有年、季度、月、周、日的维度信息统计不同时间维度下的呼叫次数、工单数、维修数、安装数、报销金额、核销数等设计-数据来源：提前通过程序生成构建，不是从数据中抽取-执行周期：每一年生成下一年的每一天的维度信息，**增量**同步到维度表的分区中日期时间维度构建目标：实现日期时间维

骨灰级收藏家·2023-09-25 20:34

spark实现user CF

风暴之芽·2023-09-25 20:21

【18】进大厂必须掌握的面试题-15个Kafka面试

特征描述高吞吐量使用适度的硬件支持数百万条消息可扩展性高度可扩展的分布式系统，无停机复写消息在整个群集中复制，以为多个订户提供支持，并在发生故障时平衡使用方持久性提供对消息到磁盘的持久性的支持流处理与ApacheSpark

Java架构师必看·2023-09-25 18:07

大数据基础面试题七：Flink

大数据基础面试题七：Flink目录大数据基础面试题七：Flink十四、Flink14.1简单介绍一下Flink14.2Flink跟SparkStreaming的区别14.3Flink集群有哪些角色？

大数据面壁者·2023-09-25 16:45

spark streaming背压机制

sparkstreaming背压机制背压机制产生的背景背压(backpressure)机制主要用于解决流处理系统中，业务流量在短时间内剧增，造成巨大的流量毛刺，数据流入速度远高于数据处理速度，对流处理系统构成巨大的负载压力的问题

小～蜉蝣·2023-09-25 16:44

Spark Core快速入门系列（一）Transfromation 转换算子

文章目录一，value类型1map(func)案例2mapPartitions(func)案例3mapPartitionsWithIndex(func)案例4flatMap(func)案例5map()和mapPartition()的区别6glom案例7groupBy(func)案例8filter(func)案例9sample(withReplacement,fraction,seed)案例10di

Alienware^·2023-09-25 14:06

Spark常见报错异常及解决

Spark常见报错异常及解决org.apache.spark.shuffle.FetchFailedExceptionorg.apache.spark.shuffle.FetchFailedExceptionorg.apache.spark.shuffle.FetchFailedException

HanhahnaH·2023-09-25 13:17

spark 基于minikube部署cluster模式

前提条件spark的版本需要在2.3及以上的版本k8s的版本需要在1.6以上serviceaccount需要有创建pod，service,configmap的权限集群中需要有k8sdns由于是在自己的电脑上

赢一把就睡·2023-09-25 10:06

Spark 源码分析之ShuffleMapTask内存数据Spill和合并

Spark源码分析之ShuffleMapTask内存数据Spill和合并更多资源分享SPARK源码分析技术分享(视频汇总套装视频):https://www.bilibili.com/video/av37442139

thinktothings·2023-09-25 10:45

Spark 自定义UDAF

需求的前四个值Spark自带函数可以解决，唯独中位数没有，所以需要自定义一个聚合函数。

chailei·2023-09-25 08:22

Flink双流join的3种方式及IntervalJoin源码分析

大数据技术AIFlink/Spark/Hadoop/数仓，数据分析、面试，源码解读等干货学习资料117篇原创内容公众号概述在数据库中的静态表上做OLAP分析时，两表join是非常常见的操作。

hyunbar·2023-09-25 06:22

Spark ByPassMergeSortShuffleWriter写流程分析

Spark的shuffleWriter一共有三种，本文分析ByPassMergeSortShuffleWriter的shuffle写数据过程从使用场景来看，ByPassMergeSortShuffleWriter

WestC·2023-09-25 06:45

云计算与大数据——Spark的安装和配置

云计算与大数据——Spark的安装和配置Spark的简单介绍：ApacheSpark是一个基于内存的分布式计算框架，它提供了高效、强大的数据处理和分析能力。

星川皆无恙·2023-09-25 05:10

Hive中SQL通配符like与正则匹配rlike(regexp)的区别

1、like%代替0或多个字符_代替一个字符举个例子：--返回值为TRUEspark-sql>select'aaa'like'%a%';trueTimetaken:2.04seconds,Fetched1row

Data_IT_Farmer·2023-09-24 20:39

无精疯·2023-09-24 20:59

葡萄酒部分小知识

葡萄酒部分小知识笔记内容来源于B站Up主小lin的视频常见分类：Redwine红、Whitewine白、Rosewine粉红、Sparklingwine气葡萄酒。主要为四类。

weixin_43754725·2023-09-24 14:15

推荐频道

——Spark