Saprk

spark从入门到放弃二十八:Spark Sql (1)Data Set

意浅离殇·2024-02-09 03:17

SparkSession对象操作--学习笔记

frompyspark.sqlimportSparkSessionfrompysparkimportSparkConffrompyspark.sqlimportfunctionsasF"""创建ss对象时可以指定一些参数如果参数在脚本中不生效，就需要通过saprk-submit

祈愿lucky·2024-01-18 07:35

Saprk SQL基础知识

一.SparkSQL基本介绍1.什么是SparkSQLSparkSQL是Spark多种组件中其中一个,主要是用于处理大规模的[结构化数据]SparkSQL的特点:1).融合性:既可以使用SQL语句,也可以编写代码,同时支持两者混合使用.2).统一的数据访问:SparkSQL用统一的API对接不同的数据源3).Hive的兼容性:SparkSQL可以和Hive进行整合,合并后将执行引擎换成Spark,

MSJ3917·2024-01-08 16:32

如何设置和读取Spark配置

设置在SaprkConf中设置，如valconf=newSparkConf().setMaster("local").setAppName("Myapplication").set("spark.executor.memory

话数Science·2023-12-06 21:04

wiondow系统-python中缺少JDK安装(超详解)！！！

因为学习python中，用到Pysaprk,但因缺少JDK而报错，解决方法如下下载新款且稳定的17版本（21不推荐）官网下载有限速设置，压缩包我已经放在下面了，注意提取百度网盘链接：https://pan.baidu.com

干净的颜色·2023-12-04 02:23

初识scala

为什么要用scala大数据很多框架是用scala写的，如：saprk、kafka、flink代码简洁多范式：面向对象编程（抽象现实世界）和函数式编程（编程简洁）兼容java环境并发模式使用Actor，可以简化编程

松松土_0b13·2023-12-03 18:19

大数据分析与应用实验任务八

大数据分析与应用实验任务八实验目的进一步熟悉pyspark程序运行方式；熟练掌握pysaprkRDD基本操作相关的方法、函数。

陈希瑞·2023-11-25 04:05

大数据分析与应用实验任务九

大数据分析与应用实验任务九实验目的进一步熟悉pyspark程序运行方式；熟练掌握pysaprkRDD基本操作相关的方法、函数，解决基本问题。

陈希瑞·2023-11-25 04:31

SaprkStreaming广告日志分析实时数仓

一、系统简介参考尚硅谷的spark教程中的需求，参考相关思路，详细化各种代码，以及中间很多逻辑的实现方案采用更加符合项目开发的方案，而不是练习，包括整体的流程也有很大的差别，主要是参考需求描述和部分代码功能实现。需求一：广告黑名单实现实时的动态黑名单机制：将每天对某个广告点击超过100次的用户拉黑。注：黑名单保存到MySQL中。1）读取Kafka数据之后，并对MySQL中存储的黑名单数据做校验；2

是阿威啊·2023-11-18 21:50

Spark Core----Spark常用算子

2、在Saprk中所有的算子可以分成两种：Transformation算子（转换算子）：由一个RDD转化成另一个RDD，转换算子（懒执行）并不会自己执行，需要行为算子进行触发执行。

新手小农·2023-11-08 09:23

Spark的driver理解和executor理解

当Executor部分运行完毕后，Driver同时负责将SaprkContext关闭，通常SparkC

一个大数据小菜鸟·2023-10-12 20:16

大数据笔记--Spark（第四篇）

目录一、RDD的容错机制二、RDD持久化机制1、RDD持久化（缓存）2、使用缓存3、缓存数据的清除4、持久化理解三、CheckPoint机制1、概述2、示例代码：3、总结4、Saprk懒执行的意义四、GC

是小先生·2023-10-12 05:33

pyspark学习(一)—pyspark的安装与基础语法

pyspark学习(一)原创StarryChallengeHub公众号一Pysaprk的安装最近想学pyspark，于是想起了要更这个系列，由于本人也是不是特别熟悉，如果有什么错误的地方希望大家多多见谅

starry0001·2023-09-26 08:57

【Spark】win10配置IDEA、saprk、hadoop和scala

终于，要对并行计算下手了哈哈哈。一直讲大数据大数据，我单次数据处理量大概在1t上下，是过亿级的轨迹数据。用python调用multiprogress编写的代码，用多线程也要一个多月跑完。我对这个效率不太满意，希望能快一点再快一点，这是学习Spark的前提。安装过程见：spark出pyspark了，可直接用python调用。但是我想接触下scala。所以先装scala试试。博客园：windows上安

请给我一脚·2023-09-19 12:07

Spark【Spark SQL（二）RDD转换DataFrame、Spark SQL读写数据库】

从RDD转换得到DataFrameSaprk提供了两种方法来实现从RDD转换得到DataFrame：利用反射机制推断RDD模式使用编程方式定义RDD模式下面使用到的数据people.txt：Tom,21Mike

让线程再跑一会·2023-09-10 23:53

windows运行saprk程序：Did not find winutils.exe、Could not locate Hadoop executable:

21/08/1522:38:58WARNShell:Didnotfindwinutils.exe:{}java.io.FileNotFoundException:CouldnotlocateHadoopexecutable:D:\main\hadoop-3.1.3\bin\winutils.exe-seehttps://wiki.apache.org/hadoop/WindowsProblemsa

枪枪枪·2023-08-31 03:10

Hadoop：数值型数据的朴素贝叶斯分类

朴素贝叶斯分类器用在符号型数据上比较多，如何处理数值型数据能找到的资料比较少，《数据算法：Hadoop/Saprk大数据处理技巧》这本书简要介绍了如何处理数值型数据。

Zeabin·2023-08-21 20:30

（已解决）RuntimeError: Java gateway process exited before sending its port number

今天用Pycharm远程使用pysaprk解释器时，跑代码出现了这个错误：RuntimeError:Javagatewayprocessexitedbeforesendingitsportnumber找了好多博客都没解决问题

白莲居仙·2023-07-24 19:22

分布式kmeans(scala原码实现)

2.1Driver（主要负责分配、汇总数据）2.2Executor（主要负责计算）2.3Executor2（主要负责计算）3.分布式Kmeans算法spark集群部署3.1将三个代码打成jar包上传到三个saprk

好记性＋烂笔头·2023-07-18 08:45

spark期末考试选择题精选

以下哪一个不是saprk的特点A、随处运行B、代码简洁C、使用复杂D、运行快速Scala属于哪种编程语言A、函数式编程语言B、汇编语言C、机器语言D、多范式编程语言注意：scala也是一种函数式编程语言

孤独之风。·2023-07-15 07:10

Spark 内核调度

面试高发SparkDAG（重点理解）Spark的核心是根据RDD来实现的，SaprkSchedule则为Spark核心实现的重要一环，其作用就是任务调度。

北海怪兽Monster·2023-06-09 03:46

数据湖之iceberg系列(三)iceberg快速入门

1环境准备准备大数据集群.安装HDFS,HIVE,SAPRK,FLINK下载运行集群环境运行是需要的jar包下载地址:http://iceberg.apache.org/releases/2spark将读写

hellozhxy·2023-04-14 03:12

saprk sql查询mysql的两种方法

saprksql查询mysql的两种方法：packagecom.spark.testimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.SaveModeimportjava.util.Propertiesimportjava.util.Mapimportjava.util.HashMapobjectMysqlDemo

IMezZ·2023-04-05 01:36

Saprk面试

1.谈谈SparkRDD的几大特性，并深入讲讲体现在哪？Spark的RDD有五大特性：Alistofpartitions：RDD是由多个分区(partition)组成的集合。Afunctionforcomputingeachsplit：对于RDD的计算，其实是RDD的每个分区都会执行这个计算。AlistofdependenciesonotherRDDs：RDD是一条依赖链，每一个RDD都会记录其父

Rinma·2023-04-03 12:07

大数据 Spark 架构

大数据Spark架构一．Spark的产生背景起源1.spark特点1.1轻量级快速处理Saprk允许传统的hadoop集群中的应用程序在内存中已100倍的速度运行即使在磁盘上也比传统的hadoop快10

起飞后的菜鸟·2023-02-26 07:19

简述Spark基础及架构

简述Spark基础及架构一、spark简介二、spark技术栈三、spark架构四、saprk常用API4.1SparkContext4.2SparkSession五、spark数据核心--RDD5.1RDD

我玩的很开心·2023-02-26 07:16

（4）SparkSQL中如何定义UDF和使用UDF

SparkSQL中用户自定义函数，用法和SparkSQL中的内置函数类似；是saprkSQL中内置函数无法满足要求，用户根据业务需求自定义的函数。

NBI大数据可视化分析·2023-02-02 09:08

spark.1

Spark的组成：SparkCore：将分布式数据抽象为弹性分布式数据集（RDD），实现了应用任务调度，RPC，序列化和压缩，并为运行在其上的上层组件提供APISparkSQL：SparkSQL是Saprk

瓜皮小咸鱼·2023-01-27 19:45

pysaprk数据倾斜怎么解决？

一、数据倾斜危害？单个或少数的节点数据量特别大，但一个Stage所耗费的时间，是由最慢的那个Task决定，所以数据倾斜会导致两个后果：OOM（单或少数的节点）；拖慢整个Job执行时间（其他已经完成的节点都在等这个还在做的节点）。二、数据倾斜的现象当发现如下现象时，十有八九是发生数据倾斜了:绝大多数task执行得都非常快，但个别task执行极慢，整体任务卡在某个阶段不能结束。原本能够正常执行的Spa

BlackEyes_SY·2023-01-19 07:58

PySaprk之Spark DataFrame的构建方法

一、基于RDD的方式一通过SparkSession对象的createDataFrame方法来将RDD转换为DataFrame。这里只传入列名称，类型从RDD中进行推断，是否允许为空默认为允许(True)frompyspark.sqlimportSparkSessionimportosos.environ["SPARK_HOME"]='/export/server/spark'PYSPARK_PYT

飞Link·2023-01-10 09:34

SparkSQL-----各种方式加载DataFrame

1.SparkSQL介绍SaprkSQL完全脱离了Hive的限制，能够在Scala中写SQL语句。

计算机界的小学生·2022-12-18 19:16

Spark-SaprkStreaming(概述、架构、原理、DStream转换、案例)

文章目录SparkStreaming概述特点架构原理DStream和RDD的区别DAG如何读取数据(※)WordCount案例实操代码解析RDD队列用法及说明案例实操自定义数据源Kafka数据源DStream转换无状态转化操作Transformjoin有状态转化操作UpdateStateByKeyWindowOperationsDStream输出优雅关闭案例实操依赖数据生成需求一：广告黑名单需求二

迷雾总会解·2022-12-18 19:44

spark-IDEA之SBT打包

_name:="saprk-sbt"version:="1.0"scalaVersion:="2.10.4"libraryDepen

Recall-MK·2022-12-15 11:20

使用Excel和Jupyter绘制线性走势图

Jupyter基于pysaprk更是将这一功能发挥到了极致（但是本文仅使用了Excel预测走势，并没有使用Jupyter预测的教程）。二、Excel对于一组数据，包含时间和值。

赵昕彧·2022-11-22 19:48

spark on hive 和 hive on spark

就是通过saprksql,加载hive配置文件，获取hive的元数据信息sparksql获取到hive的元数据信息之后就可以拿到hive的所有表的数据接下来就可以通过sparksql来操作hive表中的数据

qq_42915325·2022-11-20 10:11

manster网易云音乐大数据分析

manster网易云音乐分析gitee地址：https://gitee.com/manster1231/manster-cloud-music-analysis介绍一个简单的网易云音乐大数据分析，采用Saprk

manster1231·2022-11-17 09:36

Spark的一些问题汇总及 Yarn与Spark架构的对比

速度快、使用简单、通用性强、支持多种模式运行4、Saprk的运行模式本地模式集群模式（StandAlone、YARN、K8S）云模

木易巷·2022-11-06 22:49

（4）SparkSQL中如何定义UDF和使用UDF

SparkSQL中用户自定义函数，用法和SparkSQL中的内置函数类似；是saprkSQL中内置函数无法满足要求，用户根据业务需求自定义的函数。

·2022-09-26 11:16

双料架构师必备，Nginx+微服务+Redis+Mysql+HD+Saprk+Flink+k8s

IT圈子是一个需要不断学习不断进取的圈子，不学习不进步肯定是要被淘汰的，而且现在的IT圈子更加趋向于“多面手”全栈架构师这么一个大形势，小编这里为大家整理了架构+大数据双料架构师的进阶必备的PDF，希望你可以一直学习，一直进步！（java岗位）实战NginX，取代Apache的高性能Web服务器第1章Nginx简介第2章Nginx服务器的安装与配置第3章Nginx的基本配置与优化第4章Nginx与

IT茶馆技术斋·2022-08-16 09:56

Spark SQL整合hive

SparkSQLSparkSQL整合Hive1.修改Hive配置文件hive-site.xml2.将hive-site.xml复制到sparkconf目录下3.启动hive元数据服务4.将mysql驱动包复制到saprkjars

真好吃啊·2022-06-16 01:53

数据湖：Hudi构建中台

Hudi和DaltaLake对spark强绑定，建议使用Saprk。

榛西·2022-05-31 07:13

macbook安装scala、hadoop、saprk环境

一、scala安装1.安装jdk有mac专用的jdk安装包，这里下载安装jdk1.82.安装scala2.1下载scala2.2解压到指定目录tar-zxvf/Users/lodestar/Desktop/临时/scala-2.12.15.tar-C/Users/lodestar/software2.3环境变量配置vi./bash_profile我本机装过python和maven，这里再加入sca

lodestar·2022-02-19 23:00

macbook安装scala、hadoop、saprk环境

一、scala安装1.安装jdk有mac专用的jdk安装包，这里下载安装jdk1.82.安装scala2.1下载scala2.2解压到指定目录tar-zxvf/Users/lodestar/Desktop/临时/scala-2.12.15.tar-C/Users/lodestar/software2.3环境变量配置vi./bash_profile我本机装过python和maven，这里再加入sca

lodestar·2022-02-19 23:00

Spark任务提交模式及参数

1.本地模式-local[k]本地使用k个worker线程运行saprk程序.这种模式适合小批量数据在本地调试代码用.

西三旗靓仔·2021-06-12 15:14

Spark优化----开发调优(上)

Saprk在大数据领域的地位Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架，Spark，拥有HadoopMapReduce所具有的优点;但不同于MapReduce

利伊奥克儿·2021-04-26 16:44

数据湖之iceberg系列(三)iceberg快速入门

1环境准备准备大数据集群.安装HDFS,HIVE,SAPRK,FLINK下载运行集群环境运行是需要的jar包下载地址:http://iceberg.apache.org/releases/2spark将读写

白眼黑刺猬·2020-12-01 21:05

Spark入门(七)——最全的Saprk SQL算子介绍与使用(下)

SparkSQL查询SQL语法查询单行查询模糊查询排序查询limit查询分组查询having过滤case-when行转列pivotCube计算Join表连接子查询开窗函数开窗函数SQL解读ROW_NUMRANK()DENSE_RANK()/密集排名自定义函数单行函数聚合函数（untyped）Load/SavePaquetJSONORC(存储压缩格式，比较节省空间)CSVJDBCDataFrame转

为了抽短袖·2020-09-17 05:03

Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnection:ExceptionCould not create con

实验环境windows10；mysql8.0.15；问题描述在使用scala编写saprk程序连接数据库时出现如下所示报错：com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException

Solarzhou·2020-09-16 11:23

SparkCore-核心组件，核心概念，提交流程

文章目录核心组件核心概念提交流程核心组件Spark框架可以大致分三个部分：第一部分：Driver+Executor，任务执行和调度第二部分：Master+Worker，Saprk自身的资源调度框架，只有

Demik·2020-09-16 10:58

通过SparkR在R上运行Spark

R依然是数据学家手中最强大的语言之一，其实早在2014年一月底，加州大学伯克利分校的AMPLab就宣布发布了其SparkR项目的开发者预览版，该版本使用了基于原生R语言的ApacheSaprk，但是其使用难度还是在不断增加

奔跑的小象·2020-09-16 03:43

推荐频道

Saprk

spark从入门到放弃二十八:Spark Sql (1)Data Set

SparkSession对象操作--学习笔记

Saprk SQL基础知识

如何设置和读取Spark配置

wiondow系统-python中缺少JDK安装(超详解)！！！

初识scala

大数据分析与应用实验任务八

大数据分析与应用实验任务九

SaprkStreaming广告日志分析实时数仓

Spark Core----Spark常用算子

Spark的driver理解和executor理解

大数据笔记--Spark（第四篇）

pyspark学习(一)—pyspark的安装与基础语法

【Spark】win10配置IDEA、saprk、hadoop和scala

Spark【Spark SQL（二）RDD转换DataFrame、Spark SQL读写数据库 】

windows运行saprk程序：Did not find winutils.exe、Could not locate Hadoop executable:

Hadoop：数值型数据的朴素贝叶斯分类

（已解决）RuntimeError: Java gateway process exited before sending its port number

分布式kmeans(scala原码实现)

spark期末考试选择题精选

Spark 内核调度

数据湖之iceberg系列(三)iceberg快速入门

saprk sql查询mysql的两种方法

Saprk面试

大数据 Spark 架构

简述Spark基础及架构

（4）SparkSQL中如何定义UDF和使用UDF

spark.1

pysaprk数据倾斜怎么解决？

PySaprk之Spark DataFrame的构建方法

SparkSQL-----各种方式加载DataFrame

Spark-SaprkStreaming(概述、架构、原理、DStream转换、案例)

spark-IDEA之SBT打包

使用Excel和Jupyter绘制线性走势图

spark on hive 和 hive on spark

manster网易云音乐大数据分析

Spark的一些问题汇总 及 Yarn与Spark架构的对比

（4）SparkSQL中如何定义UDF和使用UDF

双料架构师必备，Nginx+微服务+Redis+Mysql+HD+Saprk+Flink+k8s

Spark SQL整合hive

数据湖：Hudi构建中台

macbook安装scala、hadoop、saprk环境

macbook安装scala、hadoop、saprk环境

Spark任务提交模式及参数

Spark优化----开发调优(上)

数据湖之iceberg系列(三)iceberg快速入门

Spark入门(七)——最全的Saprk SQL算子介绍与使用(下)

Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnection:ExceptionCould not create con

SparkCore-核心组件，核心概念，提交流程

通过SparkR在R上运行Spark

Spark【Spark SQL（二）RDD转换DataFrame、Spark SQL读写数据库】

Spark的一些问题汇总及 Yarn与Spark架构的对比