E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Saprk
spark从入门到放弃二十八:Spark Sql (1)Data Set
Saprk
Sql最重要的功能之一,就
意浅离殇
·
2024-02-09 03:17
SparkSession对象操作--学习笔记
frompyspark.sqlimportSparkSessionfrompysparkimportSparkConffrompyspark.sqlimportfunctionsasF"""创建ss对象时可以指定一些参数如果参数在脚本中不生效,就需要通过
saprk
-submit
祈愿lucky
·
2024-01-18 07:35
大数据
学习
笔记
javascript
Saprk
SQL基础知识
一.SparkSQL基本介绍1.什么是SparkSQLSparkSQL是Spark多种组件中其中一个,主要是用于处理大规模的[结构化数据]SparkSQL的特点:1).融合性:既可以使用SQL语句,也可以编写代码,同时支持两者混合使用.2).统一的数据访问:SparkSQL用统一的API对接不同的数据源3).Hive的兼容性:SparkSQL可以和Hive进行整合,合并后将执行引擎换成Spark,
MSJ3917
·
2024-01-08 16:32
sql
数据库
如何设置和读取Spark配置
设置在
Saprk
Conf中设置,如valconf=newSparkConf().setMaster("local").setAppName("Myapplication").set("spark.executor.memory
话数Science
·
2023-12-06 21:04
大数据
Spark
spark
大数据
wiondow系统-python中缺少JDK安装(超详解)!!!
因为学习python中,用到Py
saprk
,但因缺少JDK而报错,解决方法如下下载新款且稳定的17版本(21不推荐)官网下载有限速设置,压缩包我已经放在下面了,注意提取百度网盘链接:https://pan.baidu.com
干净的颜色
·
2023-12-04 02:23
java
开发语言
python
jdk
初识scala
为什么要用scala大数据很多框架是用scala写的,如:
saprk
、kafka、flink代码简洁多范式:面向对象编程(抽象现实世界)和函数式编程(编程简洁)兼容java环境并发模式使用Actor,可以简化编程
松松土_0b13
·
2023-12-03 18:19
大数据分析与应用实验任务八
大数据分析与应用实验任务八实验目的进一步熟悉pyspark程序运行方式;熟练掌握py
saprk
RDD基本操作相关的方法、函数。
陈希瑞
·
2023-11-25 04:05
spark
大数据分析与应用实验任务九
大数据分析与应用实验任务九实验目的进一步熟悉pyspark程序运行方式;熟练掌握py
saprk
RDD基本操作相关的方法、函数,解决基本问题。
陈希瑞
·
2023-11-25 04:31
数据分析
数据挖掘
spark
Saprk
Streaming广告日志分析实时数仓
一、系统简介参考尚硅谷的spark教程中的需求,参考相关思路,详细化各种代码,以及中间很多逻辑的实现方案采用更加符合项目开发的方案,而不是练习,包括整体的流程也有很大的差别,主要是参考需求描述和部分代码功能实现。需求一:广告黑名单实现实时的动态黑名单机制:将每天对某个广告点击超过100次的用户拉黑。注:黑名单保存到MySQL中。1)读取Kafka数据之后,并对MySQL中存储的黑名单数据做校验;2
是阿威啊
·
2023-11-18 21:50
scala
spark
mysql
kafka
zookeeper
Spark Core----Spark常用算子
2、在
Saprk
中所有的算子可以分成两种:Transformation算子(转换算子):由一个RDD转化成另一个RDD,转换算子(懒执行)并不会自己执行,需要行为算子进行触发执行。
新手小农
·
2023-11-08 09:23
Spark
spark
大数据
分布式
Spark的driver理解和executor理解
当Executor部分运行完毕后,Driver同时负责将
Saprk
Context关闭,通常SparkC
一个大数据小菜鸟
·
2023-10-12 20:16
spark
大数据
big
data
大数据笔记--Spark(第四篇)
目录一、RDD的容错机制二、RDD持久化机制1、RDD持久化(缓存)2、使用缓存3、缓存数据的清除4、持久化理解三、CheckPoint机制1、概述2、示例代码:3、总结4、
Saprk
懒执行的意义四、GC
是小先生
·
2023-10-12 05:33
大数据08-Spark
Saprk
GC
pyspark学习(一)—pyspark的安装与基础语法
pyspark学习(一)原创StarryChallengeHub公众号一Py
saprk
的安装最近想学pyspark,于是想起了要更这个系列,由于本人也是不是特别熟悉,如果有什么错误的地方希望大家多多见谅
starry0001
·
2023-09-26 08:57
Python
spark
python
【Spark】win10配置IDEA、
saprk
、hadoop和scala
终于,要对并行计算下手了哈哈哈。一直讲大数据大数据,我单次数据处理量大概在1t上下,是过亿级的轨迹数据。用python调用multiprogress编写的代码,用多线程也要一个多月跑完。我对这个效率不太满意,希望能快一点再快一点,这是学习Spark的前提。安装过程见:spark出pyspark了,可直接用python调用。但是我想接触下scala。所以先装scala试试。博客园:windows上安
请给我一脚
·
2023-09-19 12:07
分布式
spark
intellij-idea
hadoop
Spark【Spark SQL(二)RDD转换DataFrame、Spark SQL读写数据库 】
从RDD转换得到DataFrame
Saprk
提供了两种方法来实现从RDD转换得到DataFrame:利用反射机制推断RDD模式使用编程方式定义RDD模式下面使用到的数据people.txt:Tom,21Mike
让线程再跑一会
·
2023-09-10 23:53
Spark
数据库
spark
sql
大数据
windows运行
saprk
程序:Did not find winutils.exe、Could not locate Hadoop executable:
21/08/1522:38:58WARNShell:Didnotfindwinutils.exe:{}java.io.FileNotFoundException:CouldnotlocateHadoopexecutable:D:\main\hadoop-3.1.3\bin\winutils.exe-seehttps://wiki.apache.org/hadoop/WindowsProblemsa
枪枪枪
·
2023-08-31 03:10
Spark
Hadoop:数值型数据的朴素贝叶斯分类
朴素贝叶斯分类器用在符号型数据上比较多,如何处理数值型数据能找到的资料比较少,《数据算法:Hadoop/
Saprk
大数据处理技巧》这本书简要介绍了如何处理数值型数据。
Zeabin
·
2023-08-21 20:30
(已解决)RuntimeError: Java gateway process exited before sending its port number
今天用Pycharm远程使用py
saprk
解释器时,跑代码出现了这个错误:RuntimeError:Javagatewayprocessexitedbeforesendingitsportnumber找了好多博客都没解决问题
白莲居仙
·
2023-07-24 19:22
java
gateway
开发语言
spark
分布式kmeans(scala原码实现)
2.1Driver(主要负责分配、汇总数据)2.2Executor(主要负责计算)2.3Executor2(主要负责计算)3.分布式Kmeans算法spark集群部署3.1将三个代码打成jar包上传到三个
saprk
好记性+烂笔头
·
2023-07-18 08:45
#
Spark计算
分布式
kmeans
scala
spark期末考试选择题精选
以下哪一个不是
saprk
的特点A、随处运行B、代码简洁C、使用复杂D、运行快速Scala属于哪种编程语言A、函数式编程语言B、汇编语言C、机器语言D、多范式编程语言注意:scala也是一种函数式编程语言
孤独之风。
·
2023-07-15 07:10
spark
spark
scala
大数据
Spark 内核调度
面试高发SparkDAG(重点理解)Spark的核心是根据RDD来实现的,
Saprk
Schedule则为Spark核心实现的重要一环,其作用就是任务调度。
北海怪兽Monster
·
2023-06-09 03:46
大数据
spark
大数据
hadoop
数据湖之iceberg系列(三)iceberg快速入门
1环境准备准备大数据集群.安装HDFS,HIVE,
SAPRK
,FLINK下载运行集群环境运行是需要的jar包下载地址:http://iceberg.apache.org/releases/2spark将读写
hellozhxy
·
2023-04-14 03:12
iceberg
saprk
sql查询mysql的两种方法
saprk
sql查询mysql的两种方法:packagecom.spark.testimportorg.apache.spark.sql.SparkSessionimportorg.apache.spark.sql.SaveModeimportjava.util.Propertiesimportjava.util.Mapimportjava.util.HashMapobjectMysqlDemo
IMezZ
·
2023-04-05 01:36
Spark
mysql
sql
spark
大数据
Saprk
面试
1.谈谈SparkRDD的几大特性,并深入讲讲体现在哪?Spark的RDD有五大特性:Alistofpartitions:RDD是由多个分区(partition)组成的集合。Afunctionforcomputingeachsplit:对于RDD的计算,其实是RDD的每个分区都会执行这个计算。AlistofdependenciesonotherRDDs:RDD是一条依赖链,每一个RDD都会记录其父
Rinma
·
2023-04-03 12:07
大数据 Spark 架构
大数据Spark架构一.Spark的产生背景起源1.spark特点1.1轻量级快速处理
Saprk
允许传统的hadoop集群中的应用程序在内存中已100倍的速度运行即使在磁盘上也比传统的hadoop快10
起飞后的菜鸟
·
2023-02-26 07:19
简述Spark基础及架构
简述Spark基础及架构一、spark简介二、spark技术栈三、spark架构四、
saprk
常用API4.1SparkContext4.2SparkSession五、spark数据核心--RDD5.1RDD
我玩的很开心
·
2023-02-26 07:16
基础及架构
spark
(4)SparkSQL中如何定义UDF和使用UDF
SparkSQL中用户自定义函数,用法和SparkSQL中的内置函数类似;是
saprk
SQL中内置函数无法满足要求,用户根据业务需求自定义的函数。
NBI大数据可视化分析
·
2023-02-02 09:08
spark.1
Spark的组成:SparkCore:将分布式数据抽象为弹性分布式数据集(RDD),实现了应用任务调度,RPC,序列化和压缩,并为运行在其上的上层组件提供APISparkSQL:SparkSQL是
Saprk
瓜皮小咸鱼
·
2023-01-27 19:45
py
saprk
数据倾斜怎么解决?
一、数据倾斜危害?单个或少数的节点数据量特别大,但一个Stage所耗费的时间,是由最慢的那个Task决定,所以数据倾斜会导致两个后果:OOM(单或少数的节点);拖慢整个Job执行时间(其他已经完成的节点都在等这个还在做的节点)。二、数据倾斜的现象当发现如下现象时,十有八九是发生数据倾斜了:绝大多数task执行得都非常快,但个别task执行极慢,整体任务卡在某个阶段不能结束。原本能够正常执行的Spa
BlackEyes_SY
·
2023-01-19 07:58
pyspark
数据倾斜
Py
Saprk
之Spark DataFrame的构建方法
一、基于RDD的方式一通过SparkSession对象的createDataFrame方法来将RDD转换为DataFrame。这里只传入列名称,类型从RDD中进行推断,是否允许为空默认为允许(True)frompyspark.sqlimportSparkSessionimportosos.environ["SPARK_HOME"]='/export/server/spark'PYSPARK_PYT
飞Link
·
2023-01-10 09:34
Spark计算引擎
spark
big
data
hive
python
pandas
SparkSQL-----各种方式加载DataFrame
1.SparkSQL介绍
Saprk
SQL完全脱离了Hive的限制,能够在Scala中写SQL语句。
计算机界的小学生
·
2022-12-18 19:16
spark
spark
大数据
big
data
Spark-
Saprk
Streaming(概述、架构、原理、DStream转换、案例)
文章目录SparkStreaming概述特点架构原理DStream和RDD的区别DAG如何读取数据(※)WordCount案例实操代码解析RDD队列用法及说明案例实操自定义数据源Kafka数据源DStream转换无状态转化操作Transformjoin有状态转化操作UpdateStateByKeyWindowOperationsDStream输出优雅关闭案例实操依赖数据生成需求一:广告黑名单需求二
迷雾总会解
·
2022-12-18 19:44
大数据
spark
大数据
spark-IDEA之SBT打包
_name:="
saprk
-sbt"version:="1.0"scalaVersion:="2.10.4"libraryDepen
Recall-MK
·
2022-12-15 11:20
#
spark
spark
SBT
IDEA
打包
大数据
使用Excel和Jupyter绘制线性走势图
Jupyter基于py
saprk
更是将这一功能发挥到了极致(但是本文仅使用了Excel预测走势,并没有使用Jupyter预测的教程)。二、Excel对于一组数据,包含时间和值。
赵昕彧
·
2022-11-22 19:48
机器学习
python
excel
机器学习
数据分析
spark on hive 和 hive on spark
就是通过
saprk
sql,加载hive配置文件,获取hive的元数据信息sparksql获取到hive的元数据信息之后就可以拿到hive的所有表的数据接下来就可以通过sparksql来操作hive表中的数据
qq_42915325
·
2022-11-20 10:11
manster网易云音乐大数据分析
manster网易云音乐分析gitee地址:https://gitee.com/manster1231/manster-cloud-music-analysis介绍一个简单的网易云音乐大数据分析,采用
Saprk
manster1231
·
2022-11-17 09:36
项目
大数据
数据分析
echarts
vue
spark
Spark的一些问题汇总 及 Yarn与Spark架构的对比
速度快、使用简单、通用性强、支持多种模式运行4、
Saprk
的运行模式本地模式集群模式(StandAlone、YARN、K8S)云模
木易巷
·
2022-11-06 22:49
Spark
spark
大数据
分布式
(4)SparkSQL中如何定义UDF和使用UDF
SparkSQL中用户自定义函数,用法和SparkSQL中的内置函数类似;是
saprk
SQL中内置函数无法满足要求,用户根据业务需求自定义的函数。
·
2022-09-26 11:16
双料架构师必备,Nginx+微服务+Redis+Mysql+HD+
Saprk
+Flink+k8s
IT圈子是一个需要不断学习不断进取的圈子,不学习不进步肯定是要被淘汰的,而且现在的IT圈子更加趋向于“多面手”全栈架构师这么一个大形势,小编这里为大家整理了架构+大数据双料架构师的进阶必备的PDF,希望你可以一直学习,一直进步!(java岗位)实战NginX,取代Apache的高性能Web服务器第1章Nginx简介第2章Nginx服务器的安装与配置第3章Nginx的基本配置与优化第4章Nginx与
IT茶馆技术斋
·
2022-08-16 09:56
java
大数据
hadoop
java
大数据
数据库
hadoop
编程语言
Spark SQL整合hive
SparkSQLSparkSQL整合Hive1.修改Hive配置文件hive-site.xml2.将hive-site.xml复制到sparkconf目录下3.启动hive元数据服务4.将mysql驱动包复制到
saprk
jars
真好吃啊
·
2022-06-16 01:53
大数据
hive
spark
sql
数据湖:Hudi构建中台
Hudi和DaltaLake对spark强绑定,建议使用
Saprk
。
榛西
·
2022-05-31 07:13
技术比较
big
data
macbook安装scala、hadoop、
saprk
环境
一、scala安装1.安装jdk有mac专用的jdk安装包,这里下载安装jdk1.82.安装scala2.1下载scala2.2解压到指定目录tar-zxvf/Users/lodestar/Desktop/临时/scala-2.12.15.tar-C/Users/lodestar/software2.3环境变量配置vi./bash_profile我本机装过python和maven,这里再加入sca
lodestar
·
2022-02-19 23:00
macbook安装scala、hadoop、
saprk
环境
一、scala安装1.安装jdk有mac专用的jdk安装包,这里下载安装jdk1.82.安装scala2.1下载scala2.2解压到指定目录tar-zxvf/Users/lodestar/Desktop/临时/scala-2.12.15.tar-C/Users/lodestar/software2.3环境变量配置vi./bash_profile我本机装过python和maven,这里再加入sca
lodestar
·
2022-02-19 23:00
Spark任务提交模式及参数
1.本地模式-local[k]本地使用k个worker线程运行
saprk
程序.这种模式适合小批量数据在本地调试代码用.
西三旗靓仔
·
2021-06-12 15:14
Spark优化----开发调优(上)
Saprk
在大数据领域的地位Spark是UCBerkeleyAMPlab所开源的类HadoopMapReduce的通用并行框架,Spark,拥有HadoopMapReduce所具有的优点;但不同于MapReduce
利伊奥克儿
·
2021-04-26 16:44
数据湖之iceberg系列(三)iceberg快速入门
1环境准备准备大数据集群.安装HDFS,HIVE,
SAPRK
,FLINK下载运行集群环境运行是需要的jar包下载地址:http://iceberg.apache.org/releases/2spark将读写
白眼黑刺猬
·
2020-12-01 21:05
数据湖
Spark入门(七)——最全的
Saprk
SQL算子介绍与使用(下)
SparkSQL查询SQL语法查询单行查询模糊查询排序查询limit查询分组查询having过滤case-when行转列pivotCube计算Join表连接子查询开窗函数开窗函数SQL解读ROW_NUMRANK()DENSE_RANK()/密集排名自定义函数单行函数聚合函数(untyped)Load/SavePaquetJSONORC(存储压缩格式,比较节省空间)CSVJDBCDataFrame转
为了抽短袖
·
2020-09-17 05:03
Spark
大数据
java
spark
hadoop
Caused by: com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnection:ExceptionCould not create con
实验环境windows10;mysql8.0.15;问题描述在使用scala编写
saprk
程序连接数据库时出现如下所示报错:com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException
Solarzhou
·
2020-09-16 11:23
Scala
saprk
scala
mysql
SparkCore-核心组件,核心概念,提交流程
文章目录核心组件核心概念提交流程核心组件Spark框架可以大致分三个部分:第一部分:Driver+Executor,任务执行和调度第二部分:Master+Worker,
Saprk
自身的资源调度框架,只有
Demik
·
2020-09-16 10:58
Spark
spark
大数据
通过SparkR在R上运行Spark
R依然是数据学家手中最强大的语言之一,其实早在2014年一月底,加州大学伯克利分校的AMPLab就宣布发布了其SparkR项目的开发者预览版,该版本使用了基于原生R语言的Apache
Saprk
,但是其使用难度还是在不断增加
奔跑的小象
·
2020-09-16 03:43
R
上一页
1
2
3
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他