E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
使用Jupyter Notebook调试PySpark程序错误总结
项目场景:在Ubuntu16.04hadoop2.6.0
spark2
.3.1环境下简单调试一个PySpark程序,中间遇到的错误总结(发现版对应和基础配置很重要)注意:在前提安装配置好hadoophiveanacondajupyternotebooksparkzookeeper
Keep Doing this
·
2023-11-18 23:52
spark
jupyter
python
spark
spark性能调优(二):内存
一、spark内存简介
spark2
.0后,基本上spark内存的管理就已经自动化了,内存出现问题基本上是一些数据问题。
我爱夜来香A
·
2023-11-17 10:05
Spark
spark
jvm
大数据
C && C++ && git && tcpip
blog.csdn.net/aobai219/article/details/1596964C语言添加宏开关https://www.cnblogs.com/zht-blog/p/4036935.htmlPython+
Spark2
.0
happylzs2008
·
2023-11-17 05:21
Nginx
Spark读取excle、xlsx数据(Session读取)
读取xlsx版本:IntelliJIDEACommunityEdition2019.2.4apache-maven-3.6.2
Spark2
.0.2hadoop2.6_Win_x64-master话不多说
阿朱__
·
2023-11-14 18:51
spark
scala
Spark
Scala
Spark Worker 启动流程及源码详解
环境:
spark2
.3.3scala2.11.8Java1.8.0_141可以参考【SparkMaster启动流程及源码详解】${SPARK_HOME}/sbin/start-slaves.sh#Launchtheslaves
ustbxyls
·
2023-11-13 17:59
大数据
Spark
Spark源码
Cannot initialize Cluster. Please check your configuration for mapreduce.framework .name and the cor
我知道问题点肯定在
spark2
.3.1集成hive3.1.0的版本问题上,因为hive3.1.0新增了很多功能,如事务等,发布时间没有长时间的积累,出问题很容易不受控制。
汐朔
·
2023-11-12 16:47
hadoop
Spark
spark
大数据
hadoop
hive
hive3.0
Spark3-AQE-数据倾斜Join优化
AdaptiveQueryExection(自适应查询计划)简称AQE,在最早在spark1.6版本就已经有了AQE;到了
spark2
.x版本,intel大数据团队进行了相应的原型开发和实践;到了spark3.0
zuoseve01
·
2023-11-09 10:43
spark
大数据之spark_spark简介
2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache的顶级项目,2014年5月发布spark1.0,2016年7月发布
spark2
.0
普罗米修斯之火
·
2023-11-05 23:42
spark
spark
spark 2.1写入mysql spark 2.1 write to mysql
先说说
spark2
.1的SparkSession,原来的SparkContext已经并入SparkSession,所以需要这样开始:importorg.apache.spark.sql.SparkSessionvalsc
z_star
·
2023-11-05 08:01
als算法参数_
Spark2
.0协同过滤与ALS算法介绍
ALS矩阵分解一个的打分矩阵A可以用两个小矩阵和的乘积来近似,描述一个人的喜好经常是在一个抽象的低维空间上进行的,并不需要把其喜欢的事物一一列出。再抽象一些,把人们的喜好和电影的特征都投到这个低维空间,一个人的喜好映射到了一个低维向量,一个电影的特征变成了纬度相同的向量,那么这个人和这个电影的相似度就可以表述成这两个向量之间的内积。我们把打分理解成相似度,那么“打分矩阵A(m*n)”就可以由“用户
鲁舒天
·
2023-10-29 19:36
als算法参数
全网最详细的大数据架构搭建配置及说明文档
版本兼容JDK1.8.0_211ZooKeeper3.4.14Hadoop3.2.1Hive3.1.2HBase2.2.1Scala2.13.1
Spark2
.4.4MySQL5.7.28基本配置修改ip
骇客567
·
2023-10-29 10:52
Linux
大数据
架构
kafka maven 依赖_pyspark + kafka 环境搭建
环境:win7+Anaconda3+py
spark2
.3.1+kafka1.0.1一,win7安装kafka(单机)1.下载压缩包Indexof/dist/kafka/1.0.1archive.apache.org2
weixin_39978276
·
2023-10-28 22:52
kafka
maven
依赖
kafka
maven没有下载
Spark学习笔记01-基础
本文基于
Spark2
.4.1进行演示,相关代码可以在我的Github上看到。
GreenWang
·
2023-10-28 21:04
pyspark基础学习——环境配置
目录一、配置版本二、windows下安装py
spark2
.1jdk安装2.2spark安装2.3Hadoop安装2.4检测代码2.5运行环境总结一、配置版本JavaJDK1.8.0_111Python3.9.0Spark3.2.1Hadoop3.2.3
紫金叮咛
·
2023-10-28 18:29
学习
大数据
hadoop
spark
python
Spark(Streaming)写入数据到文件-关键为根据数据内容输出到不同自定义名称文件(saveAsHadoopFile以及自定义MultipleOutputFormat)
注意:本文中使用的版本是
spark2
.2.1和2.6.0-cdh5.11.0背景在工作中,需要将从kafka收到的数据
超级侠哥
·
2023-10-28 15:17
Hadoop大数据相关
spark
streaming
x86 架构的机载计算机,它来了!
All
spark2
-x86采用Intel酷睿11代或12代CPU,x86架构,适用于无人机等机器人运行SLAM、VIO等复杂逻辑和高精度的机器视觉任务。
阿木实验室
·
2023-10-27 23:49
x86架构
电脑
Intel酷睿11代CPU
英特尔
Hive on Spark
它在“spark”和“
spark2
”分支中仍处于发展阶段,
金刚_30bf
·
2023-10-27 19:16
spark 通信原理源码分析
spark2
.0以后采用Netty通信框架通信分为两端,driver端和executor端。
二十赶朝暮__
·
2023-10-26 21:12
IntelliJ IDEA Spark环境搭建
0x00安装安装IntelliJIDEA,并激活安装Spark,JDK1.8(
Spark2
.4.3与jdk12版本有兼容问题,降级为jdk8版本可以解决),scala,sbt(一个类似于maven,npm
小道小姐姐
·
2023-10-26 12:38
2万字硬核spark源码精讲手册
1引子(环境准备)本文整体基于
Spark2
.4.1代码讲解,首先需要准备编译环境。
大数据兵工厂
·
2023-10-23 01:06
大数据
spark
大数据
linux服务器 conda + jdk+ scala+ spark 环境搭建
1.安装anaconda并新建conda环境,注意和windows中不一样的是启动环境命令是condacreate-nsparksourceactivate
spark2
.安装并查看java8版本,我这里
戈季
·
2023-10-21 23:49
编译与运行Standalone
我选择的源码的版本是
Spark2
.4.0-SNAPSHOT这一个版本。编译的方法很简单,只需要在Spark的源码目录下,运行下面的命令就好了:.
AlstonWilliams
·
2023-10-21 15:27
sparkstream 2.2.0 结合 kafka_2.10-0.10.2.1 的消费示例演示
今天讲了kafka和sparkstream的一个简单结合,试着在网上找了一个例子进行实现1、相关配置
spark2
.2.0,scala2.11.8,kafka_2.10-0.10.2.1,jdk1.82、
maketubu7
·
2023-10-19 19:47
spark
kafka
spark
kafka
三十六、《大数据项目实战之用户行为分析》Spark Streaming整合Kafka计算实时单词数量
而从
Spark2
.3.0开始,对Kafk
大数据张老师
·
2023-10-19 12:18
#
kafka
大数据
spark
SparkStreaming
spark-shell启动失败
背景公司小组分配了三台虚拟机,在虚拟机上面意欲装hadoop集群及sparkonyarn版本Hadoop2.7.2
spark2
.3.2问题配置好hadoop集群与spark配置后,启动spark-shell
望山不是山
·
2023-10-19 08:20
Spark2
x基于内存的分布式计算
目录1.Spark概述Spark应用场景:Spark的特点:SparkVSMapReduce:2.Spark原理与架构SparkCoreSpark核心概念RDD:RDD的依赖关系RDD的Stage划分Spark重要角色SparkonYarn-client的运行流程SparkonYarn-cluster的运行流程Yarn-client与Yarn-cluster的区别SparkSQL和DatasetD
温暖会追上来的.
·
2023-10-19 05:09
大数据基本
Spark大数据分与实践笔记(第二章 Spark基础-01)
2.1初识
Spark2
.1.1Spark的概述Spark在2013年加入Apache孵化器项目,之后获得迅猛的发展,并于2014年正式成为Apache软件基金会的顶级项目。Spark生态系
妉妉师姐
·
2023-10-19 04:56
大数据-linux-spark
大数据
spark
分布式
Spark集群运行xgboost4j-spark总结
有需要交流的可以留言~主要问题:1.先去服务器上看看要使用的spark集群是啥版本的,可能
spark2
.1和
spark2
.3都支持,那样最好2.了解清楚,线上部署或者离线预测的时候用的啥版本,像我这儿只能用
泉水豆花儿
·
2023-10-18 16:16
Hadoop和Spark
spark
xgboost4j
CDH5.15 安装
spark2
,启动报错,求解
[root@hadoop1csd]#
spark2
-shellExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop
秦记
·
2023-10-18 05:37
记录一次hdfs存储异常
bash_operator.py:123}INFO-22/03/0209:54:52INFOstorage.BlockManagerInfo:Addedbroadcast_1_piece0inmemoryonhadoop-
spark2
叫兽吃橙子
·
2023-10-17 17:15
Spark读写HBase表数据
cloudera-reposorg.apache.sparkspark-core_2.112.3.3org.apache.commonscommons-lang33.7org.apache.hbasehbase-
spark2
.1.0
扎西的德勒
·
2023-10-17 04:14
2023_Spark_实验二十:SparkStreaming累加计算单词频率
二、实验环境centos7+nc+
spark2
.1.1+windows+idea三、思路分析流程分析思路分析每次客户端程序处理服务器端数据后,将其结果缓存在检查点中,下一次客户端读入数据并处理数据时会去检查点根据
pblh123
·
2023-10-16 14:57
Spark实验
spark
大数据
分布式
Spark-Submit参数设置说明
集群配置软件配置Hadoop2.6.0
Spark2
.2.0硬件配置三台服务器,32核64G500G总资源:32核64Gx3=48核192GYarn可分配总资源:48核60Gx3=144核180G默认情况下
我在北国不背锅
·
2023-10-16 06:33
Spark
spark
spark-submit
SparkContext 与 SparkContext 之间的区别是什么
而SparkSession是
Spark2
.0新增的API,它是对SparkContext、SQLContext和HiveContext的封装,提供了统一的编程接口和数据访问方式。因此,Sp
Solitary_孤影照惊鸿
·
2023-10-15 09:56
Apache
Spark
SparkContext
基于CentOS7、Hadoop2.7.7搭建
Spark2
.4.7、Zookeeper3.6.3并开启spark高可用模式
一.概述1.spark的三种部署模式1.1SparkonYARNSparkonYarn模式就是将Spark应用程序跑在Yarn集群之上,通过Yarn资源调度将executor启动在container中,从而完成driver端分发给executor的各个任务。将Spark作业跑在Yarn上,首先需要启动Yarn集群,然后通过spark-shell或spark-submit的方式将作业提交到Yarn上
sirLateautumn
·
2023-10-13 15:56
#
大数据集群搭建
spark
zookeeper
zeppelin-0.7.3与
spark2
.3, hive, hbase配置
1.安装1.1下载页面会提供两种二进制包:zeppelin-0.7.3-bin-netinst.tgz默认只会提供Spark的Interpreterzeppelin-0.7.3-bin-all.tgz会提供各种各样的Interpreter(MySQL,ElasticSearch等等)根据你的使用场景具体选择哪种二进制包.1.2解压缩tar-zxvfzeppelin-0.7.3-bin-all.tg
尼小摩
·
2023-10-13 01:33
spark2
.4.3源码分析-Master、Worker启动
总结Master启动后会定时清理超时的Worker,Worker启动需要传入Master的地址信息,启动后会向Master注册其相关信息,内存、cpu核数等,然后定时向Master发送心跳,保证自己不被清理。image.png1.Master源码分析1.查看${SPARK_HOME}/sbin/start-master.sh启动脚本启动的是org.apache.spark.deploy.maste
LancerLin_LX
·
2023-10-13 00:29
一文理清Apache Spark内存管理脉络
本文旨在梳理出Spark内存管理的脉络,抛砖引玉,文中阐述的原理基于
Spark2
.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。
weixin_34228387
·
2023-10-12 23:07
大数据
内存管理
运维
Spark Structured Streaming读写delta lake
packagesio.delta:delta-core_2.11:0.1.0如果碰到以下错误,可能是你的spark和Delta-core使用不同的scala版本编译造成的,spark官网提供的spark安装包除了
spark2
.4.2
伊一cherry大数据
·
2023-10-10 18:16
scala
spark
hive
big
data
spark 提交java_java中使用SparkLauncher提交spark应用
将开发好的sparkapplication(对于java/scala来说是jar)提交到spark集群执行的方式通常包括两种,一种是通常使用的sparksubmit脚本(
spark2
.x版本是
spark2
米佗耶目
·
2023-10-10 18:15
spark
提交java
离线Spark集群使用第三方包
按照官方文档,通常一个packages的命令行选项即可解决问题:$SPARK_HOME/bin/spark-shell--packagesgraphframes:graphframes:0.6.0-
spark2
.2
苦咖啡JerryKFC
·
2023-10-09 23:53
【Spark分布式内存计算框架——Spark Streaming】1. Streaming 概述(上)Streaming 应用场景、Lambda 架构
前言在很多实时数据处理的场景中,都需要用到流式处理(StreamProcess)框架,Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming(
Spark2
.0
csdnGuoYuying
·
2023-10-09 21:33
分布式
spark
架构
sql
大数据
03-Spark MLib
以逻辑斯蒂回归为例查找出所有包含“spark”的句子,即将包含spark的句子的标签设为1,没有spark的句子标签设备0下面是完整代码,之后分步骤对代码进行解析1.需要使用SparkSession对象
Spark2
.0
yu1069153913
·
2023-10-09 15:04
分布式Spark笔记
spark
Spark之自定义AccumulatorV2
本文介绍如何使用
Spark2
中自定义累加器来实现数据的统计。
阿坤的博客
·
2023-10-09 06:45
spark2
.4.5计算框架中各模块的常用实例
本项目是使用scala语言给出了
spark2
.4.5计算框架中各模块的常用实例。温馨提醒:spark的版本与scala的版本号有严格的对应关系,安装请注意。
编程方法论
·
2023-10-09 00:10
scala
spark
windows运行pyspark问题之return sc._jvm.SimplePythonFunction(TypeError: ‘JavaPackage‘ object is not callab
details/79458528#:~:text=%E8%A7%A3%E5%86%B3%E5%8A%9E%E6%B3%95%EF%BC%9A%201%E3%80%81%E5%8D%B8%E8%BD%BDpy
spark2
.2%
ML&DLee
·
2023-10-05 17:37
spark
Python大数据之PySpark(二)PySpark安装
PySpark安装环境搭建-Standalone环境搭建StandaloneHA后记PySpark安装1-明确PyPi库,PythonPackageIndex所有的Python包都从这里下载,包括py
spark2
Maynor996
·
2023-10-04 08:12
#
PySpark
python大数据
python
大数据
开发语言
Apache Spark 动态分区 OverWrite 问题
2、解决方案:从
Spark2
.3开始,Spark给我们提供了名为spark.sql.sources.p
团团饱饱
·
2023-10-02 23:06
Hudi第二章:集成Spark
系列文章目录Hudi第一章:编译安装Hudi第二章:集成Spark文章目录系列文章目录前言一、安装Spark1、安装
Spark2
.安装hive二、spark-shell1.启动命令2.插入数据3.查询数据
超哥--
·
2023-09-30 20:39
Hudi学习专栏
spark
大数据
分布式
别再人云亦云了!!!你真的搞懂了RDD、DF、DS的区别吗?
不过,从
Spark2
.2开始,DataFrame和DataSe
Jimmy2019
·
2023-09-30 13:28
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他