E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2
CDH5.15 安装
spark2
,启动报错,求解
[root@hadoop1csd]#
spark2
-shellExceptioninthread"main"java.lang.NoClassDefFoundError:org/apache/hadoop
秦记
·
2023-10-18 05:37
记录一次hdfs存储异常
bash_operator.py:123}INFO-22/03/0209:54:52INFOstorage.BlockManagerInfo:Addedbroadcast_1_piece0inmemoryonhadoop-
spark2
叫兽吃橙子
·
2023-10-17 17:15
Spark读写HBase表数据
cloudera-reposorg.apache.sparkspark-core_2.112.3.3org.apache.commonscommons-lang33.7org.apache.hbasehbase-
spark2
.1.0
扎西的德勒
·
2023-10-17 04:14
2023_Spark_实验二十:SparkStreaming累加计算单词频率
二、实验环境centos7+nc+
spark2
.1.1+windows+idea三、思路分析流程分析思路分析每次客户端程序处理服务器端数据后,将其结果缓存在检查点中,下一次客户端读入数据并处理数据时会去检查点根据
pblh123
·
2023-10-16 14:57
Spark实验
spark
大数据
分布式
Spark-Submit参数设置说明
集群配置软件配置Hadoop2.6.0
Spark2
.2.0硬件配置三台服务器,32核64G500G总资源:32核64Gx3=48核192GYarn可分配总资源:48核60Gx3=144核180G默认情况下
我在北国不背锅
·
2023-10-16 06:33
Spark
spark
spark-submit
SparkContext 与 SparkContext 之间的区别是什么
而SparkSession是
Spark2
.0新增的API,它是对SparkContext、SQLContext和HiveContext的封装,提供了统一的编程接口和数据访问方式。因此,Sp
Solitary_孤影照惊鸿
·
2023-10-15 09:56
Apache
Spark
SparkContext
基于CentOS7、Hadoop2.7.7搭建
Spark2
.4.7、Zookeeper3.6.3并开启spark高可用模式
一.概述1.spark的三种部署模式1.1SparkonYARNSparkonYarn模式就是将Spark应用程序跑在Yarn集群之上,通过Yarn资源调度将executor启动在container中,从而完成driver端分发给executor的各个任务。将Spark作业跑在Yarn上,首先需要启动Yarn集群,然后通过spark-shell或spark-submit的方式将作业提交到Yarn上
sirLateautumn
·
2023-10-13 15:56
#
大数据集群搭建
spark
zookeeper
zeppelin-0.7.3与
spark2
.3, hive, hbase配置
1.安装1.1下载页面会提供两种二进制包:zeppelin-0.7.3-bin-netinst.tgz默认只会提供Spark的Interpreterzeppelin-0.7.3-bin-all.tgz会提供各种各样的Interpreter(MySQL,ElasticSearch等等)根据你的使用场景具体选择哪种二进制包.1.2解压缩tar-zxvfzeppelin-0.7.3-bin-all.tg
尼小摩
·
2023-10-13 01:33
spark2
.4.3源码分析-Master、Worker启动
总结Master启动后会定时清理超时的Worker,Worker启动需要传入Master的地址信息,启动后会向Master注册其相关信息,内存、cpu核数等,然后定时向Master发送心跳,保证自己不被清理。image.png1.Master源码分析1.查看${SPARK_HOME}/sbin/start-master.sh启动脚本启动的是org.apache.spark.deploy.maste
LancerLin_LX
·
2023-10-13 00:29
一文理清Apache Spark内存管理脉络
本文旨在梳理出Spark内存管理的脉络,抛砖引玉,文中阐述的原理基于
Spark2
.1版本,阅读本文需要读者有一定的Spark和Java基础,了解RDD、Shuffle、JVM等相关概念。
weixin_34228387
·
2023-10-12 23:07
大数据
内存管理
运维
Spark Structured Streaming读写delta lake
packagesio.delta:delta-core_2.11:0.1.0如果碰到以下错误,可能是你的spark和Delta-core使用不同的scala版本编译造成的,spark官网提供的spark安装包除了
spark2
.4.2
伊一cherry大数据
·
2023-10-10 18:16
scala
spark
hive
big
data
spark 提交java_java中使用SparkLauncher提交spark应用
将开发好的sparkapplication(对于java/scala来说是jar)提交到spark集群执行的方式通常包括两种,一种是通常使用的sparksubmit脚本(
spark2
.x版本是
spark2
米佗耶目
·
2023-10-10 18:15
spark
提交java
离线Spark集群使用第三方包
按照官方文档,通常一个packages的命令行选项即可解决问题:$SPARK_HOME/bin/spark-shell--packagesgraphframes:graphframes:0.6.0-
spark2
.2
苦咖啡JerryKFC
·
2023-10-09 23:53
【Spark分布式内存计算框架——Spark Streaming】1. Streaming 概述(上)Streaming 应用场景、Lambda 架构
前言在很多实时数据处理的场景中,都需要用到流式处理(StreamProcess)框架,Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming(
Spark2
.0
csdnGuoYuying
·
2023-10-09 21:33
分布式
spark
架构
sql
大数据
03-Spark MLib
以逻辑斯蒂回归为例查找出所有包含“spark”的句子,即将包含spark的句子的标签设为1,没有spark的句子标签设备0下面是完整代码,之后分步骤对代码进行解析1.需要使用SparkSession对象
Spark2
.0
yu1069153913
·
2023-10-09 15:04
分布式Spark笔记
spark
Spark之自定义AccumulatorV2
本文介绍如何使用
Spark2
中自定义累加器来实现数据的统计。
阿坤的博客
·
2023-10-09 06:45
spark2
.4.5计算框架中各模块的常用实例
本项目是使用scala语言给出了
spark2
.4.5计算框架中各模块的常用实例。温馨提醒:spark的版本与scala的版本号有严格的对应关系,安装请注意。
编程方法论
·
2023-10-09 00:10
scala
spark
windows运行pyspark问题之return sc._jvm.SimplePythonFunction(TypeError: ‘JavaPackage‘ object is not callab
details/79458528#:~:text=%E8%A7%A3%E5%86%B3%E5%8A%9E%E6%B3%95%EF%BC%9A%201%E3%80%81%E5%8D%B8%E8%BD%BDpy
spark2
.2%
ML&DLee
·
2023-10-05 17:37
spark
Python大数据之PySpark(二)PySpark安装
PySpark安装环境搭建-Standalone环境搭建StandaloneHA后记PySpark安装1-明确PyPi库,PythonPackageIndex所有的Python包都从这里下载,包括py
spark2
Maynor996
·
2023-10-04 08:12
#
PySpark
python大数据
python
大数据
开发语言
Apache Spark 动态分区 OverWrite 问题
2、解决方案:从
Spark2
.3开始,Spark给我们提供了名为spark.sql.sources.p
团团饱饱
·
2023-10-02 23:06
Hudi第二章:集成Spark
系列文章目录Hudi第一章:编译安装Hudi第二章:集成Spark文章目录系列文章目录前言一、安装Spark1、安装
Spark2
.安装hive二、spark-shell1.启动命令2.插入数据3.查询数据
超哥--
·
2023-09-30 20:39
Hudi学习专栏
spark
大数据
分布式
别再人云亦云了!!!你真的搞懂了RDD、DF、DS的区别吗?
不过,从
Spark2
.2开始,DataFrame和DataSe
Jimmy2019
·
2023-09-30 13:28
Pyspark实现KMeans机器学习聚类算法(一)
Pyspark实现KMeans机器学习聚类算法(一)环境配置:
spark2
.1.1python3.5.2IPython5.1.0这里配置了pyspark默认以ipython模式启动。
数据之禅
·
2023-09-28 14:03
Windows下Pycharm的Spark、Hadoop、Scala安装及常见报错(graphframes避坑、jupyter的文件位置更换、conda环境建立)
py4j2、安装pyspark接下来是新建python项目1、项目配置2、使用graphframes库项目环境jdk1.8.0_333python3.7.13scala2.11.8hadoop2.7.1
spark2
.4.3
soberld
·
2023-09-21 02:21
pycharm
spark
hadoop
Spark-Shell的启动与运行
Spark-Shell的启动与运行一、启动
spark2
.启动hadoop3.启动spark二、SparkRdd的简单操作1.从文件系统加载数据创建ADD(1)从Linux本地文件系统加载数据创建RDD—
LMY~~
·
2023-09-18 08:40
spark
大数据
hadoop
HDP服务器上spark-sql联通hive元数据库
spark-sql执行的脚本没有执行,提示没有找到数据库;新打session窗口测试,通过spark-sql连接yarn后showdatabases;发现数据库与hive元数据库不一致;解决方法:修改
spark2
NightFall丶
·
2023-09-17 23:44
#
Spark
#
hive
hive
数据库
服务器
Apache Spark 2.2.0 官方文档中文版
htmlApacheSpark™是一个快速的,用于海量数据处理的通用引擎.官方网址:http://spark.apache.org中文文档:http://spark.apachecn.org花了大概两周左右的时间,在原来
Spark2
.0.2
boonya
·
2023-09-17 10:40
Spark
1.spark读取数据与scala编程
以下是idea中用到的maven仓库版本说明:
spark2
.3.1scala2.11hadoop3.1.14.0.0com.attest.bigdataspark-2003291.0org.apache.sparkspark-core
一杭oneline
·
2023-09-16 10:59
Spark
Spark2
.4.6Spark介绍什么是Spark?ApacheSpark是专为大规模数据处理而设计的快速通用的计算引擎。
HikZ.919
·
2023-09-14 23:29
hadoop
spark
Spark-通信架构
Spark2
.x版本使用Netty通讯框架作为内部通讯组间。Spark基于Netty新的RPC框架借鉴了Akka中的设计,基于Actor模型。
布莱安托
·
2023-09-12 15:06
spark-windows本地环境搭建
bin目录)github找https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/binscala-SDK-2.12.10,
spark2
.4.3
堂哥000
·
2023-09-11 11:11
Spark 【Spark SQL(一)DataFrame的创建、保存与基本操作】
Spark2
.0出现的SparkSession接口替代了Spark1.6版本中的SQLContext和HiveCont
让线程再跑一会
·
2023-09-10 23:52
Spark
spark
大数据
分布式
Spark【Spark SQL(三)DataSet】
在
Spark2
.0中,DataFrame和DataSet被合并为DataSet。DataSet包含
让线程再跑一会
·
2023-09-10 23:20
Spark
spark
大数据
分布式
Spark String Decimal类型引起的问题
问题背景从
Spark2
到Spark3这期间,Spark对于String和Decimal类型的比较会自动转换为Double类型。
wankunde
·
2023-09-09 04:33
spark
spark
big
data
Ambari HDP 下
SPARK2
与 Phoenix 整合
1、环境说明操作系统CentOSLinuxrelease7.4.1708(Core)Ambari2.6.xHDP2.6.3.0
Spark2
.xPhoenix4.10.0-HBase-1.22、条件HBase
跟着大数据和AI去旅行
·
2023-09-08 23:21
Spark2
x原理剖析(二)
一、概述基于社区已有的JDBCServer基础上,采用多主实例模式实现了其高可用性方案。集群中支持同时共存多个JDBCServer服务,通过客户端可以随机连接其中的任意一个服务进行业务操作。即使集群中一个或多个JDBCServer服务停止工作,也不影响用户通过同一个客户端接口连接其他正常的JDBCServer服务。多主实例模式相比主备模式的HA方案,优势主要体现在对以下两种场景的改进。主备模式下,
Hello.Reader
·
2023-09-06 07:08
大数据
spark
Spark SQL常用函数 函数分类及其简介
SparkSQL函数一、概述1、来源:本文总结自
spark2
.3.1API文档org.apache.spark.sql:objectfunctions;2、使用:org.apache.spark.sql.functions
vitrovitro
·
2023-09-03 01:43
BigData
CDK &CDS 安装
一、下载安装包http://archive.cloudera.com/kafka/parcels/4.1.0/http://archive.cloudera.com/
spark2
/csd/
SPARK2
_
吃货大米饭
·
2023-09-02 15:28
Spark_Spark中的几种Shuffle 以及工作原理, 含HashShuffle
Base
Spark2
.0+参考文章1.spark基础之shuffle机制和原理分析https://blog.csdn.net/zhanglh046/article/details/783607622.SparkShuffle
高达一号
·
2023-09-01 07:52
Spark
Spark2
.3整合bubbo问题总结
1.在java代码中写scala代码image.png编译后会出现scala代码找不到,需要在pom.xml添加net.alchim31.mavenscala-maven-plugin3.2.0scala-compile-firstprocess-resourcesadd-sourcecompiletest-compile-scalatest-compileadd-sourcetestCompil
LancerLin_LX
·
2023-08-29 07:55
hive3.1.4源码编译兼容spark3.0.0 hive on spark hadoop3.x修改源码依赖 步骤详细
使用hive3.1.2和spark3.0.0配置hiveonspark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是
spark2
.3.0,而spark3.0.0
薛定谔的猫不吃猫粮
·
2023-08-26 09:49
Hive
大数据组件
大数据
hive
hadoop
zookeeper
分布式计算框架:Spark、Dask、Ray
目录什么是分布式计算分布式计算哪家强:Spark、Dask、Ray2选择正确的框架2.1
Spark2
.2Dask2.3Ray什么是分布式计算分布式计算是一种计算方法,和集中式计算是相对的。
ZhangJiQun&MXP
·
2023-08-26 08:41
2023
AI
spark
大数据
分布式
【Spark】用scala2.11编译打包构建镜像
而如果还在用
Spark2
.x版本的,至少在2.4.5的版本中,已经是将Scala2.12作为默认的Scala版本了,如果用户的程序是用Scala2.11写的,也需要将Spark
runzhliu
·
2023-08-24 21:38
Kubernetes
Spark
Spark2
x on yarn日志配置详解
概述SparkonYarn的日志配置分为两类:SparkonYarnclient模式SparkonYarncluster模式接下为大家逐一介绍。SparkonYarnclient模式下的日志配置在client模式下,Spark分为三部分,分别是driver,applicationmaster以及executor,这种模式通常使用在测试环境中。driver:可以认为是sparkapplication
super_wing
·
2023-08-24 18:09
【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )
文章目录一、安装PySpark1、使用pip安装Py
Spark2
、国内代理镜像3、PyCharm中安装PySpark二、PySpark数据处理步骤三、构建PySpark执行环境入口对象四、代码示例一、安装
韩曙亮
·
2023-08-23 08:09
Python
python
PyCharm
PySpark
Spark
数据处理
hibench 对CDH5.13.1进行基准测试(测试项目hadoop\spark\)HDFS作HA高可靠性
因为是全量安装,其中有SPARK的测试(
SPARK2
.0)。安装位置在SPARK服务所在的节点上面。
weixin_30262255
·
2023-08-23 00:44
大数据
java
PySpark安装及WordCount实现(基于Ubuntu)
先盘点一下要安装哪些东西:VMwareubuntu14.04(64位)Java环境(JDK1.8)Hadoop2.7.1
Spark2
.4.0(Local模式)Pycharm(一)UbuntuVMware
如何原谅奋力过但无声
·
2023-08-22 13:37
大数据组件
hadoop
spark
hdfs
Spark 为什么比 MapReduce 快100倍?
文章目录1.内存计算与磁盘刷写1.1MapReduce的Shuffle需要频繁IO1.2Spark计算走IO少2.进程和线程2.1基于进程的MapReduce2.2基于线程的
Spark2
.3基于进程VS
程序终结者
·
2023-08-20 02:43
Hadoop生态
spark
mapreduce
大数据
Spark 图计算ONEID 进阶版
0、环境信息本文采用阿里云maxcompute的spark环境为基础进行的,搭建本地spark环境参考搭建Windows开发环境_云原生大数据计算服务MaxCompute-阿里云帮助中心版本
spark2
.4.5
大数据00
·
2023-08-19 05:09
用户画像
Spark
spark
大数据
分布式
graph
使用FIFO的文件控制shell的线程数
/bin/bashdate+'%Y/%m/%d%H:%M:%S'HADOOP_CONF_DIR=/opt/cloudera/parcels/
SPARK2
-2.1.0.cloudera1-1.cdh5.7.0
飞天大漠
·
2023-08-17 12:17
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他