E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark2
PySpark:DataFrame及其常用列操作
为了解决上述问题,从
Spark2
.x开始,RDD被降级为
Sun_Sherry
·
2023-04-03 08:27
PySpark
PySpark
工作中的一些错误解决记录
-19CDHOOZIEUI页面打不开:解决:把下载好的ext-2.2.zip拷贝到Oozie主机的/var/lib/oozie目录下运行命令unzipext-2.2.zip解压(没有包就下载)2)运行
spark2
抱抱抱抱
·
2023-04-03 07:08
错误问题解决记录
使用sbt编译打包,spark-submit命令提交的详细步骤
Spark2
.1.0入门:Spark的安装和使用使用sbt打包Scala程序该程序依赖SparkAPI,因此我们需要通过sbt进行编译打包。请在.
GloomyHarbor
·
2023-04-02 10:45
大数据-scala的使用
java
linux
python
spark
大数据
Spark简介及运行架构
Spark学习网站建议从学习Spark官方文档开始:QuickStart-
Spark2
.1.1DocumentationSparkProgrammingGuide这里有对应的中译版:Spark官方文档-
一碗竹叶青
·
2023-04-02 02:28
BigData
大数据
spark
hadoop
scala
「Spark 从精通到重新入门(一)」Spark 中不可不知的动态优化
我们Erda的FDP平台(FastDataPlatform)也从
Spark2
.4升级到Spark3.0
尔达 Erda
·
2023-03-31 09:54
elasticsearch
单元测试
测试工具
云原生
spark读取elasticsearch数据报scala.collectino.GenTraversableOnce$class错解决办法
scala.collectino.GenTraversableOnce$class错解决办法spark读取elasticsearch数据报scala.collection.GenTraversableOnce$class错解决办法
spark2
.3
土哥呀
·
2023-03-31 01:09
spark
elasticsearch
Spark3每个job之间任务间隔过长
Spark3比CDH的hiveon
spark2
.4.0要快不少。AQE和CBO真的挺强的。但是使用中发现了一个很奇怪的事情。这个问题在网上搜过,并没有实际解决。
黑眼圈@~@
·
2023-03-30 02:28
Spark
hive
hadoop
大数据
spark
iceberg-Spark3.0SQL 测试案例
点击下载
spark2
.4和spark3的驱动包。
黑眼圈@~@
·
2023-03-30 02:57
iceberg
spark 内存管理机制与相关参数调优
spark内存管理文章目录spark内存管理spark1.6内存管理机制
spark2
.0内存管理机制spark3.3.1官方文档spark内存相关参数调优spark1.6内存管理机制https://0x0fff.com
nefu-ljw
·
2023-03-29 15:39
从零开始学大数据
spark
大数据
调优
内存管理
spark读取Jdbc数据
testorg.example1.0-SNAPSHOT4.0.0
spark2
.3.32.11.122.11org.scala-langscala-library${scala.version}org.apache.sparkspark-sql
qzWsong
·
2023-03-29 15:35
spark
spark
java
大数据
Spark2
:运行架构
Spark2
:运行架构一、运行架构1.概念2.运行流程整体流程注意事项二、Spark集群模式三、执行组件1.RDD2.Scheduler3.Storage4.Shuffle5.与Hadoop的区别参考一
是Yu欸
·
2023-03-29 00:42
海量数据处理(hadoop
spark)
笔记
big
data
spark
hadoop
spark消费kafka(cdh启用kerberos)
不生产博客,只是别人博客的裁缝一入kerberos深似海,从此节操是个玩意儿之前写过一篇spark消费kafka问题记录(cdh5.16.2),主要记录了安装
spark2
后,spark的问题,和本地可以执行
hadoop程序猿
·
2023-03-28 22:10
spark
kafka
spark
kafka
kerberos
【大数据基础】2020年美国新冠肺炎疫情数据分析
https://dblab.xmu.edu.cn/blog/2738https://dblab.xmu.edu.cn/blog/2636/spark安装安装
Spark2
.4.0sudotar-zxf~/
仿生程序员会梦见电子羊吗
·
2023-03-28 18:24
信息管理与信息系统
大数据
数据分析
hadoop
spark dataframe 如何保存到本地
在
Spark2
.x里面,可以直接使用以下命令df.write.format("csv").save(filepath)
zy_now
·
2023-03-28 06:00
Spark的部署脚本解读
ApacheSparkisafastandgeneral-purposeclustercomputingsystem.以下分析的是
Spark2
.3.0版本。
一ke大白菜
·
2023-03-25 18:13
springboot mybatis和spark-sql、SDB对接
spark-sql的整合,通过hive-sql实现spark的鉴权和权限控制,并能够通过springboot、mybatis访问spark查询SequoiaDB中的数据,具体部署环境为下:jdk1.8
spark2
.1
YauChungYin
·
2023-03-22 12:02
Sequoiadb学习笔记
数据库
spring
java
Spark2
.11 + Scala2.11.8环境搭建
标题虽然说是搭建,实际只是想记录下搭建过程中遇到的两个问题。首先在本地创建Scala项目。环境搭建:首先通过IntelliJIDEA建立Scala项目(前提是已经安装了Scala),NewProject->Maven->Createfromarchtype->org.scala-tools.archetypes-archetype-simpleimage.png这是需要选择Scala的版本,我使用
橋声
·
2023-03-21 06:54
spark2
-submit参数及调优
[1]本文以
spark2
.3.0版本(onYARN)为主,可以移步
spark2
.3.0官方了解更多。你可以通过:
spark2
-submit--help来查看详细的参数配置说明。
南宋临安府
·
2023-03-20 00:39
Spark2
.x精通:TaskScheduler的Task任务提交源码剖析
问题或建议,请公众号留言;如果您觉得“大数据开发运维架构”对你有帮助,欢迎转发朋友圈从微信公众号拷贝过来,格式有些错乱,建议直接去公众号阅读接上篇文章:
Spark2
.x精通:Job触发流程源码深度剖析(
大数据开发运维架构
·
2023-03-19 18:04
Spark介绍
Spark是2009年诞生,2014年成为Apache项目,2016年发布了
Spark2
.0,2019年10月Spark3.0预览版,2020年6月18日Spark3.0正式版发布Spark是一个大数据领域的统一分析引擎
ssttIsme
·
2023-03-18 04:20
pyspark系列3-spark核心之RDD介绍
文章目录一.RDD概念1.1RDD的特点1.2RDD的核心属性二.操作RDD2.1PySpark介绍2.2PySpark环境配置2.3PySpark使用2.3.1初始化
Spark2
.3.2初始化RDD2.3.3RDD
只是甲
·
2023-03-15 12:42
大数据和数据仓库
#
Spark
大数据
python
spark
pyspark
RDD
pyspark--报错java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST解决
环境Python3.5.2Py
spark2
.4.2hadoop-2.6.0spark-2.2.0-bin-hadoop2.6.tgz运行spark本地报错:解决安装对应版本pysparkpipintsallpyspark
我心依依旧
·
2023-03-15 12:33
大数据
pyspark
Spark2
.1和2.2 SQL物理执行策略关键源码分析
1.文章开始之前先附上一句SQL,使用tpc-ds的表结构,我们围绕这句SQL讲。SQL:SQL>selectavg(cs_ext_discount_amt)fromcatalog_sales,date_dimwhered_datebetween'1999-02-22'andcast('1999-05-22'asdate)andd_date_sk=cs_sold_date_skgroupbycs_
orisonchan
·
2023-03-15 08:15
hadoop2.9.1+
spark2
.3字数统计java实例集群运行(idea)
一搭环境Hadoop2.9.2+
spark2
.3参考https://blog.csdn.net/qazwsxpcm/article/details/78937820二实例运行1打开idea,file-new-project
葡萄超好吃
·
2023-03-15 07:50
Spark3.0分布,Structured Streaming UI登场
imageSpark3.0主要的新特性如下:相比于
Spark2
.4,性能提升了2倍,主要体现在自适应查询执行,动态分区修剪
大数据流动
·
2023-03-14 10:19
Hadoop - SparkSQL
image.pngDataFrame->DataSet
Spark2
.0Codes:exportSPARK_MAJOR_VERSION=2frompyspark.sqlimportSparkSessionfrompyspark.sqlimportRowfrompyspark.sqlimportfunctionsdefloadMovieNames
Xiangyuan_Ren
·
2023-03-13 17:24
ImportError: No module named bson.int64问题排查
背景在基于hadoop集群的
spark2
环境中,使用python编写任务。groupByKeys后,对value进行处理的时候,处理函数fun需要一个参数。
slowrabbit
·
2023-03-12 14:24
Spark2
.4.4安装配置
spark2
.4.4分布式高可用HA配置conf/slaves配置node1node2node3node4conf/spark-env.sh配置#配置JDK安装位置JAVA_HOME=/usr/lib/
陈文瑜
·
2023-03-11 20:58
Apache Spark 统一内存管理模型详解(转)
一、前言本文将对Spark的内存管理模型进行分析,下面的分析全部是基于Apache
Spark2
.2.1进行的。为了让下面的文章看起来不枯燥,不打算贴出代码层面的东西。
愤怒的谜团
·
2023-03-10 12:57
Carbondata1.3.1+
Spark2
.1.0+Hadoop2.7.3集成问题记录(持续更新)
一、版本问题目前官方虽说支持了
spark2
.2.1,下载git代码后编译完全是可以通过的,但是在使用过程会出现问题。
Jonathan丶Wei
·
2023-03-09 11:09
Spark相关的依赖冲突,后期持续更新总结
Spark相关的依赖冲突持续更新总结Spark-Hive_2.11依赖报错这个依赖是Spark开启支持hiveSQL解析,其中2.11是Spark对应的Scala版本,如
Spark2
.4.7,对应的Scala
岁月的眸
·
2023-02-18 20:31
#
Spark总结
spark
大数据
scala
Delta Lake 平台化实践(离线篇)
本文是在DeltaLake0.4与
Spark2
.4集成、平台化过程中的一些实践与思考SQL支持DML背景deltalake0.4只支持以api的方式使用Delete/Update/MergeInto等DML
breeze_lsw
·
2023-02-07 12:07
sparkstreaming线程数小于2时出错!
当运行一个
spark2
.2.0官方文档的实例时,sparkstreaing出现如下错误:2019-04-1019:40:00WARNRandomBlockReplicationPolicy:66-Expecting1replicaswithonly0peer
时光如水_fe87
·
2023-02-06 13:18
spark 2.1 sort-based shuffle
所以在
spark2
.0之后remove了HashShuffle,开始只使用on-heap或off-heap的sort-based
Gilegamesh
·
2023-02-05 14:31
spark python 上传代码包_hue通过livy提交spark jar包python文件到spark
背景:集群中有hive、
spark2
,没有impala需求:通过hue访问hive以及提交spark任务现状:hue以及通过sentry实现了对hive的权限管理CDH5.15.1centos7.4livy
weixin_39927408
·
2023-02-02 14:58
spark
python
上传代码包
Spark2
.0机器学习系列之4:随机森林介绍、关键参数分析
概述随机森林是决策树的组合算法,基础是决策树,关于决策树和
Spark2
.0中的代码设计可以参考本人另外一篇博客:http://blog.csdn.net/qq_34531825/article/details
千寻千梦
·
2023-02-02 09:58
spark
spark
Spark-机器学习模型持久化
在即将发布的Apache
Spark2
.0中将会提供机器学习模型持久化能力。
二当家的掌柜
·
2023-02-02 09:26
机器学习
spark
机器学习
apache
解决spark UI界面在虚拟机中可以访问,在主机无法访问
Date:2020/09/24Version:CentOS7,
Spark2
.2关闭虚拟机中的防火墙即可systemctlstopfirewalld.service避免下次开机再次出现这种情况,可以执行以下命令
pluo1717
·
2023-02-01 08:40
CDH 升级
SPARK2
与 问题
否则会发生你意想不到的惊喜你懂的开始:以下操作基于主节点:也就是CHDSERVER节点1,关闭集群,关闭CMS,关闭CDHAGENT与SERVER2,下载文件下载仓库:http://archive.cloudera.com/
spark2
会长大的幸福_8bf9
·
2023-01-31 00:02
Kyuubi 解锁 Spark SQL on CDH 6
背景CDH最后一个免费版6.3.2发布一年有余,离线计算核心组件版本停在了Hadoop3.0.0,Hive2.1.1,
Spark2
.4.0。
517001e7cb6e
·
2023-01-28 19:10
Spark学习笔记
Date:2019/9/18Version:
Spark2
.1Source:网易云课堂-厦门大学林子雨老师主讲的《Spark编程基础(Scala版)》窄依赖宽依赖
pluo1717
·
2023-01-27 12:16
大数据--spark
在Spark1.x中,RDD是主要的应用程序编程接口(API),但从
Spark2
.x开始,鼓励使用数据集API[3],即使RDDAPI没有被弃用。[4][5]RDD技术仍然是Da
像影子追着光梦游_
·
2023-01-24 20:56
大数据
大数据
spark
Spark2
.2.0 + Scala2.13.0集群搭建
Spark使用了Hadoop的HDFS作为持久化存储层,因此安装Spark时,应先安装与Spark版本相对应的Hadoop。Spark计算框架以Scala语言开发,因此部署Spark首先需要安装Scala及JDK。Hadoop集群参考:ubuntu16+Hadoop2.7.3环境搭建(伪分布式),改为分布式集群JDK版本:1.8.0Scala版本:scala-2.13.0-M1spark版本:2.
sinat_34022298
·
2023-01-21 16:58
Spark
Hadoop
scala
spark
hadoop
『pyspark』〇:spark的安装、配置和使用
1、PySpark安装配置操作系统:Ubuntu18.04,64位所需软件:Java8+,Python3.6.5,Scala2.13.1,
spark2
.4.8安装步骤:1.1安装Java8sudoapt-getupdatesudoapt-getinstallopenjdk
简之
·
2023-01-21 16:47
大数据
spark
大数据
python
linux
本地虚拟机集群搭建数据仓库实战
组件目录一.环境准备二.JDK安装三.Hadoop安装过程四.Zookeeper安装五.Flume安装六.Kafka安装七.MySQL安装八.Sqoop安装九.Hive安装十.安装ES5.2十一.安装
Spark2
.4.3
ZhaoHY KeepRunning
·
2023-01-21 09:11
kafka
flink
hadoop
spark
hdfs
centos搭建hadoop集群实战命令总结
tar.gzHadoop3.1.3hadoop-3.1.3.tar.gzZookerper3.5.7apache-zookeeper-3.5.7-bin.tar.gzKafka2.4.1kafka_2.11-2.4.1.tgz
Spark2
.1.1spark
Jmayday
·
2023-01-21 09:06
Hadoop
使用Pandas_UDF快速改造Pandas代码
Pandas_UDF是在Py
Spark2
.3中新引入的API,由Spark使用Arrow传输数据,使用Pandas处理数据。
weixin_30824599
·
2023-01-14 09:08
python
大数据
pyspark入门系列 - 06 pyspark.sql.functions.pandas_udf使用教程
博客中代码基于
spark2
.4.4版本。不同版本函数会有不同,详细请参考官方文档。
铁甲大宝
·
2023-01-14 09:35
pyspark
spark
Spark执行环境——RPC环境
导读RpcEnv是
Spark2
.x.x版本中新出现的组件,它是用来替代
Spark2
.x.x以前版本中使用的Akka。
拾荒路上的开拓者
·
2023-01-12 19:57
Spark
Spark
2.1.0源码剖析
python spark dataframe_
Spark2
.1.0入门:DataFrame的创建(Python版)
从
Spark2
.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。
weixin_39719101
·
2023-01-10 09:37
python
spark
dataframe
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他