E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark2
Ubuntu16.04
Spark2
.7.7伪分布式从零开始部署
因工作上的需要,尝试在一台Ubuntu16.04部署Spark,因为之前没有了解过Spark,故踩坑时部署了Local版和Standalone单机伪分布式版,现记录如下。因为在部署Spark之前并未明确出Spark是什么,踩了相应的坑,故在此一并说明:Spark的目标是做一个分布式计算框架,因为是分布式所以它需要通讯(故需要安装SSH),有因为只是一个计算框架,所以其分布式数据来源需要由Hadoo
BaideS
·
2025-04-17 12:54
Spark
学习
spark编程基础python版实验报告_Spark课后实验报告
对于ScalaAPI,
Spark2
.4.2使用Scala2.12。您需要使用兼容的Scala版本(2.12.x)。
weixin_39714191
·
2025-04-15 09:50
【Spark】架构与核心组件:大数据时代的必备技能(下)
明明跟你说过:个人主页个人专栏:《大数据前沿:技术与应用并进》行路有良友,便是天堂目录一、引言1、什么是Apache
Spark2
、Spark的应用场景:二、Spark核心组件之一:RDD1、什么是RDD2
明明跟你说过
·
2025-04-09 05:11
大数据前沿:技术与应用并进
spark
架构
大数据
Spark2
之 Expression/Functions
ExpressionConvertersrc/main/scala/org/apache/gluten/expression/ExpressionConverter.scalaTopNTransformersrc/main/scala/org/apache/gluten/execution/TopNTransformer.scala
zhixingheyi_tian
·
2025-03-29 01:41
spark
spark
Spark2
之 FallBack
newValidatorsrc/main/scala/org/apache/gluten/extension/columnar/validator/Validators.scala/***Avalidatorthatdoesn'tinvolvenativevalidation.**ThisistypicallyRASplannerthatdoesnativevalidationinlinewith
zhixingheyi_tian
·
2025-03-29 01:41
spark
spark
spark1.x和
spark2
.x的区别
spark2
.x版本相对于1.x版本,有挺多地方的修改,1
Spark2
ApacheSpark作为编译器:增加新的引擎Tungsten执行引擎,比Spark1快10倍2ml做了很大的改进,支持协同过滤http
xuxu1116
·
2025-02-25 16:56
spark
spark1.x与2.x的区别
kylin linux 安装教程,Apache Kylin | 安装指南
软件要求Hadoop:2.7+Hive:0.13-1.2.1+HBase:1.1+
Spark2
.1.1+JDK:1.7+OS:Linuxonly,CentOS6.5+orUbuntu16.0.4+用HortonworksHDP2.2
社本
·
2025-02-03 07:26
kylin
linux
安装教程
1-structedStreaming-基本流程(2.3.1)
基本流程--
spark2
.3.1新定义接口--中间使用了一些过度接口为了兼容老版本如:BaseStreamingSourceDataSource为一个类,定义了可插拔的数据源,对应一些列旧的数据源DataSourceV2
spark2
.3.1
github_28583061
·
2025-01-30 09:30
java
spark
大数据
mysql
hadoop
1-structedStreaming-基本流程(2.2.1)
基本流程
spark2
.2.1StructuredNetworkWordCount统计来自socket的wordcount创建stream,指定数据源DataStreamReader--从外部存储加载流数据的接口
github_28583061
·
2025-01-30 09:30
java
spark
大数据
hadoop
hive
python 分布式集群_Python搭建Spark分布式集群环境
本教程采用
Spark2
.0以上版本(比如
Spark2
.0.2、
Spark2
.1.0等)搭建集群,同样适用于搭建Spark1.6.2
小国阁下
·
2025-01-30 05:32
python
分布式集群
spark2
如何集成到cdh里
最近做性能测试需要
spark2
测试下和spark1.6性能有多大差别,官方文档里写着可以集成,但是自己怎么搞都不行,折磨了3天的时间,目前终于把
spark2
集成到集群里了我安装的是最新版本的下载
spark2
蘑菇丁
·
2025-01-27 16:55
经验
hadoop
大数据+机器学习+oracle
spark常用命令
查看报错日志:yarnlogsapplicationID
spark2
-submit--masteryarn--classcom.hik.ReadHdfstest-1.0-SNAPSHOT.jar进入$SPARK_HOME
我是浣熊的微笑
·
2024-09-13 10:38
spark
Spark Q&A
A:从
Spark2
.1开始,你可以通过启用spark.sql.files.ignoreCorruptFiles选项来忽略损毁的文件。
耐心的农夫2020
·
2024-03-19 00:12
Spark Authorizer支持最新版本Spark 2.3.0
今天Spark社区为大家带来了最新的
Spark2
.3.0SparkRelease2.3.0Apache
Spark2
.3.0isthefourthreleaseinthe2.xline.ThisreleaseaddssupportforContinuousProcessinginStructuredStreamingalongwithabrandnewKubernetesSchedulerbacke
Kent_Yao
·
2024-02-13 20:52
Spark 共享变量
翻译Spark共享变量部分的官方文档(
Spark2
.4.3)。通常,当传递给Spark操作(如map或reduce)的函数在远程集群节点上执行时,在函数中使用的所有外部变量都是单独拷贝的变量副本。
stone_zhu
·
2024-02-12 03:02
死磕spark中的job、stage、task
测试环境本地开发环境idea2019.1.2maven3.6
spark2
.4.3scala2.1.8jdk1
NikolasNull
·
2024-02-11 06:11
69.Kudu、
Spark2
、Kafka安装—CDH
69.1演示环境介绍CDH集群运行正常操作系统版本为:CentOS6.5CM和CDH版本为:5.12.1CM管理员为:admin用户操作系统用户为:root用户69.2操作演示Kudu安装Kudu的Parcel部署下载Kudu的Parcel包:http://archive.cloudera.com/kudu/parcels/5.12.1/KUDU-1.4.0-1.cdh5.12.1.p0.10-e
大勇任卷舒
·
2024-02-09 14:55
解决“Spark context stopped while waiting for backend“ issue
在配置为4C16G的虚拟机上安装hadoop生态全家桶,在安装
Spark2
,使用了社区版2.3的版本。
江畔独步
·
2024-02-04 05:10
Spark
bigdata
Hadoop2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测
#####################################################最新消息:关于spark和Hudi的安装部署文档,本人已经写完,连接:Hadoop2.7.6+
Spark2
.4.4
运维道上奔跑者
·
2024-02-04 05:43
分布式
hbase
zookeeper
hadoop
实时数据湖:Flink CDC流式写入Hudi
点击上方蓝色字体,选择“设为星标”回复"面试"获取更多惊喜1.环境准备•Flink1.12.2_2.11•Hudi0.9.0-SNAPSHOT(master分支)•
Spark2
.4.5、Hadoop3.1.3
王知无(import_bigdata)
·
2024-02-02 12:01
spark
hadoop
hive
大数据
mysql
数据治理实践 | 小文件治理
背景小文件是如何产生的:日常任务及动态分区插入数据(使用的
Spark2
MapReduce引擎),产生大量的小文件,从而导致
语兴数据
·
2024-01-30 15:29
大数据
数据治理
小文件治理
数据仓库
Spark SQL中掌控sql语句的执行 - 了解你的查询计划
本文翻译自BeinchargeofQueryExcutioninSparkSQL背景自
spark2
.x的sql以及申明行DataFrameAPi以来,在spark查询数据越来越方便。
鸿乃江边鸟
·
2024-01-27 08:18
Spark 2.3.4 StandAlone 集群模式部署
Spark2
.3.4StandAlone集群模式部署相关文档依赖服务系统优化创建路径配置/etc/profile配置$SPARK_HOME/conf/spark-env.sh配置$SPARK_HOME/
JP.Hu
·
2024-01-26 19:07
Spark
spark
大数据
分布式
大数据技术之Spark
在时间节点上(重要)Hadopp
Spark2
006年1月,DougCutting加入Yahoo,领导Ha
严同学正在努力
·
2024-01-25 21:38
大数据
spark
hadoop
apache
kafka
(转)Spark Streaming遇到问题分析
parkStreaming遇到问题分析1、
Spark2
.0之后搞了个StructuredStreaming还没仔细了解,可参考:https://github.com/lw-lin/Coo...2、Spark
达微
·
2024-01-22 20:06
Spark消费Kafka的两种方式
原理如何保证数据不丢失但是会导致数据重复问题优点缺点Direct(NoReceiver)方式code特点优点缺点介绍kafka版本,kafka0.8支持Receiver和DirectKafka版本大于等于0.10.0,且Spark版本大于等于
Spark2
.3.0
这个程序猿可太秀了
·
2024-01-22 17:57
#
spark
#
kafka
spark内核
kafka
spark
shell spark-submit提交之后获取appid,并在程序中扫描状态
首先看一下提交脚本#/sbin/bash/opt/cloudera/parcels/
SPARK2
/bin/
spark2
-submit\exportJAVA_HOME=/opt/jdk1.8.0_31TASK_TYPE
南修子
·
2024-01-18 22:16
基于
Spark2
.x新闻网大数据实时分析可视化系统项目
课程大纲第一章:案例需求分析与设计1.全套课程内容概述2.案例需求分析3.系统架构设计4.系统数据流程设计5.集群资源规划设计第二章:linux环境准备与设置1.Linux系统常规设置2.克隆虚拟机并进行相关的配置3.对集群中的机器进行基本配置第三章:Hadoop2.X分布式集群部署1.Hadoop2.X版本下载及安装2.Hadoop2.X分布式集群配置3.分发到其他各个机器节点4.HDFS启动集
飞雪雪团队
·
2024-01-13 23:30
Spark OFF_HEAP
Spark2
.0以前,默认的off_heap是Tachyon,当然,你可以通过继承ExternalB
尼小摩
·
2024-01-05 13:18
Spark内核解析-内存管理7(六)
本文中阐述的原理基于
Spark2
.1版本。
有语忆语
·
2024-01-05 10:36
大数据之Spark
spark
ajax
javascript
Spark内核解析-通信架构3(六)
再到
Spark2
,Spark已经完
有语忆语
·
2024-01-05 08:42
大数据之Spark
spark
架构
大数据
Python_PySpark实战
1.PySpark库的安装清华大学源:pipinstall-ihttps://pypi.tuna.tsinghua.edu.cn/simplepy
spark2
.构建PySpark执行环境入口对象"""演示获取
Hooray11
·
2024-01-05 05:48
python自学
python
开发语言
Spark源码分析之:Shuffle
这一篇我们来分析
Spark2
.1的Shuffle流程。
你说个der
·
2024-01-03 02:30
Spark
spark
大数据
Spark内容分享(十八):70个Spark面试题
常见的大的稳定版本有Spark1.3,Spark1.6,
Spark2
.0,Spark1.6.0的数字含义第一个数字:1majorversion:代表大版本更新,一般都会有一些api的变化,以及大的优化或是一些结构的改变
之乎者也·
·
2024-01-02 10:50
Spark
内容分享
大数据(Hadoop)内容分享
Spark
大数据
Spark大数据分析与实战笔记(第二章 Spark基础-01)
文章目录第2章Spark基础章节概要2.1初识
Spark2
.1.1Spark概述2.1.2Spark的特点2.1.3Spark应用场景2.1.4Spark与Hadoop对比第2章Spark基础章节概要Spark
想你依然心痛
·
2024-01-01 14:16
#
Spark大数据分析与实战
spark
(六)SparkSQL读写本地外部数据源
https://spark-packages.org/里有很多third-party数据源的package,spark把包加载进来就可以使用了csv格式在
spark2
.0版本之后是内置的,2.0之前属于第三方数据源一
白面葫芦娃92
·
2024-01-01 11:58
Spark: 在master节点开启worker进程(将master当做slave节点来使用)
1.进入master节点:
spark2
/conf然后:vislaves对其他的slave节点进行同样的操作。
玉成226
·
2024-01-01 04:56
spark
大数据
分布式
Zookeeper集群搭建
系列文章目录Ubuntu常见基本问题Hadoop3.1.3安装(单机、伪分布)Hadoop集群搭建HBase2.2.2安装(单机、伪分布)Zookeeper集群搭建HBase集群搭建Spark安装和编程实践(
Spark2
.4.0
WE-ubytt
·
2023-12-31 08:53
大数据处理与应用
zookeeper
hadoop
大数据
Spark权威指南(中文版)--第23章 生产环境中的结构化流
本书详细介绍了
Spark2
.x版本的各个模块,目前市面上最好的
Spark2
.x学习书籍!!!关注:登峰大数据,阅读中文Spark权威指南(完整版),系统学习Spark大数据框架!
登峰大数据
·
2023-12-29 06:00
六:Spark集群安装和部署
ubuntu16.04系统;(2)Master节点:内存分配2g;Slave1节点:内存分配512MB;Slave2节点:内存分配512MB;2.安装路径:(1)Hadoop2.6.5:/usr/local/;(2)
Spark2
.6.0
玉成226
·
2023-12-26 10:21
spark
Java SparkSql 2.4.0 ArrayIndexOutOfBoundsException error
在
spark2
.4中报ArrayIndexOutOfBoundsException原因是
Spark2
.4.0中引用的paranamer版本是2.7导致问题。
smileyboy2009
·
2023-12-26 10:56
spark
SparkStreaming学习记录
版本:
Spark2
.4.01.OverviewSparkingStreaming是对SparkAPI的一种扩展,用于处理实时数据流。
Jorvi
·
2023-12-23 08:49
大规模异常滥用检测:基于局部敏感哈希算法——来自Uber Engineering的实践
为了解决我们和其他系统中的类似挑战,UberEngineering和Databricks共同向Apache
Spark2
.1开发了局部敏感哈希(LSH)。LSH是大规模
djph26741
·
2023-12-17 14:49
数据结构与算法
大数据
数据库
kmeans设置中心_Spark分布式机器学习源码分析:Kmeans族聚类
本文采用的组件版本为:Ubuntu19.10、Jdk1.8.0_241、Scala2.11.12、Hadoop3.2.1、
Spark2
.4.5,老规矩先开启一系列Hadoop、Spark服务与Spa
weixin_39699121
·
2023-12-15 19:27
kmeans设置中心
spark
kmeans打印质心
每日一读 11.27
spark2
:SparkSession思考与总结1http:/
Vicor
·
2023-12-15 06:12
Ambari hdp Spark多版本并存
本示例基于ambarihdp-2.6.0.3(
spark2
.1.0),集成
spark2
.2.2,其他的版本思路类似(
spark2
.3经测试也是没问题的)下载spark-2.2.2-bin-hadoop2.7
Respect123
·
2023-12-06 05:20
Spark Streaming(三)集成Kafka
分别是spark-streaming-kafka-0-8和spark-streaming-kafka-0-8,前者可兼容kafka0.8及其以上版本,后者只能兼容0.10及其以上的版本,由于本篇文件基于
Spark2
.2.0
Sx_Ren
·
2023-12-06 03:33
腾讯式“游戏科技”:理解硬核技术、去游戏化和数字解决方案
在刚刚结束的“
SPARK2
022”腾讯游戏发布会上,腾讯结结实实地秀了一把肌肉。
谈游言戏研究所
·
2023-12-05 10:23
Spark读写Oracle性能深度调优
1、环境准备 在本次测试环境中,用6台机器搭建了CDH的Hadoop平台,
Spark2
.2版本搭配Yarn进行资
weixin_43370502
·
2023-12-04 21:16
spark
oracle
数据库
Hdoop学习笔记(HDP)-Part.17 安装
Spark2
目录Part.01关于HDPPart.02核心组件原理Part.03资源规划Part.04基础环境配置Part.05Yum源配置Part.06安装OracleJDKPart.07安装MySQLPart.08部署Ambari集群Part.09安装OpenLDAPPart.10创建集群Part.11安装KerberosPart.12安装HDFSPart.13安装RangerPart.14安装YARN+
这啥命啊
·
2023-12-02 19:45
hadoop
学习
笔记
spark
hadoop
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他