E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
java调用spark
Fink CDC数据同步(三)Flink集成Hive
利用Flink来读写Hive的表Flink打通了与Hive的集成,如同使用
Spark
SQL或者Impala操作Hive中的数据一样,我们可以使用Flink直接读写Hive中的表。
苡~
·
2024-02-04 07:20
flink
hive
大数据
子雨大数据之
Spark
入门教程---
Spark
入门:RDD的设计与运行原理1.3
Spark
的核心是建立在统一的抽象RDD之上,使得
Spark
的各个组件可以无缝进行集成,在同一个应用程序中完成大数据计算任务。
千寻~
·
2024-02-04 06:38
spark
rdd
Spark
Exception: A master URL必须在配置中设置
问题描述当你遇到org.apache.
spark
.
Spark
Exception:AmasterURLmustbesetinyourconfiguration错误时,这意味着你的
Spark
应用程序尝试启动时没有找到有效的
小湘西
·
2024-02-04 06:07
Spark
spark
大数据
分布式
Spark
部署模式
目录部署模式概述1.LocalMode2.StandaloneMode3.YARNMode4.MesosMode5.KubernetesMode部署模式选择部署模式概述Apache
Spark
支持多种部署模式
小湘西
·
2024-02-04 06:02
Spark
spark
大数据
分布式
Spark
的Driver程序中定义的外部变量或连接为什么不能在各种算在中直接用,如果要要如何做?
在Driver程序中定义的外部变量或连接不能在算子中直接使用,因为它们不会被序列化并发送到各个Executor。如果需要在算子使用外部资源,应该在算子内部初始化这些资源。例如,将RDD数据写入数据库可以这样实现:rdd.foreach(record=>{//在这里初始化数据库连接valconnection=createNewConnection()//假设这是创建连接的函数connection.s
小湘西
·
2024-02-04 06:32
Spark
spark
大数据
分布式
大数据本地环境搭建03-
Spark
搭建
pwd=e20h提取码:e20h将
spark
-3.1.2-bin-hadoop3.2.tar.gz压缩包到node1下的/export/server目录1.2解压压缩包tar-zxvf/export
OnePandas
·
2024-02-04 06:31
Spark
大数据集群环境搭建
大数据
spark
分布式
spark
运维问题记录
环境:
spark
-2.1.0-bin-hadoop2.71.
Spark
启动警告:neither
spark
.yarn.jarsnot
spark
.yarn.archiveisset,fallingbacktouploadinglibrariesunder
SPARK
_HOME
lishengping_max
·
2024-02-04 05:11
Spark
spark
Spark
提交任务到yarn 报错提示虚拟内存不足解决办法
spark
context初始化失败ERROR
spark
.
Spark
Context:Errorinitializing
Spark
Context.java.lang.IllegalStateException
动若脱兔--
·
2024-02-04 05:11
Spark
spark
大数据
scala
解决“
Spark
context stopped while waiting for backend“ issue
在配置为4C16G的虚拟机上安装hadoop生态全家桶,在安装
Spark
2,使用了社区版2.3的版本。
江畔独步
·
2024-02-04 05:10
Spark
bigdata
Spark
context stopped while waiting for backend
目录报错信息解决办法解释报错信息
Spark
contextstoppedwhilewaitingforbackend翻译过来就是:
Spark
上下文在等待后端时停止解决办法通过在yarn-site.xml中添加如下配置项
十二点的泡面
·
2024-02-04 05:36
大数据报错信息的解决
spark
大数据
分布式
Spark
Streaming实战:窗口操作,每10秒,把过去30秒的数据取出来(读取端口号1235中的数据)
1.需求:窗口操作,每10秒,把过去30秒的数据取出来窗口长度:30秒滑动距离:10秒2.代码:(1)pom.xmlorg.apache.
spark
spark
-core_2.112.1.0org.apache.
spark
spark
-sql
Movle
·
2024-02-04 05:52
Hadoop2.7.6+Mysql5.7+Hive2.3.2+zookeeper3.4.6+kafka2.11+Hbase1.4.9+Sqoop1.4.7+Kylin2.4单机伪分布式安装及官方案例测
####################################################################最新消息:关于
spark
和Hudi的安装部署文档,本人已经写完,连接
运维道上奔跑者
·
2024-02-04 05:43
分布式
hbase
zookeeper
hadoop
py
spark
_1_理论篇(RDD基础)
跟着Leo学习Py
Spark
chapter1——rdd的基础编程指南一、准备工作1.背景介绍
Spark
是用scala编程语言实现的,为了使
Spark
支持Python,Apache
Spark
社区发布了一个工具
NikolasNull
·
2024-02-04 04:50
Kubernetes operator 如何根据自定义类型生成响应的代码的?
分享这篇文章的主要目的,是如何利用kubernetes来自定义类型,如
Spark
Application,从而使用脚本,生成响应的代码的这些代码是专门为自定义的类型
Spark
Application对象服务的
weixin_34109408
·
2024-02-04 00:09
Java Scala 混合编程导致 编译失败 ,【找不到符号】问题解决
Failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:3.1:compile(default-compile)onproject
spark
-auth
0X码上链
·
2024-02-03 23:20
大数据
分布式技术
java
scala
开发语言
hadoop、
spark
、flink集群修改默认ssh端口号
大数据集群在实际搭建过程中,其默认ssh端口不一定都是22,这时需要根据各自的配置文件进行适配。ssh端口号默认为22,以centos7.x为例,可以在/etc/ssh/sshd_config中进行修改,如下示例将22改为22222:#IfyouwanttochangetheportonaSELinuxsystem,youhavetotell#SELinuxaboutthischange.#sem
0X码上链
·
2024-02-03 21:12
大数据
分布式技术
ssh
hadoop
spark
flink
Spark
程序执行逻辑迷你版
再把Task发出去DAGScheduler的功能,将rdd转换逻辑切分stage,生成taskset然后模拟taskScheduler的功能,将这些task发到Executor上去执行(真正的发送逻辑
spark
submit
{BOOLEAN}
·
2024-02-03 21:21
Spark
spark
大数据
java
2019-10-08 大数据开发进阶之路
市场需要的水平熟练掌握Linux、SQL与HiveSQL掌握Hadoop生态主流技术,如HDFS/MapRedunce/Yarn/HBase/Flume等掌握
Spark
生态核心技术,如
Spark
架构/RDD
红瓦李
·
2024-02-03 20:39
Spark
常用Transformations算子(二)
joincogroupcartesianpiperepartitionAndSortWithinPartitionsglomrandomSplitzipzipWithIndexzipWithUniqueId(2)joinobjectJoinTest{defmain(args:Array[String]):Unit={valconf=new
Spark
Con
数据萌新
·
2024-02-03 20:03
大数据环境搭建(一)-Hive
1hive介绍由Facebook开源的,用于解决海量结构化日志的数据统计的项目本质上是将HQL转化为MapReduce、Tez、
Spark
等程序Hive表的数据是HDFS上的目录和文件Hive元数据metastore
xfchn多多学习学习
·
2024-02-03 20:42
大数据
大数据
hive
hadoop
【
Spark
】
Spark
作业执行原理--提交任务
本篇结构:创建Task创建TaskSetManager并向DriverEndpoint发送消息分配资源发送消息告诉Executor去执行Task一、创建Task当调度阶段运行后,在DAGScheduler的submitMissingTasks方法中会根据调度阶段Partition数量拆分对应个数任务。对于ResultStage,生成ResultTask,对于ShuffleMapStage生成Shu
w1992wishes
·
2024-02-03 19:17
spark
WordCount
Spark
WC.scalapackageday06importorg.apache.
spark
.rdd.RDDimportorg.apache.
spark
.
lehuai
·
2024-02-03 16:27
阿里云服务器2核16G、4核32G、8核64G配置最新收费标准及活动价格
2核16G、8核64G、4核32G配置的云服务器处理器与内存比为1:8,这种配比的云服务器一般适用于数据分析与挖掘,Hadoop、
Spark
集群和数据库,缓存等内存密集型场景,因此,多为企业级用户选择,
阿里云最新优惠和活动汇总
·
2024-02-03 15:07
大数据组件笔记 --
Spark
入门
文章目录一、简介二、
Spark
运行模式2.1本地模式2.2集群角色2.3Standalone模式2.4Yarn模式2.5总结三、WordCount开发案例实操一、简介
Spark
是一种基于内存的快速、通用
L小Ray想有腮
·
2024-02-03 15:53
BigData
Spark
大数据分与实践笔记(Scala语言基础-1)
目录1.1Scala概述1.1.1Scala的下载安装1.1.2在IDEA开发工具中下载安装Scala插件1.1.3开发第一个Scala程序
Spark
是专为大规模数据处理而设计的快速通用的计算引擎,它是由
妉妉师姐
·
2024-02-03 15:49
大数据-linux-spark
scala
spark
java
大数据
SpringBoot或Jeecg 配置SSL实现https,http和https端口都要,http转发到https
如果没有阿里云腾讯云只是本地测试,可以参考https://www.cnblogs.com/
Spark
More/p/14067340.html有阿里云购买域名域名备案购买服务器宽带收费和流量收费都可以域名绑定服务器
天海华兮
·
2024-02-03 12:05
Java
EE
http
spring
boot
ssl
https
初识Apache Paimon
第0章前言0.1主流数据湖工具Delta:由
Spark
背后商业公司Databricks出品,因此很多功能强兼容
Spark
,对其他计算引擎不是很友好。
Racin_01
·
2024-02-03 12:30
apache
最新AI系统ChatGPT网站H5系统源码,支持Midjourney绘画局部编辑重绘,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-02-03 12:28
人工智能
软件源码
ChatGPT
人工智能
chatgpt
语音识别
midjourney
AI作画
Docker容器中的Docker-compose的学习安装
本来今天想写下实战的教程的,但是下载
spark
的内容太慢了。
胖琪的升级之路
·
2024-02-03 10:42
Py
Spark
笔记(三):DataFrame
DataFrame是在
Spark
1.3中正式引入的一种以RDD为基础的不可变的分布式数据集,类似于传统数据库的二维表格,数据在其中以列的形式被组织存储。
Daisy丶
·
2024-02-03 10:31
Hbase - 自定义Rowkey规则
中我们有时候需要分析数据1点到2点的范围,可是经过Region又比较慢,这时候我们就可以定制TableInputFormat来实现我们的需求了,我们还可以采用Flink的DataSet的方式读取,另外下面还有
Spark
kikiki2
·
2024-02-03 10:05
AI+数据库——梳理Snowflake 和 Databricks 在峰会上的重要发布,快来看市值数百亿美金的数据巨头的贴身肉搏!
他们原本定位略有不同,Databricks是一个用于数据工程、数据科学和分析的集成环境,它构建在Apache
Spark
之上,提供实
小猿姐
·
2024-02-03 10:51
人工智能
数据库
Ubuntu20上编译Gmssl库并使用
Java调用
其提供的Java Wapper API接口
1.Gmssl库的安装因为我的ubuntu版本是ubuntu20,所以安装GCC时需要这样安装。拥有sudo权限用户身份或者root身份运行下面的命令:sudoaptupdatesudoaptinstallbuild-essential这里提醒一下,执行这个update命令的时候,由于apt源的问题,会等很长一段时间。但是,千万不要更换源,千万不要更换源,千万不要更换源。别问为什么。然后安装bui
EEEEEEcho
·
2024-02-03 09:15
Linux
JavaSE
java
ubuntu
【机器学习】3万字长文,Py
Spark
入门级学习教程,框架思维
为什么要学习
Spark
?
风度78
·
2024-02-03 08:00
大数据
entity
opencl
spark
hadoop
【数据开发】py
spark
入门与RDD编程
【数据开发】py
spark
入门与RDD编程文章目录1、py
spark
介绍2、RDD与基础概念3、RDD编程3.1Transformation/Action3.2数据开发流程与环节1、py
spark
介绍py
spark
小哈里
·
2024-02-03 08:58
#
后端开发
python
spark
pyspark
后端
大数据
Spark
如何用repartition来提升执行效率
Spark
如何用repartition来提升执行效率repartition是
Spark
中的一个转换操作,它可以用来增加或减少分区的数量。
HanhahnaH
·
2024-02-03 08:28
Spark
spark
ajax
大数据
scala
2019-03-16
Spark
基本架构及运行原理
Spark
Core:包含
Spark
的基本功能,包含任务调度,内存管理,容错机制等,内部定义了RDDs(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。为其他组件提供底层的服务。
做一只乐观的小猴子
·
2024-02-03 02:04
Android NDK开发:C++捕捉异常并将异常抛给Java层
目录相关文章AndroidNDK开发:
java调用
dll动态链接库方法AndroidNDK开发:JNIEnv的原理AndroidNDK开发:C修改Java的属性AndroidNDK开发:C调用Java层方法
itfitness
·
2024-02-03 01:00
深度学习的开源分布式框架Deeplearning4j
该框架基本上是由Hadoop和
Spark
集成的分布式深度学习库组成的。在Hadoop和
Spark
的帮助下,我们可以轻松地分发模型和大数据集,并运行
weixin_43106248
·
2024-02-02 19:13
深度学习
Hadoop
深度学习开源分布式框架
deeplearning4j
golang实现简单的流式处理
实现一个最简单的类似
spark
的流式处理流程包含map和filter数据typeStreamstruct{data[]int}map函数func(sStream)Map(ffunc(int)int)Stream
nil_ddea
·
2024-02-02 18:24
史上最全的
spark
面试题
1.
spark
中的RDD是什么,有哪些特性?
@毛毛
·
2024-02-02 13:12
面试题
spark
livy使用样例_livy提交
spark
应用
spark
-submit的使用shell时时灵活性较低,livy作为
spark
提交的一种工具,是使用接口或者java客户端的方式提交,可以集成到web应用中1.客户端提交的方式核心代码LivyClientclient
阿里聚安全
·
2024-02-02 13:11
livy使用样例
Py
Spark
(一)
Spark
原理介绍、Py
Spark
初体验及原理
Spark
简介Apache
Spark
是用于大规模数据(large-scaladata)处理的统一(unified)分析引擎,其特点就是对任意类型的数据进行自定义计算。
独憩
·
2024-02-02 13:11
PySpark
python
分布式
大数据
spark
生产环境_
Spark
找出两DataFrame之间的差集(技巧)
在生产作业中,经常在工作流中遇到前后两DataFrame的数据缺失,比如df1为410条,下一个节点的df2就变成409条了,用眼睛看很费劲,因此不得不做一个差集。代码:/假设df1和df2是你的两个DataFramevaldf1=xxxvaldf2=ccc//使用except操作找出df1中存在但df2中不存在的数据valonlyInDf1=df1.except(df2)//使用except操作
Matrix70
·
2024-02-02 13:10
轨迹大数据智能处理
Spark开发_工作
spark
大数据
分布式
浅谈
Spark
Livy
Spark
Livy什么是LivyLivy的特点Livy的运作流程阐述Livy的安装、启动、访问Livy的使用1.什么是Livylivy是cloudera开发的通过REST来连接、管理
spark
的解决方案
浅汐yt
·
2024-02-02 13:40
spark
大数据
spark
大数据
【
Spark
实践6】特征转换FeatureTransformers实践Scala版--补充算子
本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。FeatureTransformersIndexToStri
周润发的弟弟
·
2024-02-02 13:39
Spark机器学习
spark
scala
大数据
spark
相关面试题总结
1.
spark
中的RDD是什么,有哪些特性?
专注于大数据技术栈
·
2024-02-02 13:39
spark
[Scala学习笔记]
Spark
开发小笔记
Spark
开发小笔记:从0开始的
Spark
建图生活持续更新中……0.开发平台Zeppelin支持多种语言,默认是scala(背后是
spark
shell),
Spark
SQL,Markdown和Shell。
Rinnki
·
2024-02-02 13:39
Scala笔记
学习笔记
Scala
Spark
图
Scala 与
spark
7.23
例如:@transientval
spark
Context:
Spark
Context,Scala多行字符串之stripMargin方法https://www.jianshu.com/
qq_34872215
·
2024-02-02 13:09
spark
生产环境踩坑系列::Hive on
Spark
的connection timeout 问题
起因7/16凌晨,钉钉突然收到了一条告警,一个公司所有业务部门的组织架构表的ETL过程中,数据推送到DIM层的过程中出现异常,导致任务失败。因为这个数据会影响到第二天所有大数据组对外的应用服务中组织架构基础数据,当然,我们的Pla-nB也不是吃素的,一旦出现错误,后面的权限管理模块与网关会自动配合切换前一天的最后一次成功处理到DIM中的组织架构数据,只会影响到在前一天做过组织架构变化的同事在系统上
dclar_
·
2024-02-02 13:08
Spark
Hive
spark
hive
上一页
5
6
7
8
9
10
11
12
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他