E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkStreaming
Spark 组件 GraphX、Streaming
Spark组件GraphX、Streaming一、SparkGraphX1.1GraphX的主要概念1.2GraphX的核心操作1.3示例代码1.4GraphX的应用场景二、
SparkStreaming
2.1
SparkStreaming
叶域
·
2024-09-15 14:54
大数据
spark
spark
大数据
分布式
比较Spark与Flink
下面是二者的对比:1.处理模式Spark:主要支持批处理(BatchProcessing),也能通过
SparkStreaming
处理流式数据,但
SparkStreaming
本质上是通过微批(micro-batching
傲雪凌霜,松柏长青
·
2024-09-11 04:29
大数据
后端
spark
flink
大数据
pyspark kafka mysql_数据平台实践①——Flume+Kafka+
SparkStreaming
(pyspark)
蜻蜓点水Flume——数据采集如果说,爬虫是采集外部数据的常用手段的话,那么,Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent:包含Source、Channel和Sink的主体,它是这3个组件的载体,是组成Flume的数据节点。Event:Flume数据传输的基本单元。Source:用来接收Event,并将Event批量传
weixin_39793638
·
2024-09-08 04:34
pyspark
kafka
mysql
Apache Flink 替换 Spark Stream的架构与实践( bilibili 案例解读)_streamsparkflink加载udf(1)
bilibili早期使用的引擎是
SparkStreaming
,后期扩展了Flink,在开发架构中预留了一部分引擎层的扩展。最下层是状态存储
2401_84165953
·
2024-09-07 12:44
程序员
flink
spark
架构
大数据秋招面经之spark系列
3.repartition与coalesce4.spark的oom问题怎么产生的以及解决方案5.storm与flink,
sparkstreaming
之间的区别6.spark的几种部署方式:7.复习spark
wq17629260466
·
2024-09-06 19:54
大数据
spark
SparkStreaming
业务逻辑处理的一些高级算子
1、reduceByKey reduceByKey是按key进行计算,操作的数据是每个批次内的数据(一个采集周期),不能跨批次计算。如果需要实现对历史数据的跨批次统计累加,则需要使用updateStateByKey算子或者mapWithState算子。packagecom.sparkscala.streamingimportorg.apache.log4j.{Level,Logger}impor
看见我的小熊没
·
2024-09-06 09:43
sparkStreaming
scala
spark
big
data
scala
Spark与Kafka进行连接
在Java中使用Spark与Kafka进行连接,你可以使用
SparkStreaming
来处理实时流数据。以下是一个简单的示例,展示了如何使用
SparkStreaming
从Kafka读取数据并进行处理。
傲雪凌霜,松柏长青
·
2024-09-06 07:27
后端
大数据
spark
kafka
spark streaming优点和缺点
优点:
sparkstreaming
会被转化为spark作业执行,由于spark作业依赖DAGScheduler和RDD,所以是粗粒度方式而不是细粒度方式,可以快速处理小批量数据,获得准实时的特性;以spark
scott_alpha
·
2024-09-05 15:42
kafka消费者重复消费同一个topic
场景是
sparkstreaming
消费kafka数据在这里sparkstream和kafka都是单节点的集群模式。同时起两个不同的groupid的应用,发现会发生后起来的应用消费不到数据。
小琳ai
·
2024-09-05 10:06
大数据
kafka
重复消费
consumer
SparkStreaming
结合kafka将offSet保存在redis中
SparkStreaming
结合kafka将offSet保存在redis中
SparkStreaming
结合kafka的两种方式1、
SparkStreaming
的高级APiCreateDStream,容易发生数据多次读取
哈哈xxy
·
2024-09-01 03:28
bigdata
sparkStreaming
kafka
offset
redis
Spark Streaming+Kafka整合+offset管理
,并通过第三方存储zookeeper来手动管理offset目录前言offset管理一个完整的整合代码Demo(Java版)导入相关的Maven依赖创建通过ZK管理Offset的工具类测试类Demo前言
SparkStreaming
JiahuiTian
·
2024-09-01 03:27
大数据
#
Spark
#
Kafka
kafka
spark
大数据
Spark(46) --
SparkStreaming
整合kafka数据源
1.回顾Kafka可以看我前面kafka文章核心概念图解Broker:安装Kafka服务的机器就是一个brokerProducer:消息的生产者,负责将数据写入到broker中(push)Consumer:消息的消费者,负责从kafka中拉取数据(pull),老版本的消费者需要依赖zk,新版本的不需要Topic:主题,相当于是数据的一个分类,不同topic存放不同业务的数据--主题:区分业务Rep
erainm
·
2024-09-01 03:26
大数据学习
spark
SparkStreaming
如何保证消费Kafka的数据不丢失不重复
目录
SparkStreaming
接收Kafka数据的方式有两种:Receiver接收数据和采用Direct方式。
K. Bob
·
2024-08-28 10:02
Spark
Spark
spark采坑集锦之用kafka作为DStream数据源,并行度问题
在
SparkStreaming
中作为数据源的Kafka怎样接收多主题发送的数据呢?
方兵兵
·
2024-08-27 16:41
spark采坑集锦
从零到一建设数据中台 - 关键技术汇总
Maven、SpringBoot数据分布式采集:Flume、Sqoop、kettle数据分布式存储:HadoopHDFS离线批处理计算:MapReduce、Spark、Flink实时流式计算:Storm/
SparkStreaming
我码玄黄
·
2024-08-24 12:09
数据中台
数据挖掘
数据分析
大数据
大数据开发(Spark面试真题-卷一)
大数据开发(Spark面试真题)1、什么是
SparkStreaming
?简要描述其工作原理。2、什么是Spark内存管理机制?请解释其中的主要概念,并说明其作用。
Key-Key
·
2024-03-13 07:58
大数据
spark
面试
Structured Streaming
目录一、概述(一)基本概念(二)两种处理模型(三)StructuredStreaming和SparkSQL、
SparkStreaming
关系二、编写StructuredStreaming程序的基本步骤(
Francek Chen
·
2024-02-12 11:44
Spark编程基础
spark
zookeeper
kafka
Structured
Streaming
入门篇 - Spark简介
Spark核心模块image.pngSparkCore:提供了Spark最基础与最核心的功能,Spark其他的功能如:SparkSQL,
SparkStreaming
,GraphX,MLlib都是在SparkCore
君子何为
·
2024-02-12 10:22
Flink状态编程
SparkStreaming
在状态管理这块做的不好,很多时候需要借助于外部存储(例如Redis)来手动管理状态,增加了编程的难度.访问redis需要通过网络访问,增大处理时间状态一致性问题,可能会造成数据的不一致
万事万物
·
2024-02-08 22:41
Spark streaming写入delta数据湖问题
但项目上线到生产环境,检查
sparkstreaming
的job,发现数据在merge写入到数据湖时,往往超过1小时。
kk_io
·
2024-02-08 10:01
疑难杂症
spark
大数据
分布式
Spark streaming batch运行时间过长问题02
排查
Sparkstreaming
数据写入时间过长问题,一方面是因为程序写数据湖小文件问题。在解决了小文件问题后,还是不能达到预期的1分钟一个batch。
kk_io
·
2024-02-08 10:01
疑难杂症
spark
batch
大数据
Spark简介
我用到的主要是SparkCore,SparkSQL,
SparkStreaming
。Spark以Rdd作为基础,Rdd是一个分布式的容器,类似于java中的String数组,但是它是分布式的。
麦克阿瑟99
·
2024-02-06 18:07
SparkStreaming
---DStream
3.1.1Transformations3.1.2join3.2有状态转换操作3.2.1UpdateStateByKey3.2.2WindowOperations4.DStream输出1.DStream是什么参考博文
SparkStreaming
肥大毛
·
2024-02-05 20:06
scala
大数据
spark
spark
scala
sql
Spark的JVM调优
目录导致gc因素内存不充足的时候,出现的问题降低cache操作的内存占比调节executor堆外内存与连接等待时长调节executor堆外内存调节连接等待时长SparkJVM参数优化设置
Sparkstreaming
王一1995
·
2024-02-05 10:55
jvm
spark
2019-10-08 大数据开发进阶之路
HiveSQL掌握Hadoop生态主流技术,如HDFS/MapRedunce/Yarn/HBase/Flume等掌握Spark生态核心技术,如Spark架构/RDD转换算子/行动算子/持久化算子/任务调度/
SparkStreaming
红瓦李
·
2024-02-03 20:39
2019-03-16 Spark基本架构及运行原理
SparkStreaming
:实时数据流处理组件,类似Storm。
SparkStreaming
提供了A
做一只乐观的小猴子
·
2024-02-03 02:04
大数据之Spark:Spark大厂面试真题
9.
Sparkstreaming
以及基本
浊酒南街
·
2024-02-01 12:35
大数据系列三
spark
big
data
面试
SparkStreaming
---入门
文章目录1.
SparkStreaming
简介1.1流处理和批处理1.2实时和离线1.3
SparkStreaming
是什么1.4
SparkStreaming
架构图2.背压机制3.DStream案例实操1.
肥大毛
·
2024-02-01 09:12
spark
大数据
scala
spark
sql
大数据
window环境下安装spark
spark是大数据计算引擎,拥有SparkSQL、
SparkStreaming
、MLlib和GraphX四个模块。
FTDdata
·
2024-01-31 17:06
Spark 的架构与组件
Spark的核心组件包括SparkCore、SparkSQL、
SparkStreaming
和MLlib等。本文将详细介绍Spark的架构和组件,并分析其优势和挑战。
OpenChat
·
2024-01-29 21:24
spark
架构
大数据
分布式
大数据——Flink 知识点整理
目录1.Flink的特点2.Flink和
SparkStreaming
的对比3.Flink和Blink、Alink之间的关系4.JobManager和TaskManager的职责5.Flink集群部署有哪些模式
Vicky_Tang
·
2024-01-28 06:17
Flink
flink
面试
big
data
大数据
Apache Spark架构与特点
Spark的核心组件是
SparkStreaming
、MLlib、GraphX和SparkSQL,它们分别提供了流式数据处理、机器学习、图形计算和
OpenChat
·
2024-01-27 23:35
apache
spark
架构
大数据
分布式
Spark-core
SparkCore中还包含了对弹性分布式数据集的APISparkSQL可以使用sql结构化语句来查询数据,支持多种数据源,hive,json等
SparkStreaming
是Spark对
luckboy0000
·
2024-01-27 23:12
学习笔记
flume+kafka+
SparkStreaming
+mysql+ssm+高德地图热力图项目
第一步、编写python脚本,产生模拟数据#coding=UTF-8importrandomimporttimephone=["13869555210","18542360152","15422556663","18852487210","13993584664","18754366522","15222436542","13369568452","13893556666","1536669855
printf200
·
2024-01-27 12:24
Flink 基础入门
前言
SparkStreaming
准确来说算是一个微批处理伪实时的做法,可是Flink是真的来一条就会处理一条,而且在
SparkStreaming
和Kafka进行整合时我们需要手动去管理偏移量的问题,而在
IT领域君
·
2024-01-26 19:28
大数据开发之Spark(spark streaming)
第1章:
SparkStreaming
概述1.1
sparkstreaming
是什么
sparkstreaming
用于流式数据的处理。
Key-Key
·
2024-01-25 21:07
大数据
spark
分布式
Flink1.17总结
1.Flink介绍1.Flink和
SparkStreaming
区别2.Flink分层API3.WordCount案例需求:写一个文本,统计出单词的个数1.使用flink批处理查看WordCountBatchDemo
asxyyjh
·
2024-01-25 14:29
大数据
flink
java
SparkStreaming
稽查布控/动态广播变量(处理电信数据)
SparkStreaming
稽查布控/动态广播变量需求:1.在mysql中建表2.在虚拟机中使用指令:nc-lk88883.在IDEA中编写代码数据如下需求:1.在mysql中建表CREATETABLE
莫尼莫尼
·
2024-01-25 05:54
大数据
spark
big
data
scala
Stuuctured Streaming基础--学习笔记
Structuredstreaming介绍spark进行实时数据流计算时有两个工具:
SparkStreaming
:编写rdd代码处理数据流,可以解决非结构化的流式数据StructuredStreaming
祈愿lucky
·
2024-01-23 14:58
大数据
学习
笔记
kafka
Pyspark
Accumulator:5.Sparkconf6.SparkFiles7.StorageLevel二、SparkSQL1.读取数据2.保存/写入数据3.Dataframes3.pysparkSQL函数三、
SparkStreaming
李明朔
·
2024-01-23 12:24
机器学习
spark-ml
(转)Spark Streaming遇到问题分析
StructuredStreaming还没仔细了解,可参考:https://github.com/lw-lin/Coo...2、Spark的Job与Streaming的Job有区别及StreamingJob并发控制:先看看
SparkStreaming
达微
·
2024-01-22 20:06
大数据学习之 Flink
目录一:简介二:为什么选择Flink三:哪些行业需要四:Flink的特点五:与
sparkStreaming
的区别六:初步开发七:Flink配置说明八:环境九:运行组件一:简介Flink是一个框架和分布式得计算引擎
会编程的海贼王
·
2024-01-22 19:58
Flink
大数据
Flink
大数据学长面试之OPPO面试题
1)技术部分(1)
SparkStreaming
消费方式及区别,Spark读取HDFS的数据流程(2)Kafka高性能(3)Hive调优,数据倾斜(4)Zookeeper怎么避免脑裂,什么是脑裂。
大数据小理
·
2024-01-19 16:01
大数据1
大数据
面试
职场和发展
Flink1.17 基础知识
Flink1.17基础知识来源:B站尚硅谷目录Flink1.17基础知识Flink概述Flink是什么Flink特点Flinkvs
SparkStreaming
Flink的应用场景Flink分层APIFlink
魅美
·
2024-01-19 08:16
大数据基础
大数据
flink
sparkstreaming
实时写入hive
最近一直在研究presto接口hive和mysql的一些使用和功能,因此,我在想是否能将数据实时的写入到hive呢,刚好公司项目有需求数据实时写入到hive中,对此,我特定实现了一下。pom文件spark-streaming-kafka-0-10_2.112.1.0spark-core_2.11spark-sql_2.11scala-library采用的是scala2.11.8实现逻辑:实时的获取
会飞的蜗牛66666
·
2024-01-18 16:11
django大数据_草稿本01
文档Learning_Spark/5.
SparkStreaming
/ReadMe.mdatmaster·LeslieZhoa/Learning_Spark#在pyspark下运行frompyspark.ml.featureimportHashingTF
哈都婆
·
2024-01-18 09:15
django
Spark面试
适当增加sparkstandbymaster编写shell脚本,定期检测master状态,出现宕机后对master进行重启操作2.
Sparkstreaming
以及基本工作原理?
lune_Lucky
·
2024-01-17 05:30
大数据
big
data
spark
【Flink-1.17-教程】-【一】Flink概述、Flink快速入门
【Flink-1.17-教程】-【一】Flink概述、Flink快速入门1)Flink是什么1.1.有界流和无界流1.2.Flink的发展史2)Flink特点3)Flinkvs
SparkStreaming
4
bmyyyyyy
·
2024-01-16 08:16
Flink
flink
java
大数据
#flink概述
#flink快速入门
#wordcount
streaming 101
看之前就知道这是两篇能够提升你对流处理理解的文章,不是一般的提升,可以说是一种升华,因为他谈的不是一个具体的工具(
sparkstreaming
,flink等),而是谈流处理应该是怎么样的,流处理要打败批处理一统天下的话需要有什么特性
Bitson
·
2024-01-15 12:31
sparkStreaming
连接kafka的方式
sparkStreaming
消费kafak有两种方式1:receiver方式2:direct方式receiver方式:1:
sparkStreaming
将kafka之中的数据读取到spark内存之中,然后对
流砂月歌
·
2024-01-15 06:59
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他