sparkstreaming 第5页

【Spark分布式内存计算框架——Spark Streaming】1. Streaming 概述（上）Streaming 应用场景、Lambda 架构

前言在很多实时数据处理的场景中，都需要用到流式处理（StreamProcess）框架，Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming（Spark2.0

csdnGuoYuying·2023-10-09 21:33

大数据基础之SparkStreaming——SparkStreaming整合Flume

SparkStreaming继承Flume SparkStreaming通过Push和Pull两种方式对接Flume数据源。

Clozzz·2023-10-09 21:03

大数据——Spark Streaming

是什么SparkStreaming是一个可扩展、高吞吐、具有容错性的流式计算框架。

AIGC人工智残·2023-10-09 21:02

Flink和spark的对比

SparkStreamingvsFlink两者最重要的区别(流和微批)(1).MicroBatching模式(spark)Micro-Batching计算模式认为"流是批的特例"，流计算就是将连续不断的微批进行持续计算

Better~Me·2023-10-09 18:40

Flink--框架和分布式处理引擎----flink大全

框架和分布式处理引擎目录Flink--框架和分布式处理引擎一、Flink概述（一）理念/什么是flink：（二）Flink特点1、事件驱动型（Event-driven）2、流与批的世界观3、分层api（三）flink和sparkStreaming

小白本白ing·2023-10-08 21:37

十一.Spark Streaming高级数据源

1、SparkStreaming接收Flume数据基于Flume的Push模式Flume被用于在Flumeagents之间推送数据.在这种方式下,SparkStreaming可以很方便的建立一个receiver

临时_01e2·2023-10-08 02:30

spark streaming checkpointing 踩坑记

sparkstreaming的应用可能需要7*24小时不间断的运行,因此需要一定的容错能力。在系统出现问题后，sparkstreaming应用能够从上次出错的地方重新开始。

raindaywhu·2023-10-06 09:06

Flume入门（sink配置kafka）

环境分析：上一节我们的服务日志最终用logger打印，这个只是一个测试，生成环境不能这样使用，那么生产环境一般会把日志保存在hdfs中或通过kafka传送给实时计算框架比如sparkstreaming进行实时计算

南山小和尚·2023-09-30 15:49

基于Kafka+Flink+Redis的电商大屏实时计算案例

由于Flink的“真·流式计算”这一特点，它比SparkStreaming要更适合大屏应用。本文从笔者的实际工作经验抽象出简单的模型，并简要叙述计算流程（当然大部分都是源码）。数据格式与接入简化的子订

zhisheng_blog·2023-09-27 15:42

Spark Streaming实时计算框架

SparkStreaming实时计算框架近年来，在Web应用、网络监控、传感监测、电信金融、生产制造等领域，增强了对数据实时处理的需求，而Spark中的SparkStreaming实时计算框架就是为实现对数据实时处理的需求而设计

-starshine丨·2023-09-26 10:52

“spark三剑客”之SparkStreaming流式计算框架

一流式计算概述1.1什么的流式计算数据流VS静态数据数据流静态数据不断产生的数据存储在磁盘中的固定的数据流式计算的概念对数据流进行计算，由于数据是炼苗不断的产生的，所以这个计算也是一直再计算，不会停止流式计算的数据流VS离线计算（特点大PK）流式计算的数据流离线计算数据是无界的(unbounded)数据是有界的(unbounded)数据是动态的数据是静态的计算速度是非常快的，还是基于内存的计算速度

南潇如梦·2023-09-26 10:52

如何关闭 sparkstreaming 任务

因为SparkStreaming流程序比较特殊，所以不能直接执行kill-9这种暴力方式停掉，如果使用这种方式停程序，那么就有可能丢失数据或者重复消费数据。为什么呢？

小癫僧·2023-09-25 23:31

大数据基础面试题七：Flink

大数据基础面试题七：Flink目录大数据基础面试题七：Flink十四、Flink14.1简单介绍一下Flink14.2Flink跟SparkStreaming的区别14.3Flink集群有哪些角色？

大数据面壁者·2023-09-25 16:45

spark streaming背压机制

sparkstreaming背压机制背压机制产生的背景背压(backpressure)机制主要用于解决流处理系统中，业务流量在短时间内剧增，造成巨大的流量毛刺，数据流入速度远高于数据处理速度，对流处理系统构成巨大的负载压力的问题

小～蜉蝣·2023-09-25 16:44

Spark的基础

实训笔记--Spark的基础Spark的基础一、Spark的诞生背景二、Spark概念2.1SparkCore2.2.SparkSQL2.3SparkStreaming2.4SparkMLlib2.5SparkGraphX2.6SparkR

cai-4·2023-09-21 18:56

Flink相关

墨滴社区用Flink取代SparkStreaming！

丢雷劳谋·2023-09-19 07:24

如何管理Spark Streaming消费Kafka的偏移量（三）

前面的文章已经介绍了在sparkstreaming集成kafka时，如何处理其偏移量的问题，由于sparkstreaming自带的checkpoint弊端非常明显，所以一些对数据一致性要求比较高的项目里面

尼小摩·2023-09-16 16:23

python3.7.2安装与配置_python3.7.2下载及安装（windows为例）

weixin_39686230·2023-09-14 04:44

SparkStreaming+Kafka 实现基于缓存的实时wordcount程序

我的原创地址：https://dongkelun.com/2018/06/14/updateStateBykeyWordCount/前言本文利用SparkStreaming和Kafka实现基于缓存的实时

董可伦·2023-09-13 21:39

大数据课程L9——网站流量项目的实时业务处理代码

文章作者邮箱：[email protected]地址：广东惠州▲本章节目的⚪掌握网站流量项目的SparkStreaming代码；⚪掌握网站流量项目的HBaseUtil代码；⚪掌握网站流量项目的MysqlUtil

伟雄·2023-09-13 15:44

大数据课程L8——网站流量项目的SparkStreaming整合代码

文章作者邮箱：[email protected]地址：广东惠州▲本章节目的⚪掌握网站流量项目的工程Pom配置文件代码；⚪掌握网站流量项目的SparkStreaming整合Kafka代码；⚪掌握网站流量项目的

伟雄·2023-09-13 15:14

大数据期末考试题库

文章目录Spark选择题章鱼学院（Spark）大数据期末题目汇总选择题填空题判断题简答题Spark选择题Spark的四大组件下面哪个不是(D)A.SparkStreamingBMlibCGraphxDSparkR

萌萌哒の瑞萌萌·2023-09-13 07:42

小结-Spark-Spark Streaming入门

定义及工作原理SparkStreaming定义，官网翻译如下SparkStreaming是核心SparkAPI的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理。

Andrew0000·2023-09-12 23:22

大数据课程L6——网站流量项目的SparkStreaming

文章作者邮箱：[email protected]地址：广东惠州▲本章节目的⚪了解网站流量项目的SparkStreaming概述；⚪掌握网站流量项目的SparkStreaming实现Wordcount

伟雄·2023-09-12 07:12

一、Flink简述

是什么2、Flink可以做什么2.1、数据处理架构有哪些2.1.1、联机事务处理（OLTP）2.1.2、联机分析处理（OLAP）3、Flink的特点（为什么使用）3.1、flink特点3.2、flink与SparkStreaming

末名赶上·2023-09-10 13:41

1. Flink简述

Flink与SparkStreaming对比数据模型和处理模型Spark的数据模型是RDD，很多时候RDD可以实现为分布式共享内存或者完全虚拟化（即有的中间结果RDD当下游处理完全在本地时可以直接优化省略掉

爱做梦的鱼·2023-09-10 13:54

【Hive】Hive数据倾斜以及解决方案

例如以下情况：用Hive算数据的时候reduce阶段卡在99.99%用SparkStreaming做实时算法时候，一直会有executor出现OOM的错误，但是其余的executor内存使用率却很低。

yabi亚比·2023-09-10 06:47

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

Spark由多个组件组成，包括SparkCore、SparkSQL、SparkStreaming、MLlib和GraphX等。

kkkliaoo·2023-09-09 05:36

Spark Streaming核心概念与编程（二）

SparkStreaming核心核心概念StreamingContextDStream对DStream操作算子，比如map/flatMap，其实底层会被翻译为对DStream中的每个RDD都做相同因为一个

lunsheng·2023-09-07 16:03

大数据-玩转数据-Flink状态编程（上）

SparkStreaming在状态管理这块做的不好,很多时候需要借助于外部存储(例如Redis)来手动管理状态,增加了编程的难度。Flink的状态管理是它的优势之一。

人猿宇宙·2023-09-04 22:44

【4-5章】Spark编程基础(Python版)

（林子雨）Spark编程基础(Python版)_哔哩哔哩_bilibili第4章RDD编程（21节）Spark生态系统：SparkCore：底层核心（RDD编程是针对这个）SparkSQL：SQL查询SparkStreaming

如何原谅奋力过但无声·2023-09-03 06:28

spark streaming流式处理kafka中的数据（java）

sparkstreaming是spark中用来处理流式数据的，用来对接各类消息队列是极好的。sparkstreaming并不是真正实时的流式处理，它本质上还是批处理，只是每一个批次间隔的时间很短。

彬正L·2023-09-02 11:16

SparkStreaming中动态广播变量的使用【Java版本】

业务需求：SparkStreaming实时传输数据需要实时与MySql中数据进行比对，所以需要每分钟更新MySql数据数据，实现广播变量，将MySql数据更新后，实现动态变量广播。

wunanliu·2023-09-02 11:16

sparkStreaming获取kafka数据（java版本）

环境spark-2.2.0kafka_2.11-0.10.0.1jdk1.8配置好jdk，创建项目并将kafka和spark的jar包添加到项目中，除此之外还需要添加spark-streaming-kafka-*****.jar，笔者这里用的是spark-streaming-kafka-0-10_2.11-2.2.0.jar，可在spark官网上自行下载1importjava.util.Array

a1361585·2023-09-02 11:15

Spark Streaming（制造数据到kafka，读取kafka并过滤数据写入到mysql练习）

SparkStreamingMakeDataimportjava.util.Propertiesimportorg.apache.kafka.clients.producer.

房石阳明i·2023-09-02 11:45

大数据之Spark基本概念特点以及各个组件的作用的详细介绍

Spark包含SparkCore、SparkSQL、SparkStreaming、MLlib、Graph可以解决大数据中的BatchProcessing

BAO7988·2023-09-02 08:35

Flink如何处理反压问题

目前主流的流处理系统Storm/JStorm/SparkStreaming/Fli

灵境旅行家·2023-09-02 06:13

Spark参数调优之locality wait

背景工作中使用SparkStreaming处理实时数据流，发现所处理的数据量与所消耗的时间很不对等，如下图：Stage耗时区区几KB的数据，简单的mapToPair操作，竟然耗时4~5秒，很不合理。

user0650·2023-09-01 12:32

SparkStreaming容错性

SparkStreaming实时流处理系统需要长时间接受并处理数据，对于SparkStreaming的容错性主要通过以下三种方式：第一、利用Spark自身的容错设计、存储级别和RDD抽象设计能够处理集群中任何

土土的简书·2023-09-01 09:45

CDH-Kafka-SparkStreaming 异常：org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/uti

参考文章：flumekafkasparkstreaming整合后集群报错org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/uthttps

高达一号·2023-09-01 07:53

Kafka-Spark Streaming 异常： dead for group td_topic_advert_impress_blacklist

最近在编写SparkStreaming作业的时候，遇到了一个比较奇怪的问题，表现如下：在本地连接Kafka集群执行作业：18/10/3117:42:58INFOAbstractCoordinator:Discoveredcoordinatorkafka1

高达一号·2023-09-01 07:53

Spark_Spark foreachRDD 使用示例以及注意事项

参考文章：SparkStreamingforeachRDD的正确使用方式https://blog.csdn.net/q954103/article/details/79439536foreachRDD主要用于向外部数据存储写入数据

高达一号·2023-09-01 07:53

Spark Streaming任务中的容错机制盘点

前言互联网场景下，经常会有各种实时的数据处理，这种处理方式也就是流式计算，延迟通常也在毫秒级或者秒级，比较有代表性的几个开源框架，分别是Storm，SparkStreaming和Filnk。

死亡之翼归来·2023-09-01 05:43

Strom、SparkStreaming、Flink反压机制阐述

反压机制（BackPressure）被广泛应用到实时流处理系统中，流处理系统需要能优雅地处理反压（backpressure）问题。反压通常产生于这样的场景：短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压，例如，垃圾回收停顿可能会导致流入的数据快速堆积，或者遇到大促或秒杀活动导致流量陡增。反压如果不能得到正确的处理，可能会导致资源耗尽甚至系统崩溃。反压机制就是指系

小晨说数据·2023-08-31 07:20

流式大处理的三种框架对比：Storm，Spark和Flink

storm、sparkstreaming、flink都是开源的分布式系统，具有低延迟、可扩展和容错性诸多优点，允许你在运行数据流代码时，将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API

往事随风_h·2023-08-31 07:18

谈谈Kafka Consumer Group的Coordinator与Rebalance机制

前言前段时间写了三个SparkStreaming程序，负责从Kafka订阅群和用户消息，并做舆情监控必须的ETL工作。它们消费的Topic各自不同，但是分配的group.id都相同。

LittleMagic·2023-08-29 00:16

（四）updateStateByKey和mapWithState

一、updateStateByKey算子应用示例objectSparkStreamingApp{defmain(args:Array[String]):Unit={valconf=newSparkConf

白面葫芦娃92·2023-08-26 16:38

Elasticsearch 集成---Spark Streaming 框架集成

一.SparkStreaming框架介绍SparkStreaming是SparkcoreAPI的扩展，支持实时数据流的处理，并且具有可扩展，高吞吐量，容错的特点。

Java捡子·2023-08-26 09:44

【实战】spark streaming 如何保证消费EOS

前段时间，一直有人问sparkstreaming偏移量问题。什么是偏移量？百度。

CTO_zej·2023-08-25 19:32

（3）sparkstreaming从kafka接入实时数据流最终实现数据可视化展示

（1）sparkstreaming从kafka接入实时数据流最终实现数据可视化展示，我们先看下整体方案架构：image.png（2）方案说明：1）我们通过kafka与各个业务系统的数据对接，将各系统中的数据实时接到

NBI大数据可视化分析·2023-08-21 15:49

推荐频道

sparkstreaming

【Spark分布式内存计算框架——Spark Streaming】1. Streaming 概述（上）Streaming 应用场景、Lambda 架构

大数据基础之SparkStreaming——SparkStreaming整合Flume

大数据——Spark Streaming

Flink和spark的对比

Flink--框架和分布式处理引擎----flink大全

十一.Spark Streaming高级数据源

spark streaming checkpointing 踩坑记

Flume入门（sink配置kafka）

基于Kafka+Flink+Redis的电商大屏实时计算案例

Spark Streaming实时计算框架

“spark三剑客”之SparkStreaming流式计算框架

如何关闭 sparkstreaming 任务

大数据基础面试题七：Flink

spark streaming背压机制

Spark的基础

Flink相关

如何管理Spark Streaming消费Kafka的偏移量（三）

python3.7.2安装与配置_python3.7.2下载及安装（windows为例）

SparkStreaming+Kafka 实现基于缓存的实时wordcount程序

大数据课程L9——网站流量项目的实时业务处理代码

大数据课程L8——网站流量项目的SparkStreaming整合代码

大数据期末考试题库

小结-Spark-Spark Streaming入门

大数据课程L6——网站流量项目的SparkStreaming

一、Flink简述

1. Flink简述

【Hive】Hive数据倾斜以及解决方案

介绍 Apache Spark 的基本概念和在大数据分析中的应用。

Spark Streaming核心概念与编程（二）

大数据-玩转数据-Flink状态编程（上）

【4-5章】Spark编程基础(Python版)

spark streaming流式处理kafka中的数据（java）

SparkStreaming中动态广播变量的使用【Java版本】

sparkStreaming获取kafka数据（java版本）

Spark Streaming（制造数据到kafka，读取kafka并过滤数据写入到mysql练习）

大数据之Spark基本概念 特点 以及各个组件的作用的详细介绍

Flink如何处理反压问题

Spark参数调优之locality wait

SparkStreaming容错性

CDH-Kafka-SparkStreaming 异常：org.apache.kafka.clients.consumer.KafkaConsumer.subscribe(Ljava/uti

Kafka-Spark Streaming 异常： dead for group td_topic_advert_impress_blacklist

Spark_Spark foreachRDD 使用示例 以及注意事项

Spark Streaming任务中的容错机制盘点

Strom、SparkStreaming、Flink反压机制阐述

流式大处理的三种框架对比：Storm，Spark和Flink

谈谈Kafka Consumer Group的Coordinator与Rebalance机制

（四）updateStateByKey和mapWithState

Elasticsearch 集成---Spark Streaming 框架集成

【实战】spark streaming 如何保证消费EOS

（3）sparkstreaming从kafka接入实时数据流最终实现数据可视化展示

大数据之Spark基本概念特点以及各个组件的作用的详细介绍

Spark_Spark foreachRDD 使用示例以及注意事项