SparkStreaming 第6页

Spark_Spark foreachRDD 使用示例以及注意事项

参考文章：SparkStreamingforeachRDD的正确使用方式https://blog.csdn.net/q954103/article/details/79439536foreachRDD主要用于向外部数据存储写入数据

高达一号·2023-09-01 07:53

Spark Streaming任务中的容错机制盘点

前言互联网场景下，经常会有各种实时的数据处理，这种处理方式也就是流式计算，延迟通常也在毫秒级或者秒级，比较有代表性的几个开源框架，分别是Storm，SparkStreaming和Filnk。

死亡之翼归来·2023-09-01 05:43

Strom、SparkStreaming、Flink反压机制阐述

反压机制（BackPressure）被广泛应用到实时流处理系统中，流处理系统需要能优雅地处理反压（backpressure）问题。反压通常产生于这样的场景：短时负载高峰导致系统接收数据的速率远高于它处理数据的速率。许多日常问题都会导致反压，例如，垃圾回收停顿可能会导致流入的数据快速堆积，或者遇到大促或秒杀活动导致流量陡增。反压如果不能得到正确的处理，可能会导致资源耗尽甚至系统崩溃。反压机制就是指系

小晨说数据·2023-08-31 07:20

流式大处理的三种框架对比：Storm，Spark和Flink

storm、sparkstreaming、flink都是开源的分布式系统，具有低延迟、可扩展和容错性诸多优点，允许你在运行数据流代码时，将任务分配到一系列具有容错能力的计算机上并行运行,都提供了简单的API

往事随风_h·2023-08-31 07:18

谈谈Kafka Consumer Group的Coordinator与Rebalance机制

前言前段时间写了三个SparkStreaming程序，负责从Kafka订阅群和用户消息，并做舆情监控必须的ETL工作。它们消费的Topic各自不同，但是分配的group.id都相同。

LittleMagic·2023-08-29 00:16

（四）updateStateByKey和mapWithState

一、updateStateByKey算子应用示例objectSparkStreamingApp{defmain(args:Array[String]):Unit={valconf=newSparkConf

白面葫芦娃92·2023-08-26 16:38

Elasticsearch 集成---Spark Streaming 框架集成

一.SparkStreaming框架介绍SparkStreaming是SparkcoreAPI的扩展，支持实时数据流的处理，并且具有可扩展，高吞吐量，容错的特点。

Java捡子·2023-08-26 09:44

【实战】spark streaming 如何保证消费EOS

前段时间，一直有人问sparkstreaming偏移量问题。什么是偏移量？百度。

CTO_zej·2023-08-25 19:32

（3）sparkstreaming从kafka接入实时数据流最终实现数据可视化展示

（1）sparkstreaming从kafka接入实时数据流最终实现数据可视化展示，我们先看下整体方案架构：image.png（2）方案说明：1）我们通过kafka与各个业务系统的数据对接，将各系统中的数据实时接到

NBI大数据可视化分析·2023-08-21 15:49

82、Spark Streaming之与Storm的对比分析

SparkStreaming与Storm的对比对比点StormSparkStreaming实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个RDD再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善支持

ZFH__ZJ·2023-08-21 10:37

第一天：spark和Hadoop的比较和介绍

sparkVShadoop计算过程spark整体架构spark的特点sparkSQL和HivesparkstreamingVSstormspark的个人使用体会

GhostintheCode·2023-08-20 03:00

Exception in thread “main“ java.lang.NoSuchMethodError: scala.Predef$.refArrayOps

使用IDEA工具运行SparkStreaming的WordCount时，运行报错，报错信息如下:Exceptioninthread"main"java.lang.NoSuchMethodError:scala.Predef

UserOrz·2023-08-19 09:28

Spark Structured Streaming 项目实战

网上搜索的一个项目，比较简单实用google搜索一下就能找到SparkStreaming项目实战简单架构图原项目中用的是Sparkstreaming，目前spark官网推荐实用SparkStructuredStreaming

maozicb·2023-08-16 06:25

Flink笔记

-处理模型：单条事件处理；SparkStreaming是一个事件窗口内的所有事件。-部署相对简单，只依赖JRE环境。-应用场景：实时监控

李父贵·2023-08-15 01:13

SparkStreaming优雅关闭

如果检测到存在，调用ssc.stop()方法关闭SparkStreaming任务（当你要关闭任务时，可以创建你自定义监控的文件目录）objectSparkStreaming12_Stop{defmain

Map_Reduce·2023-08-14 23:41

大数据之Spark:Structured Streaming

目录1.API2.核心思想3.应用场景4.StructuredStreaming实战1)读取Socket数据2)读取目录下文本数据3)计算操作4)输出在2.0之前，SparkStreaming作为核心API

浊酒南街·2023-08-14 19:07

Spark：StructStreaming

目录01：上篇回顾02：本篇内容03：SparkStreaming的缺点04：StructStreaming的设计05：官方示例WordCount06：自定义开发WordCount实现07：Source

多么哇塞的陈哇塞·2023-08-14 19:36

Spark Streaming：通过Dstreams 或 DataFrames做流数据处理，结果写入ClickHouse或Hive表

今天我们重点看看SparkStreaming，展示常用流处理的方式。流数据处理常出现在大数据用例中，用于连续生成动态数据的场景。

西土城计划·2023-08-14 19:04

【IDEA+Spark Streaming 3.4.1+Dstream监控套接字流统计WordCount保存至MySQL8】

【IDEA+SparkStreaming3.4.1+Dstream监控套接字流统计WordCount保存至MySQL8】把DStream写入到MySQL数据库中Spark3.4.1MySQL8.0.30sbt1.9.2

pblh123·2023-08-08 12:28

基于大数据框架的协同过滤算法餐饮推荐系统【Update2023-6-25】

Github地址：https://github.com/share23/Food_Recommender他的系统采用实时大数据技术组件，具体有SparkStreaming，HDFS分布式存储，Hbase

程序终结者·2023-08-08 06:47

1、sparkStreaming概述

1、sparkStreaming概述1.1SparkStreaming是什么它是一个可扩展，高吞吐具有容错性的流式计算框架吞吐量：单位时间内成功传输数据的数量之前我们接触的spark-core和spark-sql

Wzideng·2023-08-07 13:51

2、Spark Streaming编码实践

2、SparkStreaming编码实践SparkStreaming编码步骤：1，创建一个StreamingContext2，从StreamingContext中创建一个数据对象3，对数据对象进行Transformations

Wzideng·2023-08-07 13:51

SparkStreaming实时流处理

SparkStreaming之前项目中用过一段时间，最近正好闲下来做一下梳理。

朱Sir_小猿·2023-08-06 09:39

Spark、RDD、Hive 、Hadoop-Hive 和传统关系型数据库区别

在离线计算功能上类似于mapreduce的作用MapReduce的缺点运行速度慢（没有充分利用内存）接口比较简单，仅支持MapReduce功能比较单一只能做离线计算Spark优势运行速度快自身生态比较完整sparksqlsparkstreamingsparkmllibSparkMLap

Wzideng·2023-08-05 15:22

Spark Streaming反压机制2

背景在默认情况下，SparkStreaming通过receivers(或者是Direct方式)以生产者生产数据的速率接收数据。

麦子星星·2023-08-05 12:07

Apache Flink概述

通常被人们称为第三代大数据分析方案第一代大数据处理方案：基于Hadoop的MapReduce静态批处理|Storm实时流计算，两套独立的计算引擎，难度大（2014年9月）第二代大数据处理方案：SparkRDD静态批处理、SparkStreaming

LJiaWang·2023-08-03 10:15

Spark-Hbase重点知识回顾

在离线计算功能上类似于mapreduce的作用MapReduce的缺点运行速度慢（没有充分利用内存）接口比较简单，仅支持MapReduce功能比较单一只能做离线计算Spark优势运行速度快自身生态比较完整sparksqlsparkstreamingsparkmllibSparkMLap

Wzideng·2023-08-02 14:35

编程小白呀·2023-08-02 06:35

Structured Streaming: A Declarative API for Real-Time Applications in Apache Spark

StructuredStreaming采用了不同于SparkStreaming、Flink这类DataStream的角度来处理流数据。

零度沸腾_yjz·2023-08-01 03:22

flink学习总结

Flink学习总结flink是什么：为分布式、高性能、随时可用以及准确的流处理应用程序打造的开源流处理框架流处理&&批处理批处理：sparkstreaming为批处理代表，数据有界，持久，大量，一般用于离线流处理

倔强青铜弟中弟·2023-07-31 22:40

Spark Streaming运行架构

1、SparkStreaming总体运行架构SparkStreaming分为Driver端和Client端，运行在Driver端的是StreamingContext实例。

土土的简书·2023-07-31 03:49

Spark Streaming流媒体引擎

SparkStreaming是Spark的上一代流媒体引擎。SparkStreaming不再有更新，它是一个遗留项目。

yyyyjinying·2023-07-29 07:50

SparkStreaming-Kafka通过指定偏移量获取数据

SparkStreaming-Kafka通过指定偏移量获取数据1.数据源‘310999003001’,‘3109990030010220140820141230292’,‘00000000’,‘’,‘2017

Hadoop全家桶·2023-07-29 06:52

一、Spark应用-(Web log)流式实时日志分析系统实现

使用Python脚本随机生成日志(获取日志)使用脚本方式将日志自动上传至HDFSSparkStreaming自动监控HDFS目录，自动处理新文件业务背景：Weblog一般在HTTP服务器收集，比如Nginxaccess

快点学·2023-07-29 02:06

spark学习(13)之SparkStreaming的其他数据源

之前我们的SparkStreaming都是一些Socket的数据了，还有其他几种文件流：监控一个目录中文件变化，只要有新文件产生他就会读入importorg.apache.spark.streaming.StreamingContextimportorg.apache.spark.streaming.Secondsimportorg.apache.log4j.Loggerimportorg.apa

枣泥馅·2023-07-29 01:20

Spark-Streaming之window滑动窗口应用

Spark-Streaming之window滑动窗口应用，SparkStreaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。

kwu_ganymede·2023-07-28 01:28

Spark从入门到精通34:Spark Streaming：Spark Streaming基本工作原理

1.SparkStreaming简介SparkStreaming是SparkCoreAPI的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。

勇于自信·2023-07-26 15:19

spark streaming杂记

元数据包括:Configuration:创建SparkStreaming应用程序的配置信息。DStreamoperations:定义Streaming应用程序的操作集合。

cclucc·2023-07-26 06:10

Spark从入门到精通47:Spark Streaming：与Spark SQL结合使用之top3热门商品实时统计案例实战

SparkStreaming最强大的地方在于，可以与SparkCore、SparkSQL整合使用，之前已经通过transform、foreachRDD等算子看到，如何将DStream中的RDD使用SparkCore

勇于自信·2023-07-26 04:23

Kafka “高性能” mirc-batch

高性能的一个非常重要的原因，这一下子就使Kafka成为了一个拥有近乎流式处理框架的的高吞吐级别，但是mirc相对于流式处理还是存在很大差异的，但是一些所谓的流式处理框架使用的也有mirc-batch（比如说sparkStreaming

邹志全·2023-07-25 19:12

Spark Streaming官方文档翻译Spark Streaming性能调优

SparkStreaming官方文档翻译SparkStreaming总览SparkStreaming官方文档翻译基本概念之初始化与DstreamSparkStreaming官方文档翻译基本概念之输入数据流和接收器

小小小书屋·2023-07-24 22:34

Flink笔记

并行度2.2.2算子链2.2.3任务槽2.3DataStream2.3.2读取数据源-源算子（Source）2.3.3转换算子（Transformation）2.Flink学习笔记2.1流式处理对比学习SparkStreaming

好记性＋烂笔头·2023-07-24 18:21

秒级风控spark优化

秒级风控spark优化背景：在aws和qq同时存在时，两边分开计算，数据量不大，任务不会出现延迟，全迁移到qq之后，所以数据全在一个集群中处理，延时非常严重，没办法做到实时风控拦截调优后配置如下:1.控制sparkstreaming

有货技术·2023-07-23 00:48

sparkStreaming：kafka topic连接spark处理数据传输到kafka另一个topic

目录一、nc-lk端口号连接sparkStreaming二、sparkStreaming：kafka订阅主题三、SparkStreaming：kafkaSourcetokafkaSink一、nc-lk端口号连接

Xiayebuliang·2023-07-21 00:22

flink入门介绍

spark更加擅长批处理；flink是一个分层的模型，不同层解决不同的问题Spark和Flink这两个主流框架中选择一个来进行实时流处理，更加推荐使用Flink，主要的原因有：Flink的延迟是毫秒级别，而SparkStreaming

zero _s·2023-07-20 16:49

Sparkstreaming从Kafka中读取数据，数据和偏移量写入到Mysql中（开启事务）

从Kafka中读取数据，完成聚合类的操作，最后将【偏移量】和【计算好的聚合结果】同时写入到MySQL中MySQL是一个【支持事务】的关系型数据库，使用事务可以保证【计算好的聚合结果】和【偏移量】同时写入成功1、MySql中建表--kafka中读取数据，写入到mysql中所创建的表--1、写入的数据CREATETABLEword_counts(wordVARCHAR(255)NOTNULLPRIMA

undo_try·2023-07-18 13:12

为什么会是Flink

像ApacheSpark也只能兼顾高吞吐和高性能特性，主要是因为在SparkStreaming流式计算中无法做到低延迟保障；流式计算框架ApacheStorm只能支持低延迟和高性能特性，但是无法满足高吞吐的要求

山间浓雾有路灯·2023-07-17 04:40

大数据计算分析技术：批处理、流计算、OLAP引擎

目录一、批处理的基石：MapReduce1.工作流程2.实例分析二、流计算的代表：storm、sparkstreaming和flink

青果HA·2023-07-17 02:37

【大数据处理框架】Spark大数据处理框架，包括其底层原理、架构、编程模型、生态圈

文章目录Spark框架的底层原理Spark框架的架构SparkCoreSparkSQLSparkStreamingSparkMLlibSparkGraphXSpark框架采用的编程模型Spark生态圈Spark

我是廖志伟·2023-07-16 21:25

SparkStreaming

SparkStreaming第一次运行时不丢失数据auto.offset.reset=earliestKafka和SparkStreaming整合时：注意：和SparkStreaming整合时，上面的可选参数是无效的

February13·2023-07-16 10:55

推荐频道

SparkStreaming

Spark_Spark foreachRDD 使用示例 以及注意事项

Spark Streaming任务中的容错机制盘点

Strom、SparkStreaming、Flink反压机制阐述

流式大处理的三种框架对比：Storm，Spark和Flink

谈谈Kafka Consumer Group的Coordinator与Rebalance机制

（四）updateStateByKey和mapWithState

Elasticsearch 集成---Spark Streaming 框架集成

【实战】spark streaming 如何保证消费EOS

（3）sparkstreaming从kafka接入实时数据流最终实现数据可视化展示

82、Spark Streaming之与Storm的对比分析

第一天：spark和Hadoop的比较和介绍

Exception in thread “main“ java.lang.NoSuchMethodError: scala.Predef$.refArrayOps

Spark Structured Streaming 项目实战

Flink笔记

SparkStreaming优雅关闭

大数据之Spark:Structured Streaming

Spark：StructStreaming

Spark Streaming：通过Dstreams 或 DataFrames做流数据处理，结果写入ClickHouse或Hive表

【IDEA+Spark Streaming 3.4.1+Dstream监控套接字流统计WordCount保存至MySQL8】

基于大数据框架的协同过滤算法餐饮推荐系统【Update2023-6-25】

1、sparkStreaming概述

2、Spark Streaming编码实践

SparkStreaming实时流处理

Spark、RDD、Hive 、Hadoop-Hive 和传统关系型数据库区别

Spark Streaming反压机制2

Apache Flink概述

Spark-Hbase重点知识回顾

【电影推荐系统】实时推荐

Structured Streaming: A Declarative API for Real-Time Applications in Apache Spark

flink学习总结

Spark Streaming运行架构

Spark Streaming流媒体引擎

SparkStreaming-Kafka通过指定偏移量获取数据

一、Spark应用-(Web log)流式实时日志分析系统实现

spark学习(13)之SparkStreaming的其他数据源

Spark-Streaming之window滑动窗口应用

Spark从入门到精通34:Spark Streaming：Spark Streaming基本工作原理

spark streaming杂记

Spark从入门到精通47:Spark Streaming：与Spark SQL结合使用之top3热门商品实时统计案例实战

Kafka “高性能” mirc-batch

Spark Streaming官方文档翻译Spark Streaming性能调优

Flink笔记

秒级风控spark优化

sparkStreaming：kafka topic连接spark处理数据传输到kafka另一个topic

flink入门介绍

Sparkstreaming从Kafka中读取数据，数据和偏移量写入到Mysql中（开启事务）

为什么会是Flink

大数据计算分析技术：批处理、流计算、OLAP引擎

【大数据处理框架】Spark大数据处理框架，包括其底层原理、架构、编程模型、生态圈

SparkStreaming

Spark_Spark foreachRDD 使用示例以及注意事项