sparkstreaming 第10页

SparkStreaming优雅关闭剖析

简介在前面的文章中，总结了SparkStreaming入门级的文章，了解到SparkStreaming是一种微批处理的"实时"流技术，在实际场景中，当我们使用SparkStreaming开发好功能并通过测试之后部署到生产环境

Bloo_m·2023-02-07 07:11

源码解析之checkpoint：rdd/streaming都是如何实现的？以及作用都是什么？

后来用sparkstreaming后更迷惑了，众所周知有些时候需要保存每一条数据的状态，或者我需要维持一个7天/30天的窗口，那么做checkpoint的时候难道我要把流里所有的数据都存下来吗？

cclucc·2023-02-06 21:48

sparkstreaming线程数小于2时出错！

运行sparkstreamig出错！当运行一个spark2.2.0官方文档的实例时，sparkstreaing出现如下错误：2019-04-1019:40:00WARNRandomBlockReplicationPolicy:66-Expecting1replicaswithonly0peer/s.2019-04-1019:40:00WARNBlockManager:66-Blockinput-0

时光如水_fe87·2023-02-06 13:18

Spark之Spark Streaming原理

一、SparkStreaming概述SparkStreaming类似于ApacheStorm，用于流式数据的处理，具有高吞吐量和容错能力强等特点。

没才艺的华哥·2023-02-06 13:45

群内2018_4月讨论整理1

about云铁粉2018.04.13_01问题描述面试资源题目分享资料TOP25大常见Hadoop面试题及答案Spark面试题汇总密码：bcpc2018.04.12_01问题描述sklearn训练的模型如何在sparkstreaming

喵_十八·2023-02-06 04:03

SparkStreaming 窗口操作

热点搜索词滑动统计，每隔10秒钟，统计最近60秒钟的搜索词的搜索频次，并打印出排名最靠前的3个搜索词以及出现次数普通SparkStreaming处理方式，如果将时间间隔设置成60s，无法每隔10s输出一次结果

张明洋_4b13·2023-02-06 02:10

spark on yarn申请内存大小的计算方法

最近在调试sparkStreaming程序的时候，遇到一个问题：我设置的sparkStreaming的相关参数如下：spark.executor.instances：56spark.executor.memory

冰血_ang·2023-02-04 10:51

Spark高频面试题

Spark真实面试题总结文章目录1.SparkStreaming和Flink的区别？

记忆里的一条鱼·2023-02-02 09:56

实时召回集业务

4.3实时召回集业务学习目标目标实时内容召回的作用应用应用sparkstreaming完成实时召回集的创建4.3.1实时召回实现实时召回会用基于画像相似的文章推荐创建online文件夹，建立在线实时处理程序目的

Echo-Niu·2023-01-31 02:46

【sparkstreaming整理】

文章目录sparkstreaming0.什么是sparkstreaming1.什么是流式处理：2.sparkstreaming处理数据的方式:3.构建Dstream的两种方式：4.sparkstreaming

走多远才算远·2023-01-30 15:53

Spark综合学习笔记（十六）SparkStreaming整合Kafka-代码实现3-手动提交偏移量到MYSQL

p=50需求：手动提交偏移量到MYSQL代码实现（1）SparkStreaming_Kafka_Demo03packagestreamingimportorg.apache.kafka.clients.consumer.ConsumerRecordimportorg.apache.kafka.comm

斯特凡今天也很帅·2023-01-30 10:01

Spark Streaming整合Kafka

编写SparkStreaming代码importorg.apache.kafka.clients.consumer.

白修修·2023-01-30 10:01

Java-Spark系列8-Spark streaming整合Kafka

文章目录一.Sparkstreaming整合Kafka概述1.1Maven配置1.2创建DirectStream1.3定位策略1.4消费者的策略1.5创建RDD1.6获得Offsets1.7存储Offsets1.8

只是甲·2023-01-30 10:31

java sparkstreaming_基于Java+SparkStreaming整合kafka编程

packagecom.spark.test;importjava.util.HashMap;importjava.util.HashSet;importjava.util.Arrays;importjava.util.Iterator;importjava.util.Map;importjava.util.Set;importjava.util.regex.Pattern;importscala.

穆晨王·2023-01-30 10:31

Spark Streaming整合kafka(1)

相比基于Receiver方式有几个优点：A、简化并行不需要创建多个kafka输入流，然后union它们，sparkStreaming将会创建和kafka分区一种的rdd的分区数，而且会从kafka中并行读

cyclebozhou·2023-01-30 10:30

spark--Spark Streaming整合kafka-★★★★★

SparkStreaming整合kafka-★★★★★Kafka概念回顾Kafka命令回顾整合方式说明Receiver模式--仅仅为了面试Direct模式--开发用这个结论整合API说明代码实现-自动提交偏移量代码实现

韩家小志·2023-01-30 10:30

sparkstreaming整合kafka的两种方式

sparkstreaming整合kafka的两种方式sparkstreaming整合旧版本的kafka有两种方式，一般称为Receiver方式和Direct方式。

李_少·2023-01-30 10:00

SparkStreaming整合Kafka

1.Receiver模式1.KafkaUtils.createDStream--API创建。2.会有一个Receiver作为常驻Task运行在Executor进行中，一直等待数据的到来。3.一个Receiver效率会比较低，那么可以使用多个Receiver,但是多个Receiver中的数据又需要手动进行合并，很麻烦，且其中某个Receiver挂了之后，会导致数据丢失，需要开启WAL预写日志来保证数

程序员阿伟·2023-01-30 10:30

Spark Streaming整合Kafka及示例

SparkStreaming整合Kafka及示例Spark和kafka整合有2中方式：Receiver和Dirct主要学习Dirct方式一、Receiver二、Direct三、代码演示完整pom文件4.0.0com.jiangspark1.0

Joker_Jiang3·2023-01-30 10:29

SparkStreaming 整合Kafka

SparkStreaming整合KafkaSparkStreaming连接kafka的两种方式ReceiverbasedApproahKafkaUtils.createDstream基于接收器方式，消费

健鑫.·2023-01-30 10:59

（十一）SparkStreaming数据零丢失--使用jdbc存储offset

1.MySQL创建存储offset的表格mysql>usetestmysql>createtablehlw_offset(topicvarchar(32),groupidvarchar(50),partitionsint,fromoffsetbigint,untiloffsetbigint,primarykey(topic,groupid,partitions));2.Maven依赖包2.11.8

白面葫芦娃92·2023-01-29 16:02

SparkStreaming使用mapWithState时，设置timeout()无法生效问题，解决方案和原因过程分析！

前言当我在测试SparkStreaming的状态操作mapWithState算子时，当我们设置timeout(3s)的时候，3s过后数据还是不会过期，不对此key进行操作，等到30s左右才会清除过期的数据

Seven0007_·2023-01-29 02:43

spark.1

SparkStreaming：Spark提供的实

瓜皮小咸鱼·2023-01-27 19:45

Flink 详解与分析一

通常被人们称为第三代大数据分析方案第一代大数据处理方案：基于Hadoop的MapReduce静态批处理|Storm实时流计算，两套独立的计算引擎，难度大（2014年9月）第二代大数据处理方案：SparkRDD静态批处理、SparkStreaming

迈希杰·2023-01-27 11:25

Flink知识点总结 Flink简介

Flink提供了诸多高抽象层的API以便用户编写分布式任务：DataSetAPI、DataStreamAPI、TableAPI等Flink跟SparkStreaming的区别Flink是标准的实时处理引擎

null如也·2023-01-27 11:44

学习spark streaming 2.2.0 kafka源码解读（零）

从原有的java慢慢进入大数据时代，认真学习一下sparkstreaming的源码，帮助自己能够更好的理解从一个简单的从kafka中获取数据来进入学习过程版本：sparkstreaming2.2.0spark-streaming-kafka

疯狂的大东·2023-01-26 21:38

SparkStreaming延迟监控

SparkStreaming延迟监控这篇博客来源于一个惨痛的线上事故经历，我们编写好SparkStreaming程序清洗行为数据，然后每十分钟往Hive写一次，大家都以为任务正常的运行，不会出什么问题，

嘿嘿hhahaah·2023-01-26 10:31

大数据-Spark的介绍：前世今生

Spark包含了大数据领域常见的各种计算框架：比如SparkCore用于离线计算，SparkSQL用于交互式查询，SparkStreaming用于实时流式计算，SparkMLlib用于机器学习，SparkGraphX

Iamarookie999·2023-01-24 20:56

Flink 基础原理与优化思路

Flink的特性Flink相比传统的SparkStreaming有什么区别?Flink的组件栈有哪些？Flink的运行必须依赖Hadoop组件吗？Flink的基础编程模型了解吗？

二道贩子@max·2023-01-12 10:48

一次弄懂Spark运行模式和框架模块

整个Spark框架模块包含：SparkCore、SparkSQL、SparkStreaming、SparkGraphX、SparkMLlib，而后四项的能力都是建立在核心引擎之上。

让你五行代码·2023-01-10 14:11

SPark学习笔记：13 Spark Streaming 的Transform算子和Action算子

TransformationsonDStreamsmapflatMapfilterrepartitonunioncountcountByValuereducereduceByKeyjoincogrouptransformupdateStateByKeySparkStreaming

wangzhongyudie·2023-01-07 14:10

Learning Spark（Ⅰ）

可支持多种开发语言，Java，python，scala，R3.通用性SQL查询：SparkSQL流式计算：SparkStreaming机器学习：SparkMLib图算法组件：S

松阁~·2023-01-05 02:05

ElasticSearch——进阶（二）

ElasticSearch——进阶（二）ElasticSearch集成SpringData集成SpringDataElasticSearch介绍集成步骤SparkStreaming框架、Flink框架集成集成步骤

鑫！·2022-12-29 14:49

Flink笔记

架构演变Flink特点Flink和SparkStreaming的区别部署配置Standalone模式Yarn模式Session-cluster模式Per-Job-Cluster模式Flink运行时的组件任务提交流程任务调度原理专业术语并行度

朱雨鹏·2022-12-29 10:04

大数据Hadoop、HDFS、Hive、HBASE、Spark、Flume、Kafka、Storm、SparkStreaming这些概念你是否能理清？

HadoopHadoop是大数据开发的重要框架，是一个由Apache基金会所开发的分布式系统基础架构，其核心是HDFS和MapReduce，HDFS为海量的数据提供了存储，MapReduce为海量的数据提供了计算，在Hadoop2.x时代，增加了Yarn，Yarn只负责资源的调度。目前hadoop包括hdfs、mapreduce、yarn、核心组件。hdfs用于存储，mapreduce用于计算,y

神州永泰·2022-12-26 08:15

SpringBoot整合Kafka

主要用于大数据实时处理特性高吞吐量,低延迟可扩展性持久性,可靠性容错性高并发使用场景日志收集消息系统用户活动跟踪:记录用户的各种活动,如浏览网页,搜索,点击等活动运营指标:记录运营监控数据流式处理:如sparkstreamingWindows

富贵er·2022-12-24 17:02

从0到1搭建大数据平台之数据计算

文章目录前言一、传统的数据计算二、Hadoop的崛起三、离线计算MapReduceHiveSparkSQL四、实时计算SparkStreamingFlink总结前言大家好，我是脚丫先生(o^^o)之前有说过

大数据指北·2022-12-21 04:35

Spark-SaprkStreaming(概述、架构、原理、DStream转换、案例)

文章目录SparkStreaming概述特点架构原理DStream和RDD的区别DAG如何读取数据(※)WordCount案例实操代码解析RDD队列用法及说明案例实操自定义数据源Kafka数据源DStream

迷雾总会解·2022-12-18 19:44

Flink

通常被人们称为第三代大数据分析方案第一代大数据处理方案：基于Hadoop的MapReduce静态批处理|Storm实时流计算，两套独立的计算引擎，难度大（2014年9月）第二代大数据处理方案：SparkRDD静态批处理、SparkStreaming

塞纳河畔的王子·2022-12-18 16:31

Fire框架--一行代码实现Flink与Kafka集成

核心代码仅一行：//SparkStreaming任务valdstream=this.fire.createKafkaDirectStream()//structuredst

RS131419·2022-12-18 16:29

windows安装spark和hadoop

pipinstallpyspark一、windows安装spark和hadoop(110条消息)Windows下配置Hadoop及Spark环境zhangz1z的博客-CSDN博客windows配置spark环境1.1运行出错sparkstreaming

sunny_ice·2022-12-15 11:57

大数据与Spark的特点优势

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计算框架。

大数据19-2罗贤婷·2022-12-15 11:25

Flink特点与Spark的比较

SparkStreaming就是为批次处理，这是与Flink的最大区别。1.2.流与批的世界观：其中，批处理的特点是，有界、持久、大量，数据是一个批次一个批次的来，通常用于T+1模式。

小亮，该睡觉啦！·2022-12-15 11:21

Spark Streaming特点

SparkStreaming特点1、易用2、容错3、易整合到Spark体系4、SparkStreaming与Storm的对比SparkStreamingStorm开发语言：Scala开发语言：Clojure

专注于大数据技术栈·2022-12-15 11:51

Spark技术栈中的组件

主要有SparkCore、SparkStreaming、SparkSQL等。

Rnan-prince·2022-12-15 11:18

大数据 Hive spark Flink 关系

大数据分为离线和实时数据Hive仅是离线数据sparkStreaming和Flink是实时数据工具spark衍生出各种工具，其核心是mr的优化Hive(核心功能:SQL=>Spark、对象(databases

确认过眼神cxy·2022-12-12 15:32

PySpark大数据计算教程

PySpark大数据计算教程了解如何将Spark与Python结合使用，包括SparkStreaming、机器学习、Spark2.0DataFrames等！

IT教程精选·2022-12-12 07:36

Spark的运行架构和基本原理

SparkStreaming:实时数据流处理组件，类

陆山右·2022-12-09 09:56

spark基本架构及原理

SparkStreaming：对实时数

一只哈士奇·2022-12-09 09:55

Spark核心之Spark Streaming

有五大核心技术，不知道大家还记不记得；给大家回忆下，这五大核心技术：分布式计算引擎SparkCore、基于Hadoop的SQL解决方案SparkSQL、可以实现高吞吐量、具备容错机制的准实时流处理系统SparkStreaming

天ヾ道℡酬勤·2022-12-07 11:42

推荐频道

sparkstreaming