sparkStreaming 第13页

大数据高级开发工程师——Spark学习笔记（1）

四大特性1.速度快2.易用性3.通用性4.兼容性内置组件1.集群资源管理2.SparkCore(核心库)3.SparkSQL(SQL解析)4.SparkStreaming(实时处理)5.SparkMLlib

yangwei_sir·2022-07-08 11:36

spark java 推荐系统_基于Spark的电影推荐系统（推荐系统~7）

2.SparkStreaming+kakfa开始Coding步骤一：在streaming包

仓颉的诗·2022-07-06 15:48

使用IntelliJ Idea开发Spark Streaming流应用程序

使用IntelliJIdea开发SparkStreaming流应用程序一、实验目的二、实验内容三、实验原理四、实验环境五、实验步骤5.1启动IntelliJIdea并创建spark项目5.2编写spark

不懂开发的程序猿·2022-07-05 19:09

基于SparkStreaming对银行日志处理系列--整体技术框架

基于SparkStreaming对银行日志分析，实时技术架构图通过flume实时采集原日志，送到kafka缓存，SparkStreaming准实时从kafka拿数据，经过ETL、聚合计算送到redis，

leep-li·2022-07-04 15:20

大数据----Hadoop----Spark入门介绍

文章目录Spark1．SparkCore2．SparkSQL3．SparkStreaming4．MLlibMachineLearningLibrary5．GraphXHadoop生态圈包含多种组件，貌似各不相同

noworldling·2022-07-02 07:33

分布式编程工具Akka Streams、Kafka Streams和Spark Streaming大PK

下面，我将和您讨论分布式编程工具AkkaStreams、KafkaStreams和SparkStreaming的主要特点、优缺点、以及如何在一个简单的字数统计应用中使用它们。文

java_beautiful·2022-06-30 14:08

DStream窗口操作

在SparkStreaming中，为DStream提供窗口操作，即在DStream流上，将一个可配置的长度设置为窗口，以一个可配置的速率向前移动窗口。

鄙人阿彬·2022-06-26 07:08

SparkStreaming 有几种方式消费 Kafka 中的数据（与 kafka 集成的方式）

基于Receiver的方式Reciever的问题是offset都会存到zk中，容易造成zk压力过大，而且Reciever获取数据和处理数据的线程不是同一批，可能会导致数据的积压，数据存储是在Sparkexecutor的内存中，大量数据积压容易导致OOM的情况，为了数据不丢失，还需要启动预写日志机制，把Kafka数据同步写入到HDFS中。虽然可以保证数据零丢失但是无法实现exactly-once（只

星空下的那个人影·2022-06-20 01:26

Spark Streaming词频统计实例

本实例旨在:通过SparkStreaming流式地处理一个数据服务从TCP套接字中接收到的数据。

蜗牛杨哥·2022-06-14 22:47

StructuredStreaming知识总结

一、StructuredStreaming的简介1.1为什么要引入StructuredStreamingspark生态系统中的sparkStreaming是一个micro-batch的准实时计算框架，它也需要一个实时计算框架

默主归沙·2022-06-08 13:00

图解大数据 | 流式数据处理-Spark Streaming

ShowMeAI·2022-05-30 07:08

Spark——安装及使用

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目，S

wangzhangni·2022-05-03 07:45

Spark ML流式在线学习模型初步构建分析-Spark商业ML实战

1SparkML流式在线学习初步讲解目前SparkStreaming支持StreamingLinearRegression和St

神兽牛·2022-05-03 07:13

大数据Hadoop之——Spark Streaming原理

一、概述SparkStreaming是对核心SparkAPI的一个扩展，它能够实现对实时数据流的流式处理，并具有很好的可扩展性、高吞吐量和容错性。

大数据老司机·2022-05-02 11:53

Scala_Spark-电商平台离线分析项目-需求七广告黑名单实时统计

Scala_Spark-电商平台离线分析项目-需求七广告黑名单实时统计第四模块：广告流量实时统计统计技术点：SparkStreaming、kafka集群补充知识点：DStream中：foreachRDD

大数据小阿姨·2022-04-24 15:47

Apache Flink 在蔚来汽车的应用

主要内容包括：实时计算在蔚来的发展历程实时计算平台实时看板CDP实时数仓其他应用场景点击查看直播回放&演讲PDF一、实时计算在蔚来的发展历程18年5月份左右，我们开始接触实时计算的概念，最初是用SparkStreaming

·2022-04-22 14:05

Flink 流批一体在小米的实践

本篇内容主要分为三个部分：小米的大数据发展演变流批一体的平台建设流批一体应用场景未来规划点击查看直播回放&演讲PDF一、小米的大数据发展演变2019年之前，小米的实时计算主要以SparkStreaming

·2022-04-18 11:47

Flink on K8s 在京东的持续优化实践

在2017年左右，我们实时计算是多个引擎并存的，包括Storm、SparkStreaming以及正在引入的新一代

·2022-04-07 10:46

Spark Streaming（二）Spark Streaming整合Kafka

主要分为以下几个方面，均附有实际代码：SparkStreaming简介SparkStreaming架构基础概念作业提交SparkStreaming窗口操作SparkStreaming容错性分析WAL工作原理

Yuan_CSDF·2022-03-18 04:51

Spark Streaming（一）简介与架构

主要分为以下几个方面，均附有实际代码：SparkStreaming简介SparkStreaming架构基础概念作业提交SparkStreaming窗口操作SparkStreaming容错性分析WAL工作原理

Yuan_CSDF·2022-03-18 04:50

图解大数据 | 流式数据处理-Spark Streaming

·2022-03-08 23:03

sparkstreaming读取文件读取不到数据

今天用了下sparkstreaming读取hdfs文件或本地目录文件，发现文件内容一直不会被处理，使用了下面两种方法都不行，阅读源码并开启DEBUG后发现，textFileStream后面也是调用fileStream

朱继业1993·2022-03-07 15:16

Spark+Hadoop+中台实战pdf -阿里巴巴资深架构师熬几个通宵肛出来的

架构与运行逻辑弹性分布式数据集2、Spark开发与环境配置Spark应用开发环境2置使用Intellii开发Spark远程调试Spark程序Spark编译配置Spark源码阅读环境3、BDAS简介SQLonSparkSparkStreamingGraphXMIlib4

Java技术小吴·2022-02-22 13:13

阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中台实战pdf

架构与运行逻辑弹性分布式数据集2、Spark开发与环境配置Spark应用开发环境2置使用Intellii开发Spark远程调试Spark程序Spark编译配置Spark源码阅读环境3、BDAS简介SQLonSparkSparkStreamingGraphXMIlib4

写代码的珏秒秒·2022-02-22 12:36

DStream 以及基本工作原理

SparkStreaming基本工作原理SparkStreaming内部的基本工作原理如下：接收实时输入数据流，然后将数据拆分成多个batch，比如每收集1秒的数据封装为一个batch，然后将每个batch

·2022-02-22 12:10

基于Spark的电影推荐系统（推荐系统~7）

SparkStreaming+kakfa在这里插入图片描述开始Coding步骤一：在streaming包下，新建PopularMovies2packagecom.csy

留歌_36·2022-02-21 09:34

SparkStreaming和kafka整合

1.SparkStreaming1.6+kafka0.8.2Receiver模式1):采用receiver模式,SparkStreaming需要Executor线程池开启一个线程接收kafka数据;2)

XtHhua·2022-02-19 14:41

Spark Steaming Abstract

SparkSteamingAbstractSparkStreaming是SparkCoreAPI的扩展，它支持弹性的，高吞吐的，容错的实时数据流的处理。

右左君·2022-02-18 22:54

spark从入门到放弃五十四:Spark Streaming(14)checkpoint

1.概述每一个sparkstreaming应用正常来说都要7*24小时运转的，这就是实时计算程序的特点。因为要持续不断的对数据进行计算。

意浅离殇·2022-02-18 11:33

大数据生态圈技术整理

ZookeeperYARNAmbariClouderaManagerHue数据存储HDFSHBaseCarbonDataAccumulo消息系统KafkaRabbitMQActiveMQ数据收集LogstashFlumeNIFIFluentd数据处理SparkSparkStreamingStormFlin

非常强壮的蚂蚁·2022-02-18 02:41

5. 基于案例一节课贯通Spark Streaming流计算框架的运行源码

在SparkStreaming程序的入口，我们都会定义一个batchDuration，就是需要每隔多长时间就按照DStreamGraph来动态生成一个RDDDAG实例。

milkfan·2022-02-17 11:53

Spark Streaming进阶

在前面SparkStreaming入门的基础上继续深入学习SparkStreamingStreamingContext初始化一个SparkStreaming程序时必须要创建StreamingContext

董二弯·2022-02-16 21:33

kafka 简介

它与ApacheSparkStreaming非常好地集成，用

博弈史密斯·2022-02-15 16:53

如何管理Spark Streaming消费Kafka的偏移量（二）

上篇文章，讨论了在sparkstreaming中管理消费kafka的偏移量的方式，本篇就接着聊聊上次说升级失败的案例。

尼小摩·2022-02-15 15:59

Spark多语言开发

目录1多语言开发-说明2Java-Spark-掌握2.1SparkCore2.2SparkStreaming2.3SparkSQL2.4StructuredStreaming2.5线性回归算法-房价预测案例

赵广陆·2022-02-15 11:45

【零基础学flink】Flink核心原理、源码解析

关于Flink与其它主流实时大数据处理引擎Storm、SparkStreaming的不同与优势，可参考https://blog.csdn.net/cm_chenmin/article/details/53072498

大菜鸟_·2022-02-13 17:44

Dag图，Job生成

最近在负责SparkStreaming结合SparkSql的相关项目，语言是Java，留下一些笔记，也供大家参考，如有错误，请指教！

jason__huang·2022-02-13 11:11

简介

而我的需求就是定位问题与解决问题,这里就特意写个文集来记录自己学习该大数据日志分析系统的心得目录1.系统架构2.环境搭建2.1本地环境下kafka批量导入数据2.2kafka-manager的安装与配置3.1SparkStreaming

PigPIgAutumn·2022-02-13 06:55

kafka =>SparkStreaming=>kudu集成kerberos

本文档主要介绍在cdh集成kerberos情况下，sparkstreaming怎么消费kafka数据，并存储在kudu里面假设kafka集成kerberos假设kudu集成kerberos假设用非root

阿甘骑士·2022-02-12 23:48

05 Spark Streaming Programming Guide

转载请注明出处，谢谢合作～该篇中的示例暂时只有Scala版本～SparkStreaming编程指南概述（Overview）快速示例（AQuickExample）基础概念（BasicConcepts）启用

Whaatfor·2022-02-12 04:18

5W字总结Spark（二）(建议收藏)

四、SparkStreamingSparkStreaming是一个基于SparkCore之上的实时计算框架，可以从很多数据源消费数据并对数据进行实时的处理，具有高吞吐量和容错能力强等特点。

坨坨的大数据·2022-02-10 18:47

5W字总结Spark（一）(建议收藏)

本文目录：一、Spark基础二、SparkCore三、SparkSQL四、SparkStreaming五、StructuredStreaming六、Spark两种核心Shuffle七、Spark底层执行原理八

坨坨的大数据·2022-02-10 18:12

Spark生态圈小贴士

学习Spark的基本组件，主要由SparkSql、SparkStreaming等构成，简单理解其基本原理，构建Spark生态的全貌。

采风JS·2022-02-10 05:38

Kafka学习

1.Kafka消费方式：通过Flume，将kafka消息存储到HDFS通过SparkStreaming读取kafka消息，存储到redis2.高级API和低级API的区别https://www.jianshu.com

解宏斌·2022-02-09 06:27

Spark Streaming+Kakfa细节剖析

SparkStreaming+Kakfa细节剖析本文基于Kafka1.1.0和Spark2.3.0版本源代码进行分析Kafka消费接口Kafka消费接口包含：低级和高级API，这个区分主要针对broker

alan787·2022-02-05 09:09

sparkstreaming整合kafka

receiver从Kafka中获取的数据都是存储在SparkExecutor的内存中的，然后SparkStreaming启动的job会去处理那些数据。

db9388a2d4c5·2022-02-05 00:33

Spark企业级项目实战：实时流量监控系统

本项目使用了Spark技术生态栈中的三个技术框架：SparkCore、SparkStreaming和SparkMLlib，进行道路交通实时流量监控预测系统的开发。

飞雪雪团队·2022-02-03 05:42

互联网一线大厂OPPO大数据技术岗面试题汇总

1）技术部分（1）SparkStreaming消费方式及区别，Spark读取HDFS的数据流程（2）Kafka高性能（3）Hive调优，数据倾斜（4）Zookeeper怎么避免脑裂，什么是脑裂。

·2022-01-20 12:33

Spark 常见问题汇总（持续更新）

Sparkstreaming以及基本工作原理？DStrea

程序员的隐秘角落·2021-11-30 16:11

Spark综合学习笔记（十八）SparkSQL数据抽象

p=53引言SparkCore的数据抽象:RDDSparkStreaming的数据抽象:DStream,底层是RDDSparkSQL的数据抽象:DataFrame和DataSet,底层是RDDDataFrame

斯特凡今天也很帅·2021-11-25 12:10

推荐频道

sparkStreaming

大数据高级开发工程师——Spark学习笔记（1）

spark java 推荐系统_基于Spark的电影推荐系统（推荐系统~7）

使用IntelliJ Idea开发Spark Streaming流应用程序

基于SparkStreaming对银行日志处理系列--整体技术框架

大数据----Hadoop----Spark入门介绍

分布式编程工具Akka Streams、Kafka Streams和Spark Streaming大PK

DStream窗口操作

SparkStreaming 有几种方式消费 Kafka 中的数据（与 kafka 集成的方式）

Spark Streaming词频统计实例

StructuredStreaming知识总结

图解大数据 | 流式数据处理-Spark Streaming

Spark——安装及使用

Spark ML流式在线学习模型初步构建分析-Spark商业ML实战

大数据Hadoop之——Spark Streaming原理

Scala_Spark-电商平台离线分析项目-需求七广告黑名单实时统计

Apache Flink 在蔚来汽车的应用

Flink 流批一体在小米的实践

Flink on K8s 在京东的持续优化实践

Spark Streaming（二）Spark Streaming整合Kafka

Spark Streaming（一）简介与架构

图解大数据 | 流式数据处理-Spark Streaming

sparkstreaming读取文件读取不到数据

Spark+Hadoop+中台实战pdf -阿里巴巴资深架构师熬几个通宵肛出来的

阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中台实战pdf

DStream 以及基本工作原理

基于Spark的电影推荐系统（推荐系统~7）

SparkStreaming和kafka整合

Spark Steaming Abstract

spark从入门到放弃五十四:Spark Streaming(14)checkpoint

大数据生态圈技术整理

5. 基于案例一节课贯通Spark Streaming流计算框架的运行源码

Spark Streaming进阶

kafka 简介

如何管理Spark Streaming消费Kafka的偏移量（二）

Spark多语言开发

【零基础学flink】Flink核心原理、源码解析

Dag图，Job生成

简介

kafka =>SparkStreaming=>kudu集成kerberos

05 Spark Streaming Programming Guide

5W字总结Spark（二）(建议收藏)

5W字总结Spark（一）(建议收藏)

Spark生态圈小贴士

Kafka学习

Spark Streaming+Kakfa细节剖析

sparkstreaming整合kafka

Spark企业级项目实战：实时流量监控系统

互联网一线大厂OPPO大数据技术岗面试题汇总

Spark 常见问题汇总（持续更新）

Spark综合学习笔记（十八）SparkSQL数据抽象