sparkStreaming 第14页

Tornado Websocket + Redis ：实现“填鸭式”推送

前段时间的云计算课程中，老师要求使用SparkStreaming完成一个小项目。

月敢为你忘缺·2021-06-10 14:56

大量数据量下，很实用的共享变量

最近在负责SparkStreaming结合SparkSql的相关项目，语言是Java，留下一些笔记，也供大家参考，如有错误，请指教！

jason__huang·2021-06-10 14:40

182、Spark 2.0新特性之智能化Structured Streaming介绍

StructuredStreaming介绍SparkStreaming应该说是将离线计算操作和流式计算操作统一起来的大数据计算框架之一。

ZFH__ZJ·2021-06-10 08:59

SparkStreaming 的代码在哪里运行

由于实习做的一个项目用SparkStreaming计算全量实时更新的数据，产生了对任务运行过程中代码运行位置的困惑（Driver端执行还是Executor端执行？）做了以下测试。

肌霸·2021-06-10 02:34

关于SparkStreaming的checkpoint的弊端

当使用sparkstreaming处理流式数据的时候，它的数据源搭档大部分都是Kafka，尤其是在互联网公司颇为常见。

尼小摩·2021-06-08 23:12

Spark 2.0 Structured Streaming 分析

Spark2.0之前作为Spark平台的流式实现，SparkStreaming是有单独一套抽象和API的，大体如下图片来源于Spakr官网代码的

祝威廉·2021-06-08 14:05

sparkStreaming

Checkpoint机制和ZooKeeper机制：--当程序只是挂掉之后重启而没有修改代码的时候，通过Checkpoint机制反序列化信息；--当应用程序升级了代码的时候，首先需要gracefulstop我们的SparkStreaming

小鑫_2bc0·2021-06-07 10:11

Hadoop对Spark：正面比拼报告（架构、性能、成本、安全性和机器学习）

如果想批处理流量数据，并将其导入HDFS或使用SparkStreaming是否合理?如果想要进行机器学习和预测建模，Mahout或MLLib会更好地满足你的需求吗?

yoku酱·2021-06-07 04:42

科大讯飞-软件开发工程师岗技术面

自我介绍，讲一讲项目，sparkstreaming从kafka获取数据两种方式，讲一讲servlet生命周期！

淫生苦短·2021-06-06 08:37

Spark Streaming运行架构分析

简介SparkStreaming是SparkCore的扩展，是构建于SparkCore之上的实时流处理系统。

H猫眼里的半途·2021-06-05 08:59

Spark Streaming入门

概述Hadoop的MapReduce及SparkSQL等只能进行离线计算，无法满足实时性要求较高的业务需求，例如实时推荐，实时网站性能分析等，流式计算可以解决这些问题，sparkStreaming就是现在常用的流式计算框架

董二弯·2021-06-04 20:03

Spark Structured Streaming 2.4 踩的一些坑

最近参与一个公司大数据项目开始入坑Spark，Spark从2.0开始从RDD的底层API转向了面向Dataset/Dataframe的高级API，SparkStreaming也换成了StructuredStreaming

华安火车迷·2021-06-04 15:01

基于Kafka+SparkStreaming+OushuDB搭建批流一体大数据分析架构

实时消息KafkaKafka是最初由Linkedin公司开发，是一个分布式、分区的、多副本的、多订阅者，基于zookeeper协调的分布式日志系统（也可以当做MQ系统），常见可以用于web/nginx日志、访问日志，消息服务等等，Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是：日志收集系统和消息系统。Kafka主要设计目标如下：以时间复杂度为O(1)的方式

lzw379764332·2021-05-28 23:05

Flink 在有赞的实践和应用

作者：沈磊一、Flink的容器化改造和实践1.有赞的集群演进历史2014年7月，第一个Storm任务正式上线；2016年，引入SparkStreaming，运行在HadoopYarn；2018年，引入了

阿里云云栖号·2021-05-27 10:23

Flink 在有赞的实践和应用

作者：沈磊一、Flink的容器化改造和实践1.有赞的集群演进历史2014年7月，第一个Storm任务正式上线；2016年，引入SparkStreaming，运行在HadoopYarn；2018年，引入了

阿里云云栖号·2021-05-27 10:12

消息队列一点点总结

订阅系统实现一个微服务级系统间的观察者模式用户活动的追踪用户在web或者App的活动行为，通过消费kafka的topic做分析或者存储；限流、削峰填谷对激增场景限流；电商商城、订单、支付；流式处理连接计算任务和数据、流式计算框架sparkstreaming

keeeepcodeing·2021-05-25 16:12

揭开Spark Streaming神秘面纱① - DStreamGraph 与 DStream DAG

在SparkStreaming中，DStreamGraph是一个非常重要的组件，主要用来：通过成员inputStreams持有SparkStreaming输入源及接收数据的方式通过成员outputStreams

牛肉圆粉不加葱·2021-05-21 10:35

Spark基础知识

的任务调度执行机制，减少了迭代计算时的I/O开销；Spark的设计遵循“一个软件栈满足不同应用场景”的理念，形成了一套完整的生态系统，既能够提供内存计算框架，也可以支持SQL即席查询（SparkSQL）、流计算（SparkStreaming

冰科技·2021-05-19 19:53

[Kafka]整合到Spark Streaming

整合Kafka到SparkStreaming——代码示例和挑战-stark_summer的专栏-博客频道-CSDN.NEThttp://blog.csdn.net/stark_summer/article

葡萄喃喃呓语·2021-05-18 22:50

spark streaming 窗口操作和join 操作

WindowOperationSparkStreaming也可以提供基于窗口的计算，这样允许你操作一个滑动窗口时间内的数据。

pcqlegend·2021-05-16 19:48

22list『DT_Spark 』第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本

第114课:SparkStreaming+Kafka+SparkSQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本)-段智华的博客-博客频道-CSDN.NEThttp

葡萄喃喃呓语·2021-05-16 12:49

2018-09-14 Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化

目前公司对实时性计算的需要及应用越来越多，本文选取了其中之一的SparkStreaming来介绍如何实现高

四火流年·2021-05-13 23:13

【全网详解】从0到1搭建双十一实时交易数据展示平台——Spark+Kafka构建实时分析系统

目录万事具备之巧借东风预备知识环境搭建Spark安装Kafka安装Kafka核心知识介绍Kafka开启及测试服务Python依赖库PyCharm安装搭建总结八仙过海之各显神通数据预处理运行效果代码代码展示神笔马良之画龙点睛SparkStreaming

王小王-123·2021-05-13 20:51

海量数据分流处理-------一致性哈希算法

掌握了不少我只认为是工具的东西，比如Hadoop中的HDFS、Mapreduce、Yarn、HBase、Hive、Sqoop、Flume、Mahout、Pig、Zookeeper等和Spark中的SparkSQL、SparkStreaming

狼牙战士·2021-05-12 16:04

Spark Streaming Backpressure分析

1、为什么引入Backpressure默认情况下，SparkStreaming通过Receiver以生产者生产数据的速率接收数据，计算过程中会出现batchprocessingtime>batchinterval

尼小摩·2021-05-12 16:13

PySpark之SparkStreaming基本操作

PySpark之SparkStreaming基本操作前言流数据具有如下特征：•数据快速持续到达，潜在大小也许是无穷无尽的•数据来源众多，格式复杂•数据量大，但是不十分关注存储，一旦经过处理，要么被丢弃，

张先生-您好·2021-05-11 15:15

Spark Streaming一致性、容错机制分析

SparkStreaming容错机制保障参考https://databricks.com/blog/2015/01/15/improved-driver-fault-tolerance-and-zero-data-loss-in-spark-streaming.html

分裂四人组·2021-05-10 23:42

2.2 kafka-manager的安装与配置

目录1.系统架构2.环境搭建2.1本地环境下kafka批量导入数据2.2kafka-manager的安装与配置3.1SparkStreaming性能调优(一):解决并行度3.2SparkStreaming

PigPIgAutumn·2021-05-10 02:02

Spark的那些事（一）

一Spark生态：1111.png支持SparkSql用于sql和结构化数据查询处理；支持MLlib用于机器学习；支持GraphX用于图形处理；支持SparkStreaming和StructuredSql

假文艺的真码农·2021-05-09 06:46

第4课:Spark Streaming 事务处理彻底掌握

本期内容：1.Exactlyonce容错2.数据输出不重复一.SparkStreaming中的事务场景:在SparkStreaming中事务是指能够处理且只处理一次,能够输出且只输出一次.以银行转帐一次为例

kaden·2021-05-08 11:28

Spark Streaming如何消费Kafka的大消息(30M-40MB)

版本虽然很少有生产环境用Kafka传递超过1M消息的场景（因为高吞吐、低延时的要求，Kafka发布-订阅模型中Producer-Broker-Consumer3方的相关默认配置都是1M），但由于手上项目的特殊需求，希望SparkStreaming

俺是亮哥·2021-05-07 14:29

spark streaming源码分析之job、rdd、blocks之间是如何对应的？

假设你已经了解job是如何被划分及提交的，若不了解请前往sparkstreaming流程详解当前位置是JobGenerator类的generateJobs的方法，我们重点看上面的generateJobs

cclucc·2021-05-07 11:05

python玩storm趟坑记

storm是最有名的实时流处理，spark虽然也有sparkstreaming，出来得比较晚，要趟的坑比storm要多，首选还是storm。

小木胆·2021-05-03 09:49

Spark计算《西虹市首富》短评词云

阿坤的博客·2021-05-03 06:21

Spark Streaming 数据清理机制

大家刚开始用SparkStreaming时，心里肯定嘀咕，对于一个7*24小时运行的数据，cache住的RDD,broadcast系统会帮忙自己清理掉么？还是说必须自己做清理？

祝威廉·2021-05-03 00:29

【翻译】Spark Streaming 管理 Kafka Offsets 的方式探讨

ClouderaEngineeringBlog翻译：OffsetManagementForApacheKafkaWithApacheSparkStreamingSparkStreaming应用从Kafka

_和_·2021-05-01 14:54

让Spark成为你的瑞士军刀

很感慨Spark用好了，真的是大数据的瑞士军刀依托于SparkStreaming/SparkSQL，封装了一套通过配置和SQL就能完成批处理和流式处理的引擎，这样可以很好的完成复杂的ETL处理过程，实现了数据的流转和变换

祝威廉·2021-05-01 06:04

Spark Streaming源码解读之Receiver生成全生命周期彻底研究和思考

SparkStreaming源码解读之Receiver生成全生命周期彻底研究和思考-http://www.jianshu.com/p/dff0dbf0ced0一：Receiver启动的方式设想1.SparkStreaming

葡萄喃喃呓语·2021-04-30 22:45

2.1 本地环境下kafka批量导入数据

目录1.系统架构2.环境搭建2.1本地环境下kafka批量导入数据2.2kafka-manager的安装与配置3.1SparkStreaming性能调优(一):解决并行度3.2SparkStreaming

PigPIgAutumn·2021-04-30 19:08

Spark Streaming整合Kafka

前几章介绍了Kafka、SparkStreaming入门、SparkStreaming进阶。在这一章一起学习SparkStreaming和Kafka的整合。

董二弯·2021-04-28 01:22

16.Spark Streaming源码解读之数据清理机制解析

本期内容：一、SparkStreaming数据清理总览二、****SparkStreaming****数据清理过程详解三、****SparkStreaming****数据清理的触发机制SparkStreaming

飞帅记忆·2021-04-26 22:05

Flume+Kafka+SparkStreaming 进行WordCounts实例

1.flumeflume的安装配置就不说了，网上一大堆。我还是给一个网址吧，https://www.jianshu.com/p/82c77166b5a3编写flume配置文件cd/opt/apache-flume-1.8.0-binvimconf/flume_kafka_and_hdfs.conf填写内容如下：a1.sources=r1a1.sinks=k1k2a1.channels=c1c2a1

盗梦者_56f2·2021-04-25 05:56

Spark Streaming 原理剖析

通过源码呈现SparkStreaming的底层机制。

三万_chenbing·2021-04-24 02:24

Spark学习_01_概述

通过sparkSQL，用户可以使用SQL或者apacheHive版本的HQL来查询数据·sparkstreaming是spark平台上针对实时数据进行流式计算的组件，提供

?CaMKII·2021-04-23 19:28

2021年大数据Spark（三十四）：Spark Streaming概述

SparkStreaming在很多实时数据处理的场景中，都需要用到流式处理（StreamProcess）框架，Spark也包含了两个完整的流式处理框架SparkStreaming和StructuredStreaming

Lansonli·2021-04-21 19:39

背压

举例SparkStreaming这句话怎么理解？？？首先，服务中心的服务能力是有限的，要处理的事件时多时少，资源浪费?资源不够?在系统架构设计中，要思考2个问题：1、服务中心要抗住峰值事

___Hello·2021-04-21 14:59

Spark案例

Spark实战，第1部分:使用Scala语言开发Spark应用程序Spark实战,第2部分:使用Kafka和SparkStreaming构建实时数据处理系统Spark实战，第3部分:使用SparkSQL

Albert陈凯·2021-04-20 20:45

【Flink 精选】如何分析及处理反压?

阐述Flink、Storm，SparkStreaming的反压机制，Flink如何定位及分析反压？概念反压（backpressure）是流式计算中十分常见的问题。

熊本极客·2021-04-19 15:29

十年编程大佬带你复盘Flink，SparkStreaming，Storm经典对战，谁将最终胜出？

1.Flink架构及特性分析Flink是个相当早的项目，开始于2008年，但只在最近才得到注意。Flink是原生的流处理系统，提供highlevel的API。Flink也提供API来像Spark一样进行批处理，但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在Flink中，所有的数据都看作流，是一种很好的抽象，因为这更接近于现实世界。1.1基本架构下面我们介绍下Flin

Java架构领域·2021-04-18 14:44

Flink 原理与实现：如何处理反压问题

目前主流的流处理系统Storm/JStorm/SparkStreaming/Fli

尼小摩·2021-04-17 23:30

推荐频道

sparkStreaming

Tornado Websocket + Redis ：实现“填鸭式”推送

大量数据量下，很实用的共享变量

182、Spark 2.0新特性之智能化Structured Streaming介绍

SparkStreaming 的代码在哪里运行

关于SparkStreaming的checkpoint的弊端

Spark 2.0 Structured Streaming 分析

sparkStreaming

Hadoop对Spark：正面比拼报告（架构、性能、成本、安全性和机器学习）

科大讯飞-软件开发工程师岗技术面

Spark Streaming运行架构分析

Spark Streaming入门

Spark Structured Streaming 2.4 踩的一些坑

基于Kafka+SparkStreaming+OushuDB搭建批流一体大数据分析架构

Flink 在有赞的实践和应用

Flink 在有赞的实践和应用

消息队列一点点总结

揭开Spark Streaming神秘面纱① - DStreamGraph 与 DStream DAG

Spark基础知识

[Kafka]整合到Spark Streaming

spark streaming 窗口操作 和join 操作

22list『DT_Spark 』第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本

2018-09-14 Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化

【全网详解】从0到1搭建双十一实时交易数据展示平台——Spark+Kafka构建实时分析系统

海量数据分流处理-------一致性哈希算法

Spark Streaming Backpressure分析

PySpark之SparkStreaming基本操作

Spark Streaming一致性、容错机制分析

2.2 kafka-manager的安装与配置

Spark的那些事（一）

第4课:Spark Streaming 事务处理彻底掌握

Spark Streaming如何消费Kafka的大消息(30M-40MB)

spark streaming源码分析之job、rdd、blocks之间是如何对应的？

python玩storm趟坑记

Spark计算《西虹市首富》短评词云

Spark Streaming 数据清理机制

【翻译】Spark Streaming 管理 Kafka Offsets 的方式探讨

让Spark成为你的瑞士军刀

Spark Streaming源码解读之Receiver生成全生命周期彻底研究和思考

2.1 本地环境下kafka批量导入数据

Spark Streaming整合Kafka

16.Spark Streaming源码解读之数据清理机制解析

Flume+Kafka+SparkStreaming 进行WordCounts实例

Spark Streaming 原理剖析

Spark学习_01_概述

2021年大数据Spark（三十四）：Spark Streaming概述

背压

Spark案例

【Flink 精选】如何分析及处理反压?

十年编程大佬带你复盘Flink，SparkStreaming，Storm经典对战，谁将最终胜出？

Flink 原理与实现：如何处理反压问题

spark streaming 窗口操作和join 操作