sparkstreaming 第55页

Spark学习笔记：Spark Streaming数据存储与调优

目录SparkStreaming数据存储与调优一.缓存与持久化机制二.Checkpoint机制三.部署、升级和监控应用程序1.部署应用程序2.升级应用程序3.监控应用程序4.容错机制以及事务语义详解5.

SetsunaMeow·2018-09-24 20:03

Spark学习笔记：Spark Streaming与Spark SQL协同工作

SparkStreaming与SparkSQL协同工作SparkStreaming可以和SparkCore，SparkSQL整合在一起使用，这也是它最强大的一个地方。

SetsunaMeow·2018-09-19 17:48

Spark修炼之道（进阶篇）——Spark入门到精通：第十二节 Spark Streaming—— DStream Window操作

作者：周志湖微信号：zhouzhihubeyond本节主要内容WindowOperation入门案例1.WindowOperationSparkStreaming提供窗口操作（WindowOperation

痞子锐·2018-09-14 17:48

spark中 Dynamic Allocation 以及 num-executors 的问题

之前使用spark2.3.1的sparkstreaming时，发现spark-submite设置num-executors10时，没有起作用，spark作业的executors一度多大几百个，后来把dynamicAllocation.enabledfalse

EnterPine·2018-09-12 16:41

大数据Spark与Storm技术选型

先做一个对比：对比点StormSparkStreaming实时计算模型纯实时，来一条数据，处理一条数据准实时，对一个时间段内的数据收集起来，作为一个RDD，再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善支持

CTO老王·2018-09-10 07:00

26-SparkStreaming02

用户行为日志信令数据cellmapWithStateDStream整合RDD==transform数据一：日志信息DStreamdomain,trafficruozedata.comruozedata.combaidu.com数据二：已有的文件黑名单RDDdomainbaidu.com==>(ruozedata.com,ruozedata.com,8888)www.ruozedata.com,88

CrUelAnGElPG·2018-09-10 02:15

26-SparkStreaming02

用户行为日志信令数据cellmapWithStateDStream整合RDD==transform数据一：日志信息DStreamdomain,trafficruozedata.comruozedata.combaidu.com数据二：已有的文件黑名单RDDdomainbaidu.com==>(ruozedata.com,ruozedata.com,8888)www.ruozedata.com,88

CrUelAnGElPG·2018-09-10 02:15

13.spark streaming之快速入门

简介 SparkStreaming是Spark核心API的扩展，可以实现可伸缩、高吞吐量、具备容错机制的实时流时数据的处理。

菲立思教育·2018-09-09 16:43

SparkStreaming集成Kafka，读取Kafka中数据，进行数据统计计算

体系结构如下：当SparkStreaming与Kafka做集成的时候Kafka成了Streaming的高级数据源，由于SparkStreaming和Kafka集成的时候，依赖的jar包比较多，而且还会产生冲突

Jantelope·2018-09-07 21:02

盘点大数据培训类别

通过学习掌握诸如Spark（包括SparkStreaming和SparkSQL）、Flume、Kafka以及Sqoop这样的Hadoop生态系统工具和技术，Hadoop开发员将具备解决实际大数据问题和挑战的能力

ClouderaHadoop·2018-09-07 17:00

盘点大数据培训类别

通过学习掌握诸如Spark（包括SparkStreaming和SparkSQL）、Flume、Kafka以及Sqoop这样的Hadoop生态系统工具和技术，Hadoop开发员将具备解决实际大数据问题和挑战的能力

ClouderaHadoop·2018-09-07 17:00

数据倾斜解决方案

常见数据倾斜现象数据倾斜往往会发生在数据开发的各个环节中，比如：●用Hive数据计算的时候reduce阶段卡在99.99%●用SparkStreaming做实时算法的时候，一直会有executor出现

isyslab·2018-09-05 21:38

spark+kafka+hive

使用sparkstreaming消费kafka消息，并通过hql同步到hive中用到的pom：org.apache.sparkspark-core_2.112.3.1org.apache.sparkspark-sql

小黄鸭and小黑鸭·2018-09-04 18:01

Spark Streaming

streaming-programming-guide.htmlpom:https://search.maven.org/#search%7Cga%7C1%7Cg%3A%22org.apache.spark%22%20AND%20v%3A%222.3.1%22SparkStreaming

小黄鸭and小黑鸭·2018-09-03 19:08

Alluxio 部分阅读

2.HDFS使用普通的磁盘，因此IO操作，尤其是读操作有很高的延迟，sparkstreaming的executor需要重复的跨集群读操作从HDFS，进一步降低了整体的性能。

holomain·2018-09-03 17:46

Spark选择题

转载：http://www.aboutyun.com/thread-24246-1-1.html1.Spark的四大组件下面哪个不是(D)A.SparkStreamingB.MlibCGraphxD.SparkR2

MirandaGirl2018·2018-08-30 21:10

[spark streaming]Driver容错安全性

内容:ReceivedBlockTracker容错安全性DStreamGraph和JobGenerator容错安全性Driver的安全性主要从SparkStreaming自己运行机制的角度考虑的，如对源数据保存方面使用了

风一样的男人_·2018-08-30 21:25

Spark Stream、Kafka Stream、Storm和Flink对比，以及阿里巴巴基于Flink打造的Blink解决的问题

SparkStreaming的本质还是一个基于microbatch计算的引擎。这种引擎一个天生的缺点就是每个microbatch的调度开销比较大，当我们要求的延迟越低，额外的开销就越大。这就

Johnson8702·2018-08-30 14:16

Structured Streaming：Apache Spark中处理实时数据的声明式API

StructuredStreaming是一个高度抽象的API基于SparkStreaming的经验。

阿猫阿狗Hakuna·2018-08-30 14:32

【翻译】Spark Streaming 管理 Kafka Offsets 的方式探讨 - 简书

ClouderaEngineeringBlog翻译：OffsetManagementForApacheKafkaWithApacheSparkStreamingSparkStreaming应用从Kafka

·2018-08-30 10:00

[spark streaming] 架构和运行机制

本期内容：1.SparkStreaming架构2.SparkStreaming运行机制3.解密SparkStreamingJob架构和运行机制4.解密SparkStreaming容错架构和运行机制Spark

风一样的男人_·2018-08-28 11:19

Spark Streaming运行架构和运行原理总结

原文地址：https://blog.csdn.net/zhanglh046/article/details/78505053一运行架构SparkStreaming相对其他流处理系统最大的优势在于流处理引擎和数据处理在同一软件栈

Anbang713·2018-08-26 09:50

Spark Streaming-Checkpoint机制

一概述每一个SparkStreaming应用，正常来说都是要7*24小时运转的，这就是实时计算程序的特点。因为要持续不断的对数据进行计算。

Anbang713·2018-08-25 09:34

Spark Streaming-与Spark SQL结合

SparkStreaming最强大的地方在于可以与SparkCore、SparkSQL整合使用，之前已经通过transform、foreachRDD等算子看到，如何将DStream中的RDD使用SparkCore

Anbang713·2018-08-25 08:47

Spark Streaming-window滑动窗口以及热点搜索词滑动统计案例实战

SparkStreaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。

Anbang713·2018-08-25 07:33

SparkStreaming（SparkSQL）+Kafka+Oracle 使用SQL完成的实时累加统计

Kafka+SparkStreaming已经发展为一个比较成熟的实时日志收集与计算架构，利用Kafka，即可以支持将用于离线分析的数据流到HDFS，又可以同时支撑多个消费者实时消费数据，包括SparkStreaming

lhxsir·2018-08-24 16:56

Spark Streaming输入流和接收器

SparkStreaming提供了两种内置的数据源：基础数据源：在Streami

Anbang713·2018-08-24 07:37

Spark Streaming-WordCount程序

SparkConf对象//但是这里有一点不同，我们是要给它设置一个Master属性，但是我们测试的时候使用local模式//local后面必须跟一个方括号，里面填写一个数字，数字代表了我们用几个线程来执行我们的//SparkStreaming

Anbang713·2018-08-23 08:21

Spark Streaming基本工作原理

SparkStreaming是SparkCoreAPI的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。

Anbang713·2018-08-23 08:54

Spark Streaming及实时计算介绍

SparkStreaming其实就是Spark提供对于大数据进行实时计算的一种框架。它的底层，其实也是基于SparkCore。基本的计算模型还是基于内存的大数据实时计算模型。

Anbang713·2018-08-23 07:45

Spark Streaming 集成 AWS Kinesis

关于AWSKinesis的基本信息可以看我的这篇文章：使用AWSKinesis收集流数据，本文主要讲解SparkStreaming如何集成Kinesis处理流数据。

Trigl·2018-08-22 18:15

Spark Streaming Checkpoint

一个Streaming应用是一个007特工，需要保证7*24小时的持久运转，因此容错性就极其重要，SparkStreaming通过在一个具有容错性的存储系统如HDFS中设置一些检查信息来从错误中恢复。

Trigl·2018-08-22 18:55

Spark Streaming 初见

本文内容是对SparkStreaming官方文档的总结，用一个简单的例子来入门SparkStreaming。

Trigl·2018-08-22 18:08

SparkStreaming2.2+kafka的偏移量管理

在从kafka接受流式数据的时候，spark提供了两种方式，Dstream和DirectStream，在spark2.2中已经不在提供第一种方式，具体区别这儿就不再描述了，第二种方式spark是用的kafka低阶api，每个RDD对应一个topic的分区，这种情况，需要借助于外部存储来管理offset，或者简单点，自己手动利用kafka来管理offset，否则在程序重启时找不到offset从最新的

cyony·2018-08-22 11:41

Spark Streaming消费Kafka Direct保存offset到Redis，实现数据零丢失和exactly once

二、使用场景SparkStreaming实时消费kafka数据的时候，程序停止或者Kafka节点挂掉会导致数据丢失，Sp

ChouYarn·2018-08-21 16:00

快乐大数据第11课 Spark Stream

第一部分：Stream程序设计原理#SparkStreaming设计动机很多重要的应用要处理大量在线流式数据，并返回近实时的结果•社交网络趋势跟踪•电商网站指标统计•广告系统具备分布式流式处理框架的基本特征

快乐大数据·2018-08-20 16:47

Spark 以及 spark streaming 核心原理及实践 - (2)

nethub2·2018-08-19 15:00

Spark 以及 spark streaming 核心原理及实践 - (1)

nethub2·2018-08-19 15:00

Spark Streaming-Kafka实例(Python与Java版本)

本文实现kafka与SparkStreaming之间的通信，其中Kafka端producer实现使用Java，SparkStreaming端Consumer使用Python实现。

hadoove·2018-08-17 11:42

Spark Streaming总结

一、本质SparkStreaming是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理二、SparkStreaming和SparkCore2.1逻辑关系：2.2物理关系

且听_风吟·2018-08-17 09:32

流式统计的几个难点

没有用过sparkstreaming/flink，不知道下面这些问题在sparkstreaming/flink里是不是都已经解决得很好了。

若水三千你是一千·2018-08-13 22:39

Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark Streaming（一)

本节主要内容本节部分内容来自官方文档：http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operationsSpark流式计算简介SparkStreaming

痞子锐·2018-08-13 08:56

Flume+Spark+Hive+Spark SQL离线分析系统

当然Spark不光是可以做离线计算，还提供了许多功能强大的组件，比如说，SparkStreaming组件做实时计算，和Kafka等消息系统也有很好的兼容性；SparkSql，可以让用户通过标准SQL语句操作从不同的数据源中过来的结构化数据

Tank_Lo·2018-08-12 22:57

关于CDH5.11.0自带kafka 0.10 bootstrap-server 无法消费

近日需要在项目用到kafka，然后本地使用cdh集成的kafka进行安装调试，以及些样例代码，sparkstreaming相关调用kafka的代码使用的原始的api而没有走zookeeper，虽然消费者能启动

ranfengzheng·2018-08-08 10:58

SparkStreaming演示

首先启动hadoop1.sparkstreaming监听端口计算wordcount安装nc：yuminstall-ync启动一个socket服务端口：nc-lk88882.window窗口操作3.mapWithState

灿若星辰丶·2018-08-07 20:02

20180807 - Spark快速大数据分析

Spark快速大数据分析概念数据的两个方向：数据科学：分析+建模（回答业务问题、挖掘潜在规律、辅助产品推荐）数据处理：硬件（内存、集群）+软件（封装、接口、监控、优化）框架应用层：SparkStreamingSparkSqlSparkGraphxSparkMLlib

BigDeng_2014·2018-08-07 14:55

Spark基础：（七）Spark Streaming入门

Spark基础：（七）SparkStreaming入门介绍1、是sparkcore的扩展，针对实时数据流处理,具有可扩展、高吞吐量、容错.数据可以是来自于kafka,flume,tcpsocket,使用高级函数

雪泪寒飞起来·2018-08-07 14:00

Spark Streaming 和 Flink 谁是数据开发者的最爱？

本文为「美图数据技术团队」投稿本文从编程模型、任务调度、时间机制、Kafka动态分区的感知、容错及处理语义、背压等几个方面对比SparkStreaming与Flink，希望对有实时处理需求业务的企业端用户在框架选型有所启发

CSDN资讯·2018-08-07 08:13

解决CDH SparkStreaming任务启动之后executor不停增长的问题,num-executors配置不管用。...

spark2-submit--classSparkKafka--masteryarn--executor-memory1G--num-executors6--driver-memory1g\--confspark.driver.supervise=true\--confspark.dynamicAllocation.maxExecutors=6\--confspark.streaming.kafk

arli_xu·2018-08-02 21:00

流处理系统中的“Exactly Once”语义保证

笔者最近在阅读SparkStreaming的官方文档中，提到了这一点，于是来做个小小的总结归纳。如果感兴趣的同学，请继续往下阅读

Android路上的人·2018-07-31 18:20

推荐频道

sparkstreaming

Spark学习笔记：Spark Streaming数据存储与调优

Spark学习笔记：Spark Streaming与Spark SQL协同工作

Spark修炼之道（进阶篇）——Spark入门到精通：第十二节 Spark Streaming—— DStream Window操作

spark中 Dynamic Allocation 以及 num-executors 的问题

大数据Spark与Storm技术选型

26-SparkStreaming02

26-SparkStreaming02

13.spark streaming之快速入门

SparkStreaming集成Kafka，读取Kafka中数据，进行数据统计计算

盘点大数据培训类别

盘点大数据培训类别

数据倾斜解决方案

spark+kafka+hive

Spark Streaming

Alluxio 部分阅读

Spark选择题

[spark streaming]Driver容错安全性

Spark Stream、Kafka Stream、Storm和Flink对比，以及阿里巴巴基于Flink打造的Blink解决的问题

Structured Streaming：Apache Spark中处理实时数据的声明式API

【翻译】Spark Streaming 管理 Kafka Offsets 的方式探讨 - 简书

[spark streaming] 架构和运行机制

Spark Streaming运行架构和运行原理总结

Spark Streaming-Checkpoint机制

Spark Streaming-与Spark SQL结合

Spark Streaming-window滑动窗口以及热点搜索词滑动统计案例实战

SparkStreaming（SparkSQL）+Kafka+Oracle 使用SQL完成的实时累加统计

Spark Streaming输入流和接收器

Spark Streaming-WordCount程序

Spark Streaming基本工作原理

Spark Streaming及实时计算介绍

Spark Streaming 集成 AWS Kinesis

Spark Streaming Checkpoint

Spark Streaming 初见

SparkStreaming2.2+kafka的偏移量管理

Spark Streaming消费Kafka Direct保存offset到Redis，实现数据零丢失和exactly once

快乐大数据第11课 Spark Stream

Spark 以及 spark streaming 核心原理及实践 - (2)

Spark 以及 spark streaming 核心原理及实践 - (1)

Spark Streaming-Kafka实例(Python与Java版本)

Spark Streaming总结

流式统计的几个难点

Spark修炼之道（进阶篇）——Spark入门到精通：第十节 Spark Streaming（一)

Flume+Spark+Hive+Spark SQL离线分析系统

关于CDH5.11.0自带kafka 0.10 bootstrap-server 无法消费

SparkStreaming演示

20180807 - Spark快速大数据分析

Spark基础：（七）Spark Streaming入门

Spark Streaming 和 Flink 谁是数据开发者的最爱？

解决CDH SparkStreaming任务启动之后executor不停增长的问题,num-executors配置不管用。...

流处理系统中的“Exactly Once”语义保证