sparkstreaming 第43页

1.Why Apache Spark?

1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming

全能程序猿·2020-03-28 22:42

数据平台实践①——Flume+Kafka+SparkStreaming(pyspark)

蜻蜓点水Flume——数据采集如果说，爬虫是采集外部数据的常用手段的话，那么，Flume就是采集内部数据的常用手段之一（logstash也是这方面的佼佼者）。下面介绍一下Flume的基本构造。Agent：包含Source、Channel和Sink的主体，它是这3个组件的载体，是组成Flume的数据节点。Event：Flume数据传输的基本单元。Source：用来接收Event，并将Event批量传

playwolf719·2020-03-28 04:43

贯通Spark Streaming JobScheduler内幕实现和深入思考

我们在进行sparkstreaming开发的时候，会对Dstream进行各种transform和action级别的操作，这些操作就构成Dstreamgraph，也就是Dstream之间的依赖关系，随

阳光男孩spark·2020-03-28 00:05

spark streaming源码解读之job动态生成和深度思考

输入的ds有很多来源Kafka、Socket、Flume，输出的DStream其实是逻辑级别的Action，是SparkStreaming框架提出的，其底层翻译成为物理级别的额Action，是RDD的Action

阳光男孩spark·2020-03-27 02:30

Strom自学

简介：strom能实现高频数据和大规模数据的实时处理Strom和hadoop的区别：H:大规模的离线批处理；S:实时数据处理H:MapReduce；S:SpoutBoltStrom和sparkstreaming

MosOucHunibyu·2020-03-25 23:29

大数据核心开发技术

SparkStreaming:构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片

刘志隆·2020-03-25 09:16

storm架构和安装

这时候Hadoop的mapreduce计算框架已经不能满足需求，这个时候就需要使用实时计算框架Storm或SparkStreaming。

心_的方向·2020-03-24 12:44

Spark Streaming Direct Approach (No Receivers) 分析

前言这个算是SparkStreaming接收数据相关的第三篇文章了。

祝威廉·2020-03-24 05:52

Spark Streaming(1) - 基本原理

SparkStreaming的处理方式是，从输入流中读区数据，将数据作为一个个batch保存起来，这样就有了静态的数据，就可以用R

aaron1993·2020-03-23 23:27

spark streaming框架简介

1.sparksteaming概述在《spark基础（上篇）》中，sparkstreaming是spark体系中的一个流式处理框架。

ZPPenny·2020-03-23 22:56

Spark学习

配合3.将中间结果保存在内存而不是磁盘中4.提供了比Map、Reduce更多的高阶函数5.提供了Scala、Python、Java的API以及Scala和Python的shell二、Spark内置库1.SparkStreaming

一只小青鸟·2020-03-23 05:58

[flow]Flink～流和批的一体化方案

SparkStreaming是把流转

葡萄喃喃呓语·2020-03-21 00:26

[spark streaming] ReceiverTracker 数据产生与存储

前言在SparkStreaming里，总体负责任务的动态调度是JobScheduler，而JobScheduler有两个很重要的成员：JobGenerator和ReceiverTracker。

BIGUFO·2020-03-20 23:05

Spark Streaming通过JDBC操作数据库

1.前言1.1说明本文记录了学习使用SparkStreaming通过JDBC操作数据库的过程，源数据从Kafka中读取。

郭寻抚·2020-03-20 13:55

Spark Streaming-介绍

介绍许多应用需要处理及时收到的数据，SparkStreaming是Spark为这些应用而设计的模型。

raincoffee·2020-03-20 07:16

Spark Streaming管理Kafka偏移量

前言为了让SparkStreaming消费kafka的数据不丢数据，可以创建KafkaDirectDStream，由SparkStreaming自己管理offset，并不是存到zookeeper。

BIGUFO·2020-03-20 01:43

5 基于案例一节课贯通Spark Streaming流计算框架的运行源码

海纳百川_spark·2020-03-20 01:34

Spark 伪分布式部署

Spark支持SQL、流计算和复杂分析，提供了SparkSQL、SparkStreaming、MLli

郭寻抚·2020-03-19 00:03

Spark Streaming消息通信过程

1、SparkStreaming消息通信总体流程在启动流处理引擎的过程中，将进行启动所有的流数据接受器Receiver和注册流数据接收器Receiver两个消息通信。

土土的简书·2020-03-18 22:20

Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN

和R的高级API，以及一个支持通用的执行图计算的优化过的引擎.它还支持一组丰富的高级工具,包括使用SQL处理结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX,以及SparkStreaming

Joyyx·2020-03-18 21:55

SparkStreaming之使用redis保存Kafka的Offset

本文主要记录使用SparkStreaming从Kafka里读取数据，并使用Redis保存Offset。

阿坤的博客·2020-03-18 19:46

==[DAG Visualization]通过可视化来了解你的Spark应用程序

新的可视化帮助更好地了解SparkStreaming应用程序http://www.chinacloud.cn/show.aspx?

葡萄喃喃呓语·2020-03-18 07:54

大数据面试问题

spark工作原理spark运行原理SparkStreamingStorm的ack是干嘛的kalfka干嘛的job提交到yarn上的工作流程10x+5y+z=n，x+y+z的最小值ArryList、LinkedList

Albert陈凯·2020-03-17 12:37

Spark Python API Docs(part three)

pyspark.streamingmoduleModulecontentsclasspyspark.streaming.StreamingContext(sparkContext,batchDuration=None,jssc=None)Bases:objectSparkStreaming

盗梦者_56f2·2020-03-17 10:50

9. Spark Streaming技术内幕 : Receiver的精妙实现和生命周期研究和思考

原创文章，转载请注明:转载自听风居士博客(http://www.jianshu.com/users/4435a13863fb/timeline)Sparkstreaming程序需要不断接收新数据，然后进行业务逻辑处理

飞帅记忆·2020-03-17 08:11

Spark之WordCount集群

在搭建本集群之前必须先搭建好Spark集群，搭建Spark集群请参考：SparkonYarn环境搭建.主要内容：1.创建工程2.主程序3.提交运行相关文章：1.Spark之PI本地2.Spark之WordCount集群3.SparkStreaming

阿坤的博客·2020-03-17 07:57

Spark-streaming-2.0-Kafka数据接收并行度源码学习

前段时间学习了sparkstreaming采用kafka作为数据源时，数据接收并行度这一部分的源代码。本文主要将学习的体会记录一下，有理解不对的地方请多多指教。

疯狂的轻骑兵·2020-03-17 06:29

Spark之PI本地

主要内容：1.安装Scala2.编写ScalaPI相关文章：1.Spark之PI本地2.Spark之WordCount集群3.SparkStreaming之读取Kafka数据4.SparkStreaming

阿坤的博客·2020-03-17 03:07

『DT_Spark』0084：StreamingContext、DStream、Receiver深度剖析

『DT大数据梦工厂』SparkStreaming--Spark定制班Spark-andyshar的博客-博客频道-CSDN.NEThttp://blog.csdn.net/andyshar/article

葡萄喃喃呓语·2020-03-17 01:31

SparkStreaming 写数据到 HBase，由于共用连接造成的数据丢失问题

有如下程序，SparkStreaming读取Kafka中的数据，经过处理后，把数据写入到Hbase中/***Author:Jed*Description:SparkStreaming读取Kafka中的数据

CoderJed·2020-03-16 13:12

SparkStreaming之优雅停止

本文主要记录使用SparkStreaming从Kafka里读取数据，并使用Redis保存Offset，并监听Redis中的某个Key是否存在来停止程序相关文章：1.Spark之PI本地2.Spark之WordCount

阿坤的博客·2020-03-16 02:11

Kafka结合SparkStreaming开发

ApacheKafka是一种分布式流式平台Kafka基本搭建：Step1kafka下载地址wgethttp://mirror.bit.edu.cn/apache/kafka/0.10.2.0/kafka_2.11-0.10.2.0.tgztarzxvfkafka_2.11-0.10.2.0.tgzcdkafka_2.11-0.10.2.0Step2:启动ServerKafka使用ZooKeeper

kason_zhang·2020-03-16 02:12

Windows下idea远程调试Spark Streaming接收Kafka数据

大数据集群环境说明Spark版本：2.0.2Kafka版本：0.9.1Linux系统：CentOS6.5场景做SparkStreaming开发，在Win7下使用IDE进行开发，希望在本地IDEA上远程连接服务器上的大数据集群进行调试

荒野雄兵·2020-03-15 08:50

Spark Streaming VS flink

本文从编程模型、任务调度、时间机制、Kafka动态分区的感知、容错及处理语义、背压等几个方面对比SparkStreaming与Flink，希望对有实时处理需求业务的企业端用户在框架选型有所启发。

深圳浪尖·2020-03-14 09:44

Spark Streaming(2) - JobScheduler、JobGenerator

本文基于Spark2.111.前言SparkStreaming(1)中提到JobScheduler使用JobGenerator可以每隔一段时间根据DStreamDAG创建出RDDDAG，并提交job，本文主要介绍

aaron1993·2020-03-13 20:12

通过案例对SparkStreaming 透彻理解三板斧之三：解密SparkStreaming运行机制和架构进阶之Job和容错

关于Job理解SparkStreaming的Job的整个架构和运行机制对于精通SparkStreaming是至关重要的。

milkfan·2020-03-13 15:02

Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN

和R的高级API，以及一个支持通用的执行图计算的优化过的引擎.它还支持一组丰富的高级工具,包括使用SQL处理结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX,以及SparkStreaming

那伊抹微笑·2020-03-12 18:54

Spark 2.0, high level concept

:SparkContextbasicabstraction:RDDForSparkSQLmainentrypoint:SparkSessionbasicabstraction:DataFrameForSparkStreamingMainentrypoint

abrocod·2020-03-12 02:26

13 Spark Streaming源码解读之Driver容错安全性

SparkStreaming中Driver的容错主要是ReceiverTracker、Dstream.graph、JobGenerator的容错第一、看ReceiverTracker的容错，主要是ReceiverTracker

海纳百川_spark·2020-03-10 15:29

Spark概述

它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX,以及SparkStreaming。

it_zzy·2020-03-09 08:36

揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入

SparkStreaming在数据接收与导入方面需要满足有以下三个特点：兼容众多输入源，包括HDFS,Flume,Kafka,TwitterandZeroMQ。

牛肉圆粉不加葱·2020-03-08 23:40

Spark-Steaming 文档之容错机制

容错机制在这一节，我们要讨论一下SparkStreaming的容错机制。背景知识为了能够更好地理解SparkStreaming的容错机制，我们先来看下SparkRDD的基本容错机制。

bb6b382a3536·2020-03-08 11:07

模拟网站实时数据流统计

pan.baidu.com/s/1o7JMCvo功能：用python模拟实时数据的生成，用crontab来执行shell脚本生成实时流数据，之后用flume把log数据输出到kafka，在IDEA中通过sparkStreaming

冷梦颜爱楠楠·2020-03-08 10:57

SparkStreaming之写数据到Kafka

本文主要记录使用SparkStreaming从Kafka里读取数据，并使用Redis保存Offset，并监听Redis中的某个Key是否存在来停止程序，将读取到的数据转换为json写入到Kafka相关文章

阿坤的博客·2020-03-07 22:15

Spark Core

sc.textFile("/home/data.txt").flatMap(_.split("/t")).map((_,1)).reduceBykey(_+_).collectspark共有5大组件:SparkCore、SparkStreaming

终生学习丶·2020-03-06 03:11

2 通过案例对SparkStreaming透彻理解之二

而SparkStreaming是在RDD之上增加了时间维度，DStream就是RDD的模板，随着时间的流逝不断地实例化DStream，以数据进行填充DStream。

海纳百川_spark·2020-03-05 13:14

Spark Streaming 数据接收优化

看这篇文章前，请先移步SparkStreaming数据产生与导入相关的内存分析,文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。

祝威廉·2020-03-05 12:17

shell 读取文件行

最近通过SparkStreaming消费Kafka数据，消费的数据落到hdfs，一分钟一个小文件，昨天架构那边的同事告诉我要清理历史文件，但是目录太多，手动删比较慢，于是想到可以把文件目录都拿到，写入文本

dataMaster·2020-03-05 08:38

[spark streaming] 状态管理 updateStateByKey&mapWithState

前言SparkStreaming7*24小时不间断的运行，有时需要管理一些状态，比如wordCount，每个batch的数据不是独立的而是需要累加的，这时就需要sparkStreaming来维护一些状态

BIGUFO·2020-03-05 03:25

Spark Streaming 数据产生与导入相关的内存分析

前言我这篇文章会分几个点来描述SparkStreaming的Receiver在内存方面的表现。

祝威廉·2020-03-05 01:11

推荐频道

sparkstreaming

1.Why Apache Spark?

数据平台实践①——Flume+Kafka+SparkStreaming(pyspark)

贯通Spark Streaming JobScheduler内幕实现和深入思考

spark streaming源码解读之job动态生成和深度思考

Strom自学

大数据核心开发技术

storm架构和安装

Spark Streaming Direct Approach (No Receivers) 分析

Spark Streaming(1) - 基本原理

spark streaming框架简介

Spark学习

[flow]Flink～流和批的一体化方案

[spark streaming] ReceiverTracker 数据产生与存储

Spark Streaming通过JDBC操作数据库

Spark Streaming-介绍

Spark Streaming管理Kafka偏移量

5 基于案例一节课贯通Spark Streaming流计算框架的运行源码

Spark 伪分布式部署

Spark Streaming消息通信过程

Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN

SparkStreaming之使用redis保存Kafka的Offset

==[DAG Visualization]通过可视化来了解你的Spark应用程序

大数据面试问题

Spark Python API Docs(part three)

9. Spark Streaming技术内幕 : Receiver的精妙实现和生命周期研究和思考

Spark之WordCount集群

Spark-streaming-2.0-Kafka数据接收并行度源码学习

Spark之PI本地

『DT_Spark』0084：StreamingContext、DStream、Receiver深度剖析

SparkStreaming 写数据到 HBase，由于共用连接造成的数据丢失问题

SparkStreaming之优雅停止

Kafka结合SparkStreaming开发

Windows下idea远程调试Spark Streaming接收Kafka数据

Spark Streaming VS flink

Spark Streaming(2) - JobScheduler、JobGenerator

通过案例对SparkStreaming 透彻理解三板斧之三：解密SparkStreaming运行机制和架构进阶之Job和容错

Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN

Spark 2.0, high level concept

13 Spark Streaming源码解读之Driver容错安全性

Spark概述

揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入

Spark-Steaming 文档之容错机制

模拟网站实时数据流统计

SparkStreaming之写数据到Kafka

Spark Core

2 通过案例对SparkStreaming透彻理解之二

Spark Streaming 数据接收优化

shell 读取文件行

[spark streaming] 状态管理 updateStateByKey&mapWithState

Spark Streaming 数据产生与导入相关的内存分析