E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkstreaming
spark调优(五)【Cigna优化Spark Streaming实时处理应用】
Cigna优化
SparkStreaming
实时处理应用1框架一览事件处理的架构图如下所示。
风灵使
·
2017-12-02 11:14
大数据之Spark
Spark Streaming 流计算优化记录(5)-分区与内存的优化
8.不一定非得每秒处理一次由于
SparkStreaming
的原理是microbatch,因此当batch积累到一定数量时再发放到集群中计算,这样的数据吞吐量会更大些.这需要在StreamingContext
立喆
·
2017-12-01 11:23
spark
谈谈如何优雅的关闭正在运行中的Spark Streaming的流程序
因为
SparkStreaming
流程序比较特殊,所以不能直接执行kill-9这种暴力方式停掉,如果使用这种方式停程序,那么就有可能丢失数据或者重复消费数据。为什么呢?
qindongliang1922
·
2017-11-30 19:00
spark
streaming
Apache Spark Streaming 使用实例
本文翻译自:https://cloudxlab.com/assessm...电子商务在深入地探讨
SparkStreaming
之前,让我们先了解一下它的受用场景。
dailybird
·
2017-11-29 00:00
spark-streaming
如何管理Spark Streaming消费Kafka的偏移量(三)
阅读更多前面的文章已经介绍了在
sparkstreaming
集成kafka时,如何处理其偏移量的问题,由于
sparkstreaming
自带的checkpoint弊端非常明显,所以一些对数据一致性要求比较高的项目里面
qindongliang1922
·
2017-11-28 23:00
spark
streaming
SparkStreaming
之单词计数实现在一次程序的运行中,两次发送相同的key可以进行累加
importorg.apache.log4j.{Level,Logger}importorg.apache.spark.SparkConfimportorg.apache.spark.streaming.dstream.ReceiverInputDStreamimportorg.apache.spark.streaming.{Seconds,StreamingContext}objectWordC
CatherineHuangTT
·
2017-11-26 20:35
Spark学习随笔
Spark Streaming 1.6 流式状态管理分析 - 简书
这篇文章会详细介绍
SparkStreaming
里新的流式状态管理。关于状态管理在流式计算中,数据是持续不断来的,有时候我们要对一些数据做跨周期(Duration)的统计,这个时候就不得不维护状态了。
·
2017-11-26 09:00
The Dataflow Model
流式计算引擎:Storm,
SparkStreaming
,MillWheel。批处理引擎:MapReduce,Spark,FlumeJava。
data4
·
2017-11-25 13:43
SparkStreaming
之滑动窗口的实现
importorg.apache.spark.SparkConfimportorg.apache.spark.streaming.dstream.{DStream,ReceiverInputDStream}importorg.apache.spark.streaming.{Seconds,StreamingContext}importorg.apache.log4j.{Logger,Level}o
CatherineHuangTT
·
2017-11-24 09:04
Spark学习随笔
SparkStreaming
数据源之Kafka
push(推过来的)kafka,flume->Exeuctor内存-》磁盘处理1)整个任务出问题了2)整个集群宕机了3)机房停电了数据有可能重复消费,也有可能漏了Spark1.3以后(2)pull(拉)
sparkStreaming
CatherineHuangTT
·
2017-11-24 09:28
Spark学习随笔
Spark Streaming Backpressure
1、为什么引入Backpressure默认情况下,
SparkStreaming
通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batchprocessingtime>batchinterval
Happywuw
·
2017-11-23 11:09
spark
SparkStreaming
的运行流程
运行流程:1、我们在集群中的其中一台机器上提交我们的ApplicationJar,然后就会产生一个Application,开启一个Driver,然后初始化
SparkStreaming
的程序入口StreamingContext
CatherineHuangTT
·
2017-11-22 14:22
Spark学习随笔
基于
SparkStreaming
的实时数据清洗
基于
SparkStreaming
的实时数据清洗数据清洗,是整个数据分析过程中不可缺少的一个环节,其结果质量直接关系到模型效果和最终结论。在实际操作中,数据清洗通常会占据分析过程的50%—80%的时间。
天街小雨入江南
·
2017-11-22 11:14
数据清洗
如何管理Spark Streaming消费Kafka的偏移量(二)
阅读更多上篇文章,讨论了在
sparkstreaming
中管理消费kafka的偏移量的方式,本篇就接着聊聊上次说升级失败的案例。
qindongliang1922
·
2017-11-16 19:00
spark
streaming
spark
文章标题
SparkStreaming
,textFileStream读取HDFS文件,读取不到的问题原因很简单,textFileStream()这个方法只能读取到新放入的文件,意思是要先启动程序,然后把文件put
Elonyong
·
2017-11-15 11:36
大数据
如何管理Spark Streaming消费Kafka的偏移量(一)
阅读更多最近工作有点忙,所以更新文章频率低了点,在这里给大家说声抱歉,前面已经写过在
sparkstreaming
中管理offset,但当时只知道怎么用,并不是很了解为何要那样用,最近一段时间又抽空看了一个
qindongliang1922
·
2017-11-14 20:00
spark
streaming
offset
Spark Streaming整合Flume&Kafka打造通用流处理基础
对接到Flume中的Source,然后Flume将chanel中的数据按批次sink到Kafka中,即充当Kafka中的生产者,然后,kafka把生产的数据放入到brokerlist中,而再将Kafka与
SparkStreaming
疯兔子大叔
·
2017-11-11 15:15
Spark
Flume
SparkStreaming
Kafka
Spark Streaming 2.1.0 Programming Guide 个人理解与翻译
简单写一下自己读了
SparkStreaming
2.1.0ProgrammingGuide之后的体验,也可以说是自己对该编程指南的理解与翻译。
chenfh5
·
2017-11-10 10:42
Spark2.x学习笔记:18、Spark Streaming程序解读
《Spark2.x学习笔记》18、
SparkStreaming
程序解读18.1
SparkStreaming
原理
SparkStreaming
将流式计算转化为一批批很小的、确定的批处理作业(micro-batch
程裕强
·
2017-11-07 23:25
Spark2.x学习笔记
Spark2.x学习笔记
Spark Performance Tuning (性能调优)
在集群上的
SparkStreaming
application中获得最佳性能需要一些调整.本节介绍了可调整的多个parameters(参数)和configurations(配置)提高你的应用程序性能.在高层次上
weixin_30917213
·
2017-11-07 15:00
大数据
ui
SparkStreaming
消费kafka使用及原理
作者|张伟AI前线出品|ID:ai-front本文主要介绍
SparkStreaming
(以下简称SS,版本1.6.3)的一些基本概念,以及SS消费kafka(版本0.8.2.1)数据的两种方式的使用及其原理
AI前线
·
2017-11-03 21:25
Spark Streaming获取kafka数据的两种方式
概述
SparkStreaming
支持多种实时输入源数据的读取,其中包括Kafka、flume、socket流等等。除了Kafka以外的实时输入源,由于我们的业务场景没有涉及,在此将不会讨论。
念雅小轩
·
2017-11-03 13:16
spark-streaming
kafka
实时计算
Spark
Streaming
Kafka
Storm和Spark streaming对比和应用场景
转载来源:spark与storm的对比1对比对比点Storm
SparkStreaming
实时计算模型纯实时,来一条数据,处理一条数据准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善支持
小小少年Boy
·
2017-11-01 11:55
Spark组件介绍
的设计理念交互式和迭代式在集群多点内存中运行的分布式计算容错数据集合同时Spark还支持使用不同的语言编程(Java,Scala,R,Python)可以从不同的数据源获取数据(HDFS,Cassandra,HBase)实现不同的功能SparkCore,SparkSQL,
SparkStreaming
C_FuL
·
2017-10-23 10:16
Spark
通过Spark Streaming的foreachRDD把处理后的数据写入外部存储系统中
文章显示好像有点问题,原文在:http://lqding.blog.51cto.com/9123978/1769814
SparkStreaming
的DStream提供了一个dstream.foreachRDD
huanghanqian
·
2017-10-21 17:46
如何学习分布式系统?一文全Get!
hadoop生态系统,从hdfs到hbase,从mapreduce到spark,从storm到
sparkstreaming
,heron,flink等等,如何在开源的汪洋中不会迷失自己?
csdn大数据
·
2017-10-17 00:00
SparkStreaming
性能调优
在开发
SparkStreaming
应用程序时,要结合集群中各节点的配置情况尽可能地提高数据处理的实时性。
星月情缘02
·
2017-10-15 14:27
Hadoop
Spark
SparkStreaming
之foreachRDD
原文链接:http://blog.csdn.net/legotime/article/details/51836039参考链接:http://blog.csdn.net/erfucun/article/details/52312682首先我们来对官网的描述了解一下。DStream中的foreachRDD是一个非常强大函数,它允许你把数据发送给外部系统。因为输出操作实际上是允许外部系统消费转换后的数
liuxiangke0210
·
2017-10-13 10:30
spark
SparkStreaming
性能调优
在开发
SparkStreaming
应用程序时,要结合集群中各节点的配置情况尽可能地提高数据处理的实时性。
ChinaUnicom110
·
2017-10-11 20:55
性能调优
sparkStreaming
spark
【Spark】
SparkStreaming
新增Metrics 支持Kafka数据消费堆积监控
在
SparkStreaming
任务运行的过程中,由于数据流量或者网络的抖动,任务的batch很可能出现delay,所以就出现了一个需求:实时监控任务对kafka消息的消费,及时了解堆积情况。
PowerMe
·
2017-10-10 15:37
关于Spark Streaming微批次,Flink真正流处理 消费Kafka数据,处理数据的差距对比
困惑1:
SparkStreaming
微批次,Flink真正流处理系统差别在哪里?是因为消费Kafka数据的逻辑不同吗?
javartisan
·
2017-10-09 19:24
Spark整合Kafka小项目
阅读更多
SparkStreaming
与kafka整合小项目实践含所有代码带详细注释总流程:自制日志生成器生成含数据日志,使用kafkaAppender直接发送到kafka,
SparkStreaming
从
让随着风飘
·
2017-09-29 22:00
kafka
spark
日志解析
sparkstream
spark streaming 检查点机制(checkpoint)
SparkStreaming
的检查点具有容错机制,有足够的信息能够支持故障恢复。支持两种数据类型的检查点:元数据检查点和数据检查点。
晓晓白熊
·
2017-09-29 15:03
大数据spark
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
Spark实战,第2部分:使用Kafka和
SparkStreaming
构建实时数据处理系统王龙2015年7月27日发布引言在很多领域,如股市走向分析,气象数据测控,网站用户行为分析等,由于数据产生快,实时性强
·
2017-09-28 16:00
spark
kafka
spark
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
Spark实战,第2部分:使用Kafka和
SparkStreaming
构建实时数据处理系统王龙2015年7月27日发布引言在很多领域,如股市走向分析,气象数据测控,网站用户行为分析等,由于数据产生快,实时性强
·
2017-09-28 16:00
spark
kafka
spark
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
Spark实战,第2部分:使用Kafka和
SparkStreaming
构建实时数据处理系统王龙2015年7月27日发布引言在很多领域,如股市走向分析,气象数据测控,网站用户行为分析等,由于数据产生快,实时性强
·
2017-09-28 16:00
spark
kafka
spark
Spark 实战, 第 2 部分:使用 Kafka 和 Spark Streaming 构建实时数据处理系统
Spark实战,第2部分:使用Kafka和
SparkStreaming
构建实时数据处理系统王龙2015年7月27日发布引言在很多领域,如股市走向分析,气象数据测控,网站用户行为分析等,由于数据产生快,实时性强
·
2017-09-28 16:00
spark
kafka
spark
大数据之Spark
同时支持丰富的高级工具集,如处理SQL和结构化数据的SparkSQL,机器学习MLlib,图处理的GraphX,和
SparkStreaming
。
aloneload
·
2017-09-27 20:22
大数据
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
SparkStreaming
编程指南概述一个入门示例基础概念依赖初始化StreamingContextDiscretizedStreams(DStreams)(离散化流)InputDStreams和Receivers
Joyyx
·
2017-09-27 10:53
Apache Spark 2.2.0 中文文档 - Spark Streaming 编程指南 | ApacheCN
SparkStreaming
编程指南概述一个入门示例基础概念依赖初始化StreamingContextDiscretizedStreams(DStreams)(离散化流)InputDStreams和Receivers
片刻_ApacheCN
·
2017-09-21 16:19
Spark源码解析之
SparkStreaming
数据处理及流动
在分析receiver启动的博文中
SparkStreaming
中Receiver的启动,我们遇到ReceiverSupervisor中的onStart方法defstart(){onStart()startReceiver
yzgyjyw
·
2017-09-21 15:51
spark
Spark源码解析
SparkStreaming
数据接收
在上一篇博文中,我们讲述了一个
SparkStreaming
应用程序启动后开始的准备工作,即在executors启动receiver这里我们将讲述接收数据到存储数据的过程首先接受数据是在receiver的
yzgyjyw
·
2017-09-21 14:28
spark
如何基于 Spark Streaming 构建实时计算平台
GitChat作者:潘国庆原文:如何基于
SparkStreaming
构建实时计算平台关注微信公众号:「GitChat技术杂谈」一本正经的讲技术【不要错过文末彩蛋】前言随着互联网技术的迅速发展,用户对于数据处理的时效性
GitChat技术杂谈
·
2017-09-21 11:16
大数据
Spark源码解析之
SparkStreaming
中Receiver的启动
本篇博文我们主要分析
SparkStreaming
中的Receiver启动的过程。
yzgyjyw
·
2017-09-21 09:03
spark
在线日志分析项目解读
1,日志的采集从flumeagent上的数据一般分到两条线上一条是kafka集群,后期可以用流式处理(
sparkstreaming
或storm等等)一条是到hdfs,后期可以用hive处理,业界叫lambda
skinglzw
·
2017-09-20 20:56
日志
hadoop
Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN
和R的高级API,以及一个支持通用的执行图计算的优化过的引擎.它还支持一组丰富的高级工具,包括使用SQL处理结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX,以及
SparkStreaming
ApacheCN_Xy
·
2017-09-20 14:52
Apache中文网
ApacheCN
Apache-spark
spark
Spark中文文档
Apache
Kafka Streams 剖析
1.概述KafkaStreams是一个用来处理流式数据的库,属于Java类库,它并不是一个流处理框架,和Storm,
SparkStreaming
这类流处理框架是明显不一样的。
生活常识
·
2017-09-14 13:37
Kafka Streams 剖析
1.概述KafkaStreams是一个用来处理流式数据的库,属于Java类库,它并不是一个流处理框架,和Storm,
SparkStreaming
这类流处理框架是明显不一样的。
哥不是小萝莉
·
2017-09-14 11:00
【大数据----Spark】30分钟概览Spark Streaming 实时计算
【Streaming】30分钟概览
SparkStreaming
实时计算本文主要介绍四个问题:什么是
SparkStreaming
实时计算?Spark实时计算原理流程是什么?
Sunny3096
·
2017-09-12 13:00
大数据-Spark
第17课:Spark Streaming资源动态申请和动态控制消费速率原理剖析
本节课主要谈
SparkStreaming
两个比较高级的特性:
SparkStreaming
资源动态申请和动态控制消费速率原理剖析。
段智华
·
2017-09-11 06:36
Spark
Streaming
上一页
55
56
57
58
59
60
61
62
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他