E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkstreaming
Spark学习笔记:Spark Streaming数据存储与调优
目录
SparkStreaming
数据存储与调优一.缓存与持久化机制二.Checkpoint机制三.部署、升级和监控应用程序1.部署应用程序2.升级应用程序3.监控应用程序4.容错机制以及事务语义详解5.
SetsunaMeow
·
2018-09-24 20:03
Spark
Spark
Streaming
Spark学习笔记:Spark Streaming与Spark SQL协同工作
SparkStreaming
与SparkSQL协同工作
SparkStreaming
可以和SparkCore,SparkSQL整合在一起使用,这也是它最强大的一个地方。
SetsunaMeow
·
2018-09-19 17:48
Spark
Spark
Streaming
Spark修炼之道(进阶篇)——Spark入门到精通:第十二节 Spark Streaming—— DStream Window操作
作者:周志湖微信号:zhouzhihubeyond本节主要内容WindowOperation入门案例1.WindowOperation
SparkStreaming
提供窗口操作(WindowOperation
痞子锐
·
2018-09-14 17:48
spark
spark中 Dynamic Allocation 以及 num-executors 的问题
之前使用spark2.3.1的
sparkstreaming
时,发现spark-submite设置num-executors10时,没有起作用,spark作业的executors一度多大几百个,后来把dynamicAllocation.enabledfalse
EnterPine
·
2018-09-12 16:41
spark
大数据Spark与Storm技术选型
先做一个对比:对比点Storm
SparkStreaming
实时计算模型纯实时,来一条数据,处理一条数据准实时,对一个时间段内的数据收集起来,作为一个RDD,再处理实时计算延迟度毫秒级秒级吞吐量低高事务机制支持完善支持
CTO老王
·
2018-09-10 07:00
26-
SparkStreaming
02
用户行为日志信令数据cellmapWithStateDStream整合RDD==transform数据一:日志信息DStreamdomain,trafficruozedata.comruozedata.combaidu.com数据二:已有的文件黑名单RDDdomainbaidu.com==>(ruozedata.com,ruozedata.com,8888)www.ruozedata.com,88
CrUelAnGElPG
·
2018-09-10 02:15
26-
SparkStreaming
02
用户行为日志信令数据cellmapWithStateDStream整合RDD==transform数据一:日志信息DStreamdomain,trafficruozedata.comruozedata.combaidu.com数据二:已有的文件黑名单RDDdomainbaidu.com==>(ruozedata.com,ruozedata.com,8888)www.ruozedata.com,88
CrUelAnGElPG
·
2018-09-10 02:15
13.spark streaming之快速入门
简介
SparkStreaming
是Spark核心API的扩展,可以实现可伸缩、高吞吐量、具备容错机制的实时流时数据的处理。
菲立思教育
·
2018-09-09 16:43
SparkStreaming
DStream
checkpoint
SparkStreaming
集成Kafka,读取Kafka中数据,进行数据统计计算
体系结构如下:当
SparkStreaming
与Kafka做集成的时候Kafka成了Streaming的高级数据源,由于
SparkStreaming
和Kafka集成的时候,依赖的jar包比较多,而且还会产生冲突
Jantelope
·
2018-09-07 21:02
Kafka
盘点大数据培训类别
通过学习掌握诸如Spark(包括
SparkStreaming
和SparkSQL)、Flume、Kafka以及Sqoop这样的Hadoop生态系统工具和技术,Hadoop开发员将具备解决实际大数据问题和挑战的能力
ClouderaHadoop
·
2018-09-07 17:00
hadoop
linux
python
盘点大数据培训类别
通过学习掌握诸如Spark(包括
SparkStreaming
和SparkSQL)、Flume、Kafka以及Sqoop这样的Hadoop生态系统工具和技术,Hadoop开发员将具备解决实际大数据问题和挑战的能力
ClouderaHadoop
·
2018-09-07 17:00
hadoop
linux
python
数据倾斜解决方案
常见数据倾斜现象数据倾斜往往会发生在数据开发的各个环节中,比如:●用Hive数据计算的时候reduce阶段卡在99.99%●用
SparkStreaming
做实时算法的时候,一直会有executor出现
isyslab
·
2018-09-05 21:38
数据倾斜
hadoop
hive
Hadoop
数据科学与大数据
Hive
spark+kafka+hive
使用
sparkstreaming
消费kafka消息,并通过hql同步到hive中用到的pom:org.apache.sparkspark-core_2.112.3.1org.apache.sparkspark-sql
小黄鸭and小黑鸭
·
2018-09-04 18:01
大数据生态圈
spark学习笔记
Spark Streaming
streaming-programming-guide.htmlpom:https://search.maven.org/#search%7Cga%7C1%7Cg%3A%22org.apache.spark%22%20AND%20v%3A%222.3.1%22
SparkStreaming
小黄鸭and小黑鸭
·
2018-09-03 19:08
大数据生态圈
spark学习笔记
Alluxio 部分阅读
2.HDFS使用普通的磁盘,因此IO操作,尤其是读操作有很高的延迟,
sparkstreaming
的executor需要重复的跨集群读操作从HDFS,进一步降低了整体的性能。
holomain
·
2018-09-03 17:46
流全栈处理
分布式系统
Spark选择题
转载:http://www.aboutyun.com/thread-24246-1-1.html1.Spark的四大组件下面哪个不是(D)A.
SparkStreaming
B.MlibCGraphxD.SparkR2
MirandaGirl2018
·
2018-08-30 21:10
笔试相关
[spark streaming]Driver容错安全性
内容:ReceivedBlockTracker容错安全性DStreamGraph和JobGenerator容错安全性Driver的安全性主要从
SparkStreaming
自己运行机制的角度考虑的,如对源数据保存方面使用了
风一样的男人_
·
2018-08-30 21:25
spark
玩转spark
Spark Stream、Kafka Stream、Storm和Flink对比,以及阿里巴巴基于Flink打造的Blink解决的问题
SparkStreaming
的本质还是一个基于microbatch计算的引擎。这种引擎一个天生的缺点就是每个microbatch的调度开销比较大,当我们要求的延迟越低,额外的开销就越大。这就
Johnson8702
·
2018-08-30 14:16
Flink
Blink
算法
大数据
Structured Streaming:Apache Spark中处理实时数据的声明式API
StructuredStreaming是一个高度抽象的API基于
SparkStreaming
的经验。
阿猫阿狗Hakuna
·
2018-08-30 14:32
【翻译】Spark Streaming 管理 Kafka Offsets 的方式探讨 - 简书
ClouderaEngineeringBlog翻译:OffsetManagementForApacheKafkaWithApache
SparkStreaming
SparkStreaming
应用从Kafka
·
2018-08-30 10:00
[spark streaming] 架构和运行机制
本期内容:1.
SparkStreaming
架构2.
SparkStreaming
运行机制3.解密
SparkStreaming
Job架构和运行机制4.解密
SparkStreaming
容错架构和运行机制Spark
风一样的男人_
·
2018-08-28 11:19
spark
玩转spark
Spark Streaming运行架构和运行原理总结
原文地址:https://blog.csdn.net/zhanglh046/article/details/78505053一运行架构
SparkStreaming
相对其他流处理系统最大的优势在于流处理引擎和数据处理在同一软件栈
Anbang713
·
2018-08-26 09:50
大数据/Spark/Spark
Streaming
Spark Streaming-Checkpoint机制
一概述每一个
SparkStreaming
应用,正常来说都是要7*24小时运转的,这就是实时计算程序的特点。因为要持续不断的对数据进行计算。
Anbang713
·
2018-08-25 09:34
大数据/Spark/Spark
Streaming
Spark Streaming-与Spark SQL结合
SparkStreaming
最强大的地方在于可以与SparkCore、SparkSQL整合使用,之前已经通过transform、foreachRDD等算子看到,如何将DStream中的RDD使用SparkCore
Anbang713
·
2018-08-25 08:47
大数据/Spark/Spark
Streaming
Spark Streaming-window滑动窗口以及热点搜索词滑动统计案例实战
SparkStreaming
提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。
Anbang713
·
2018-08-25 07:33
大数据/Spark/Spark
Streaming
SparkStreaming
(SparkSQL)+Kafka+Oracle 使用SQL完成的实时累加统计
Kafka+
SparkStreaming
已经发展为一个比较成熟的实时日志收集与计算架构,利用Kafka,即可以支持将用于离线分析的数据流到HDFS,又可以同时支撑多个消费者实时消费数据,包括
SparkStreaming
lhxsir
·
2018-08-24 16:56
spark
Spark Streaming输入流和接收器
SparkStreaming
提供了两种内置的数据源:基础数据源:在Streami
Anbang713
·
2018-08-24 07:37
大数据/Spark/Spark
Streaming
Spark Streaming-WordCount程序
SparkConf对象//但是这里有一点不同,我们是要给它设置一个Master属性,但是我们测试的时候使用local模式//local后面必须跟一个方括号,里面填写一个数字,数字代表了我们用几个线程来执行我们的//
SparkStreaming
Anbang713
·
2018-08-23 08:21
WordCount
Spark
大数据/Spark/Spark
Streaming
Spark Streaming基本工作原理
SparkStreaming
是SparkCoreAPI的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。
Anbang713
·
2018-08-23 08:54
大数据/Spark/Spark
Streaming
Spark Streaming及实时计算介绍
SparkStreaming
其实就是Spark提供对于大数据进行实时计算的一种框架。它的底层,其实也是基于SparkCore。基本的计算模型还是基于内存的大数据实时计算模型。
Anbang713
·
2018-08-23 07:45
大数据/Spark/Spark
Streaming
Spark Streaming 集成 AWS Kinesis
关于AWSKinesis的基本信息可以看我的这篇文章:使用AWSKinesis收集流数据,本文主要讲解
SparkStreaming
如何集成Kinesis处理流数据。
Trigl
·
2018-08-22 18:15
Spark
Streaming
AWS
Kinesis
Spark
Spark Streaming Checkpoint
一个Streaming应用是一个007特工,需要保证7*24小时的持久运转,因此容错性就极其重要,
SparkStreaming
通过在一个具有容错性的存储系统如HDFS中设置一些检查信息来从错误中恢复。
Trigl
·
2018-08-22 18:55
Spark
Spark Streaming 初见
本文内容是对
SparkStreaming
官方文档的总结,用一个简单的例子来入门
SparkStreaming
。
Trigl
·
2018-08-22 18:08
Spark
SparkStreaming
2.2+kafka的偏移量管理
在从kafka接受流式数据的时候,spark提供了两种方式,Dstream和DirectStream,在spark2.2中已经不在提供第一种方式,具体区别这儿就不再描述了,第二种方式spark是用的kafka低阶api,每个RDD对应一个topic的分区,这种情况,需要借助于外部存储来管理offset,或者简单点,自己手动利用kafka来管理offset,否则在程序重启时找不到offset从最新的
cyony
·
2018-08-22 11:41
spark
kafka
Spark Streaming消费Kafka Direct保存offset到Redis,实现数据零丢失和exactly once
二、使用场景
SparkStreaming
实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Sp
ChouYarn
·
2018-08-21 16:00
快乐大数据第11课 Spark Stream
第一部分:Stream程序设计原理#
SparkStreaming
设计动机很多重要的应用要处理大量在线流式数据,并返回近实时的结果•社交网络趋势跟踪•电商网站指标统计•广告系统具备分布式流式处理框架的基本特征
快乐大数据
·
2018-08-20 16:47
Spark 以及 spark streaming 核心原理及实践 - (2)
阅读更多
SparkStreaming
运行原理spark程序是使用一个spark应用实例一次性对一批历史数据进行处理,
sparkstreaming
是将持续不断输入的数据流转换成多个batch分片,使用一批
nethub2
·
2018-08-19 15:00
Spark 以及 spark streaming 核心原理及实践 - (1)
阅读更多导语spark已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及
sparkstreaming
之后,对spark
nethub2
·
2018-08-19 15:00
Spark Streaming-Kafka实例(Python与Java版本)
本文实现kafka与
SparkStreaming
之间的通信,其中Kafka端producer实现使用Java,
SparkStreaming
端Consumer使用Python实现。
hadoove
·
2018-08-17 11:42
python
java
大数据
架构
大数据
spark
Streaming
kafka
spark
streaming
Spark Streaming总结
一、本质
SparkStreaming
是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理二、
SparkStreaming
和SparkCore2.1逻辑关系:2.2物理关系
且听_风吟
·
2018-08-17 09:32
Spark
流式统计的几个难点
没有用过
sparkstreaming
/flink,不知道下面这些问题在
sparkstreaming
/flink里是不是都已经解决得很好了。
若水三千你是一千
·
2018-08-13 22:39
流计算
Spark
Flink
Storm
大数据
Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark Streaming(一)
本节主要内容本节部分内容来自官方文档:http://spark.apache.org/docs/latest/streaming-programming-guide.html#mllib-operationsSpark流式计算简介
SparkStreaming
痞子锐
·
2018-08-13 08:56
spark
Flume+Spark+Hive+Spark SQL离线分析系统
当然Spark不光是可以做离线计算,还提供了许多功能强大的组件,比如说,
SparkStreaming
组件做实时计算,和Kafka等消息系统也有很好的兼容性;SparkSql,可以让用户通过标准SQL语句操作从不同的数据源中过来的结构化数据
Tank_Lo
·
2018-08-12 22:57
大数据学习
关于CDH5.11.0自带kafka 0.10 bootstrap-server 无法消费
近日需要在项目用到kafka,然后本地使用cdh集成的kafka进行安装调试,以及些样例代码,
sparkstreaming
相关调用kafka的代码使用的原始的api而没有走zookeeper,虽然消费者能启动
ranfengzheng
·
2018-08-08 10:58
大数据kafkacdh
SparkStreaming
演示
首先启动hadoop1.
sparkstreaming
监听端口计算wordcount安装nc:yuminstall-ync启动一个socket服务端口:nc-lk88882.window窗口操作3.mapWithState
灿若星辰丶
·
2018-08-07 20:02
20180807 - Spark快速大数据分析
Spark快速大数据分析概念数据的两个方向:数据科学:分析+建模(回答业务问题、挖掘潜在规律、辅助产品推荐)数据处理:硬件(内存、集群)+软件(封装、接口、监控、优化)框架应用层:
SparkStreaming
SparkSqlSparkGraphxSparkMLlib
BigDeng_2014
·
2018-08-07 14:55
网络技术-互联网
Spark基础:(七)Spark Streaming入门
Spark基础:(七)
SparkStreaming
入门介绍1、是sparkcore的扩展,针对实时数据流处理,具有可扩展、高吞吐量、容错.数据可以是来自于kafka,flume,tcpsocket,使用高级函数
雪泪寒飞起来
·
2018-08-07 14:00
Spark Streaming 和 Flink 谁是数据开发者的最爱?
本文为「美图数据技术团队」投稿本文从编程模型、任务调度、时间机制、Kafka动态分区的感知、容错及处理语义、背压等几个方面对比
SparkStreaming
与Flink,希望对有实时处理需求业务的企业端用户在框架选型有所启发
CSDN资讯
·
2018-08-07 08:13
解决CDH
SparkStreaming
任务启动之后executor不停增长的问题,num-executors配置不管用。...
spark2-submit--classSparkKafka--masteryarn--executor-memory1G--num-executors6--driver-memory1g\--confspark.driver.supervise=true\--confspark.dynamicAllocation.maxExecutors=6\--confspark.streaming.kafk
arli_xu
·
2018-08-02 21:00
流处理系统中的“Exactly Once”语义保证
笔者最近在阅读
SparkStreaming
的官方文档中,提到了这一点,于是来做个小小的总结归纳。如果感兴趣的同学,请继续往下阅读
Android路上的人
·
2018-07-31 18:20
分布式系统
上一页
51
52
53
54
55
56
57
58
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他