E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkstreaming
1.Why Apache Spark?
1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9
SparkStreaming
全能程序猿
·
2020-03-28 22:42
数据平台实践①——Flume+Kafka+
SparkStreaming
(pyspark)
蜻蜓点水Flume——数据采集如果说,爬虫是采集外部数据的常用手段的话,那么,Flume就是采集内部数据的常用手段之一(logstash也是这方面的佼佼者)。下面介绍一下Flume的基本构造。Agent:包含Source、Channel和Sink的主体,它是这3个组件的载体,是组成Flume的数据节点。Event:Flume数据传输的基本单元。Source:用来接收Event,并将Event批量传
playwolf719
·
2020-03-28 04:43
贯通Spark Streaming JobScheduler内幕实现和深入思考
我们在进行
sparkstreaming
开发的时候,会对Dstream进行各种transform和action级别的操作,这些操作就构成Dstreamgraph,也就是Dstream之间的依赖关系,随
阳光男孩spark
·
2020-03-28 00:05
spark streaming源码解读之job动态生成和深度思考
输入的ds有很多来源Kafka、Socket、Flume,输出的DStream其实是逻辑级别的Action,是
SparkStreaming
框架提出的,其底层翻译成为物理级别的额Action,是RDD的Action
阳光男孩spark
·
2020-03-27 02:30
Strom自学
简介:strom能实现高频数据和大规模数据的实时处理Strom和hadoop的区别:H:大规模的离线批处理;S:实时数据处理H:MapReduce;S:SpoutBoltStrom和
sparkstreaming
MosOucHunibyu
·
2020-03-25 23:29
大数据核心开发技术
SparkStreaming
:构建在Spark上处理Stream数据的框架,基本的原理是将Stream数据分成小的时间片
刘志隆
·
2020-03-25 09:16
storm架构和安装
这时候Hadoop的mapreduce计算框架已经不能满足需求,这个时候就需要使用实时计算框架Storm或
SparkStreaming
。
心_的方向
·
2020-03-24 12:44
Spark Streaming Direct Approach (No Receivers) 分析
前言这个算是
SparkStreaming
接收数据相关的第三篇文章了。
祝威廉
·
2020-03-24 05:52
Spark Streaming(1) - 基本原理
SparkStreaming
的处理方式是,从输入流中读区数据,将数据作为一个个batch保存起来,这样就有了静态的数据,就可以用R
aaron1993
·
2020-03-23 23:27
spark streaming框架简介
1.sparksteaming概述在《spark基础(上篇)》中,
sparkstreaming
是spark体系中的一个流式处理框架。
ZPPenny
·
2020-03-23 22:56
Spark学习
配合3.将中间结果保存在内存而不是磁盘中4.提供了比Map、Reduce更多的高阶函数5.提供了Scala、Python、Java的API以及Scala和Python的shell二、Spark内置库1.
SparkStreaming
一只小青鸟
·
2020-03-23 05:58
[flow]Flink~流和批的一体化方案
SparkStreaming
是把流转
葡萄喃喃呓语
·
2020-03-21 00:26
[spark streaming] ReceiverTracker 数据产生与存储
前言在
SparkStreaming
里,总体负责任务的动态调度是JobScheduler,而JobScheduler有两个很重要的成员:JobGenerator和ReceiverTracker。
BIGUFO
·
2020-03-20 23:05
Spark Streaming通过JDBC操作数据库
1.前言1.1说明本文记录了学习使用
SparkStreaming
通过JDBC操作数据库的过程,源数据从Kafka中读取。
郭寻抚
·
2020-03-20 13:55
Spark Streaming-介绍
介绍许多应用需要处理及时收到的数据,
SparkStreaming
是Spark为这些应用而设计的模型。
raincoffee
·
2020-03-20 07:16
Spark Streaming管理Kafka偏移量
前言为了让
SparkStreaming
消费kafka的数据不丢数据,可以创建KafkaDirectDStream,由
SparkStreaming
自己管理offset,并不是存到zookeeper。
BIGUFO
·
2020-03-20 01:43
5 基于案例一节课贯通Spark Streaming流计算框架的运行源码
本期内容:1、在线动态计算分类最热门商品案例回顾与演示2、基于案例贯通
SparkStreaming
的运行源码第一部分案例:packagecom.dt.spark.
sparkstreaming
importcom.robinspark.utils.ConnectionPoolimportorg.apache.spark.SparkConfimportorg.apache.spark.sql.Rowim
海纳百川_spark
·
2020-03-20 01:34
Spark 伪分布式部署
Spark支持SQL、流计算和复杂分析,提供了SparkSQL、
SparkStreaming
、MLli
郭寻抚
·
2020-03-19 00:03
Spark Streaming消息通信过程
1、
SparkStreaming
消息通信总体流程在启动流处理引擎的过程中,将进行启动所有的流数据接受器Receiver和注册流数据接收器Receiver两个消息通信。
土土的简书
·
2020-03-18 22:20
Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN
和R的高级API,以及一个支持通用的执行图计算的优化过的引擎.它还支持一组丰富的高级工具,包括使用SQL处理结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX,以及
SparkStreaming
Joyyx
·
2020-03-18 21:55
SparkStreaming
之使用redis保存Kafka的Offset
本文主要记录使用
SparkStreaming
从Kafka里读取数据,并使用Redis保存Offset。
阿坤的博客
·
2020-03-18 19:46
==[DAG Visualization]通过可视化来了解你的Spark应用程序
新的可视化帮助更好地了解
SparkStreaming
应用程序http://www.chinacloud.cn/show.aspx?
葡萄喃喃呓语
·
2020-03-18 07:54
大数据面试问题
spark工作原理spark运行原理
SparkStreaming
Storm的ack是干嘛的kalfka干嘛的job提交到yarn上的工作流程10x+5y+z=n,x+y+z的最小值ArryList、LinkedList
Albert陈凯
·
2020-03-17 12:37
Spark Python API Docs(part three)
pyspark.streamingmoduleModulecontentsclasspyspark.streaming.StreamingContext(sparkContext,batchDuration=None,jssc=None)Bases:object
SparkStreaming
盗梦者_56f2
·
2020-03-17 10:50
9. Spark Streaming技术内幕 : Receiver的精妙实现和生命周期研究和思考
原创文章,转载请注明:转载自听风居士博客(http://www.jianshu.com/users/4435a13863fb/timeline)
Sparkstreaming
程序需要不断接收新数据,然后进行业务逻辑处理
飞帅记忆
·
2020-03-17 08:11
Spark之WordCount集群
在搭建本集群之前必须先搭建好Spark集群,搭建Spark集群请参考:SparkonYarn环境搭建.主要内容:1.创建工程2.主程序3.提交运行相关文章:1.Spark之PI本地2.Spark之WordCount集群3.
SparkStreaming
阿坤的博客
·
2020-03-17 07:57
Spark-streaming-2.0-Kafka数据接收并行度源码学习
前段时间学习了
sparkstreaming
采用kafka作为数据源时,数据接收并行度这一部分的源代码。本文主要将学习的体会记录一下,有理解不对的地方请多多指教。
疯狂的轻骑兵
·
2020-03-17 06:29
Spark之PI本地
主要内容:1.安装Scala2.编写ScalaPI相关文章:1.Spark之PI本地2.Spark之WordCount集群3.
SparkStreaming
之读取Kafka数据4.
SparkStreaming
阿坤的博客
·
2020-03-17 03:07
『DT_Spark』0084:StreamingContext、DStream、Receiver深度剖析
『DT大数据梦工厂』
SparkStreaming
--Spark定制班Spark-andyshar的博客-博客频道-CSDN.NEThttp://blog.csdn.net/andyshar/article
葡萄喃喃呓语
·
2020-03-17 01:31
SparkStreaming
写数据到 HBase,由于共用连接造成的数据丢失问题
有如下程序,
SparkStreaming
读取Kafka中的数据,经过处理后,把数据写入到Hbase中/***Author:Jed*Description:
SparkStreaming
读取Kafka中的数据
CoderJed
·
2020-03-16 13:12
SparkStreaming
之优雅停止
本文主要记录使用
SparkStreaming
从Kafka里读取数据,并使用Redis保存Offset,并监听Redis中的某个Key是否存在来停止程序相关文章:1.Spark之PI本地2.Spark之WordCount
阿坤的博客
·
2020-03-16 02:11
Kafka结合
SparkStreaming
开发
ApacheKafka是一种分布式流式平台Kafka基本搭建:Step1kafka下载地址wgethttp://mirror.bit.edu.cn/apache/kafka/0.10.2.0/kafka_2.11-0.10.2.0.tgztarzxvfkafka_2.11-0.10.2.0.tgzcdkafka_2.11-0.10.2.0Step2:启动ServerKafka使用ZooKeeper
kason_zhang
·
2020-03-16 02:12
Windows下idea远程调试Spark Streaming接收Kafka数据
大数据集群环境说明Spark版本:2.0.2Kafka版本:0.9.1Linux系统:CentOS6.5场景做
SparkStreaming
开发,在Win7下使用IDE进行开发,希望在本地IDEA上远程连接服务器上的大数据集群进行调试
荒野雄兵
·
2020-03-15 08:50
Spark Streaming VS flink
本文从编程模型、任务调度、时间机制、Kafka动态分区的感知、容错及处理语义、背压等几个方面对比
SparkStreaming
与Flink,希望对有实时处理需求业务的企业端用户在框架选型有所启发。
深圳浪尖
·
2020-03-14 09:44
Spark Streaming(2) - JobScheduler、JobGenerator
本文基于Spark2.111.前言
SparkStreaming
(1)中提到JobScheduler使用JobGenerator可以每隔一段时间根据DStreamDAG创建出RDDDAG,并提交job,本文主要介绍
aaron1993
·
2020-03-13 20:12
通过案例对
SparkStreaming
透彻理解三板斧之三:解密
SparkStreaming
运行机制和架构进阶之Job和容错
关于Job理解
SparkStreaming
的Job的整个架构和运行机制对于精通
SparkStreaming
是至关重要的。
milkfan
·
2020-03-13 15:02
Apache Spark 2.2.0 中文文档 - 概述 | ApacheCN
和R的高级API,以及一个支持通用的执行图计算的优化过的引擎.它还支持一组丰富的高级工具,包括使用SQL处理结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX,以及
SparkStreaming
那伊抹微笑
·
2020-03-12 18:54
Spark 2.0, high level concept
:SparkContextbasicabstraction:RDDForSparkSQLmainentrypoint:SparkSessionbasicabstraction:DataFrameFor
SparkStreaming
Mainentrypoint
abrocod
·
2020-03-12 02:26
13 Spark Streaming源码解读之Driver容错安全性
SparkStreaming
中Driver的容错主要是ReceiverTracker、Dstream.graph、JobGenerator的容错第一、看ReceiverTracker的容错,主要是ReceiverTracker
海纳百川_spark
·
2020-03-10 15:29
Spark概述
它还支持一组丰富的高级工具,包括用于SQL和结构化数据处理的SparkSQL,用于机器学习的MLlib,用于图形处理的GraphX,以及
SparkStreaming
。
it_zzy
·
2020-03-09 08:36
揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入
SparkStreaming
在数据接收与导入方面需要满足有以下三个特点:兼容众多输入源,包括HDFS,Flume,Kafka,TwitterandZeroMQ。
牛肉圆粉不加葱
·
2020-03-08 23:40
Spark-Steaming 文档之容错机制
容错机制在这一节,我们要讨论一下
SparkStreaming
的容错机制。背景知识为了能够更好地理解
SparkStreaming
的容错机制,我们先来看下SparkRDD的基本容错机制。
bb6b382a3536
·
2020-03-08 11:07
模拟网站实时数据流统计
pan.baidu.com/s/1o7JMCvo功能:用python模拟实时数据的生成,用crontab来执行shell脚本生成实时流数据,之后用flume把log数据输出到kafka,在IDEA中通过
sparkStreaming
冷梦颜爱楠楠
·
2020-03-08 10:57
SparkStreaming
之写数据到Kafka
本文主要记录使用
SparkStreaming
从Kafka里读取数据,并使用Redis保存Offset,并监听Redis中的某个Key是否存在来停止程序,将读取到的数据转换为json写入到Kafka相关文章
阿坤的博客
·
2020-03-07 22:15
Spark Core
sc.textFile("/home/data.txt").flatMap(_.split("/t")).map((_,1)).reduceBykey(_+_).collectspark共有5大组件:SparkCore、
SparkStreaming
终生学习丶
·
2020-03-06 03:11
2 通过案例对
SparkStreaming
透彻理解之二
而
SparkStreaming
是在RDD之上增加了时间维度,DStream就是RDD的模板,随着时间的流逝不断地实例化DStream,以数据进行填充DStream。
海纳百川_spark
·
2020-03-05 13:14
Spark Streaming 数据接收优化
看这篇文章前,请先移步
SparkStreaming
数据产生与导入相关的内存分析,文章重点讲的是从Kafka消费到数据进入BlockManager的这条线路的分析。
祝威廉
·
2020-03-05 12:17
shell 读取文件行
最近通过
SparkStreaming
消费Kafka数据,消费的数据落到hdfs,一分钟一个小文件,昨天架构那边的同事告诉我要清理历史文件,但是目录太多,手动删比较慢,于是想到可以把文件目录都拿到,写入文本
dataMaster
·
2020-03-05 08:38
[spark streaming] 状态管理 updateStateByKey&mapWithState
前言
SparkStreaming
7*24小时不间断的运行,有时需要管理一些状态,比如wordCount,每个batch的数据不是独立的而是需要累加的,这时就需要
sparkStreaming
来维护一些状态
BIGUFO
·
2020-03-05 03:25
Spark Streaming 数据产生与导入相关的内存分析
前言我这篇文章会分几个点来描述
SparkStreaming
的Receiver在内存方面的表现。
祝威廉
·
2020-03-05 01:11
上一页
39
40
41
42
43
44
45
46
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他