E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Sparkstreaming
Spark机器学习· 实时机器学习
2
SparkStreaming
离散化流(DStream)输入源:Akkaactors、消息队列、Flume、Kafka、……http://spark.apache.org/docs/latest/streaming-programming-guide
weixin_34080903
·
2020-06-28 10:45
Flink技术源码解析(一):Flink概述与源码研读准备
关于Flink与其它主流实时大数据处理引擎Storm、
SparkStreaming
的不同与优势,可参考https://blog.csdn.net/cm_chenmin/article/details/53072498
weixin_33828101
·
2020-06-28 06:20
Spark Streaming实时计算框架介绍
SparkStreaming
是建立在Spark上的实时计算框架,通过它提供的丰富的API、基于内存的高速执行引擎,用户可以结合流式、批处理和交互试查询应用。
weixin_30889885
·
2020-06-28 02:20
YARN开启Label Scheduler
SparkStreaming
实时长时服务与MapRedue、Spark、Hive等批处理应用共享YARN集群资源。
我要大声告诉你
·
2020-06-28 01:54
SQL On Streaming
实时计算的一个方向实时计算未来会成为一个趋势,基本上所有的离线计算任务都能通过实时计算来完成,对于实时计算来算,除了性能,延迟性和吞吐量这些硬指标要求以外,我觉得易用性上面应该是未来的一个发展方向,毕竟现在的实时计算入storm,flink,
sparkstreaming
FlyCynomys
·
2020-06-28 00:55
Spark Streaming的优化之路—从Receiver到Direct模式
SparkStreaming
是一种分布式的大数据实时计算框架,他提供了动态的,高吞吐量的,可容错的流式数据处理,不仅可以实现用户行为分析,还能在金融、舆情分析、网络监控等方面发挥作用。
风筝Lee
·
2020-06-27 23:36
大数据
CDH部署StreamSets
举例,它可以将数据源从Kafka+
SparkStreaming
连接到你的Hadoop集群,而不需要写一行代码。StreamSets并没有集成在cdh
weixin_30650859
·
2020-06-27 22:37
Spark Kafka(createDirectStream)自己管理offset
1、
SparkStreaming
中使用Kafka的createDirectStream自己管理offset在
SparkStreaming
中,目前官方推荐的方式是createDirectStream方式,
wangweislk
·
2020-06-27 13:31
Spark
Kafka
spark streaming例子
SparkStreaming
ProgrammingGuideOverviewAQuickExampleBasicConceptsLinkingInitializingStreamingContextDiscretizedStreams
wackycrazy
·
2020-06-27 12:18
大数据流处理框架介绍
本文涉及到的框架或技术有Flume,Logstash,kafka,Storm,
SparkStreaming
等。实时流处理的的流程与技术选型:一、日志收集由于业务系统一般
小王同学88
·
2020-06-27 12:57
大数据处理
Hadoop学习笔记(六)(Spark + Flink + Beam)
是进程级别的,Spark是线程级别的Spark生态系统:DBAS(BerkeleyDataAnalyticsStack)Mesos,HDFS,Tachyon(基于内存的文件系统),Spark(核心)自框架:
SparkStreaming
无影风Victorz
·
2020-06-27 11:02
大数据
基础配置
如何将spark streaming处理结果保存到关系型数据库中
sparkstreaming
是一个分布式高可靠的准实时处理系统,其数据源可以flume、Hdfs、kafka等,其结果可以保存到关系型数据库,HDFS上。
朱智文
·
2020-06-27 08:25
spark
Spark Streaming一个简单例子
楔子《Spark快速大数据分析》学习10
SparkStreaming
许多应用需要即时处理收到的数据,例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用,还有自动检测异常的应用。
千里草竹
·
2020-06-27 05:55
Spark
spark-streaming direct stream的部分实现原理
今天看了一片介绍spark-streamingdirectstream的实现原理,文章在这个地址(内容加载比较慢,打开链接后等几分钟内从才能显示出来):Exactly-once
SparkStreaming
fromApacheKafka
heayin123
·
2020-06-27 04:30
大数据
《从0到1学习spark》-- spark前世今生
年诞生于加州大学伯克利分校AMPLab2010年开源2013年6月成为Apache孵化项目2014年2月成为Apache顶级项目目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、
SparkStreaming
小强的进阶之路
·
2020-06-27 04:29
Debezium:数据实时采集从Postgresql到Kafka
目的:构建基于hbase的实时数仓解决的问题:RDBMS到Hbase的数据实时采集方法:Postgresql----->Debezium----->Kafka------>
Sparkstreaming
-
TracyGao01
·
2020-06-27 04:24
Debezium
kafka
Debezium
Postgresql
Debezium:kafka 连接器配置
目的:构建基于hbase的实时数仓解决的问题:RDBMS到Hbase的数据实时采集方法:Postgresql----->Debezium----->Kafka------>
Sparkstreaming
-
TracyGao01
·
2020-06-27 04:52
Debezium
kafka
Debezium
Postgresql
spark-概念
本文长篇介绍了spark基本概念和
sparkStreaming
、sparksql请仔细阅读,红色标注的是我认为比较重要的部分。
双斜杠少年
·
2020-06-27 03:27
5.5
spark
Spark Streaming简单入门(示例+原理)
概述
SparkStreaming
是流式处理框架,是SparkAPI的扩展,支持可扩展、高吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka,Flume,Twitter,ZeroMQ或者TCPsockets
阿雅Yage
·
2020-06-27 03:44
spark
记一次spark源码的bug排查,顺便简单看一下spark sql底层引擎catalyst处理的流程
场景:hive中事先创建好分区表test_table_name,然后通过
sparkstreaming
任务处理数据,将rdd转为dataframe后写hive。
knowfarhhy
·
2020-06-27 02:14
spark
flume LineDeserializer Line length exceeds max (2048), truncating line!扩大一行数据量大小的采集上限
简介在一次使用flume+kafka+
sparkstreaming
架构处理日志时,出现一个很奇怪的问题:日志中的某一行数据总会被切分成了多行,总的输出日志行数也比原始日志文件多出了几十行,导致具体的处理逻辑中出现各种错误
疯狂的暴走蜗牛
·
2020-06-26 23:05
flume
入门大数据---Spark_Streaming整合Flume
二、推送式方法在推送式方法(Flume-stylePush-basedApproach)中,
SparkStreaming
程序需要对某台服务器的某个端口进行监听,Flume通过avroSink将数
一线大数据
·
2020-06-26 23:00
java.lang.ClassCastException: kafka.cluster.BrokerEndPoint cannot be cast to kafka.cluster.Broker
使用
SparkStreaming
读取kafka数据进行处理,程序启动报异常:java.lang.ClassCastException:kafka.cluster.BrokerEndPointcannotbecasttokafka.cluster.Broker
在路上_JD
·
2020-06-26 21:37
大数据常见问题之数据倾斜
相信大部分做数据的童鞋们都会遇到数据倾斜,数据倾斜会发生在数据开发的各个环节中,比如:用Hive算数据的时候reduce阶段卡在99.99%用
SparkStreaming
做实时算法时候,一直会有executor
Kuzury
·
2020-06-26 21:06
大数据
大数据IMF传奇行动绝密课程第100-101课:使用Spark Streaming+Spark SQL+Kafka+FileSystem综合案例
使用
SparkStreaming
+SparkSQL+Kafka+FileSystem综合案例1、项目分析流程图2、项目代码实战Flumesink到Kafka需要一个jar包支持https://github.com
tom_8899_li
·
2020-06-26 20:29
Spark
Streaming
Spark-Streaming-一
SparkStreaming
SparkStreaming
是SparkCoreAPI的一种扩展,它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。
sock_bong
·
2020-06-26 18:17
Spark
SparkStream
Flink 基本工作原理
既可以处理streamdata也可以处理batchdata,可以同时兼顾Spark以及
Sparkstreaming
的功能,与Spark不同的是,Flink本质上只有stream的概念,batch被认为是
sxiaobei
·
2020-06-26 17:37
实时计算
Flink
流数据的Web界面配置
作者:doremi流数据服务(StremingService)基于
SparkStreaming
分布式实时计算框架,因此在配置服务前,需要开启Spark集群。
supermapsupport
·
2020-06-26 16:53
云GIS
大数据
Spark入门之八:Spark Streaming 的原理以及应用场景介绍
什么是
SparkStreaming
SparkStreaming
类似于ApacheStorm,用于流式数据的处理。根据其官方文档介绍,
SparkStreaming
有高吞吐量和容错能力强这两个特点。
铁猴
·
2020-06-26 15:16
Spark
Spark入门简单学
Spark-core之RDD核心概念
一、Spark包括什么spark的核心是SparkCore,其中上面的SparkSql对接的是Hive等结构化查询,
SparkStreaming
是对接的流式计算,后面的那两个也是主要用在科学任务中,但是他们的基础都是
student__software
·
2020-06-26 15:15
Spark
基于kafka和
sparkstreaming
的实时数据处理系统
体统分为实时部分和H/T+1部分,数据流架构图如下:实时部分开发时考虑的几个主要问题
sparkstreaming
和sparkstructuredstreaming的选择手动实现
sparkstreaming
songhk0209
·
2020-06-26 13:34
spark
常见大数据框架
文件存储:HadoopHDFS、Tachyon、KFS离线计算:HadoopMapReduce、Spark流式、实时计算:Storm、
SparkStreaming
、S4、HeronK-V、NOSQL数据库
小学生ing
·
2020-06-26 11:37
大数据
大数据框架
sparkstreaming
API 操作实例 java
sparkstreaming
API操作实例javapublicstaticvoidmain(String[]args)throwsInterruptedException{SparkSessionspark
super_ruichao
·
2020-06-26 10:35
阿里云EMR spark streaming 消费kafka数据
先吐槽一下阿里云,简直了,为了一个简单demo,简直无语先是本身MQ的kafka有问题,然后3.30升级也无这方面文档提供,回到正题:本文主要讲讲述下再阿里云的emr中的
sparkstreaming
怎么连接阿里云的消息
DevinShuai
·
2020-06-26 09:45
spark
3.如何安装Apache Spark
ApacheSpark1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9
SparkStreaming
全能程序猿
·
2020-06-26 07:10
[翻译]Spark Struct Streaming设计文档
介绍通过过去三年里部署、运维
SparkStreaming
的积累,我们在Catalyst和DataFrames的基础上重新架构了绰号为“StructStreaming”的实时计算项目。
分裂四人组
·
2020-06-26 07:53
flink自定义trigger-实现窗口随意输出
前面,一篇简单讲了flink的窗口及与
SparkStreaming
窗口之间的对比。
大数据星球-浪尖
·
2020-06-26 05:30
基石 | Flink Checkpoint-轻量级分布式快照
必会:关于
SparkStreaming
checkpoint那些事儿flink超越Spark的Checkpoint机制前面两篇,一篇是spark的driver的Checkpoint细节及使用的时候注意事项
大数据星球-浪尖
·
2020-06-26 05:28
flink超越Spark的Checkpoint机制
前面,已经有一篇文章讲解了spark的checkpoint:必会:关于
SparkStreaming
checkpoint那些事儿同时,浪尖也在知识星球里发了源码解析的文章。
大数据星球-浪尖
·
2020-06-26 05:28
spark streaming流式处理kafka中的数据(java)
sparkstreaming
是spark中用来处理流式数据的,用来对接各类消息队列是极好的。
sparkstreaming
并不是真正实时的流式处理,它本质上还是批处理,只是每一个批次间隔的时间很短。
redstarofsleep
·
2020-06-26 05:15
spark
spark Streaming
sparkStreaming
一.概述1.
SparkStreaming
原理2.
SparkStreaming
作业流程3.
SparkStreaming
与Strom3.1处理性能对比3.2架构对比3.3模型对比
飛翔的大雁
·
2020-06-26 04:07
BigData
Spark Streaming 妙用之实现工作流调度器
但是通过
SparkStreaming
(基于Transfomer架构的理念),我们可能能简化这些工作。我在这块并没有什么经验,这只是一个存在于脑海中的东西。
祝威廉
·
2020-06-26 04:52
SparkStreaming
例题
取材自官网http://Spark.apache.org案例1:和集群搭配使用package
SparkStreaming
importjava.io.
橙以
·
2020-06-26 00:11
SparkStreaming
整合flume
文章目录目标一:Flume-stylePush-basedApproach目标二:Push-basedApproachusingaCustomSink
SparkStreaming
整合flume有两种方式
2NaCl
·
2020-06-25 22:09
分布式计算
SparkStreaming
项目(实时统计每个品类被点击的次数)
1、项目的流程:每一个IP对应的名称:2、需求实时统计每个品类被点击的次数(用饼状图展示):3、分析设计项目新建一个Maven项目:pom文件:4.0.01711categorycount1711categorycount1.0-SNAPSHOTorg.apache.hadoophadoop-client2.7.5org.apache.sparkspark-streaming_2.112.2.0o
匿名啊啊啊
·
2020-06-25 21:39
项目
SparkStreaming
读取kafka数据的两种方式
ReceiveReceive是使用的高级API,需要消费者连接Zookeeper来读取数据。是由Zookeeper来维护偏移量,不用我们来手动维护,这样的话就比较简单一些,减少了代码量。但是天下没有免费的午餐,它也有很多缺点:1.导致丢失数据。它是由Executor内的Receive来拉取数据并存放在内存中,再由Driver端提交的job来处理数据。这样的话,如果底层节点出现错误,就会发生数据丢失
NoBugPro
·
2020-06-25 20:35
大数据基础
kafka
Spark Streaming整合flume实战(一)
SparkStreaming
从flume中拉取数据
SparkStreaming
对接Flume有两种方式Poll:
SparkStreaming
从flume中拉取数据Push:Flume将消息Push推给
SparkStreaming
1
Running_Tiger
·
2020-06-25 20:05
Spark
Streaming
SparkStreaming
窗口操作经典案例
1.背景描述在社交网络(微博),电子商务(京东)、搜索引擎(百度)、股票交易中人们关心的内容之一是我所关注的内容中,大家正在关注什么在实际企业中非常有价值例如:我们关注过去30分钟大家都在热搜什么?并且每5分钟更新一次。要求列出来搜索前三名的话题内容2.原理图如图所示,每当窗口滑过DStream时,落在窗口内的源RDD被组合并被执行操作以产生windowedDStream的RDD。在上面的例子中,
longG_It
·
2020-06-25 19:11
spark
KafkaUtils.createDirectStream的个人理解
近几日自己摸索的去看了一下kafka的一些特征,自己总结出来,加深一下印象这个是
sparkstreaming
对接kafka,用direct方式消费数据的方法,点开这个方法看一下里面的描述这是源码里对方法的描述
钟一鑫
·
2020-06-25 19:39
大数据学习知识点
文件存储:HadoopHDFS、Tachyon、KFS离线计算:HadoopMapReduce、Spark流式、实时计算:Storm、
SparkStreaming
、S4、HeronK-V、NOSQL数据库
Daneil_Lee
·
2020-06-25 18:35
上一页
35
36
37
38
39
40
41
42
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他