E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Sparkstreaming
sparkstreaming
和kafka集成知识回顾
SparkStreaming
的Recevier方式和直连方式有什么区别?
Show_Action
·
2020-09-15 21:09
spark
spark
kafka
kill掉yarn正在运行的job/app
启动一个
sparkstreaming
,一直在跑,看着烦人,直接杀掉cd/usr/lib/hadoop-yarn/bin.
撸依天
·
2020-09-15 19:56
hadoop
MapReduce(一)基础简介和Wordcount实例
MapReduce是一种离线批式计算框架,与
Sparkstreaming
、flink等流式计算框架不同,其输入数据是固定不可变的,延时较高,适合处理大批量实时分析的场景。
风之清扬
·
2020-09-15 19:36
大数据计算-MapReduce
大数据分析
mapreduce
大数据
wordcount
离线计算
mr入门
sparkcore, sparksql,
sparkstreaming
,sparkmlib
MapReduce(1)分布式计算框架,只能用Java进行开发。MapReduce–>Hive(1)由于MR只有Java程序员才能开发,但是程序员大部分都会sql,所以衍生出类sql语法HQL(HiveQueryLanguage).Hive其实是基于MR的一种分布式计算框架,在MR上包了一层壳,底层仍然是MR。MapReduce–>sparkcore(1)MR的shuffle过程中数据要频繁的落地
醉糊涂仙
·
2020-09-15 18:55
spark
【Spark】Spark2.x版新特性
【Spark】Spark2.x版新特性一、API二、SQL三、性能四、
SparkStreaming
五、SparkMLlib六、Other一、API出现新的上下文接口:SparkSession,统一了SQLContext
太阳下的兰花草
·
2020-09-15 17:31
Spark
Spark----SparkSQL之SparkSession
例如:对于
SparkStreaming
,我们需要
XiaodunLP
·
2020-09-15 16:51
Spark
SparkSQL
SparkStreaming
如何解决小文件问题
使用
sparkstreaming
时,如果实时计算结果要写入到HDFS,默认情况下会产生非常多的小文件。
xuehuagongzi000
·
2020-09-15 15:33
spark
SparkStreaming
踩坑之Kafka重复消费
1.问题描述使用
SparkStreaming
连接Kafka的demo程序每次重启,都会从Kafka队列里第一条数据开始消费。修改enable.auto.commit相关参数都无效。
xianyuxiaoqiang
·
2020-09-15 15:20
Spark streaming 整合Kafka统计词频
**
Sparkstreaming
整合Kafka基于(Receiver-basedApproach)统计词频**首先,启动zookeeper然后,启动kafka创建topic启动生产者启动消费者开发
Sparkstreaming
cxf_coding
·
2020-09-15 15:20
spark
streaming
python
kafka
apache
spark
python
Kafka topic中的数据无法再Java端消费
现象:把数据放到kafka的一个topic中,用Java端
SparkStreaming
+Kafka集成拿不到数据,而在linux上用自带的kafka-consumer就能消费到topic中的数据。
Jsoooo
·
2020-09-15 15:22
Kafka
Flume
Spark Streaming 的一些问题
SparkStreaming
的一些问题,做选型前关注这些问题可以有效的降低使用风险。checkpointcheckpoint是个很好的恢复机制。
weixin_34357887
·
2020-09-15 15:33
SparkStreaming
j集成Kafka的几个重要参数
sparkstreaming
集成kafka时的maven的pom依赖:org.apache.sparkspark-streaming-kafka-0-8_2.110.8.2.1/version>使用
SparkStreaming
三劫散仙
·
2020-09-15 15:58
spark
Spark Streaming的IDEA操作在spark操作的差别和解决
SparkStreaming
的IDEA操作博客https://blog.csdn.net/qq_43688472/article/details/86499291这里就不重复操作了[hadoop@hadoop001bin
亮大兵
·
2020-09-15 14:07
sparkstreaming
实时数据项目中遇到的问题
1.单个partition拉取数据条数的限制valppc=newPerPartitionConfig(){overridedefmaxRatePerPartition(topicPartition:TopicPartition):Long=1000}KafkaUtils.createDirectStream[String,String](ssc,PreferConsistent,Subscribe
砖厂码农
·
2020-09-15 14:27
大数据
Spark(1)——Spark的安装
一.Spark简介支持多种开发语言:Scala,Java,Python,R涉及的领域SparkCore数据的离线分析->MapReduce
SparkStreaming
数据在在线分析->(实时处理)StromSparkSQL
lime_
·
2020-09-15 14:04
大数据项目设计
一次日志采集中
sparkstreaming
消费kafka遇到的问题
目前小程序日志采集的项目流程:Flume监控Tomcat日志文件,将日志批次量的发送到kafka中,由
SparkStreaming
程序消费Kafka中的消息,进而将写到Mysql表中。
lol、蜗牛
·
2020-09-15 13:08
大数据集群
flume
kafka
sparkstreaming
Spark Streaming 对接Kafka实现实时统计的问题定位和解决
整个思路:
sparkstreaming
接受Kafka数据(KafkaUtils.createDirectStream)然后累计值(updateStateByKey)把值发给Kafka。
u4110122855
·
2020-09-15 13:49
Spark
关于
sparkStreaming
整合kafka遇到的问题
(一定要先看到最后,在对症下药)首先概述一下,我的代码主要就是将kafka中消费的数据转到
sparkStreaming
中,并进行一系列的操作。这个代码在网上有很多相同的,在此不做太多论述。
suphieLiang
·
2020-09-15 13:10
kafka
spark
sparkstreaming
kafka mvn整合遇到pom配置问题
org.apache.sparkspark-streaming-kafka-0-10_2.112.2.0org.apache.sparkspark-streaming-kafka_2.111.4.0起初以为这两个依赖是同一个依赖,一直报scala.xml的一个包找不到
gp2022
·
2020-09-15 13:49
spark
kafka
scala
SparkStreaming
与Kafka整合遇到的问题及解决方案
**前言**最近工作中是做日志分析的平台,采用了
sparkstreaming
+kafka,采用kafka主要是看中了它对大数据量处理的高性能,处理日志类应用再好不过了,采用了
sparkstreaming
chenlei3055
·
2020-09-15 12:53
scala
java
大数据
MYSQL的REPLACE INTO导致死锁问题
Spark任务的不同Executor同时更新MySQL导致死锁的问题,最近该同事遇到了这个问题的升级版:业务有两个不同的数据源分别用于实时计算和更新MySQL同一张表的不同列,目前这个是分别启动了两个
SparkStreaming
要做一棵树
·
2020-09-15 12:11
数据库
特征引擎问题记录
原因:kafka在阿里云vpc,
sparkstreaming
在九狐云,两个环境时间不同步。
bianfulin_
·
2020-09-15 09:14
特征引擎
spark从入门到放弃五十三:Spark Streaming(13)缓存于持久化
与RDD类似,
sparkStreaming
也可以让开发人员手动控制,将数据流中的数据持久化到内存中。
CXHC
·
2020-09-15 03:40
spark-streaming
spark
spark
开发人员
缓存
数据
内存
96、Spark Streaming之Checkpoint机制
Checkpoint机制概述每一个
SparkStreaming
应用,正常来说,都是要7*24小时运转的,这就是实时计算程序的特点。因为要持续不断的对数据进行计算。
ZFH__ZJ
·
2020-09-15 02:15
Spark入坑
Spark源码走读12——Spark Streaming
Summarize
SparkStreaming
实现了对实时流数据的高吞吐量、地容错的数据处理API。它的数据来源有很多种:Kafka、Flume、Twitter、ZeroMQ、TCPScoket等。
weixin_30273763
·
2020-09-15 02:07
大数据
网络
EMQ实现物联网数据采集下沉到kafka
软件要求:需要使用EMQ的企业版场景需求:物联网平台需要接入智能变压器采集装置采集的数据,基于MQTT协议将数据传输到服务器的MQ(EMQ),EMQ将数据转发到kafka集群,
sparkStreaming
我在北国不背锅
·
2020-09-14 21:12
物联网
MQTT
EMQ
Kafka
Maven打包排除某个资源或者目录
最近在
sparkstreaming
本地调试的时候,引入了一些资源文件,打包的时候需要给排除掉。
weixin_33842304
·
2020-09-14 16:15
SparkStreaming
无丢失读取Kafka且转为DataFrame
目录1、需求2、步鄹3、日志格式4、代码展示5、运行结果展示6、KafkaManager和Zookeeper展示1、需求1、
SparkStreaming
读取Kafka数据,且将offset存储到Zookeeper
北京小辉
·
2020-09-14 15:30
【大数据】Kafka
Storm 学习笔记 (一)菜鸟乐园
Storm好像传统的滚梯,来了数据就处理Hadoop好像是电梯,批量处理数据
Sparkstreaming
微批处理介于滚梯和电梯之间Storm特征storm是个实时的,分布式的以及高容错的计算框架1storm
单线程的呆子
·
2020-09-14 14:58
storm
zk、hbase、redis保存
Sparkstreaming
的offset
一、zk:importcn.qphone.spark.`trait`.LoggerTraitimportcn.qphone.spark.utils.{CommonUtils,SparkUtils}importkafka.common.TopicAndPartitionimportkafka.message.MessageAndMetadataimportkafka.serializer.Strin
嘉平11
·
2020-09-14 02:55
Spark
kafka
spark
阿里新一代计算引擎Blink与SQL和机器学习的二三事
近年来业界一直在探索实时流计算引擎和API,比如这几年火爆的
SparkStreaming
、KafkaStreaming、Beam和Flink。
乐投网
·
2020-09-14 02:38
大数据
Spark基础(六):
SparkStreaming
实操读写kafka(亲测)
文章目录启动环境配置sources文件flume-kafka创建Kafka-topicsflume导入kafka1、
sparkstreaming
向Kafka读数据2、
sparkStreaming
向Kafka
跳蛙pass
·
2020-09-14 01:54
spark
spark
kafka
sparkStreaming
kafka保证数据不丢失、不重复
sparkStreaming
接收kafka数据的方式有两种:1.利用Receiver接收数据;2.直接从kafka读取数据(Direct方式)保证数据不丢失(1)Receiver方式为确保零数据丢失,必须在
Enzo_bigdata
·
2020-09-14 01:27
spark
kafka
Spark Streaming 中使用kafka低级api+zookeeper 保存 offset 并重用 以及 相关代码整合
spark-streaming-save-offset-to-zookeeper.htmlhttp://www.klion26.com/spark-streaming-saving-offset-in-zookeeper-2.html在
SparkStreaming
kk303
·
2020-09-14 00:45
Spark Streaming 处理中文异常的解决方案
最近用
SparkStreaming
从Kafka接数据进行处理,是对中文的内容进行计算。发现处理时中文全变成了????????的形式,导致处理的结果和预期的不一样。
kk303
·
2020-09-14 00:45
大数据
spark向kafka写入数据
前言在WeTest舆情项目中,需要对每天千万级的游戏评论信息进行词频统计,在生产者一端,我们将数据按照每天的拉取时间存入了Kafka当中,而在消费者一端,我们利用了
sparkstreaming
从kafka
时间的快慢
·
2020-09-14 00:33
The Dataflow Model论文学习笔记
在这里对
SparkStreaming
的微批次流处理模型进行了批评,在流计算的时候应该遵从的理念是我们不知道数据何何时流何时被终结,何时数据会完整,唯一确信的是新的数据会源源不断的进来,老的数据会被撤销或者更新
周英俊520
·
2020-09-13 22:24
Flink
SparkStreaming
源码剖析1-Receiver数据接收流程
根据上文所展示的
SparkStreaming
的socketTextStream应用示例,来从源码的角度来看下其是怎么工作运行的。
午后的红茶meton
·
2020-09-13 19:36
Spark使用
spark
spark
streaming
ReceiverTracker
BlockGenerator
SparkStreaming
源码剖析2-JobGenerator任务的生成与执行流程
在上一节中的StreamingContext.start()方法中,其主要就是调用scheduler.start()来启动对应的JobScheduler,在scheduler.start()方法中,其会创建并启动两个最重要的组件为:ReceiverTracker和JobGenerator。上文中分析了ReceiverTracker流式数据产生与接收的基本工作及原理,接下来分析JobGenerato
午后的红茶meton
·
2020-09-13 19:36
Spark使用
spark
sparkstreaming
JobGenerator
filebeat+kafka+Flink+ElasticSearch+springboot+高德地图热力图项目
原文地址https://www.jianshu.com/p/c148bf91c3ac2019.05.26由于近期在研究ELK和最新的实时计算框架Flink,所以把以前热力图项目flume+kafka+
SparkStreaming
千淘万漉
·
2020-09-13 19:29
云计算/大数据
Spark streaming基于kafka 以Receiver方式获取数据 原理和案例实战
本博文讲述的内容主要包括:1,
SparkStreaming
onKafkaReceiver工作原理机制2,
SparkStreaming
onKafkaReceiver案例实战3,
SparkStreaming
onKafkaReceiver
二府村
·
2020-09-13 18:30
Spark梦想
为啥spark 的broadcast要用单例模式
https://blog.csdn.net/rlnLo2pNEfx9c/article/details/91446692很多用
SparkStreaming
的朋友应该使用过broadcast,大多数情况下广播变量都是以单例模式声明的有没有粉丝想过为什么
sunyang098
·
2020-09-13 18:21
spark
spark
broadcast
streaming
Spark RDD Transformation 练习
在过去的几个月里,我断断续续写了Spark,SparkSQL,
SparkStreaming
相关的文章,自己也对Spark有了一个基本的认识。但是仅仅这样不能算学会了spark。
the_conquer_zzy
·
2020-09-13 13:43
spark
大数据
Spark Streaming(二) Structed Streaming
SparkStreaming
(二)StructedStreaming本文详细介绍下
SparkStreaming
的第二代引擎StructedStreaming,包括StructedStreaming的概述
the_conquer_zzy
·
2020-09-13 13:43
spark
大数据
reduceByKeyAndWindow实现基于滑动窗口的热点搜索词实时统计(Java版本)
packagegh.spark.
SparkStreaming
;importjava.util.List;importorg.apache.spark.SparkConf;importorg.apache.spark.api.java.JavaPairRDD
awj321000
·
2020-09-13 09:53
java
sparkStreaming
+kafka SparkException: java.nio.channels.ClosedChannelException异常
如果broker-list的端口不对或者kafka服务端未启动,会遇到以下错误:Exceptioninthread"main"org.apache.spark.SparkException:java.nio.channels.ClosedChannelExceptionatorg.apache.spark.streaming.kafka.KafkaCluster$$anonfun$checkErr
星月永随
·
2020-09-12 17:32
spark-streaming
sparkStreaming
+kafka SparkException: java.nio.channels.ClosedChannelException异常报错
在运行
sparkStreaming
+kafka的时候报错javaio报错,如果broker-list的端口不对或者kafka服务端未启动,会遇到以下错误:Exceptioninthread"main"org.apache.spark.SparkException
A阿楠521
·
2020-09-12 16:10
kafka
Orleans 2.0 官方文档 —— 7.3 流 -> 为什么需要Orleans流
这些包括用于持久存储流数据的系统(例如,EventHubs和Kafka),和流数据上表达计算操作的系统(例如,AzureStreamAnalytics,ApacheStorm和Apache
SparkStreaming
闫辉_13510215218
·
2020-09-12 11:05
Orleans
Spark Streaming 中文乱码问题解决
最近用
SparkStreaming
从Kafka接数据进行处理,是对中文的内容进行计算。发现处理时中文全变成了????????的形式,导致处理的结果和预期的不一样。
zhangkai0575
·
2020-09-11 23:20
专业
Flume+Spark Streaming
这里我们学习如何配置Flume和
SparkStreaming
来接收来自Flume的数据。提供两种方法来解决这问题。注意:从Spark2.3.0开始,不推荐使用Flume支持。
爆发的~小宇宙
·
2020-09-11 23:35
spark
streaming
上一页
12
13
14
15
16
17
18
19
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他