sparkStreaming 第16页

皓月青风·2020-09-16 11:51

Spark Streaming、Storm、Flink对比分析，以及为什么选择Flink作为流处理框架

17年底公司就着力打造实时计算平台，探索实时流计算引擎和API，例如这几年火爆的Storm、SparkStreaming、KafkaStreaming、Beam和Flink。

Yedeng427·2020-09-16 11:20

【Spark篇】---SparkStream初始与应用

一、前述SparkStreaming是流式处理框架，是SparkAPI的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka,Flume,Twitter,ZeroMQ或者TCPsockets

L先生AI课堂·2020-09-16 11:43

《深入理解Spark》之Spark-Stream概述1（官方文档翻译版）

最近在学英语，学以致用，就尝试着看Spark的官方文档，并试着翻译了部分，由于水平有限如果有所疏漏的地方欢迎指正*SparkStreamOverview*SparkStreamingisanextensionofthecoreSparkAPIthatenablesscalable

lyzx_in_csdn·2020-09-16 10:40

Spark-概述，核心模块介绍，与Hadoop MR的差异

文章目录一、Spark概述二、Spark特点快速易用通用可融合性三、Spark核心模块SparkCoreSparkSQLSparkStreamingSparkMLlibSparkGraphX四、HadoopVSSpark

Demik·2020-09-16 10:58

SparkStreaming实现实时WordCount程序的两种方法并将数据写入Mysql中：使用工具netcat

首先需要了解的几个类StreamingContext如何读取数据DStream处理数据函数DStream里面存储着很多RDDPairDStreamFunctions当处理的数据类型是二元组的时候，DStream自动隐式转换为PairDStreamFunctionsRDD输出函数，将结果保存到外部系统defforeachFunc:(RDD[T],Time)=>Unit={(rdd:RDD[T],ti

无名一小卒·2020-09-16 09:32

dstream.foreachRDD 创建连接对象反序列化失败解决办法

开发一个采集程序，从客户端发送数据到服务端，服务端传给kafka集群上启动sparkStreaming接受kafka数据存入HBase遇到一个小坑程序报无法序列化Htable就是因为dstream.foreachRDD

ququ554665630·2020-09-16 03:21

kafka报错：java.lang.NoClassDefFoundError: org/apache/kafka/common/serialization/StringDeserializer

一：问题sparkstreaming使用kafaka时，将jar包上传服务器运行时报错：如下图二：原因及解决原因：缺少kafka相关的依赖包。

隔壁老王ing·2020-09-15 22:19

sparkstreaming和kafka集成知识回顾

SparkStreaming的Recevier方式和直连方式有什么区别？

Show_Action·2020-09-15 21:09

kill掉yarn正在运行的job/app

启动一个sparkstreaming，一直在跑，看着烦人，直接杀掉cd/usr/lib/hadoop-yarn/bin.

撸依天·2020-09-15 19:56

MapReduce（一）基础简介和Wordcount实例

MapReduce是一种离线批式计算框架，与Sparkstreaming、flink等流式计算框架不同，其输入数据是固定不可变的，延时较高，适合处理大批量实时分析的场景。

风之清扬·2020-09-15 19:36

sparkcore, sparksql, sparkstreaming,sparkmlib

MapReduce(1)分布式计算框架,只能用Java进行开发。MapReduce–>Hive(1)由于MR只有Java程序员才能开发,但是程序员大部分都会sql,所以衍生出类sql语法HQL(HiveQueryLanguage).Hive其实是基于MR的一种分布式计算框架,在MR上包了一层壳,底层仍然是MR。MapReduce–>sparkcore(1)MR的shuffle过程中数据要频繁的落地

醉糊涂仙·2020-09-15 18:55

【Spark】Spark2.x版新特性

【Spark】Spark2.x版新特性一、API二、SQL三、性能四、SparkStreaming五、SparkMLlib六、Other一、API出现新的上下文接口：SparkSession，统一了SQLContext

太阳下的兰花草·2020-09-15 17:31

Spark----SparkSQL之SparkSession

例如：对于SparkStreaming，我们需要

XiaodunLP·2020-09-15 16:51

SparkStreaming如何解决小文件问题

使用sparkstreaming时，如果实时计算结果要写入到HDFS，默认情况下会产生非常多的小文件。

xuehuagongzi000·2020-09-15 15:33

SparkStreaming踩坑之Kafka重复消费

1.问题描述使用SparkStreaming连接Kafka的demo程序每次重启，都会从Kafka队列里第一条数据开始消费。修改enable.auto.commit相关参数都无效。

xianyuxiaoqiang·2020-09-15 15:20

Spark streaming 整合Kafka统计词频

**Sparkstreaming整合Kafka基于（Receiver-basedApproach）统计词频**首先，启动zookeeper然后，启动kafka创建topic启动生产者启动消费者开发Sparkstreaming

cxf_coding·2020-09-15 15:20

Kafka topic中的数据无法再Java端消费

现象：把数据放到kafka的一个topic中，用Java端SparkStreaming+Kafka集成拿不到数据，而在linux上用自带的kafka-consumer就能消费到topic中的数据。

Jsoooo·2020-09-15 15:22

Spark Streaming 的一些问题

SparkStreaming的一些问题，做选型前关注这些问题可以有效的降低使用风险。checkpointcheckpoint是个很好的恢复机制。

weixin_34357887·2020-09-15 15:33

SparkStreamingj集成Kafka的几个重要参数

sparkstreaming集成kafka时的maven的pom依赖：org.apache.sparkspark-streaming-kafka-0-8_2.110.8.2.1/version>使用SparkStreaming

三劫散仙·2020-09-15 15:58

Spark Streaming的IDEA操作在spark操作的差别和解决

SparkStreaming的IDEA操作博客https://blog.csdn.net/qq_43688472/article/details/86499291这里就不重复操作了[hadoop@hadoop001bin

亮大兵·2020-09-15 14:07

sparkstreaming 实时数据项目中遇到的问题

1.单个partition拉取数据条数的限制valppc=newPerPartitionConfig(){overridedefmaxRatePerPartition(topicPartition:TopicPartition):Long=1000}KafkaUtils.createDirectStream[String,String](ssc,PreferConsistent,Subscribe

砖厂码农·2020-09-15 14:27

Spark(1)——Spark的安装

一.Spark简介支持多种开发语言：Scala，Java，Python,R涉及的领域SparkCore数据的离线分析->MapReduceSparkStreaming数据在在线分析->(实时处理)StromSparkSQL

lime_·2020-09-15 14:04

一次日志采集中sparkstreaming消费kafka遇到的问题

目前小程序日志采集的项目流程：Flume监控Tomcat日志文件，将日志批次量的发送到kafka中，由SparkStreaming程序消费Kafka中的消息，进而将写到Mysql表中。

lol、蜗牛·2020-09-15 13:08

Spark Streaming 对接Kafka实现实时统计的问题定位和解决

整个思路：sparkstreaming接受Kafka数据（KafkaUtils.createDirectStream）然后累计值（updateStateByKey）把值发给Kafka。

u4110122855·2020-09-15 13:49

关于sparkStreaming整合kafka遇到的问题

（一定要先看到最后，在对症下药）首先概述一下，我的代码主要就是将kafka中消费的数据转到sparkStreaming中，并进行一系列的操作。这个代码在网上有很多相同的，在此不做太多论述。

suphieLiang·2020-09-15 13:10

sparkstreaming kafka mvn整合遇到pom配置问题

org.apache.sparkspark-streaming-kafka-0-10_2.112.2.0org.apache.sparkspark-streaming-kafka_2.111.4.0起初以为这两个依赖是同一个依赖，一直报scala.xml的一个包找不到

gp2022·2020-09-15 13:49

SparkStreaming与Kafka整合遇到的问题及解决方案

**前言**最近工作中是做日志分析的平台，采用了sparkstreaming+kafka，采用kafka主要是看中了它对大数据量处理的高性能，处理日志类应用再好不过了，采用了sparkstreaming

chenlei3055·2020-09-15 12:53

MYSQL的REPLACE INTO导致死锁问题

Spark任务的不同Executor同时更新MySQL导致死锁的问题，最近该同事遇到了这个问题的升级版：业务有两个不同的数据源分别用于实时计算和更新MySQL同一张表的不同列，目前这个是分别启动了两个SparkStreaming

要做一棵树·2020-09-15 12:11

特征引擎问题记录

原因：kafka在阿里云vpc，sparkstreaming在九狐云，两个环境时间不同步。

bianfulin_·2020-09-15 09:14

spark从入门到放弃五十三:Spark Streaming(13)缓存于持久化

与RDD类似，sparkStreaming也可以让开发人员手动控制，将数据流中的数据持久化到内存中。

CXHC·2020-09-15 03:40

96、Spark Streaming之Checkpoint机制

Checkpoint机制概述每一个SparkStreaming应用，正常来说，都是要7*24小时运转的，这就是实时计算程序的特点。因为要持续不断的对数据进行计算。

ZFH__ZJ·2020-09-15 02:15

Spark源码走读12——Spark Streaming

SummarizeSparkStreaming实现了对实时流数据的高吞吐量、地容错的数据处理API。它的数据来源有很多种：Kafka、Flume、Twitter、ZeroMQ、TCPScoket等。

weixin_30273763·2020-09-15 02:07

EMQ实现物联网数据采集下沉到kafka

软件要求：需要使用EMQ的企业版场景需求：物联网平台需要接入智能变压器采集装置采集的数据，基于MQTT协议将数据传输到服务器的MQ(EMQ)，EMQ将数据转发到kafka集群，sparkStreaming

我在北国不背锅·2020-09-14 21:12

Maven打包排除某个资源或者目录

最近在sparkstreaming本地调试的时候，引入了一些资源文件，打包的时候需要给排除掉。

weixin_33842304·2020-09-14 16:15

SparkStreaming无丢失读取Kafka且转为DataFrame

目录1、需求2、步鄹3、日志格式4、代码展示5、运行结果展示6、KafkaManager和Zookeeper展示1、需求1、SparkStreaming读取Kafka数据，且将offset存储到Zookeeper

北京小辉·2020-09-14 15:30

Storm 学习笔记（一）菜鸟乐园

Storm好像传统的滚梯，来了数据就处理Hadoop好像是电梯，批量处理数据Sparkstreaming微批处理介于滚梯和电梯之间Storm特征storm是个实时的，分布式的以及高容错的计算框架1storm

单线程的呆子·2020-09-14 14:58

zk、hbase、redis保存Sparkstreaming 的offset

一、zk:importcn.qphone.spark.`trait`.LoggerTraitimportcn.qphone.spark.utils.{CommonUtils,SparkUtils}importkafka.common.TopicAndPartitionimportkafka.message.MessageAndMetadataimportkafka.serializer.Strin

嘉平11·2020-09-14 02:55

阿里新一代计算引擎Blink与SQL和机器学习的二三事

近年来业界一直在探索实时流计算引擎和API，比如这几年火爆的SparkStreaming、KafkaStreaming、Beam和Flink。

乐投网·2020-09-14 02:38

Spark基础(六):SparkStreaming实操读写kafka（亲测）

文章目录启动环境配置sources文件flume-kafka创建Kafka-topicsflume导入kafka1、sparkstreaming向Kafka读数据2、sparkStreaming向Kafka

跳蛙pass·2020-09-14 01:54

sparkStreaming kafka保证数据不丢失、不重复

sparkStreaming接收kafka数据的方式有两种：1.利用Receiver接收数据；2.直接从kafka读取数据（Direct方式）保证数据不丢失（1）Receiver方式为确保零数据丢失，必须在

Enzo_bigdata·2020-09-14 01:27

Spark Streaming 中使用kafka低级api+zookeeper 保存 offset 并重用以及相关代码整合

spark-streaming-save-offset-to-zookeeper.htmlhttp://www.klion26.com/spark-streaming-saving-offset-in-zookeeper-2.html在SparkStreaming

kk303·2020-09-14 00:45

Spark Streaming 处理中文异常的解决方案

最近用SparkStreaming从Kafka接数据进行处理，是对中文的内容进行计算。发现处理时中文全变成了????????的形式，导致处理的结果和预期的不一样。

kk303·2020-09-14 00:45

spark向kafka写入数据

前言在WeTest舆情项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了sparkstreaming从kafka

时间的快慢·2020-09-14 00:33

The Dataflow Model论文学习笔记

在这里对SparkStreaming的微批次流处理模型进行了批评，在流计算的时候应该遵从的理念是我们不知道数据何何时流何时被终结，何时数据会完整，唯一确信的是新的数据会源源不断的进来，老的数据会被撤销或者更新

周英俊520·2020-09-13 22:24

SparkStreaming源码剖析1-Receiver数据接收流程

根据上文所展示的SparkStreaming的socketTextStream应用示例，来从源码的角度来看下其是怎么工作运行的。

午后的红茶meton·2020-09-13 19:36

SparkStreaming源码剖析2-JobGenerator任务的生成与执行流程

在上一节中的StreamingContext.start()方法中，其主要就是调用scheduler.start()来启动对应的JobScheduler，在scheduler.start()方法中，其会创建并启动两个最重要的组件为：ReceiverTracker和JobGenerator。上文中分析了ReceiverTracker流式数据产生与接收的基本工作及原理，接下来分析JobGenerato