sparkstreaming 第49页

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql

sparkstreaming拉取kafka数据，结合sparkSqldataframehive存储计算，输出到mysql.数据清洗过程比较复杂，没办法，上游给的屡一样的数据，正则去解析并全量按时间取最新一条去重

java的爪哇·2019-08-15 17:29

SparkStreaming之checkpoint检查点

为了实现这一点，SparkStreaming需要将足够的信息保存到容错存储系统中，以便它可以从故障中恢复。检查点有两种类型。1.元数据检查点将定义流式计算的信息保存到容错存储系统【如HDFS等】。

云山之巅·2019-08-15 16:00

Spark 系列（十五）—— Spark Streaming 整合 Flume

二、推送式方法在推送式方法(Flume-stylePush-basedApproach)中，SparkStreaming程序需要对某台服务器的某个端口进行监听，Flume通过avroSink将数

黑白影·2019-08-15 07:00

spark 10分钟计算一次mongodb当天日志数据，日志为字符串格式，按订单号去重，取时间最近的订单，优化方案

sparkstreaming的接收源一般是推来的，不像kafka会推过来，然后再根据偏移量来记录刻度，优化方案：按小时去清理数据，把解析好的数据存起来

java的爪哇·2019-08-12 18:55

spark streaming 自定义接收数据源Receiver测试

sparkstreaming自定义接收数据源Receiver测试packageorderimportorg.apache.log4j.

java的爪哇·2019-08-12 16:18

模拟实时区域订单金额统计：SparkStreaming从Kafka中读取数据，设置检查点，处理数据后，并将结果存到Redis中，并实现执行优化

实现思路第一步获取StreamingContext对象，因为要使用检查点恢复数据，所以不能使用newStreamingContext的方法获取对象，要使用StreamingContext.getOrCreate建立对象创建StreamingContext对象，使用了贷出模式——贷出函数的方式来创建从Kafka的生产者端读取数据进行分析读取数据的方式采用Direct方式读取数据处理读取到的数据，获取

无名一小卒·2019-08-11 21:16

SparkStreaming之Offset管理、胖包和瘦包提交

注意，我们使用的是earliest从头开始消费，也就是说如果你的SparkStreaming刚开始启动，那么会从Kafka对应的Topic从第一条数据开始消费到当前。

11号车厢·2019-08-11 21:59

SparkStreaming之foreachRDD写数据到MySQL、连接池、Window/窗口

文章目录1、MySQL连接2、foreachRDD=>foreachPartition=>foreach3、验证4、Window/窗口1、MySQL连接defgetConnection()={Class.forName("com.mysql.jdbc.Driver")DriverManager.getConnection("jdbc:mysql://192.168.137.130:3306/rzd

11号车厢·2019-08-11 19:33

Spark Streaming 调优实践

图片来自网络分享嘉宾：肖力涛拼多多资深算法工程师编辑整理：HohXil内容来源：作者授权出品社区：DataFun注：欢迎转载，转载请注明出处在使用Spark和SparkStreaming时，当我们将应用部署在集群上时

·2019-08-11 00:00

sparkStreaming处理数据流程

数据源从哪里读取数据，进程数据的处理Kafka（多数）Flume(少数)：Flume可以实时采集数据，然后给SparkTCPsocket（开发测试）数据处理DStream#transfotmation调用转换函数，将一个DStream转成另外一个DStream针对不同的业务使用不同函数企业使用最多2种统计类型函数-实时累加统计比如双十一，销售订单额，订单数统计DStream.updateState

将来嘚将来·2019-08-10 23:34

SparkStreaming简单介绍；SparkStreaming处理数据流程；SparkStreaming运行工作原理与简单优化

SparkStreaming简单介绍流式数据处理（streamprocessing）要处理的数据就像流水一样，源源不断的产生数据，需要实时进行处理对SparkCore的高级API的封装，将流式的数据切分为小的批次

无名一小卒·2019-08-10 21:25

sparkStreaming2.3.1+spark-streaming-kafka-0-10_2.11

Kafka-10版本相对于8的要更稳定一些一.测试中遇到的问题问题1.在测试kafkaOffset消费时，发现如果停止streaming再启动的时候，就会消费重复官方给的文档测试就是会重复valstream=KafkaUtils.createDirectStream[String,String](ssc,PreferConsistent,Subscribe[String,String](topic

对方正在输出_ace·2019-08-09 10:16

Spark2.4.0和Scala2.11集成Kudu1.8.0遇到的坑

最近做实时数仓用到了sparkstreaming和kudu两个组件，因为资料少得可怜，折腾了一番终于是搞定了，在这里记录下期间遇到的坑先通过Impala建张Kudu表createtablekudu_appbind_test

lzw2016·2019-08-08 16:43

分布式计算系统三巨头--Hadoop、Storm、Spark的区别和比较

Spark包括sparkcore，sparksql,sparkstreaming，sparkcore可以用来

暁洣·2019-08-07 11:03

大数据入门之分布式计算框架Spark(4) -- Spark Streaming整合Flume、Kafka

1.概述从AppServer产生log4j，Flume通过hostname/port收集日志信息，利用KafkaSink发送给Kafka，Kafka通过两种模式，传给SparkStreaming，完成各个业务维度的统计和分析

Kiku_xq·2019-08-06 22:39

大数据入门之分布式计算框架Spark(3) -- Spark Streaming

1.概述SparkStreaming将不同的数据源，经过处理之后，结果输出到外部文件系统。

Kiku_xq·2019-08-06 19:39

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

背景58实时计算平台旨在为集团业务部门提供稳定高效实时计算服务，主要基于Storm和SparkStreaming构建，但在使

阿里云云栖社区·2019-08-06 17:27

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

背景58实时计算平台旨在为集团业务部门提供稳定高效实时计算服务，主要基于Storm和SparkStreaming构建，但在使

阿里云云栖社区·2019-08-06 00:00

Apache Spark渐进式学习教程(十):Spark Streaming简介和系统架构

目录一，SparkStreaming简介二，SparkStreaming系统架构三，动态负载均衡四，容错性五，实时性、扩展性与吞吐量一，SparkStreaming简介SparkStreaming是Spark

JDZW2010·2019-08-05 14:08

Spark常用API（五）

.初步认识Spark3.理解spark的RDD4.使用shell方式操作Spark，熟悉RDD的基本操作5.使用jupyter连接集群的pyspark6.理解Spark的shuffle过程7.学会使用SparkStreaming8

dzysunshine·2019-08-05 14:47

Hadoop YARN：调度性能优化实践

实时业务主要运行SparkStreaming，Flink为主的实时流计算作业。机器学习业务主要运行TensorFl

美团技术团队·2019-08-05 10:55

Hadoop YARN：调度性能优化实践

实时业务主要运行SparkStreaming，Flink为主的实时流计算作业。机器学习业务主要运行TensorFl

美团技术团队·2019-08-05 00:00

大数据入门之分布式计算框架Spark(1) -- Spark初次见面

效率高：因为是基于内存的，所以在数据处理过程中，数据不会落地，而是存入内存中，效率较MR更高易用：提供了很多算子，简化开发流程通用性：Spark之上，还有SparkSQL、SparkStreaming、

Kiku_xq·2019-08-01 11:59

SparkStreaming消费kafka数据实时的进行抽取、过滤、转换，然后存储到HDFS中

source=dra概要：本例子为SparkStreaming消费kafka消息的例子，实现的功能是将数据实时的进行抽取、过滤、转换，然后存储到HDFS中。

lvtula·2019-07-31 15:33

SparkStreaming之读取Kafka数据

原文链接：https://www.jianshu.com/p/30614ff250b5本文主要记录使用SparkStreaming从Kafka里读取数据，并计算WordCount主要内容：1.本地模式运行

lvtula·2019-07-31 14:03

大数据-Spark Streaming

SparkStreaming可实现可扩展、高吞吐量、可容错的实时数据流处理在SparkStreaming中发送字符串，Spark接收到以后，进行计数注意：虚拟机的处理器的内核总数必须大于等于2SparkStreaming

JP-Destiny·2019-07-28 17:09

SparkStreaming 整合kafka Demo

这里使用的是低级API，因为高级API非常不好用，需要繁琐的配置，也不够自动化，却和低级API的效果一样，所以这里以低级API做演示你得有zookeeper和kafka我这里是3台节点主机架构图与高级API的区别,简单并行(不需要创造多个输入流，它会自动并行读取kafka的数据)，高效（不会像receiver数据被copy两次),一次性语义（缺点：无法使用zookeeper的监控工具）1.创建ma

强行快乐~·2019-07-23 18:00

SparkStreaming整合flume

SparkStreaming整合flume在实际开发中push会丢数据，因为push是由flume将数据发给程序，程序出错，丢失数据。

强行快乐~·2019-07-22 23:00

Spark Streaming

SparkStreaming流式处理SparkStreaming介绍1.1SparkStreaming概述1.1.1什么是SparkStreamingSparkStreaming类似于ApacheStorm

大大怪啊·2019-07-22 20:00

SparkStreaming wordCountDemo基础案例

体现sparkStreaming的秒级准实时性，所以我们需要一个能够持续输入数据的东东1.CentOS上下载nc创建一个scala工程,导入相关pom依赖4.0.0com.shiaospark-011.0jar2.11.82.7.42.0.2org.scala-langscala-library

强行快乐~·2019-07-22 19:00

大数据常见问题之数据倾斜

相信大部分做数据的童鞋们都会遇到数据倾斜，数据倾斜会发生在数据开发的各个环节中，比如：用Hive算数据的时候reduce阶段卡在99.99%用SparkStreaming做实时算法时候，一直会有executor

sofeld·2019-07-19 23:25

SpringBoot2.0集成Redis的sub/pub(订阅/发布)功能实现获取Redis实时数据

实现场景如下：项目在SparkStreaming中对数据进行实时处理处理结果会存储到redis中，其中一部分数据还会通过redis发布功能发布给Redis的订阅客户端，达到实时数据处理结果的获取，（客户端订阅该频道

dingyufei615·2019-07-17 22:28

Flink基础教程(简约笔记)

人民邮电出版社第一章为何选择Flink竞品：SparkStreaming/Storm/Samza/ApexLambda架构(不懂为何叫Lambda)https://ask.hellobi.com/blog

gregocean·2019-07-14 20:23

Spark Streaming中window滑动窗口的应用

SparkStreaming中window滑动窗口应用，SparkStreaming提供了滑动窗口操作的支持，从而让我们可以对一个滑动窗口内的数据执行计算操作。

Running-小猛·2019-07-11 10:24

腾讯阿里大数据开发面试记录

腾讯阿里面试记录1、腾讯面试2、阿里面试1、腾讯面试腾讯PCG事业部大数据开发岗技术一共三面：spark数据分发机制Hadoop集群高可用机制阐述SparkStreaming给个具体视频应用场景阐述开发思路及任务架构

山森海子·2019-07-10 12:07

_ToDream·2019-07-09 15:04

Spark每日半小时（38）——Spark Streaming：性能调优

性能调优从集群上的SparkStreaming应用程序中获得最佳性能需要进行一些调整。在高层次上，我们需要考虑两件事：通过有效使用集群资源减少每批数据的处理时间。

DK_ing·2019-07-08 15:20

使用Spark Streaming SQL基于时间窗口进行数据统计

使用SparkStreamingSQL可

阿里云云栖社区·2019-07-08 00:00

周期性清除Spark Streaming流状态的方法

在SparkStreaming程序中，若需要使用有状态的流来统计一些累积性的指标，比如各个商品的PV。

爱是与世界平行·2019-07-07 00:48

知乎-用Flink取代Spark Streaming！知乎实时数仓架构演进[笔记]

知乎的实时数仓实践以及架构的演进：实时数仓1.0版本，主题：ETL逻辑实时化，技术方案：SparkStreaming。

itbgj·2019-07-05 11:04

SparkStreaming消费Kafka数据异常

异常情况19/07/0403:29:10INFOscheduler.JobScheduler:Addedjobsfortime1562182150000ms19/07/0403:29:51WARNscheduler.TaskSetManager:Losttask0.0instage8950.0(TID445844,10.101.130.217,executor2):java.lang.Illega

代码足迹·2019-07-04 15:40

SparkStreaming消费Kafka数据异常

异常情况19/07/0403:29:10INFOscheduler.JobScheduler:Addedjobsfortime1562182150000ms19/07/0403:29:51WARNscheduler.TaskSetManager:Losttask0.0instage8950.0(TID445844,10.101.130.217,executor2):java.lang.Illega

代码足迹·2019-07-04 15:40

Spark Streaming编程实战（开发实例）

本节介绍如何编写SparkStreaming应用程序，由简到难讲解使用几个核心概念来解决实际应用问题。

QYUooYUQ·2019-06-29 17:13

Spark Streaming简介

SparkStreaming是Spark核心API的一个扩展，可以实现高吞吐量的、具备容错机制的实时流数据的处理。

QYUooYUQ·2019-06-29 17:54

Spark Streaming反压机制探秘

1.反压机制原理SparkStreaming中的反压机制是Spark1.5.0推出的新特性，可以根据处理效率动态调整摄入速率。

Stitch_x·2019-06-28 16:47

Mapreduce和Spark的对比

MR和Spark的对比针对这两款计算框架从下边几个方面进行对比1.通用性1.1Spark一栈式，主要说的是，Spark不仅仅可以进行离线计算(SparkCore)，同时还可以进行流式处理(SparkStreaming

大数据容器·2019-06-25 21:48

Flink 入门

Flink目前最流行的流式引擎，主要是用来替换jstorm和sparkstreaming的，实现对实时数据流的处理，很多操作接口和spark的api非常相像。

五山小新新·2019-06-25 00:00

spark笔记环境配置

spark笔记spark简介saprk有六个核心组件：SparkCore、SparkSQL、SparkStreaming、StructedStreaming、MLlib，GraphxSparkCore相当于

九转星辰·2019-06-23 17:00

Spark 基础操作

1.Spark基础2.SparkCore3.SparkSQL4.SparkStreaming5.Spark内核机制6.Spark性能调优1.Spark基础1.1Spark中的相应组件1.2Standalone

思考与践行·2019-06-22 23:00

生产SparkStreaming数据零丢失最佳实践(含代码)

MySQL创建存储offset的表格mysql>usetestmysql>createtablehlw_offset(topicvarchar(32),groupidvarchar(50),partitionsint,fromoffsetbigint,untiloffsetbigint,primarykey(topic,groupid,partitions));Maven依赖包2.11.82.3.

Stitch_x·2019-06-22 09:33

推荐频道

sparkstreaming

spark streaming拉取kafka数据， 结合sparkSql dataframe hive存储计算，输出到mysql

SparkStreaming之checkpoint检查点

Spark 系列（十五）—— Spark Streaming 整合 Flume

spark 10分钟计算一次mongodb当天日志数据，日志为字符串格式，按订单号去重，取时间最近的订单，优化方案

spark streaming 自定义接收数据源Receiver测试

模拟实时区域订单金额统计：SparkStreaming从Kafka中读取数据，设置检查点，处理数据后，并将结果存到Redis中，并实现执行优化

SparkStreaming之Offset管理、胖包和瘦包提交

SparkStreaming之foreachRDD写数据到MySQL、连接池、Window/窗口

Spark Streaming 调优实践

sparkStreaming处理数据流程

SparkStreaming简单介绍；SparkStreaming处理数据流程；SparkStreaming运行工作原理与简单优化

sparkStreaming2.3.1+spark-streaming-kafka-0-10_2.11

Spark2.4.0和Scala2.11集成Kudu1.8.0遇到的坑

分布式计算系统三巨头--Hadoop、Storm、Spark的区别和比较

大数据入门之分布式计算框架Spark(4) -- Spark Streaming整合Flume、Kafka

大数据入门之分布式计算框架Spark(3) -- Spark Streaming

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

58 集团大规模 Storm 任务平滑迁移至 Flink 的秘密

Apache Spark渐进式学习教程(十):Spark Streaming简介和系统架构

Spark常用API（五）

Hadoop YARN：调度性能优化实践

Hadoop YARN：调度性能优化实践

大数据入门之分布式计算框架Spark(1) -- Spark初次见面

SparkStreaming消费kafka数据实时的进行抽取、过滤、转换，然后存储到HDFS中

SparkStreaming之读取Kafka数据

大数据-Spark Streaming

SparkStreaming 整合kafka Demo

SparkStreaming整合flume

Spark Streaming

SparkStreaming wordCountDemo基础案例

大数据常见问题之数据倾斜

SpringBoot2.0集成Redis的sub/pub(订阅/发布)功能实现获取Redis实时数据

Flink基础教程(简约笔记)

Spark Streaming中window滑动窗口的应用

腾讯阿里大数据开发面试记录

集群开发相关知识点

Spark每日半小时（38）——Spark Streaming：性能调优

使用Spark Streaming SQL基于时间窗口进行数据统计

周期性清除Spark Streaming流状态的方法

知乎-用Flink取代Spark Streaming！知乎实时数仓架构演进[笔记]

SparkStreaming消费Kafka数据异常

SparkStreaming消费Kafka数据异常

Spark Streaming编程实战（开发实例）

Spark Streaming简介

Spark Streaming反压机制探秘

Mapreduce和Spark的对比

Flink 入门

spark笔记 环境配置

Spark 基础操作

生产SparkStreaming数据零丢失最佳实践(含代码)

spark streaming拉取kafka数据，结合sparkSql dataframe hive存储计算，输出到mysql

spark笔记环境配置