sparkstreaming 第39页

Debezium:数据实时采集从Postgresql到Kafka

目的：构建基于hbase的实时数仓解决的问题：RDBMS到Hbase的数据实时采集方法：Postgresql----->Debezium----->Kafka------>Sparkstreaming-

TracyGao01·2020-06-27 04:24

Debezium:kafka 连接器配置

目的：构建基于hbase的实时数仓解决的问题：RDBMS到Hbase的数据实时采集方法：Postgresql----->Debezium----->Kafka------>Sparkstreaming-

TracyGao01·2020-06-27 04:52

spark－概念

本文长篇介绍了spark基本概念和sparkStreaming、sparksql请仔细阅读，红色标注的是我认为比较重要的部分。

双斜杠少年·2020-06-27 03:27

Spark Streaming简单入门（示例+原理）

概述SparkStreaming是流式处理框架，是SparkAPI的扩展，支持可扩展、高吞吐量、容错的实时数据流处理，实时数据的来源可以是：Kafka,Flume,Twitter,ZeroMQ或者TCPsockets

阿雅Yage·2020-06-27 03:44

记一次spark源码的bug排查,顺便简单看一下spark sql底层引擎catalyst处理的流程

场景：hive中事先创建好分区表test_table_name，然后通过sparkstreaming任务处理数据，将rdd转为dataframe后写hive。

knowfarhhy·2020-06-27 02:14

flume LineDeserializer Line length exceeds max (2048), truncating line!扩大一行数据量大小的采集上限

简介在一次使用flume+kafka+sparkstreaming架构处理日志时，出现一个很奇怪的问题：日志中的某一行数据总会被切分成了多行，总的输出日志行数也比原始日志文件多出了几十行，导致具体的处理逻辑中出现各种错误

疯狂的暴走蜗牛·2020-06-26 23:05

入门大数据---Spark_Streaming整合Flume

二、推送式方法在推送式方法(Flume-stylePush-basedApproach)中，SparkStreaming程序需要对某台服务器的某个端口进行监听，Flume通过avroSink将数

一线大数据·2020-06-26 23:00

java.lang.ClassCastException: kafka.cluster.BrokerEndPoint cannot be cast to kafka.cluster.Broker

使用SparkStreaming读取kafka数据进行处理，程序启动报异常：java.lang.ClassCastException:kafka.cluster.BrokerEndPointcannotbecasttokafka.cluster.Broker

在路上_JD·2020-06-26 21:37

大数据常见问题之数据倾斜

相信大部分做数据的童鞋们都会遇到数据倾斜，数据倾斜会发生在数据开发的各个环节中，比如：用Hive算数据的时候reduce阶段卡在99.99%用SparkStreaming做实时算法时候，一直会有executor

Kuzury·2020-06-26 21:06

大数据IMF传奇行动绝密课程第100-101课：使用Spark Streaming+Spark SQL+Kafka+FileSystem综合案例

使用SparkStreaming+SparkSQL+Kafka+FileSystem综合案例1、项目分析流程图2、项目代码实战Flumesink到Kafka需要一个jar包支持https://github.com

tom_8899_li·2020-06-26 20:29

Spark-Streaming-一

SparkStreamingSparkStreaming是SparkCoreAPI的一种扩展，它可以用于进行大规模、高吞吐量、容错的实时数据流的处理。

sock_bong·2020-06-26 18:17

Flink 基本工作原理

既可以处理streamdata也可以处理batchdata，可以同时兼顾Spark以及Sparkstreaming的功能，与Spark不同的是，Flink本质上只有stream的概念，batch被认为是

sxiaobei·2020-06-26 17:37

流数据的Web界面配置

作者：doremi流数据服务（StremingService）基于SparkStreaming分布式实时计算框架，因此在配置服务前，需要开启Spark集群。

supermapsupport·2020-06-26 16:53

Spark入门之八：Spark Streaming 的原理以及应用场景介绍

什么是SparkStreamingSparkStreaming类似于ApacheStorm，用于流式数据的处理。根据其官方文档介绍，SparkStreaming有高吞吐量和容错能力强这两个特点。

铁猴·2020-06-26 15:16

Spark-core之RDD核心概念

一、Spark包括什么spark的核心是SparkCore，其中上面的SparkSql对接的是Hive等结构化查询，SparkStreaming是对接的流式计算，后面的那两个也是主要用在科学任务中，但是他们的基础都是

student__software·2020-06-26 15:15

基于kafka和sparkstreaming的实时数据处理系统

体统分为实时部分和H/T+1部分，数据流架构图如下：实时部分开发时考虑的几个主要问题sparkstreaming和sparkstructuredstreaming的选择手动实现sparkstreaming

songhk0209·2020-06-26 13:34

常见大数据框架

文件存储：HadoopHDFS、Tachyon、KFS离线计算：HadoopMapReduce、Spark流式、实时计算：Storm、SparkStreaming、S4、HeronK-V、NOSQL数据库

小学生ing·2020-06-26 11:37

sparkstreaming API 操作实例 java

sparkstreamingAPI操作实例javapublicstaticvoidmain(String[]args)throwsInterruptedException{SparkSessionspark

super_ruichao·2020-06-26 10:35

阿里云EMR spark streaming 消费kafka数据

先吐槽一下阿里云，简直了，为了一个简单demo，简直无语先是本身MQ的kafka有问题，然后3.30升级也无这方面文档提供，回到正题：本文主要讲讲述下再阿里云的emr中的sparkstreaming怎么连接阿里云的消息

DevinShuai·2020-06-26 09:45

3.如何安装Apache Spark

ApacheSpark1WhyApacheSpark2关于ApacheSpark3如何安装ApacheSpark4ApacheSpark的工作原理5spark弹性分布式数据集6RDD持久性7spark共享变量8SparkSQL9SparkStreaming

全能程序猿·2020-06-26 07:10

[翻译]Spark Struct Streaming设计文档

介绍通过过去三年里部署、运维SparkStreaming的积累，我们在Catalyst和DataFrames的基础上重新架构了绰号为“StructStreaming”的实时计算项目。

分裂四人组·2020-06-26 07:53

flink自定义trigger-实现窗口随意输出

前面，一篇简单讲了flink的窗口及与SparkStreaming窗口之间的对比。

大数据星球-浪尖·2020-06-26 05:30

基石 | Flink Checkpoint-轻量级分布式快照

必会:关于SparkStreamingcheckpoint那些事儿flink超越Spark的Checkpoint机制前面两篇，一篇是spark的driver的Checkpoint细节及使用的时候注意事项

大数据星球-浪尖·2020-06-26 05:28

flink超越Spark的Checkpoint机制

前面，已经有一篇文章讲解了spark的checkpoint:必会:关于SparkStreamingcheckpoint那些事儿同时，浪尖也在知识星球里发了源码解析的文章。

大数据星球-浪尖·2020-06-26 05:28

spark streaming流式处理kafka中的数据（java）

sparkstreaming是spark中用来处理流式数据的，用来对接各类消息队列是极好的。sparkstreaming并不是真正实时的流式处理，它本质上还是批处理，只是每一个批次间隔的时间很短。

redstarofsleep·2020-06-26 05:15

spark Streaming

sparkStreaming一.概述1.SparkStreaming原理2.SparkStreaming作业流程3.SparkStreaming与Strom3.1处理性能对比3.2架构对比3.3模型对比

飛翔的大雁·2020-06-26 04:07

Spark Streaming 妙用之实现工作流调度器

但是通过SparkStreaming(基于Transfomer架构的理念)，我们可能能简化这些工作。我在这块并没有什么经验，这只是一个存在于脑海中的东西。

祝威廉·2020-06-26 04:52

SparkStreaming例题

取材自官网http://Spark.apache.org案例1：和集群搭配使用packageSparkStreamingimportjava.io.

橙以·2020-06-26 00:11

SparkStreaming整合flume

文章目录目标一：Flume-stylePush-basedApproach目标二：Push-basedApproachusingaCustomSinkSparkStreaming整合flume有两种方式

2NaCl·2020-06-25 22:09

SparkStreaming项目（实时统计每个品类被点击的次数）

1、项目的流程：每一个IP对应的名称：2、需求实时统计每个品类被点击的次数（用饼状图展示）：3、分析设计项目新建一个Maven项目：pom文件：4.0.01711categorycount1711categorycount1.0-SNAPSHOTorg.apache.hadoophadoop-client2.7.5org.apache.sparkspark-streaming_2.112.2.0o

匿名啊啊啊·2020-06-25 21:39

SparkStreaming读取kafka数据的两种方式

ReceiveReceive是使用的高级API，需要消费者连接Zookeeper来读取数据。是由Zookeeper来维护偏移量，不用我们来手动维护，这样的话就比较简单一些，减少了代码量。但是天下没有免费的午餐，它也有很多缺点：1.导致丢失数据。它是由Executor内的Receive来拉取数据并存放在内存中，再由Driver端提交的job来处理数据。这样的话，如果底层节点出现错误，就会发生数据丢失

NoBugPro·2020-06-25 20:35

Spark Streaming整合flume实战（一）

SparkStreaming从flume中拉取数据SparkStreaming对接Flume有两种方式Poll：SparkStreaming从flume中拉取数据Push：Flume将消息Push推给SparkStreaming1

Running_Tiger·2020-06-25 20:05

SparkStreaming窗口操作经典案例

1.背景描述在社交网络（微博），电子商务（京东）、搜索引擎（百度）、股票交易中人们关心的内容之一是我所关注的内容中，大家正在关注什么在实际企业中非常有价值例如：我们关注过去30分钟大家都在热搜什么？并且每5分钟更新一次。要求列出来搜索前三名的话题内容2.原理图如图所示，每当窗口滑过DStream时，落在窗口内的源RDD被组合并被执行操作以产生windowedDStream的RDD。在上面的例子中，

longG_It·2020-06-25 19:11

KafkaUtils.createDirectStream的个人理解

近几日自己摸索的去看了一下kafka的一些特征，自己总结出来，加深一下印象这个是sparkstreaming对接kafka，用direct方式消费数据的方法，点开这个方法看一下里面的描述这是源码里对方法的描述

钟一鑫·2020-06-25 19:39

大数据学习知识点

文件存储：HadoopHDFS、Tachyon、KFS离线计算：HadoopMapReduce、Spark流式、实时计算：Storm、SparkStreaming、S4、HeronK-V、NOSQL数据库

Daneil_Lee·2020-06-25 18:35

【线上直播】spark streaming高级特性在ndcg计算实践

【线上直播】sparkstreaming高级特性在ndcg计算实践▼嘉宾：王富平王富平简介历任百度大数据部高级工程师、1号店搜索与精准化部门架构师，一直从事大数据方向的研发工作，对大数据工具、机器学习有深刻的认知

FMI飞马网·2020-06-25 18:37

spark笔记之Spark Streaming整合flume实战

flume作为日志实时采集的框架，可以与SparkStreaming实时处理框架进行对接，flume实时产生数据，sparkStreaming做实时处理。

我是楠楠·2020-06-25 17:16

大数据之Storm/实时数据处理视频教程-李强强-专题视频课程

大数据之Storm/实时数据处理视频教程—28人已学习课程介绍大数据Storm实时数据处理视频培训课程：Strom是一个老牌的实时数据处理框架，在SparkStreaming流行前，Storm统治者整个流式计算的江湖

qq_40139556·2020-06-25 17:26

Spark Streaming消费kafka数据为减少控制台输出日志配置log4j.properties不起效的问题

在使用SparkStreaming消费Kafka数据并处理数据时会在控制台生成大量不太重要的日志，为了减少控制台输出的日志，在使用sparkConf.setLogLevel()方法达不到期望时，想通过配置

Troyong·2020-06-25 16:48

【线上直播】Spark计算引擎深入剖析

苏宁大数据中心数据中台指标平台开发部技术负责人，历任百度大数据部高级工程师、1号店搜索与精准化部门架构师，一直从事大数据方向的研发工作，对大数据工具、机器学习有深刻的认知，在实时计算领域经验丰富，对storm、sparkstreaming

nanao3o·2020-06-25 15:09

Spark 以及 spark streaming 核心原理及实践

liuliliuli2017·2020-06-25 14:10

Spark Streaming并发提交job

Sparkjob我们都知道，spark的执行是lazy的，也就是spark的函数分为两类:Transform和action.只有在使用action函数时，才会触发一个sparkjob.串行的Sparkjob在一个SparkStreaming

biggeng·2020-06-25 12:36

sparkstreaming之flume--Spark Streaming整合Flume的第一种方式FlumePush

{Seconds,StreamingContext}/***SparkStreaming整合Flume的第一种方式*/objectF

羽翼天宇·2020-06-25 11:14

SparkStreaming整合Flume的两种方式

在这里，我们说明如何配置Flume和SparkStreaming以从Flume接收数据。有两种方法。方法一：基于push的

dc.li8·2020-06-25 10:30

大数据之sparkStreaming（一）：sparkStreaming概述、SparkStreaming的组件

文章目录课程目标1、sparkStreaming概述1.1SparkStreaming是什么1.2SparkStreaming的组件课程目标说出SparkStreaming的特点说出DStreaming

汪雯琦·2020-06-25 09:29

CDH搭建flume+kafka以及sparkstreaming来做实时

实时计算部分代码开发1.首先我们来说一下cdh搭建flumeflume非常的简单，直接cdh就可以集成了，不多赘述用cdh非常的简单，接下来说一下kafka的集成吧，而kafka则相对比较麻烦点，需要下载kafka的服务描述jar包2.再来说一下cdh搭建kafka我是参考如下文章的。http://www.cnblogs.com/jechedo/p/5122531.html这篇文章可以解决很多问题

大壮vip·2020-06-25 07:03

CDH 5.16.1 使用 flume、kafka、sparkstreaming做实时

本文的主要目的就是为了实现以下需求：通过flume收集日志；将收集到的日志分发给kafka；通过sparksteaming对kafka获取的日志进行处理；然后将处理的结果存储到hdfs的指定目录下。第一步，我们创建flume配置文件，直接在cm上面改就行了。a1.sources=r1a1.channels=c1a1.sinks=s1#sources端配置a1.sources.r1.type=exe