sparkstreaming 第30页

SparkStreaming 写入数据到mysql

使用idea编码packagestreamingimportjava.sql.DriverManagerimportorg.apache.spark.streaming.{Seconds,StreamingContext}importorg.apache.spark.{SparkConf,SparkContext}objectSvaeToMysql{defmain(args:Array[Strin

weixin_30773135·2020-07-30 17:44

7.spark Streaming 技术内幕 : 从DSteam到RDD全过程解析

原创文章，转载请注明:转载自听风居士博客(http://www.cnblogs.com/zhouyf/)上篇博客讨论了SparkStreaming程序动态生成Job的过程,并留下一个疑问:JobScheduler

weixin_30695195·2020-07-30 17:10

SparkStreaming消费Kafka项目实战（JAVA版）

原文连接http://notes.itennishy.com/article/43一项目需求1、统计用户访问直播的uv数、pv数？2、统计用户跳转直播间的统计排名，即我的粉丝从哪个直播间过来到哪个直播间去？3、统计评论数和评论人数？4、统计引导进店数和引导进店人数？5、直播数据查询等。二整体方案设计图三开发过程中关键点总结3.1过程优化1、采用队列方式，通过队列进出的方式来监控主播和粉丝的流向，最

iT执行人·2020-07-30 17:19

Flume+Kafka+Spark Streaming+MySQL实时数据处理

文章目录项目背景案例需求一、分析1、日志分析二、日志采集第一步、代码编辑2、启动采集代码三、编写SparkStreaming的代码第一步创建工程第二步选择创建Scala工程第三步设置工程名与工程所在路径和使用的

喂小姐俄看上伱·2020-07-30 17:14

SparkSQL/SparkStreaming读写Hive/Mysql/Hbase/Kafka

鸣谢：如果您觉得本文对您有帮助，请点赞和收藏，Thanks。Spark读写Hive/Mysql/Hbase/Kafka一、工具类、配置类（一）SparkUtils(SparkSession启动类)（二）ConnectUtils(连接/配置参数工具类)二、MysqltoHive三、HbasetoHive四、HivetoHive五、KafkatoHive/Hbase/Kafka（一）KafkatoHi

我的笨毛毛·2020-07-30 17:33

sparkStreaming+kafka+hbase实战练习一

这个需求是是按照实际工作中的项目改写的一个例子。业务需求：1.实时统计某市银行流水交易总额2.实时统计某市银行某地区的流水交易总额3.每隔10s统一次每个地区近一年内的交易总额系统需求：保证数据不丢失、系统可容错分析：这是一个实时流处理系统的常见应用，在网页点击分析中也可以看见类似的例子，kafka具有高可扩展性、容错性、高吞吐量、高并发、分布式等特性，常用于实时流中做消息传输，同时也起到了消息缓

pucheung·2020-07-30 17:28

scala实现 SparkStreaming 解析BinLog实时写入Mysql

importjava.sql.{PreparedStatement,ResultSet}importcom.alibaba.fastjson.JSONimportkafka.serializer.StringDecoderimportorg.apache.log4j.Loggerimportorg.apache.spark.SparkConfimportorg.apache.spark.rdd.R

杨鑫newlfe·2020-07-30 17:17

如何收集项目日志统一发送到kafka中？

上一篇（http://qindongliang.iteye.com/blog/2354381）写了收集sparkstreaming的日志进入kafka便于后续收集到es中快速统计分析，今天就再写一篇如何在普通应用程序实时收集日志

三劫散仙·2020-07-30 16:04

【Big Data 每日一题20180922】sparkstreaming同时消费多个topic的数据实现exactly-once的语义

最近很多人问我,sparkstreaming怎么消费多个topic的数据,自己维护offest,其实这个跟消费一个topic是一样的,但还是有很多问我,今天就简单的写一个demo,供大家参考,直接上代码吧

天地不仁以万物为刍狗·2020-07-30 16:45

SparkStreaming《三》读取kafka数据，增量保存在Mysql里

一、SparkStreaming读取kafka数据packageorg.apache.spark.examples.streamingimportjava.sql.

sinat_32176267·2020-07-30 16:27

sparkstreaming 实时读取kafka写入hive优化（高流量）

背景：kafka流量在800M/s,前任留下的程序大量数据丢失，且逻辑生成复杂，查询hive直接奔溃，优化从两方面，程序优化及小文件合并（生成结果产生大量小文件）程序直接上代码，啥也不说了程序defmain(args:Array[String]):Unit={valsdf=newSimpleDateFormat("yyyyMMddHHmm")valbroker_list="XXXX";valzk=

silentanytime·2020-07-30 16:53

SparkStreaming 读写Kafka

Spark/Streaming读写Kafka版本说明kafka：2.12-2.0.0spark：2.3.0scala依赖包：org.apache.sparkspark-streaming-kafka-0-10_2.11${spark.version}java依赖包：org.apache.kafkakafka-clients2.0.01Spark写数据到KafkaSpark写数据到kafka，只是将

shirukai·2020-07-30 16:18

解决sparkstreaming读取kafka中的json数据，消费后保存到MySQL中，报_corrupt_record和name错误的！！

所用软件版本：spark2.3.0IDEA2019.1kafka_2.11-01.0.2.2spark-streaming-kafka-0-10_2.11-2.3.0先贴出代码：packagecom.bd.sparkimportjava.util.Propertiesimportorg.apache.kafka.clients.consumer.ConsumerRecordimportorg.ap

reedom1991·2020-07-30 16:25

Kafka+Spark Streaming管理offset

场景描述：Kafka配合SparkStreaming是大数据领域常见的黄金搭档之一，主要是用于数据实时入库或分析。

Nice_N·2020-07-30 16:03

SparkStreaming与Kafka集成

官方文档参考：http://spark.apache.org/docs/2.2.2/1、概述SparkStreaming是核心SparkAPI的扩展，可实现实时数据流的可扩展，高吞吐量，容错流处理。

迷茫君·2020-07-30 16:47

Kafka直连存储HBase

在之前介绍了Kafka与SparkStreaming交互的两种方式，我提到了公司采用的是Direct方式，这次我向大家分享一下将偏移量存储在HBase中。

NoBugPro·2020-07-30 16:16

Spark Streaming篇3：Spark Streaming 把数据发往kafka，并实现去重

SparkStreaming篇3：SparkStreaming把数据发往kafka，并实现去重废话不多说，直接上干货packagecom.iflytek.kafkaimportjava.util.Propertiesimportcom.iflytek.kafkaManager.KafkaSinkimportorg.apache.kafka.clients.consumer.ConsumerReco

叮咚菜鸟许某人·2020-07-30 16:18

sparkStreaming必用的sparkStreamingContext，Dsteam和Receiver

InputDstream-->TransformationDstream(生成dstream的有向无环图即Dstream的DAG，它会在时间的驱动下转换为rdd的DAG实现job的提交)-->outputStreamsparkStreamingContext

数据china·2020-07-30 16:19

Spark Streaming与Flume集成小测试：PUSH的方式

需求：监控目录/opt/datas/spark-flume下的wctotal.log文件，并将文件内容通过SparkStreaming进行批处理，在屏幕上输出event的数量实验在伪分布式环境下，用local

BestbpF·2020-07-30 16:46

多线程提高spark streaming数据写入到数据库

多线程提高sparkstreaming数据写入到数据库需求集群环境资源有限，需要跑多个sparkstreaming任务，每个任务必须占据1核，cpu利用率很低，需要对数据进行实时统计更新到数据库mysql

安然烟火·2020-07-30 16:03

windows 本地测试spark streaming + kafka direct api

windows本地测试sparkstreaming+kafkadirectapi卡在如下信息出：“Kafkascalaconsumermarkedasdeadforgroup”1.环境：kafkaserver

holomain·2020-07-30 16:10

Kafka+SparkStream+Hive

1、场景介绍：数据发往kafka，用spark读取kafka的数据，写入到hive表里面（ORC压缩算法，一个分区字段）2、hive的介绍：hive表是分区表/***SparkStreaming2.3版本读取

曹雪朋·2020-07-30 15:34

Springboot kafka+sparkStreaming+sparksql 笔记一

sparkstreaming消费kafka消息两种方式:关于两种方式的区别,网上一堆,不写了KafkaUtils.createStream这种方式,自动管理offset,测试无法通过修改groupid,

Zakza·2020-07-30 15:00

Spark读取kafka数据的方式——Receiver和Direct

sparkStreaming从kafka中读取数据的方式分有两种，Receiver读取和Direct读取。

m0_37914799·2020-07-30 15:37

Sparkstreaming读取kafka数据写入hive和es

一、主要流程此demo用到的软件如下，软件需先自行安装springboot1.5.9.RELEASE、hadoop2.7.2、spark2.1.1、elasticsearch5.2.2、kafka0.10.2.1、hive、sqoop、。demo的主要流程如下图：二、流程步骤1.数据采集数据采集主要是通过java程序模拟造数据和使用fiddler抓包转发response数据，然后通过发送消息到ka

天涯到处跑·2020-07-30 15:35

kafka+sparkstreaming+hbase

需求kafka中会不断产生用户的操作日志，主要内容为（userid,operation,time）,在hbase中存储了（userid,cityid）需要统计每5分钟内不同的城市有过多少次操作思路：1.先处理kafka的用户日志，统计每5分钟会有多少个（userid）2.再通过查询hbase的数据将userid映射为对应的cityid3.此时的数据应该为（time,cityid,1），再做一次re

DaHuangXiao·2020-07-30 15:04

Spark Streaming整合Kafka，Mysql，实时保存数据到Mysql(基于Receiver的方式)

192.168.58.11spark01192.168.58.12spark02192.168.58.13spark03spark版本：spark-2.1.0-bin-hadoop2.7kafka版本：kafka_2.11-2.0.0SparkStreaming

m0_37723298·2020-07-30 15:04

(Scala语言)sparkstreaming手动提交offset值到kafka(0.10版本)简单示例

SparkStreaming对接kafka处理数据流，手动提交offset到kafka新手小白没事上来写点博客玩玩，第一次昂好紧张。。。大佬们不喜勿喷。

luyanbin_lqq·2020-07-30 15:26

(Scala)sparkstreaming手动提交offset到zookeeper中，kafka版本0.10

kafka因为版本的不同可能会导致一下接口的差异还有功能等的区别，我用的是0.10版本的kafka，0.8版本的kafka将topic及其分区等元数据是默认保存在zookeeper中，新版本的kafka有一个自带的topic__consumer_offset以存储offset代替zookeeper的相应功能，即：offset会存到kafka中，我们处理kafka中的数据时，kafka有个参数ena

luyanbin_lqq·2020-07-30 15:26

kafka整合sparkStreaming

(1)、如何实现sparkStreaming读取kafka中的数据在kafka0.10版本之前有二种方式与sparkStreaming整合，一种是基于receiver，一种是direct,然后分别阐述这

Perkinl·2020-07-30 15:15

spark Streaming +kafka 的offset数据保存MySQL、hbase、redis

Kafka做为一款流行的分布式发布订阅消息系统，以高吞吐、低延时、高可靠的特点著称，已经成为SparkStreaming常用的流数据来源。

jacker_剑客·2020-07-30 15:37

sparkStreaming接收kafka消息，写入数据库

sparkStreaming接收kafka消息，写入数据库packagecom.ruijie.spark.streamimportorg.apache.kafka.clients.consumer.ConsumerConfigimportorg.apache.spark.streaming

Lee_Wei4939·2020-07-30 15:05

Spark Streaming 整合Kafka的 Offset 管理【数据零丢失之 MySQL管理Offset】

写在前面：在使用SparkStreaming整合Kafka0.8版本的时候，spark-streaming-kafka-0-8是不提供offset的管理的。

留歌36·2020-07-30 15:01

Spark Streaming + Kafka + Flume + HBase

SparkStreaming模块是对于SparkCore的一个扩展，目的是为了以高吞吐量，并且容错的方式处理持续性的数据流。

liaohao05·2020-07-30 15:20

spark streaming 写hdfs问题

sparkstreaming里面在做foreach操作时要注意数据与节点与进程「jvm」之间的关系；「这一点往往大家比较容易混淆」我总结了一下，供大家参考dstream.foreachRDD{rdd=>

立喆·2020-07-30 15:43

SparkStream：5)Spark streaming+kafka整合实战

Sparkstreaming+kafka整合实战kafka的部署请参考：http://blog.csdn.net/jiangpeng59/article/details/53241693本文主要是参加Spark

PJ-Javis·2020-07-30 15:34

【Spark】Spark Streaming的程序运行原理及与Kafka的集成

1、SparkStreaming介绍（1）StreamingStreaming：是一种数据传送技术，它把客户机收到的数据变成一个稳定连续的流，源源不断地送出，使用户听到的声音或看到的图象十分平稳，而且用户在整个文件送完之前就可以开始在屏幕上浏览文件

魏晓蕾·2020-07-30 15:26

SparkStreaming+kafka+hive的整合

这里是目录kafka安装kafkaKafka测试hive安装SparkStreamingSparkStreaming+kafka+hive的代码kafkaKafka是个什么东西–kafka是一个高吞吐的分部式消息系统

脑坑·2020-07-30 15:20

Java版SparkStreaming读取Kafka实现实时的单词统计

1.开发工具：IDEA2.sbt依赖：version:="0.1"scalaVersion:="2.11.8"libraryDependencies+="org.apache.spark"%%"spark-sql"%"2.2.0"libraryDependencies+="org.apache.spark"%%"spark-hive"%"2.2.0"libraryDependencies+="or

cy_wtt_ysys·2020-07-30 14:45

sparkstreaming 监听 kafka 代码

●代码，kafka不会重复消费，自己会记住偏移量即使设置了从头开始消费，也不会消费已消费的数据packagecom.ws.streamingimportorg.apache.spark.SparkConfimportorg.apache.spark.streaming.dstream.{DStream,ReceiverInputDStream}importorg.apache.spark.stre

念念不忘_·2020-07-30 14:16

spark streaming

概述SparkStreaming类似于ApacheStorm，用于流式数据的处理。根据其官方文档介绍，SparkStreaming有高吞吐量和容错能力强等特点。

ANNending·2020-07-30 14:40

SparkStreaming对接rabbitMQ

/***SparkStreaming对接rabbitmqjava代码*/publicclassSparkConsumerRabbit{publicstaticvoidmain(String[]args)

aoyugang0603·2020-07-30 14:35

SparkStreaming、kafka、mysql集成

前一段接触了一个项目，需求是mongo中的增量数据作为kafka的生产者，用sparkStreaming作为消费者，最终经过处理后写入到mysql中。

abandon_li·2020-07-30 14:11

Kafka->SparkStreaming->Hbase【二】

根据业务需求，将Kafka中数据抽取插入到Hbase中。目前网上可以找到许多相关的文章，这里介绍Github上的一个开源工具。上一章节讲到选择SparkOnHbase为主要原型，将之修改为我们需要的源代码。这里给出修改之后的源代码，修改之后符合我们的业务需求，并尽量避免引起其他不必要的问题。同时，后期优化程序执行效率问题。源代码classHBaseContext(@transientsc:

大数据运维·2020-07-30 14:39

大数据学习笔记

浩浩浩666·2020-07-30 14:39

Spark获取Kafka数据的两种方式（源码）

个人GitHub地址：https://github.com/LinMingQiang在sparkstreaming接受数据的时候有两种方式（1）DirectKafkaInputDStream使用的是Direct

LonelysWorld·2020-07-30 14:00

Spark Streaming运行kafka数据源

SparkStreaming运行kafka数据源实验内容了解kafka的基本知识，对kafka进行安装和基础环境配置2.安装和准备flume3.编译相关测试代码，测试环境，对wordcount进行sparkstreamingKafka

JIAYINYA·2020-07-30 13:00

SparkStreaming写Hive一个小Demo案例（数据源为 Socket）

importorg.apache.spark.SparkContextimportorg.apache.spark.sql.{SaveMode,SparkSession}importorg.apache.spark.streaming.dstream.DStreamimportorg.apache.spark.streaming.{Seconds,StreamingContext}importor

Han_Lin_·2020-07-30 13:23

SparkStreaming接受socket数据，实现单词计数累加

文章目录架构图实现流程执行查看效果SparkStreaming接收socket数据，实现单词计数WordCount在上面的案例中存在一个问题，每个批次的单词次数都被正确的统计出来，但是结果不能累加！

码中小白鼠·2020-07-30 13:11

SparkStreaming消费kafka中的数据保存到HBase中简单demo

概述数据处理流程:kafka–>sparkstreaming-->hbase最近在做数据处理,但是通过javaapi进行处理的,目前想通过spark去做处理,这里记下了一个简单的实现,但是生产上肯定不是那么简单的

爆发的~小宇宙·2020-07-30 13:46

推荐频道

sparkstreaming