sparkstreaming 第56页

SparkStreaming连接到数据库

先创建一个连接池，提高效率：MysqlPool:objectMysqlPool{privatevalmax=8//连接池的连接总数privatevalconnectionNum=10//每次产生的连接数privatevarconNum=0//当前连接池已经产生的连接数importjava.utilprivatevalpool=newutil.LinkedList[Connection]()//连接

R_记忆犹新·2018-07-31 17:29

spark Streaming介绍及实例编写

1，引用一段官网介绍sparkStreaming是SparkcoreAPI的扩展，支持实时数据流的处理，并且具有可扩展，高吞吐量，容错的特点。

wanghuichen·2018-07-30 12:54

kafka 总结

网络传输传统:1.数据从磁盘读取到内核空间的pagecache中2.应用程序从内核空间读取数据到用户空间缓冲区3.应用程序将数据从内核空间复制到套接字缓冲区4.从套接字缓冲区复制到NIC(网络适配器)缓冲区SparkStreaming

dymkkj·2018-07-30 03:47

Spark基础概念

Spark是基于内存的Spark：Spark有四大组件包括SparkStreaming、SparkSQL、SparkMLlib和SparkGraphX。

csdnrhmm·2018-07-28 18:11

Spark基础概念

Spark是基于内存的Spark：Spark有四大组件包括SparkStreaming、SparkSQL、SparkMLlib和SparkGraphX。

csdnrhmm·2018-07-28 18:11

实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示

交了3年的女朋友不理我了，她说我连SVM都不会？最近有个需求，实时统计pv,uv，结果按照date,hour,pv,uv来展示，按天统计，第二天重新统计，当然了实际还需要按照类型字段分类统计pv,uv,比如按照date,hour,pv,uv,type来展示。这里介绍最基本的pv,uv的展示。iduvpvdatehour11555993060532018-07-2718关于什么是pv,uv，可以参见

ikeguang·2018-07-28 15:11

数据研发面试

实时数据如何保证容错性的5.hashmap的实现原理二面：1.你在工作中如何处理数据倾斜的2.distinct和groupby的区别3.假如groupby导致数据倾斜，你怎么处理4.hadoop和spark的区别有什么5.sparkstreaming

大王go巡山·2018-07-25 22:01

SparkStreaming实时计算单词统计

注意:先开启程序之后再将要统计的文本文档放入input目录下importorg.apache.spark.SparkConfimportorg.apache.spark.streaming.{Seconds,StreamingContext}objectWordCountByHDFS{defmain(args:Array[String]):Unit={valconf=newSparkConf().

csdn_Hzx·2018-07-24 21:10

基于CDH版本5.13.3验证Spark Streaming

需要加装Kafka作为采集数据源，使用SparkStreaming处理数据。

Darren_tan·2018-07-23 23:30

基于CDH版本5.13.3验证Spark Streaming

需要加装Kafka作为采集数据源，使用SparkStreaming处理数据。

Darren_tan·2018-07-23 23:30

Flume+Kafka+Spark Streaming实现大数据实时流式数据采集

因此SparkStreaming应用而生，不

不清不慎·2018-07-21 01:31

【十七Spark Streaming实战】日志分析之用python生成日志

1.在服务器中创建日志文件cd/app/flume/testDatatouchgenerateLog.log2.代码cd/app/flume/testDatavisparkStreamingGenerateLog.py

jy02268879·2018-07-20 17:52

Windows下IDEA远程调试Spark Streaming

文章目录前言第一步：后台启动Kafka第二步：创建KafkaTopic第三步：启动Kafka的生产者第四步：一个简单的Demo第五步：运行Demo第六步：准备数据第七步：IDEA下SparkStreaming

荒野雄兵·2018-07-19 10:43

spark Streaming 直接消费Kafka数据，保存到 HDFS 实战编程实践

最近在学习sparkstreaming相关知识，现在总结一下主要代码如下defcreateStreamingContext():StreamingContext={valsparkConf=newSparkConf

Asd_ots·2018-07-16 21:13

SparkStreaming读kafka写入HDFS（kerberos认证）

SparkStreaming读kafka写入HDFSpom访问Kerberos环境下的HBase代码Spark2Streaming应用实时读取Kafka代码写入数据到kafka代码SparkStreaming

lhxsir·2018-07-16 15:30

SparkStreaming+Kafka 实现统计基于缓存的实时uv

我的原创地址：https://dongkelun.com/2018/06/25/KafkaUV/前言本文利用SparkStreaming+Kafka实现实时的统计uv，即独立访客，一个用户一天内访问多次算一次

董可伦·2018-07-06 16:20

Spark Streamming+Kafka提交offset实现有且仅有一次

我的原创地址：https://dongkelun.com/2018/06/20/sparkStreamingOffsetOnlyOnce/前言本文讲SparkStreamming使用Direct方式读取

董可伦·2018-07-06 16:05

Kafka+Spark streaming读取数据存hdfs

Sparkstreaming+Kafka读取数据存hdfs一、环境准备：spark2.3.0下载kafka1.1.0下载二、Kafka代码1、maven依赖的包以及编译环境（pom.xml）org.apache.kafkakafka

chak_16·2018-07-05 08:24

Spark核心功能设计详解

Spark内核设计艺术：架构设计与实现》的读书笔记，感觉这一部分很重要，很基础，很有价值，特此记录一下正文SparkCore中提供了Spark最基础与最核心的功能，Spark其他的功能如：SparkSQL，SparkStreaming

荒野雄兵·2018-07-05 07:57

spark streaming 踩过的那些坑

系统背景sparkstreaming+Kafka高级APIreceiver目前资源分配（现在系统比较稳定的资源分配），独立集群--driver-memory50G--executor-memory8G-

T-Janey·2018-07-03 17:40

spark-submit提交Spark Streamming+Kafka程序

我的原创地址：https://dongkelun.com/2018/06/19/sparkSubmitKafka/前言SparkStreaming本身是没有Kafka相关的jar包和API的，如果想利用

董可伦·2018-06-28 17:31

Spark Streaming 自适应上游 kafka topic partition 数量变化

背景SparkStreaming作业在运行过程中，上游topic增加partition数目从A增加到B，会造成作业丢失数据，因为该作业只从topic中读取了原来的A个partition的数据，新增的B-A

chen58683632·2018-06-27 13:48

SparkStreaming+Kafka 实现基于缓存的实时wordcount程序

我的原创地址：https://dongkelun.com/2018/06/14/updateStateBykeyWordCount/前言本文利用SparkStreaming和Kafka实现基于缓存的实时

董可伦·2018-06-25 09:58

自己维护kafka_offset中的坑

上篇文章，讨论了在sparkstreaming中如何自己管理消费kafka的偏移量的方式，这里在跟大家说一下这种方是的一些坑由于想提高sparkstreaming程序的并行处理性能，于是需要增加kafka

Smile_Laugh·2018-06-22 16:21

SparkStreaming实时计算的框架和执行过程

SparkStreaming 为每一个数据源启动对应的Reciver（接收器），接收器以任务的形式运行在应用的Executor（执行器）进程中，从输入源接收数据，把数据分组为小的批次（batch），保存为

那记忆微凉·2018-06-20 11:04

spark streaming 实时流处理实战视频

www.javaxxz.com/thread-363587-1-1.html第1章课程引见第2章初识实时流处理第3章散布式日志搜集框架Flume第4章散布式发布订阅消息系统Kafka第5章环境搭建第6章SparkStreaming

dearbaba_11·2018-06-17 19:36

spark on yarn运行产生jar包冲突问题

1.1问题描述SparkStreaming程序解析protobuf序列化的数据时，--jars来添加依赖的protobuf-java-3.0.0.jar包，使用local模式程序正常，使用yarn模式时会报找不到方法的错误

XIAO的博客·2018-06-16 11:00

Spark Streaming技术社区网站广告实时点击分析系统-杨帅-专题视频课程

SparkStreaming技术社区网站广告实时点击分析系统—223人已学习课程介绍基于社区广告用户实时点击项目进行讲解，偏重于SparkStreaming业务代码实现，解决恶意刷广告行为以及实现广告优投放

djt_20180507·2018-06-14 16:40

Hadoop(十)spark环境搭建

它还支持一组丰富的更高级别的工具，包括SparkSQL，MLlib，GraphX，SparkStreaming.。Spark运行在Java8+，Python2.7+/3.4+和R3.1+上。

chsmy2018·2018-06-14 14:15

【SparkStreaming】Windows 10环境下 Kafka+SparkStreaming运行实例

运行环境1.环境部署1.安装zookeepr2.安装Kafka2.ScalaAPI测试Producer和Consumer1.Maven依赖2.Producer3.Consumer3.运行结果3.SparkStreaming

weiiL·2018-06-14 10:15

Spark Streaming概述

1、SparkStreaming用于处理流式计算问题。能够和Spark的其他模块无缝集成。2、SparkStreaming是一个粗粒度的框架【也就是只能对一批数据指定处理方法】，核心是采用微批次架构。

liangzelei·2018-06-12 10:27

SparkStreaming 架构及案例实现

一、概述SparkStreaming类似于ApacheStorm，用于流式数据的处理。根据其官方文档介绍，SparkStreaming有高吞吐量和容错能力强等特点。

MingZhang Wang·2018-06-11 21:26

SparkStreaming 架构及案例实现

一、概述SparkStreaming类似于ApacheStorm，用于流式数据的处理。根据其官方文档介绍，SparkStreaming有高吞吐量和容错能力强等特点。

MingZhang Wang·2018-06-11 21:26

基于Hadoop生态SparkStreaming的大数据实时流处理平台的搭建

用户行为分析、场景业务分析等等，传统的写日志方式根本满足不了业务的实时处理需求，所以本人准备开始着手改造原系统中的数据处理方式，重新搭建一个实时流处理平台，主要是基于hadoop生态，利用Kafka作为中转，SparkStreaming

飞鱼德蒙·2018-06-08 22:00

Spark

Spark在2013年6月进入Apache成为孵化项目，8个月后成为Apache顶级项目，速度之快足见过人之处，Spark以其先进的设计理念，迅速成为社区的热门项目，围绕着Spark推出了SparkSQL、SparkStreaming

BOUBOU1·2018-06-08 21:39

Spark Streaming自定义Receiver类

SparkStreaming自定义Receiver类1.自定义CustomReceiverclassCustomReveicer(host:String,port:Int)extendsReceiver

张行之·2018-06-08 12:52

深度:Hadoop对Spark五大维度正面比拼！

如果想批处理流量数据，并将其导入HDFS或使用SparkStreaming是否合理?如果想要进行机器学习和预测建模，Mahout或MLLib会更好地满足您的需求吗?

飞鱼德蒙·2018-06-05 19:00

深度:Hadoop对Spark五大维度正面比拼！

如果想批处理流量数据，并将其导入HDFS或使用SparkStreaming是否合理?如果想要进行机器学习和预测建模，Mahout或MLLib会更好地满足您的需求吗?

飞鱼德蒙·2018-06-05 19:00

Apache SparkStreaming 简介和编程模型

1.简介图5.22SparkStreaming[16]SparkStreaming是SparkAPI核心扩展，提供对实时数据流进行流式处理，具备可扩展、高吞吐和容错等特性。

MasterT-J·2018-06-05 15:13

Spark Streaming中的checkpoint

Checkpoint我们必须记录一些信息以方便恢复现场，在SparkStreaming中使用checkpoint实现恢复操作。SparkStreaming中有两种不同对象的checkpont操作。

chroje·2018-06-04 12:56

kafka+sparkstreaming+redis offset使用mysql管理

之前尝试过使用kafka自带的topic进行offset管理的实践但这是kafka0.11才有的内容，目前很多客户都是kafka0.10，因此又去尝试了使用mysql管理，并存入redis直接贴代码了PS:在这里offset没有进行初始化，待补充packagemain.scalaimportkafka.common.TopicAndPartitionimportkafka.message.Mess

DaHuangXiao·2018-06-03 21:41

SparkStreaming整合Flume-Pull方式（核心）

------------------------------------------SparkStreaming第二种方式整合Flume---------------------------------

风一样的男人_·2018-06-03 21:26

SparkStreaming整合Flume-Push方式

SparkStreaming整合Flume有俩种方式详细学习文档地址：https://spark.apache.org/docs/latest/streaming-flume-integration.html

风一样的男人_·2018-06-03 13:03

大数据知识:Spark入门

目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目，Spark是基于内存计算的大数据并行计

Oeljeklaus·2018-06-02 19:49

shell定时删除spark的applicationHistory历史文件

#################################################################删除很简单,但是不能删除一些正在运行的程序的日志,尤其是sparkstreaming

mtj66·2018-06-01 15:59

Spark Streaming 反压（Back Pressure）机制介绍

本文原文：https://www.iteblog.com/archives/2323.html，点击下面阅读原文即可进入背景在默认情况下，SparkStreaming通过receivers(或者是Direct

Hadoop技术博文·2018-05-29 08:30

spark大数据架构初学入门基础详解

Spark是什么a)是一种通用的大数据计算框架b)SparkCore离线计算SparkSQL交互式查询SparkStreaming实时流式计算SparkMLlib机器学习SparkGraphX图计算c)

假的鱼·2018-05-28 17:44

SparkStreaming + Kafka集成指南（Kafka版本要求0.10.0以上）

原文链接：http://spark.apache.org/docs/latest/streaming-kafka-0-10-integration.htmlSparkStreaming集成Kafka0.10

V_Gbird·2018-05-25 21:06

关于后台启动spark-submit的操作

-cdh5.7.0spark版本：spark-2.2.0-bin-2.6.0-cdh5.7.0zookeeper：zookeeper-3.4.5-cdh5.7.0最近在使用spark-submit提交SparkStreaming

Hiwes·2018-05-25 15:38

sparkstreaming多consumer消费kafka报错问题

版本：sparkstreaming2.2kafka0.10sparkstreaming集成kafka后（Direct模式），同一个groupid下的多个spark-streamingconsumer消费

YiRan_Zhao·2018-05-25 11:47

推荐频道

sparkstreaming

SparkStreaming连接到数据库

spark Streaming介绍及实例编写

kafka 总结

Spark基础概念

Spark基础概念

实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示

数据研发面试

SparkStreaming实时计算单词统计

基于CDH版本5.13.3验证Spark Streaming

基于CDH版本5.13.3验证Spark Streaming

Flume+Kafka+Spark Streaming实现大数据实时流式数据采集

【十七Spark Streaming实战】日志分析之用python生成日志

Windows下IDEA远程调试Spark Streaming

spark Streaming 直接消费Kafka数据，保存到 HDFS 实战编程实践

SparkStreaming读kafka写入HDFS（kerberos认证）

SparkStreaming+Kafka 实现统计基于缓存的实时uv

Spark Streamming+Kafka提交offset实现有且仅有一次

Kafka+Spark streaming读取数据存hdfs

Spark核心功能设计详解

spark streaming 踩过的那些坑

spark-submit提交Spark Streamming+Kafka程序

Spark Streaming 自适应上游 kafka topic partition 数量变化

SparkStreaming+Kafka 实现基于缓存的实时wordcount程序

自己维护kafka_offset中的坑

SparkStreaming实时计算的框架和执行过程

spark streaming 实时流处理实战视频

spark on yarn运行产生jar包冲突问题

Spark Streaming技术社区网站广告实时点击分析系统-杨帅-专题视频课程

Hadoop(十)spark环境搭建

【SparkStreaming】Windows 10环境下 Kafka+SparkStreaming运行实例

Spark Streaming概述

SparkStreaming 架构及案例实现

SparkStreaming 架构及案例实现

基于Hadoop生态SparkStreaming的大数据实时流处理平台的搭建

Spark

Spark Streaming自定义Receiver类

深度:Hadoop对Spark五大维度正面比拼！

深度:Hadoop对Spark五大维度正面比拼！

Apache SparkStreaming 简介和编程模型

Spark Streaming中的checkpoint

kafka+sparkstreaming+redis offset使用mysql管理

SparkStreaming整合Flume-Pull方式（核心）

SparkStreaming整合Flume-Push方式

大数据知识:Spark入门

shell定时删除spark的applicationHistory历史文件

Spark Streaming 反压（Back Pressure）机制介绍

spark大数据架构初学入门基础详解

SparkStreaming + Kafka集成指南（Kafka版本要求0.10.0以上）

关于后台启动spark-submit的操作

sparkstreaming多consumer消费kafka报错问题