E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkStreaming
Spark综合学习笔记(十八)SparkSQL数据抽象
p=53引言SparkCore的数据抽象:RDD
SparkStreaming
的数据抽象:DStream,底层是RDDSparkSQL的数据抽象:DataFrame和DataSet,底层是RDDDataFrame
斯特凡今天也很帅
·
2021-11-25 12:10
大数据
SQL
spark
postman
测试工具
spark
SparkStreaming
与SparkSQL集成分析数据并将结果存入MySQL
SparkStreaming
与SparkSQL集成分析数据并将结果存入MySQL一、前提说明二、实现步骤一、前提说明安装了Flume本案例实现流程图:本案例实现的功能是:实现wordcount功能,并将每次的分析结果保存到数据库中二
若兰幽竹
·
2021-11-25 00:26
Spark
zookeeper
spark
hive
Spark综合学习笔记(八)
SparkStreaming
案例2 状态管理
学习致谢:https://www.bilibili.com/video/BV1Xz4y1m7cv?p=42需求:对从Socket接收的数据做WordCoun并要求能够和历史数据进行累加!如:先发了一个spark,得到spark,1然后不管隔多久再发一个spark,得到spark,2也就是说要对数据的历史状态进行维护!实现思路:一、updataStateByKey先设置checkpoint存储状态s
斯特凡今天也很帅
·
2021-11-23 10:41
spark
大数据
postman
测试工具
spark
Spark-StructuredStreaming 下的checkpointLocation分析以及对接 Grafana 监控和提交Kafka Lag 监控
Spark-StructuredStreamingcheckpointLocation介绍StructuredStreaming在Spark2.0版本于2016年引入,是基于SparkSQL引擎构建的可扩展且容错的流处理引擎,对比传统的
SparkStreaming
张永清
·
2021-11-22 14:00
使用
SparkStreaming
实现词频累加统计
使用
SparkStreaming
实现词频累加统计一、实验环境二、需求分析三、实验环境准备四、编程实现1、编写代码2、在虚拟机中启动**nc**3、执行
SparkStreaming
程序4、逐渐输入测试数据
数据是个宝
·
2021-11-17 12:01
sparkStreaming
spark
bigdata_
sparkstreaming
一丶概述:1.数据处理类型分类静态数据多适用于批量计算、离线计算数据源是不变的、有限的、显式离散的流数据数据是变动的、无限的、连续的多适用于实时计算,能在秒级、秒内处理完成实时数据分类小时级分钟级秒级2.
sparkstreaming
JIE_ling8
·
2021-11-15 23:22
总结
big
data
大数据
SparkStreaming
入门案例Wordcount
[TOC](sparkStream入门案例))一、准备工作centos7环境spark环境搭建nc安装(netcat):yum-yinstallnc二、案例分析将nc作为服务端,用户在场产生数据;启动
sparkStreaming
数据是个宝
·
2021-11-15 13:37
sparkStreaming
spark
spark structured-streaming 最全的使用总结
一、sparkstructured-streaming介绍我们都知道
sparkstreaming
在v2.4.5之后就进入了维护阶段,不再有新的大版本出现,而且
sparkstreaming
一直是按照微批来处理
张永清
·
2021-11-06 15:00
Apache Flink 在京东的实践与优化
于是我们在2017年引入了
Sparkstreaming
,利用它的微批处理来应对这种业务场景。随着业务的发展和业务规模的扩大,我们迫切需要一种兼具低延迟和高吞吐能力,同时支持窗口计算
·
2021-10-26 12:35
apacheflink大数据
Day71_Spark-streaming(一)
SparkStreaming
基础架构课程大纲课程内容学习效果掌握目标
SparkStreaming
简介流式计算了解
SparkStreaming
简介
SparkStreaming
API整合Kafka掌握整合HDFS
dogedong
·
2021-10-26 08:57
#
spark
kafka
big
data
Kafka+Spark Streaming本地词频统计
简介
SparkStreaming
isanextensionofthecoreSparkAPIthatenablesscalable,high-throughput,fault-tolerantstreamprocessingoflivedatastreams
NealLemon
·
2021-10-23 19:46
大数据开发之如何处理Kafka集群消息积压问题
大数据培训对于一些实时任务,比如
SparkStreaming
/Structured-Streaming、Flink和Kafka集成的应用,消费端不
·
2021-10-09 12:52
大数据kafka
sparkStreaming
读取kafka写入hive分区表
sparkStreaming
读取kafka写入hive分区表使用版本:hadoop-3.1.3,hive-3.1.2。开始这个spark不是很熟悉,但是项目要用到,这就要临阵磨枪了。
W_Little_lion
·
2021-09-20 18:07
big
data
spark
kafka
hive
scala
spark streaming 读取kafka数据
sparkstreaming
读取kafka数据1、程序入口valspark=SparkSession.builder().appName(this.getClass.getName).master("local
烟雨彷徨~~Xun
·
2021-09-14 10:41
大数据
kafka
spark
big
data
streaming
Spark学习记录之SparkCore核心属性
包含的模块有,SparkCore,SparkSQL,
SparkStreaming
,SparkMLib,SparkGraphXSparkSubmit例子Standalonebin/spark-submit
·
2021-08-25 10:10
创建SparkSession和sparkSQL的详细过程
目录一、概述二、创建SparkSession三、SQLContext四、HiveContext一、概述spark有三大引擎,sparkcore、sparkSQL、
sparkStreaming
,sparkcore
·
2021-08-10 12:11
Spark Streaming执行原理
SparkStreaming
解决这4个问题的不同focus,可以将
SparkStreaming
划分为四个大的模块:模块1:DAG静态定义模块2:Job动态生成模块3:数据产生与导入模块4:长时容错模块1
jason__huang
·
2021-06-26 22:18
Apache Hudi使用简介
[TOC]数据实时处理和实时的数据实时分为处理的实时和数据的实时即席分析是要求对数据实时的处理,马上要得到对应的结果Flink、
SparkStreaming
是用来对实时数据的实时处理,数据要求实时,处理也要迅速数据不实时
西北偏北
·
2021-06-26 02:24
Kafka
Kafka搭建环境0.8版本、0.10版本跟
sparkStreaming
适配问题需要注意选用0.10以上版本,学习使用kafka_2.11-0.9.0.0生产中使用0.10即可kafka配置.
___Hello
·
2021-06-25 14:32
Spark Streaming kafka 实现数据零丢失的几种方式
在使用
sparkstreaming
消费kafka数据时,程序异常中断下发现会有数据丢失的情况。下文将说明如何避免这种情况。
breeze_lsw
·
2021-06-24 19:36
SparkStreaming
On Kafka —— Offset 管理
一、Kafka消费者如何管理offset我之前有写一篇kafkaConsumer—offset的控制如果你对于这方面的知识还不太清楚,建议你去看一下,毕竟理解了Kafka的消费者,你才能更好的使用
SparkStreaming
code_solve
·
2021-06-24 01:47
基于Kafka+Flink+Redis的电商大屏实时计算案例
由于Flink的“真·流式计算”这一特点,它比
SparkStreaming
要更适合大屏应用。本文从笔者的实际工作经验抽象出简单的模型,并简要叙述计算流程(当然大部分都是源码)
王知无
·
2021-06-23 04:43
flume+kafka+
SparkStreaming
+mysql+ssm+高德地图热力图项目
一、概述本篇文章主要介绍如何使用
SparkStreaming
+flume+Kafka实现实时数据的计算,并且使用高德地图API实现热力图的展示。
__元昊__
·
2021-06-21 02:58
系统谈数据治理,具体案例来分析
为什么要做数据治理进入到大数据时代,数据领域里的工程师、分析师和科学家们可以很轻易的使用开源世界的各种技术(比如离线处理有MapReduce、Spark,实时处理有Flink、
SparkStreaming
宋懵懵的数据生活
·
2021-06-21 01:19
kafka 数据容错之 hbase保存 spark消费的offset
本文转载自:https://blog.csdn.net/xnlej/article/details/79037145
sparkstreaming
用direct的方式有优势,但是也容易丢失数据,只能保证atleastone
博弈史密斯
·
2021-06-20 20:31
flume
协作框架之Flume1.概念FlumeCloudera公司开源的框架高效的收集海量日志文件官网应用场合日志来源于apache/Nginx应用服务器的日志-->HDFSFlume+kafka--->Storm/
SparkStreaming
2
Bottle丶Fish
·
2021-06-19 16:17
SparkStreaming
如何维护Kafka消息偏移量
SparkStreaming
维护Kafka消息偏移量据个人了解有两种方式一、利用
SparkStreaming
自带的Checkpoint方法来维护二、自己来编写维护Kafka消息偏移量的代码首先说明下集群中的各组件版本
IT_小白
·
2021-06-19 10:44
Flink 在有赞的实践和应用
一、Flink的容器化改造和实践1.有赞的集群演进历史2014年7月,第一个Storm任务正式上线;2016年,引入
SparkStreaming
,运行在HadoopYarn;2018年,引入了Flink
·
2021-06-18 22:06
flink
典型日志系统架构及其缺点
典型的日志架构如图所示,简单介绍下基本流程日志通过filebeat或者api写入到kafka或者其它队列系统,这个队列通常是企业内部的流数据总线从kafka出来,再用flink,kafkastream,或者
sparkstreaming
hongshen
·
2021-06-18 21:55
方法论:Spark Streaming Driver不明原因挂掉
背景
sparkstreaming
任务执行过程中,driver总是不明原因挂掉,没有任何错误日志。
海南中剑
·
2021-06-14 15:14
spark从入门到放弃四十一:Spark Streaming(1) 简介
文章地址:http://www.haha174.top/article/details/2519951.大数据实时计算介绍1.
SparkStreaming
其实就是一种spark提供的对于大数据进行实时计算的一种框架
意浅离殇
·
2021-06-14 09:54
Spark Streaming 日志拆分
背景
sparkstreaming
任务,任务持续运行会产生大量的日志,查看起来非常麻烦,而且非常浪费时间。
海南中剑
·
2021-06-12 19:21
Window滑动窗口
SparkStreaming
提供了滑动窗口操作的支持,从而让我们可以对一个滑动窗口内的数据执行计算操作。
hipeer
·
2021-06-11 12:31
Spark推测执行解决
SparkStreaming
任务task卡死问题
背景:测试环境运行一个
SparkStreaming
任务,yarn-cluster模式,duration为5分钟一个批次,每个批次平均2000w条records,并行度为60资源配置为:${SPARK_HOME
invincine
·
2021-06-11 06:08
Spark Streaming概述
SparkStreaming
是什么
SparkStreaming
用于流式数据的处理。
大数据小同学
·
2021-06-11 06:19
Tornado Websocket + Redis :实现“填鸭式”推送
前段时间的云计算课程中,老师要求使用
SparkStreaming
完成一个小项目。
月敢为你忘缺
·
2021-06-10 14:56
大量数据量下,很实用的共享变量
最近在负责
SparkStreaming
结合SparkSql的相关项目,语言是Java,留下一些笔记,也供大家参考,如有错误,请指教!
jason__huang
·
2021-06-10 14:40
182、Spark 2.0新特性之智能化Structured Streaming介绍
StructuredStreaming介绍
SparkStreaming
应该说是将离线计算操作和流式计算操作统一起来的大数据计算框架之一。
ZFH__ZJ
·
2021-06-10 08:59
SparkStreaming
的代码在哪里运行
由于实习做的一个项目用
SparkStreaming
计算全量实时更新的数据,产生了对任务运行过程中代码运行位置的困惑(Driver端执行还是Executor端执行?)做了以下测试。
肌霸
·
2021-06-10 02:34
关于
SparkStreaming
的checkpoint的弊端
当使用
sparkstreaming
处理流式数据的时候,它的数据源搭档大部分都是Kafka,尤其是在互联网公司颇为常见。
尼小摩
·
2021-06-08 23:12
Spark 2.0 Structured Streaming 分析
Spark2.0之前作为Spark平台的流式实现,
SparkStreaming
是有单独一套抽象和API的,大体如下图片来源于Spakr官网代码的
祝威廉
·
2021-06-08 14:05
sparkStreaming
Checkpoint机制和ZooKeeper机制:--当程序只是挂掉之后重启而没有修改代码的时候,通过Checkpoint机制反序列化信息;--当应用程序升级了代码的时候,首先需要gracefulstop我们的
SparkStreaming
小鑫_2bc0
·
2021-06-07 10:11
Hadoop对Spark:正面比拼报告(架构、性能、成本、安全性和机器学习)
如果想批处理流量数据,并将其导入HDFS或使用
SparkStreaming
是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足你的需求吗?
yoku酱
·
2021-06-07 04:42
科大讯飞-软件开发工程师岗技术面
自我介绍,讲一讲项目,
sparkstreaming
从kafka获取数据两种方式,讲一讲servlet生命周期!
淫生苦短
·
2021-06-06 08:37
Spark Streaming运行架构分析
简介
SparkStreaming
是SparkCore的扩展,是构建于SparkCore之上的实时流处理系统。
H猫眼里的半途
·
2021-06-05 08:59
Spark Streaming入门
概述Hadoop的MapReduce及SparkSQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐,实时网站性能分析等,流式计算可以解决这些问题,
sparkStreaming
就是现在常用的流式计算框架
董二弯
·
2021-06-04 20:03
Spark Structured Streaming 2.4 踩的一些坑
最近参与一个公司大数据项目开始入坑Spark,Spark从2.0开始从RDD的底层API转向了面向Dataset/Dataframe的高级API,
SparkStreaming
也换成了StructuredStreaming
华安火车迷
·
2021-06-04 15:01
基于Kafka+
SparkStreaming
+OushuDB搭建批流一体大数据分析架构
实时消息KafkaKafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。Kafka主要设计目标如下:以时间复杂度为O(1)的方式
lzw379764332
·
2021-05-28 23:05
流计算
批处理
OushuDB
kafka
spark
hdfs
数据仓库
分布式
Flink 在有赞的实践和应用
作者:沈磊一、Flink的容器化改造和实践1.有赞的集群演进历史2014年7月,第一个Storm任务正式上线;2016年,引入
SparkStreaming
,运行在HadoopYarn;2018年,引入了
阿里云云栖号
·
2021-05-27 10:23
云栖号技术分享
sql
实时计算
Flink 在有赞的实践和应用
作者:沈磊一、Flink的容器化改造和实践1.有赞的集群演进历史2014年7月,第一个Storm任务正式上线;2016年,引入
SparkStreaming
,运行在HadoopYarn;2018年,引入了
阿里云云栖号
·
2021-05-27 10:12
云栖号技术分享
Flink
SQL
实时计算
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他