E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
sparkStreaming
Hadoop对Spark:正面比拼报告(架构、性能、成本、安全性和机器学习)
如果想批处理流量数据,并将其导入HDFS或使用
SparkStreaming
是否合理?如果想要进行机器学习和预测建模,Mahout或MLLib会更好地满足你的需求吗?
yoku酱
·
2021-06-07 04:42
科大讯飞-软件开发工程师岗技术面
自我介绍,讲一讲项目,
sparkstreaming
从kafka获取数据两种方式,讲一讲servlet生命周期!
淫生苦短
·
2021-06-06 08:37
Spark Streaming运行架构分析
简介
SparkStreaming
是SparkCore的扩展,是构建于SparkCore之上的实时流处理系统。
H猫眼里的半途
·
2021-06-05 08:59
Spark Streaming入门
概述Hadoop的MapReduce及SparkSQL等只能进行离线计算,无法满足实时性要求较高的业务需求,例如实时推荐,实时网站性能分析等,流式计算可以解决这些问题,
sparkStreaming
就是现在常用的流式计算框架
董二弯
·
2021-06-04 20:03
Spark Structured Streaming 2.4 踩的一些坑
最近参与一个公司大数据项目开始入坑Spark,Spark从2.0开始从RDD的底层API转向了面向Dataset/Dataframe的高级API,
SparkStreaming
也换成了StructuredStreaming
华安火车迷
·
2021-06-04 15:01
基于Kafka+
SparkStreaming
+OushuDB搭建批流一体大数据分析架构
实时消息KafkaKafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。主要应用场景是:日志收集系统和消息系统。Kafka主要设计目标如下:以时间复杂度为O(1)的方式
lzw379764332
·
2021-05-28 23:05
流计算
批处理
OushuDB
kafka
spark
hdfs
数据仓库
分布式
Flink 在有赞的实践和应用
作者:沈磊一、Flink的容器化改造和实践1.有赞的集群演进历史2014年7月,第一个Storm任务正式上线;2016年,引入
SparkStreaming
,运行在HadoopYarn;2018年,引入了
阿里云云栖号
·
2021-05-27 10:23
云栖号技术分享
sql
实时计算
Flink 在有赞的实践和应用
作者:沈磊一、Flink的容器化改造和实践1.有赞的集群演进历史2014年7月,第一个Storm任务正式上线;2016年,引入
SparkStreaming
,运行在HadoopYarn;2018年,引入了
阿里云云栖号
·
2021-05-27 10:12
云栖号技术分享
Flink
SQL
实时计算
消息队列一点点总结
订阅系统实现一个微服务级系统间的观察者模式用户活动的追踪用户在web或者App的活动行为,通过消费kafka的topic做分析或者存储;限流、削峰填谷对激增场景限流;电商商城、订单、支付;流式处理连接计算任务和数据、流式计算框架
sparkstreaming
keeeepcodeing
·
2021-05-25 16:12
揭开Spark Streaming神秘面纱① - DStreamGraph 与 DStream DAG
在
SparkStreaming
中,DStreamGraph是一个非常重要的组件,主要用来:通过成员inputStreams持有
SparkStreaming
输入源及接收数据的方式通过成员outputStreams
牛肉圆粉不加葱
·
2021-05-21 10:35
Spark基础知识
的任务调度执行机制,减少了迭代计算时的I/O开销;Spark的设计遵循“一个软件栈满足不同应用场景”的理念,形成了一套完整的生态系统,既能够提供内存计算框架,也可以支持SQL即席查询(SparkSQL)、流计算(
SparkStreaming
冰科技
·
2021-05-19 19:53
hadoop
hadoop
spark
flink
[Kafka]整合到Spark Streaming
整合Kafka到
SparkStreaming
——代码示例和挑战-stark_summer的专栏-博客频道-CSDN.NEThttp://blog.csdn.net/stark_summer/article
葡萄喃喃呓语
·
2021-05-18 22:50
spark streaming 窗口操作 和join 操作
WindowOperation
SparkStreaming
也可以提供基于窗口的计算,这样允许你操作一个滑动窗口时间内的数据。
pcqlegend
·
2021-05-16 19:48
22list『DT_Spark 』第114课:
SparkStreaming
+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本
第114课:
SparkStreaming
+Kafka+SparkSQL+TopN+Mysql+KafkaOffsetMonitor电商广告点击综合案例实战(详细内幕版本)-段智华的博客-博客频道-CSDN.NEThttp
葡萄喃喃呓语
·
2021-05-16 12:49
2018-09-14 Spark Streaming 实时计算在甜橙金融监控系统中的应用及优化
目前公司对实时性计算的需要及应用越来越多,本文选取了其中之一的
SparkStreaming
来介绍如何实现高
四火流年
·
2021-05-13 23:13
【全网详解】从0到1搭建双十一实时交易数据展示平台——Spark+Kafka构建实时分析系统
目录万事具备之巧借东风预备知识环境搭建Spark安装Kafka安装Kafka核心知识介绍Kafka开启及测试服务Python依赖库PyCharm安装搭建总结八仙过海之各显神通数据预处理运行效果代码代码展示神笔马良之画龙点睛
SparkStreaming
王小王-123
·
2021-05-13 20:51
大数据
hadoop
kafka
淘宝大数据
实时展示交易可视化数据
海量数据分流处理-------一致性哈希算法
掌握了不少我只认为是工具的东西,比如Hadoop中的HDFS、Mapreduce、Yarn、HBase、Hive、Sqoop、Flume、Mahout、Pig、Zookeeper等和Spark中的SparkSQL、
SparkStreaming
狼牙战士
·
2021-05-12 16:04
Spark Streaming Backpressure分析
1、为什么引入Backpressure默认情况下,
SparkStreaming
通过Receiver以生产者生产数据的速率接收数据,计算过程中会出现batchprocessingtime>batchinterval
尼小摩
·
2021-05-12 16:13
PySpark之
SparkStreaming
基本操作
PySpark之
SparkStreaming
基本操作前言流数据具有如下特征:•数据快速持续到达,潜在大小也许是无穷无尽的•数据来源众多,格式复杂•数据量大,但是不十分关注存储,一旦经过处理,要么被丢弃,
张先生-您好
·
2021-05-11 15:15
PySpark
python
大数据
spark
数据库
sql
Spark Streaming一致性、容错机制分析
SparkStreaming
容错机制保障参考https://databricks.com/blog/2015/01/15/improved-driver-fault-tolerance-and-zero-data-loss-in-spark-streaming.html
分裂四人组
·
2021-05-10 23:42
2.2 kafka-manager的安装与配置
目录1.系统架构2.环境搭建2.1本地环境下kafka批量导入数据2.2kafka-manager的安装与配置3.1
SparkStreaming
性能调优(一):解决并行度3.2
SparkStreaming
PigPIgAutumn
·
2021-05-10 02:02
Spark的那些事(一)
一Spark生态:1111.png支持SparkSql用于sql和结构化数据查询处理;支持MLlib用于机器学习;支持GraphX用于图形处理;支持
SparkStreaming
和StructuredSql
假文艺的真码农
·
2021-05-09 06:46
第4课:Spark Streaming 事务处理彻底掌握
本期内容:1.Exactlyonce容错2.数据输出不重复一.
SparkStreaming
中的事务场景:在
SparkStreaming
中事务是指能够处理且只处理一次,能够输出且只输出一次.以银行转帐一次为例
kaden
·
2021-05-08 11:28
Spark Streaming如何消费Kafka的大消息(30M-40MB)
版本虽然很少有生产环境用Kafka传递超过1M消息的场景(因为高吞吐、低延时的要求,Kafka发布-订阅模型中Producer-Broker-Consumer3方的相关默认配置都是1M),但由于手上项目的特殊需求,希望
SparkStreaming
俺是亮哥
·
2021-05-07 14:29
spark streaming源码分析之job、rdd、blocks之间是如何对应的?
假设你已经了解job是如何被划分及提交的,若不了解请前往
sparkstreaming
流程详解当前位置是JobGenerator类的generateJobs的方法,我们重点看上面的generateJobs
cclucc
·
2021-05-07 11:05
python玩storm趟坑记
storm是最有名的实时流处理,spark虽然也有
sparkstreaming
,出来得比较晚,要趟的坑比storm要多,首选还是storm。
小木胆
·
2021-05-03 09:49
Spark计算《西虹市首富》短评词云
效果图如下:相关文章:1.Spark之PI本地2.Spark之WordCount集群3.
SparkStreaming
之读取Kafka数据4.
SparkStreaming
之使用redis保存Kafka的Offset5
阿坤的博客
·
2021-05-03 06:21
Spark Streaming 数据清理机制
大家刚开始用
SparkStreaming
时,心里肯定嘀咕,对于一个7*24小时运行的数据,cache住的RDD,broadcast系统会帮忙自己清理掉么?还是说必须自己做清理?
祝威廉
·
2021-05-03 00:29
【翻译】Spark Streaming 管理 Kafka Offsets 的方式探讨
ClouderaEngineeringBlog翻译:OffsetManagementForApacheKafkaWithApache
SparkStreaming
SparkStreaming
应用从Kafka
_和_
·
2021-05-01 14:54
让Spark成为你的瑞士军刀
很感慨Spark用好了,真的是大数据的瑞士军刀依托于
SparkStreaming
/SparkSQL,封装了一套通过配置和SQL就能完成批处理和流式处理的引擎,这样可以很好的完成复杂的ETL处理过程,实现了数据的流转和变换
祝威廉
·
2021-05-01 06:04
Spark Streaming源码解读之Receiver生成全生命周期彻底研究和思考
SparkStreaming
源码解读之Receiver生成全生命周期彻底研究和思考-http://www.jianshu.com/p/dff0dbf0ced0一:Receiver启动的方式设想1.
SparkStreaming
葡萄喃喃呓语
·
2021-04-30 22:45
2.1 本地环境下kafka批量导入数据
目录1.系统架构2.环境搭建2.1本地环境下kafka批量导入数据2.2kafka-manager的安装与配置3.1
SparkStreaming
性能调优(一):解决并行度3.2
SparkStreaming
PigPIgAutumn
·
2021-04-30 19:08
Spark Streaming整合Kafka
前几章介绍了Kafka、
SparkStreaming
入门、
SparkStreaming
进阶。在这一章一起学习
SparkStreaming
和Kafka的整合。
董二弯
·
2021-04-28 01:22
16.Spark Streaming源码解读之数据清理机制解析
本期内容:一、
SparkStreaming
数据清理总览二、****
SparkStreaming
****数据清理过程详解三、****
SparkStreaming
****数据清理的触发机制
SparkStreaming
飞帅记忆
·
2021-04-26 22:05
Flume+Kafka+
SparkStreaming
进行WordCounts实例
1.flumeflume的安装配置就不说了,网上一大堆。我还是给一个网址吧,https://www.jianshu.com/p/82c77166b5a3编写flume配置文件cd/opt/apache-flume-1.8.0-binvimconf/flume_kafka_and_hdfs.conf填写内容如下:a1.sources=r1a1.sinks=k1k2a1.channels=c1c2a1
盗梦者_56f2
·
2021-04-25 05:56
Spark Streaming 原理剖析
通过源码呈现
SparkStreaming
的底层机制。
三万_chenbing
·
2021-04-24 02:24
Spark学习_01_概述
通过sparkSQL,用户可以使用SQL或者apacheHive版本的HQL来查询数据·
sparkstreaming
是spark平台上针对实时数据进行流式计算的组件,提供
?CaMKII
·
2021-04-23 19:28
Hadoop
Spark
大数据
2021年大数据Spark(三十四):Spark Streaming概述
SparkStreaming
在很多实时数据处理的场景中,都需要用到流式处理(StreamProcess)框架,Spark也包含了两个完整的流式处理框架
SparkStreaming
和StructuredStreaming
Lansonli
·
2021-04-21 19:39
大数据
Spark
Streaming
背压
举例
SparkStreaming
这句话怎么理解???首先,服务中心的服务能力是有限的,要处理的事件时多时少,资源浪费?资源不够?在系统架构设计中,要思考2个问题:1、服务中心要抗住峰值事
___Hello
·
2021-04-21 14:59
Spark案例
Spark实战,第1部分:使用Scala语言开发Spark应用程序Spark实战,第2部分:使用Kafka和
SparkStreaming
构建实时数据处理系统Spark实战,第3部分:使用SparkSQL
Albert陈凯
·
2021-04-20 20:45
【Flink 精选】如何分析及处理反压?
阐述Flink、Storm,
SparkStreaming
的反压机制,Flink如何定位及分析反压?概念反压(backpressure)是流式计算中十分常见的问题。
熊本极客
·
2021-04-19 15:29
十年编程大佬带你复盘Flink,
SparkStreaming
,Storm经典对战,谁将最终胜出?
1.Flink架构及特性分析Flink是个相当早的项目,开始于2008年,但只在最近才得到注意。Flink是原生的流处理系统,提供highlevel的API。Flink也提供API来像Spark一样进行批处理,但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在Flink中,所有的数据都看作流,是一种很好的抽象,因为这更接近于现实世界。1.1基本架构下面我们介绍下Flin
Java架构领域
·
2021-04-18 14:44
Flink 原理与实现:如何处理反压问题
目前主流的流处理系统Storm/JStorm/
SparkStreaming
/Fli
尼小摩
·
2021-04-17 23:30
slf4j、log4j、log4j2、logback到底用哪些jar
前言
SparkStreaming
用久了,打算学习一下Flink,就从官网下载了Flink1.11,打算搞一个客户端,将程序提交在yarn上。
Seven0007_
·
2021-04-17 18:40
(转)Spark Streaming 流计算优化记录(5)-分区与内存的优化
8.不一定非得每秒处理一次由于
SparkStreaming
的原理是microbatch,因此当batch积累到一定数量时再发放到集群中计算,这样的数据吞吐量会更大些.这需要在StreamingContext
达微
·
2021-04-17 17:28
Kafka+Spark Streaming如何保证exactly once语义
在Kafka、Storm、Flink、
SparkStreaming
等分布式流处理系统中(没错,Kafka本质上是流处理系统,不是单纯的“消息队列”),存在三种消息传递语义(messagedeliverysemantics
LittleMagic
·
2021-04-17 15:54
kakfa连接
sparkstreaming
时候offset保存问题
官网的scala代码stream.foreachRDD{rdd=>valoffsetRanges=rdd.asInstanceOf[HasOffsetRanges].offsetRanges//sometimelater,afteroutputshavecompletedstream.asInstanceOf[CanCommitOffsets].commitAsync(offsetRanges)}
大数据修行
·
2021-04-17 15:15
sparkStreaming
处理离线任务
方案使用
sparkStreaming
将任务分发到sparkexecutors上去做
·
2021-04-13 14:52
spark-streaming
Spark Streaming + Canal + Kafka打造Mysql增量数据实时进行监测分析
点击上方蓝色字体,选择“设为星标”回复”资源“获取更多资源Spark中的
SparkStreaming
可以用于实时流项目的开发,实时流项目的数据源除了可以来源于日志、文件、网络端口等,常常也有这种需求,那就是实时分析处理
王知无-大数据技术与架构
·
2021-04-01 07:00
mysql
java
kafka
大数据
数据库
数据结构与算法的实际应用——根据表关系构建SQL语句
背景需求最近在项目中有一个场景,根据前端可视化模式传入的参数构建一组SQL语句,应用在
SparkStreaming
应用的数据同步中。
·
2021-03-25 22:52
scala数据结构和算法
上一页
10
11
12
13
14
15
16
17
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他