E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark技术篇
spark
之checkpoint原理机制
当RDD使用cache机制从内存中读取数据,如果数据没有读到,会使用checkpoint机制读取数据。此时如果没有checkpoint机制,那么就需要找到父RDD重新计算数据了,因此checkpoint是个很重要的容错机制。checkpoint就是对于一个RDDchain(链)如果后面需要反复使用某些中间结果RDD,可能因为一些故障导致该中间数据丢失,那么就可以针对该RDD启动checkpoint
临界爵迹
·
2024-01-17 06:44
大数据
spark
checkpoint
spark
之shuffle参数优化
spark
.shuffle.file.buffer默认32kshufflewritetask端的缓冲区,到达阈值后,溢写到磁盘。
临界爵迹
·
2024-01-17 06:43
大数据
spark
Spark
面试
1、
Spark
如何保证宕机迅速恢复?
lune_Lucky
·
2024-01-17 05:30
大数据
big
data
spark
Apriori
Apriori算法原理总结-刘建平FPTree算法原理总结-刘建平PrefixSpan算法原理总结-刘建平用
Spark
学习FPTree算法和PrefixSpan算法-刘建平
BluthLeee
·
2024-01-17 05:41
基于
spark
的淘宝用户行为数据分析及其可视化研究
数据准备1、数据来源:淘宝用户购物行为数据集数据的相关介绍:数据的一条记录包括:用户id,商品id,商品类目id,行为类型(行为类型:pv——点击,buy——购买,cart——加入购物车,fav——收藏),时间戳数据包含了2017年11月25日至2017年12月3日之间淘宝用户的数据行为用户数量:987994商品数量:4162024用户数量:987994商品类目数量:9439所有行为数量:1001
简单的小呆瓜
·
2024-01-17 02:14
spark
spark
数据分析
大数据
基于
SPARK
的淘宝用户购物行为可视化分析
基于
SPARK
的淘宝用户购物行为可视化分析这篇文章旨在练习大数据
Spark
操作,做一些简单的分析。后续阶段将基于三台虚拟机情况下进行调优,以期实现性能最优化。
番茄薯仔
·
2024-01-17 02:14
spark
spark
大数据
hadoop
【项目实战】基于Hadoop大数据电商平台用户行为分析与可视化系统Hive、
Spark
计算机程序开发
注意:该项目只展示部分功能,如需了解,评论区咨询即可。本文目录1设计背景2设计意义3系统展示3.1页面展示3.2视频展示4更多推荐5部分功能代码1设计背景在当今数字化时代,电商行业成为全球商业生态系统的关键组成部分,电商平台已经深入各行各业,影响了人们的购物方式和消费习惯。随着互联网技术的不断发展,电商平台产生了大量的用户数据,包括点击、购买、搜索、浏览历史等行为数据。这些数据蕴含着宝贵的商业洞察
Q2643365023
·
2024-01-17 02:43
项目
大数据
hadoop
大数据
hive
大数据实战(hadoop+
spark
+python):淘宝电商数据分析
一,运行环境与所需资源:虚拟机:Ubuntu20.04.6LTSdocker容器hadoop-3.3.4
spark
-3.3.2-bin-hadoop3python,py
spark
,pandas,matplotlibmysql
linpaomian
·
2024-01-17 02:13
大数据
hadoop
spark
docker
数据分析
spark
Failed to get main class in JAR with error null . Please specify one with --class.
运行
spark
-submit命令示例bin/
spark
-submit\--classorg.apache.
spark
.examples.
Spark
Pi\--masteryarn\--deploy-modecluster
linpaomian
·
2024-01-17 02:13
spark
大数据
scala
Spark
Core源码精读计划#25:UnifiedMemoryManager——统一内存管理机制
借用存储内存申请/借用执行内存总结前言在前文的末尾,我们分析了静态内存管理器StaticMemoryManager的优缺点,并指出统一内存管理器UnifiedMemoryManager能够弥补它的缺点,同时也是目前
Spark
LittleMagic
·
2024-01-16 23:51
Spark
详解
Spark
概念
Spark
提供了一个全面、统一的框架用于管理各种有着不同性质(文本数据、图表数据等)的数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。
武昌库里写JAVA
·
2024-01-16 21:15
高手面试
spark
大数据
分布式
IDEA-scala:java.lang.NoClassDefFoundError:org / apache / commons / csv / CSVFormat and Static met...
在IDEA构建了一个
spark
+smile的maven项目,用起来还是有各种bug。
bensonrachel
·
2024-01-16 21:08
Hudi0.14.0最新编译(修订版)
1编译环境Java1.8maven3.9.3hadoop3.3.4hive3.1.3
spark
3.2.1flink1.16.0hudi0.14.02hudi准备2.1源码$gitclonehttps:/
跟着大数据和AI去旅行
·
2024-01-16 20:40
大数据企业级实战
hudi
【js】
spark
-md5来计算文件的MD5值
在React中,可以使用开源的JavaScript库
spark
-md5来计算文件的MD5值。该库可以在浏览器中计算文件的MD5值,而不需要上传文件到服务器。
bulucc
·
2024-01-16 19:21
前端
javascript
开发语言
结构化流的介绍
目录有界数据和无界数据有界数据无界数据结构化流基本介绍入门案例结构化流的编程模型数据结构数据源(Source)FileSourceKafkaSource(
Spark
和Kafka整合)整合Kafka准备工作从
Sisi525693
·
2024-01-16 19:58
python
大数据
spark
kafka
结构化流
大数据学习入门到实战教程,精心整理万字长文入门,老奶奶看了都说学会了
换个角度说,大数据是:1、有海量的数据2、有对海量数据进行挖掘的需求3、有对海量数据进行挖掘的软件工具(hadoop、
spark
、storm、flink、tez
悦悦学Python
·
2024-01-16 18:10
hive:创建自定义python UDF
addfilehdfs://home/user/py3_script/;set
spark
.yarn.dist.archives=hdfs://home/user/py3.tar.gz;set
spark
.shuffle.hdfs.enabled
青盏
·
2024-01-16 16:35
other
hive
hadoop
数据仓库
Spark
-RDD算子大全
Spark
RDD(弹性分布式数据集)是
Spark
中的核心抽象,它代表一个不可变、分区的分布式数据集合。
Young_IT
·
2024-01-16 15:17
大数据开发
spark
大数据
分布式
78、
Spark
SQL之延伸知识之Hive On
Spark
Spark
SQL与HiveOn
Spark
区别Hive是目前大数据领域,事实上的SQL标准。
ZFH__ZJ
·
2024-01-16 15:10
记录学习
Spark
+Kafka构建实时分析Dashboard案例中遇到的问题(一)安装
目录推荐环境系统和软件安装安装Ubuntu分辨率问题虚拟机桥接模式连不上网Hadoop安装Ubuntu16.04下用aria2下载百度网盘大文件其他在安装hadoop时遇到的问题hadoop用法小结单机模式伪分布式
Spark
白令屿
·
2024-01-16 13:53
大数据处理
spark
kafka
python
大数据
Python 与 Py
Spark
数据分析实战指南:解锁数据洞见
Python和Py
Spark
作为强大的工具,提供了丰富的库和功能,使得数据分析变得更加高效和灵活。在这篇文章中,我们将深入探讨如何使用Python和Py
Spark
进行数据分析,包
库库的里昂
·
2024-01-16 12:27
杂谈
人工智能
chatgpt
信息可视化
开发语言
数据挖掘
Spark
r
https://
spark
.rstudio.com/index.html如何使用
spark
在上述这个链接有详细文档。下一个问题,如搭建一个
spark
平台!
Liam_ml
·
2024-01-16 12:57
最新智能AI系统ChatGPT网站程序源码+详细图文搭建部署教程,Midjourney绘画,GPT语音对话+ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-16 09:57
人工智能
软件源码
程序源码
人工智能
chatgpt
语音识别
midjourney
AI作画
【Flink-1.17-教程】-【一】Flink概述、Flink快速入门
【Flink-1.17-教程】-【一】Flink概述、Flink快速入门1)Flink是什么1.1.有界流和无界流1.2.Flink的发展史2)Flink特点3)Flinkvs
Spark
Streaming4
bmyyyyyy
·
2024-01-16 08:16
Flink
flink
java
大数据
#flink概述
#flink快速入门
#wordcount
Spark
Structured Streaming + Kafka +Json
org.apache.
spark
spark
-sql-kafka-0-10_2.11 2.1.1 org.apache.
spark
spark
-sql_2.11 2.1.1importorg.apache.
spark
.sql.
Spark
SessionobjectMyTest
zhangxl-jc
·
2024-01-16 07:00
kafka
spark
spark
kafka
json
StructStreaming整合Kafka操作
StructStreaming整合Kafka操作Maven依赖org.apache.
spark
spark
-sql-kafka-0-10_2.123.3.1实时数据ETL准备数据/***模拟产生基站日志数据
健鑫.
·
2024-01-16 07:29
spark
kafka
scala
spark
Spark
SQL和Hive语法差异
Spark
SQL和Hive语法差异1、仅支持Hive
Spark
SQL关联条件on不支持函数rand()创建零时表时,
Spark
不支持直接赋值null
Spark
无法读取字段类型为void的表
Spark
SQL
中长跑路上crush
·
2024-01-16 07:28
Spark阶段
hive
hadoop
数据仓库
spark
分布式
Structured Streaming 整合 Kafka指南
从kafka读取数据//Subscribeto1topicvaldf=
spark
.readStream.format("kafka").option("kafka.bootstrap.servers",
鸭梨山大哎
·
2024-01-16 07:27
kafka
kafka
Py
Spark
Structured Streaming kafka示例
Py
Spark
StructuredStreamingkafka示例直接上代码:#!
张行之
·
2024-01-16 07:52
大数据
pyspark
structured
streaming
kafka
python
Structured Streaming配置Kafka参数
overridedefstream():DataFrame={valkafkaConf=newKafkaConfigurationval
spark
=Gx
Spark
Session().session()valdf
sunyang098
·
2024-01-16 07:18
spark
spark
streaming
kafka
配置
Structured_Streaming和Kafka整合
结构化编程模型输出终端/位置默认情况下,
Spark
的结构化流支持多种输出方案:1-consolesink:将结果数据输出到控制台。
小希 fighting
·
2024-01-16 06:14
kafka
分布式
spark
大数据
seatunnel 消费kafka数据写入clickhouse
SeaTunnel是一个非常易用、高性能、支持实时流式和离线批处理的海量数据集成平台,架构于Apache
Spark
和ApacheFlink之上,支持海量数据的实时同步与转换。
冰帆<
·
2024-01-16 05:41
seatunel
大数据
大数据
大数据技术原理与应用 第三版 林子雨 期末复习(五) 第十章
SPARK
大数据技术原理与应用第三版林子雨期末复习(五)第十章
SPARK
简介
spark
特点
spark
与Hadoop对比Hadoop缺点
spark
优点RDDRDD概念RDD间存在依赖关系分为宽依赖与窄依赖RDD的两种常用操作简介
头发多多,肆意生长
·
2024-01-16 05:22
大数据技术
spark
big
data
hadoop
Spark
- 资源动态释放
>通过
spark
-submit会固定占用一占的资源,有什么办法,在任务不运作的时候将资源释放,让其它任务使用呢,yarn新版本默认已经支持了,我们使用的是HDP。##版本如下!
kikiki4
·
2024-01-16 03:58
Spark
MLlib ----- ALS算法
补充在谈ALS(AlternatingLeastSquares)之前首先来谈谈LS,即最小二乘法。LS算法是ALS的基础,是一种数优化技术,也是一种常用的机器学习算法,他通过最小化误差平方和寻找数据的最佳匹配,利用最小二乘法寻找最优的未知数据,保证求的数据与已知的数据误差最小。LS也被用于拟合曲线,比如所熟悉的线性模型。下面以简单的线性一元线性回归模型说明最小二乘法。假设我们有一组数据{(x1,y
创作者mateo
·
2024-01-16 02:54
spark
spark
MLlib
ALS
spark-ml
算法
ClickHouse - 01
与其特性在大数据处理场景中,流处理和批处理使用到的技术大致如下:大数据处理场景流程.png批处理会将源业务系统中的数据通过数据抽取工具(例如Sqoop)将数据抽取到HDFS中,这个过程可以使用MapReduce、
Spark
ArthurHC
·
2024-01-16 02:17
Python语法进阶学习--进程和线程
后续很快就要进入
Spark
的学习,在学习之前也是要铺垫一个知识点:进程是什么?线程是什么?两者有什么区别?又有什么关系?
Yan_bigdata
·
2024-01-15 23:34
python
学习
开发语言
并发和并行
进程和线程
互斥锁
守护进程
2023年AIGC发展研究报告1.0版
近日,清华大学沈阳教授团队发布了《AIGC发展研究报告1.0版》,总计192页,分为
技术篇
、产业篇、评测篇、职业篇、风险篇、哲理篇、未来篇、团队篇等多个篇章,对AIGC产业的发展现状和趋势进行了详尽研究和分析
huaxi20089
·
2024-01-15 15:59
AIGC
【
Spark
】
Spark
原理简述
发现一篇很好的文章,适合对
Spark
有一定了解的小伙伴阅读主要介绍下自己在学习
spark
当中的一些理解和学习过程中踩到的坑,对
spark
时间效率优化的点做个总结,各位大佬轻拍。
turboSniper
·
2024-01-15 14:57
大数据
spark
大数据
分布式
streaming 101
看之前就知道这是两篇能够提升你对流处理理解的文章,不是一般的提升,可以说是一种升华,因为他谈的不是一个具体的工具(
spark
streaming,flink等),而是谈流处理应该是怎么样的,流处理要打败批处理一统天下的话需要有什么特性
Bitson
·
2024-01-15 12:31
Spark
原理——Shuffle 过程
Shuffle过程Shuffle过程的组件结构从整体视角上来看,Shuffle发生在两个Stage之间,一个Stage把数据计算好,整理好,等待另外一个Stage来拉取放大视角,会发现,其实Shuffle发生在Task之间,一个Task把数据整理好,等待Reducer端的Task来拉取如果更细化一下,Task之间如何进行数据拷贝的呢?其实就是一方Task把文件生成好,然后另一方Task来拉取现在是
我像影子一样
·
2024-01-15 09:47
Spark
大数据
spark
大数据
Spark
高级特性 (难)
Spark
高级特性(难)闭包/**编写一个高阶函数,在这个函数要有一个变量,返回一个函数,通过这个变量完成一个计算**/@Testdeftest():Unit={//valf:Int=>Double=closure
我像影子一样
·
2024-01-15 09:11
Spark
大数据
spark
大数据
spark
Streaming 连接kafka的方式
spark
Streaming消费kafak有两种方式1:receiver方式2:direct方式receiver方式:1:
spark
Streaming将kafka之中的数据读取到
spark
内存之中,然后对
流砂月歌
·
2024-01-15 06:59
大数据问答汇总
Apache
Spark
有哪些常见的稳定版本,
Spark
1.6.0的数字分别代表什么意思?
Sql强
·
2024-01-15 03:28
Java 与 Scala 使用Maven混合编译打包
在SpringBoot上使用
spark
的时候会遇到的混合编译问题,在java代码中打包会找不到scala定义的包,即可参考使用如下配置。
kikiki4
·
2024-01-15 02:07
centos
spark
单机版伪分布式模式
Spark
的部署方式包括Standalone、YARN、Mesos,在我们学习
Spark
编程的过程中,往往机器资源有限,于是可以采用伪分布式部署。
piziyang12138
·
2024-01-15 00:05
FLINK学习笔记(一)-- Word Count
defmain(args:Array[String]):Unit={/***flink的运行模型*1.DataSource*2.Transformation*3.DataSink*///获取环境,类似于
spark
contextvalenv
k_wzzc
·
2024-01-14 22:15
Building online HBase cluster of Zhihu based on Kubernetes
utm_campaign=profiletracking&utm_medium=sssite&utm_source=ssslideview同样对
spark
或者yarnr
mtj66
·
2024-01-14 21:24
spark
hbase
CDH
深入理解
Spark
(二)
Spark
Application 提交和运行源码分析
spark
核心流程yarn-clientyarn-cluster
spark
任务调度
spark
stage级别调度
spark
task级别调度失败重试和白名单对于运行失败的Task,TaskSetManager
我很ruo
·
2024-01-14 21:19
大数据
服务器
servlet
运维
深入理解
Spark
(三)
Spark
Task 执行与 shuffle 详解
Spark
Task的分发部署与启动流程分析
Spark
Action算子触发job提交
Spark
当中Stage切分源码详解Task的提交与执行
Spark
Shuffle机制详解MapReduceShuffle全流程深度剖析
我很ruo
·
2024-01-14 21:19
大数据
spark
大数据
hadoop
分布式
java
上一页
14
15
16
17
18
19
20
21
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他