E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark学习路线
ID Mapping技术解析:从Redis到
Spark
GraphX的演进与应用
目录一、IDMapping的背景二、IDMapping的重要性三、IDMapping的方案3.1基于Redis的IDMapping(效率不行)
数据与后端架构提升之路
·
2024-01-29 10:48
#
风控
大数据
#
数据中台
idmapping
Spark
常用Transformations算子(一)
介绍以下Transformations算子:mapflatMapmapPartitionsmapPartitionsWithIndexfiltersampleunionintersectionsortBysortByKeygroupByKeyreduceByKeydistinctcoalescerepartition(1)map、mapPartitions、mapPartitionsWithInd
数据萌新
·
2024-01-29 07:12
Hadoop, HIve,
Spark
关系简述
大数据∈数据管理系统的范畴数据管理系统:数据怎么存?数据怎么算?单机数据管理时代下,数据处理的任务:IO密集型;数据存不下?HDFS用于存放多机器的数据并提供相关Api接口。HDFS中引入了一个模块:MapReduce(基于磁盘计算)。MapReduce:提供了一个任务并行的框架,通过它的Api抽象让用户把这个并行程序分成两个阶段,即Map阶段(分工),Reduce阶段(汇总)。Hive:在Had
小白兔奶糖ovo
·
2024-01-29 07:22
hadoop
hive
spark
【极数系列】Flink详细入门教程 & 知识体系 &
学习路线
(01)
文章目录01引言02Flink是什么2.1Flink简介2.2Flink架构2.3Flink应用场景2.4Flink运维03Flink环境搭建3.1Flink服务端环境搭建3.2Flink部署模式3.3Flink开发环境搭建04Flink数据类型以及序列化4.1数据类型4.2数据序列化05FlinkDataStreamAPI5.1执行模式5.2事件时间Watermark5.3自定义Function
浅夏的猫
·
2024-01-29 06:34
Flink
flink
大数据
最新AI创作系统ChatGPT网站系统源码,Midjourney绘画V6 ALPHA绘画模型,ChatFile文档对话总结+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2024-01-29 06:01
人工智能
ChatGPT
软件源码
人工智能
chatgpt
语音识别
AI作画
midjourney
node.js
学习路线
图
当学习Node.js时,以下是建议的
学习路线
:JavaScript基础知识在开始学习Node.js之前,建议您首先学习JavaScript的基础知识。
小孟的报错日记
·
2024-01-29 05:11
node.js
学习
javascript
基于
Spark
个性化图书推荐系统
介绍该系统基于
Spark
,结合了协同过滤算法和个性化推荐技术,实现了一款个性化的书籍推荐系统。
沐知全栈开发
·
2024-01-29 04:48
spark
大数据
分布式
spark
shuffle
spark
的shuffle过程分为:1:map2:shufflewrite3:shuffleread4:reduce一般来说机器的性能好的话,shuffle过程之中,数据不写入磁盘。
流砂月歌
·
2024-01-29 01:13
java
spark
运行原理_
SPARK
:作业基本运行原理
Spark
作业基本运行原理:我们使用
spark
-submit提交一个
spark
作业之后,这个作业就会启动一个对应的Driver进程。
长野君
·
2024-01-28 23:44
java
spark
运行原理
spark
作业调度原理
概述
spark
有多种方式调度各个计算所需的资源.首先,每个application(即
spark
Context实例)有一组独立的Executor进程。
Deegue
·
2024-01-28 23:14
spark
spark
原理&机制
参数调优
Spark
作业执行流程
一、
Spark
组件
Spark
的基本组件,包括负责集群运行的Master和Worker,负责作业运行的Client和Driver,以及负责集群资源管理器(如YARN)和执行单元Executor等。
晓之以理的喵~~
·
2024-01-28 23:13
Hadoop
Spark
大数据
spark
大数据
分布式
【
Spark
】
Spark
作业执行原理--获取执行结果
一、执行结果并序列化任务执行完成后,是在TaskRunner的run方法的后半部分返回结果给Driver的:overridedefrun():Unit={...//执行任务valvalue=try{valres=task.run(taskAttemptId=taskId,attemptNumber=attemptNumber,metricsSystem=env.metricsSystem)thre
勤言不勤语
·
2024-01-28 23:43
Spark
spark
Spark
作业基本运行原理
Spark
作业基本运行原理:我们使用
spark
-submit提交一个
spark
作业之后,这个作业就会启动一个对应的Driver进程。
wybdt
·
2024-01-28 23:42
Spark
spark
大数据
【
Spark
系列2】
Spark
编程模型RDD
RDD概述RDD最初的概述来源于一片论文-伯克利实验室的ResilientDistributedDatasets:AFault-TolerantAbstractionforIn-MemoryClusterComputing。这篇论文奠定了RDD基本功能的思想RDD实际为ResilientDistributionDatasets的简称,意为弹性分布式数据集RDD的基本属性1、分区RDD的中文含义是弹
周润发的弟弟
·
2024-01-28 23:12
spark
大数据
分布式
【
Spark
系列3】RDD源码解析实战
本文主要讲1、什么是RDD2、RDD是如何从数据中构建一、什么是RDD?RDD:弹性分布式数据集,ResillientDistributedDataset的缩写。个人理解:RDD是一个容错的、并行的数据结构,可以让用户显式的将数据存储到磁盘和内存中,并能控制数据的分区。同时RDD还提供一组丰富的API来操作它。本质上,RDD是一个只读的分区集合,一个RDD可以包含多个分区,每个分区就是一个data
周润发的弟弟
·
2024-01-28 23:12
spark
大数据
分布式
Spark
作业执行原理
Spark
的作业和任务调度系统是
Spark
的核心,它能够有效地进行调度根本原因是对任务划分DAG和容错,使得它对低层到顶层的各个模块之间的调用和处理显得游刃有余。下面介绍一些相关术语。
垫路的石头
·
2024-01-28 23:12
spark
Spark
工作原理
1)
Spark
工作原理:首先看中间是一个
Spark
集群,可以理解为是
Spark
的standalone集群,集群中有6个节点左边是
Spark
的客户端节点,这个节点主要负责向
Spark
集群提交任务,假设在这里我们向
小崔的技术博客
·
2024-01-28 23:12
大数据学习
spark
大数据
hadoop
Spark
详解(五):
Spark
作业执行原理
Spark
的作业和任务调度系统是其核心,它能够有效地进行调度的根本原因是对任务的划分DGG和容错。
MasterT-J
·
2024-01-28 23:42
Spark框架
Spark框架
Spark框架
Spark
运行原理
Spark
的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显。
hellozhxy
·
2024-01-28 23:41
spark
spark
Spark
| 记录下
Spark
作业执行时常见的参数属性配置
理解作业基本原理,是进行
Spark
作业资源参数调优的基本前提。
点滴笔记
·
2024-01-28 23:11
Spark
spark
【
Spark
系列1】
Spark
作业执行原理
本文字数在7800字左右,预计时间在15分钟一、整体流程每个Aciton操作会创建一个JOB,JOB会提交给DAGScheduler,DAGScheduler根据RDD依赖的关系划分为多个Stage,每个Stage又会创建多个TaskSet,每个TaskSet包含多个Task,这个Task就是每个分区的并行计算的任务。DAGScheduler将TaskSet按照顺序提交给TaskScheduler
周润发的弟弟
·
2024-01-28 23:40
从零开始搞大数据
servlet
数仓-数据安全
文章内容参考:数仓建设实践路线-第十一讲-数据安全_哔哩哔哩_bilibili经过一段时间打磨开启全新篇章《数仓建设实践路线》,从0-1搭建数据体系,让大家更有体感,并将《数仓建设
学习路线
》课程内容落地
爱吃辣条byte
·
2024-01-28 23:41
数仓建设
大数据
数据仓库
数仓治理-小文件治理
:数据治理实践|小文件治理本文中将介绍Hive中小文件治理的方法和技巧,希望对大家有所帮助https://mp.weixin.qq.com/s/HDxAGhGIPvXF38wPiXZ7xg[离线计算-
Spark
爱吃辣条byte
·
2024-01-28 23:40
数据治理
大数据
数据仓库
数仓-数据质量
文章内容参考:数仓建设实践路线-第八讲-数据质量_哔哩哔哩_bilibili经过一段时间打磨开启全新篇章《数仓建设实践路线》,从0-1搭建数据体系,让大家更有体感,并将《数仓建设
学习路线
》课程内容落地。
爱吃辣条byte
·
2024-01-28 23:10
数仓建设
大数据
还在为不知道怎么学习网络安全而烦恼吗?这篇文带你从入门级开始学习网络安全—认识网络安全
不同于Java、C/C++等后端开发岗位有非常明晰的
学习路线
,网路安全更多是靠自己摸索,要学的东西又杂又多,难成体系。网络安全分支其实在网络安全这个概念之上,还有一个更大的概念:信息安全。
H_00c8
·
2024-01-28 20:18
某里P7程序员推荐,C++超完整
学习路线
!(内附资料)
序言“成为编程大牛要一门好语言加一点点天分。一门好语言,一点点天分,再加一份坚持。要是天分少,光靠坚持也行。”下面是根据现有资源整理的一个C++学习路径。通过使用C++语言实现Web服务器,Markdown解析器,内存池以及Docker容器管理工具等,学习并实践C++编程基础,C++11/14标准,C++图像处理及增强现实技术。完成本路径所有教程,将能够使用C++独立实现复杂的应用程序。【文章福利
_pangzi
·
2024-01-28 19:59
spark
内核源码剖析七:Work工作原理
driverDesc)=>{logInfo(s"Askedtolaunchdriver$driverId")valdriver=newDriverRunner(conf,driverId,workDir,
spark
Home
雪飘千里
·
2024-01-28 18:08
极简py
spark
Py
Spark
简要介绍Py
Spark
是一个基于
Spark
的Python接口,它允许你在Python中使用
Spark
的强大功能,如大数据处理、实时数据处理等。
吉小雨
·
2024-01-28 18:13
python
C++项目实战——机房预约管理系统
本专栏记录C++学习过程包括C++基础以及数据结构和算法,其中第一部分计划时间一个月(2024.1.4-2024.1.27已完结),主要跟着黑马视频教程,
学习路线
如下,不定时更新,欢迎关注。
爱睡觉的咋
·
2024-01-28 17:34
C++学习
项目
c++
java
前端
Nodejs前端学习Day3_准备工作
妈的,这几天真tm冷,前天上午还下了一整天的雪,大雪文章目录前言一、Node.js简介1.1何为1.2有什么二、Node.js可以做什么三、
学习路线
四、下载nodejs4.1小坑记录4.2LTS和Current
Mundaneman
·
2024-01-28 17:53
前端
学习
以及
学习路线
图!
什么是CUDA作者:Keepin1、cuda是英伟达开发的一套应用软件接口(API)。其主要应用于英伟达GPU显卡的调用。2、云计算可以简单的理解为是通过网络组合成的计算机集群,用于各种加速,其中以CPU为主,GPU为辅。所以CUDA可以成为云计算的一个支柱。3、神经网络能加速的有很多,当然使用硬件加速是最可观的了,而目前除了专用的NPU(神经网络加速单元),就属于GPU对神经网络加速效果最好了:
Hcoco_me
·
2024-01-28 16:14
GPU
学习
Soc
GPU
人工智能
CUDA
py
spark
在windows下java.net.SocketException: Connection reset by peer 错误
py
spark
在windows加载数据集训练模型出现以下错误java.net.SocketException:Connectionresetbypeer:socketwriteerroratjava.net.SocketOutputStream.socketWrite0
walk walk
·
2024-01-28 15:49
数据挖掘
python
spark
java
java
大数据
python
奇伢爬虫项目
项目截图:欢迎关注我的公众号:【菜鸟要飞】,面试宝典、
学习路线
、源码分享等等你来学
github源码分享
·
2024-01-28 15:57
spark
-streaming与kafka的整合
1.概述在2.x中,
spark
有两个用来与kafka整合的代码,版本代号为0.8和0.10,由于在0.8,kafka有两套消费者api,根据高级api得到了Receiver-basedApproach,
王大为学习笔记
·
2024-01-28 14:47
[
Spark
SQL] Rdd转化DataFrame 通过StructType为字段添加Schema
1、开发环境
spark
-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame,为字段添加列信息参数nullable说明:Indicatesifvaluesofthisfieldcanbenullvaluesvalschema
林沐之森
·
2024-01-28 13:51
Python(二十七)运算符——运算符的优先级
在这个专栏中,我将分享我在学习Python的过程中的学习笔记、
学习路线
以及各个知识点。☀️专栏适用人群:本专栏适用于希望学习Python编程的初学者和有一定编程基础的人。
乘凉~
·
2024-01-28 13:08
从零开始的Python入门之路
python
开发语言
[AIGC大数据基础]
Spark
入门
其中,
Spark
作为一个快速、通用的大数据处理引擎备受关注。本文将从“是什么、怎么用、为什么用”三个角度来介绍
Spark
。
程序员三木
·
2024-01-28 12:32
大后端
大数据
AIGC
spark
Impala-shell卡顿分析——记一次曲折的Debug经历
Impala-shell卡顿分析——记一次曲折的Debug经历问题发现最近准备在Impala中增加对UTF-8的支持,以修正跟Hive、
Spark
等基于Java的系统在UTF-8字符串上的不兼容表现(如
stiga-huang
·
2024-01-28 12:06
Impala
大数据
impala
debug
Impala元数据简介
Impala元数据简介背景Impala是一个高性能的OLAP查询引擎,与其它SQL-on-Hadoop的ROLAP解决方案如Presto、
Spark
SQL等不同的是,Impala对元数据(Metadata
stiga-huang
·
2024-01-28 12:05
Impala
Spark
:Task Locality参考
Datalocalitycanhaveamajorimpactontheperformanceof
Spark
jobs.Ifdataandthecodethatoperatesonitaretogetherthencomputationtendstobefast.Butifcodeanddataareseparated
liuzx32
·
2024-01-28 12:38
自学(网络安全)黑客——高效学习2024
目录一、自学网络安全学习的误区和陷阱二、学习网络安全的一些前期准备三、网络安全
学习路线
四、学习资料的推荐想自学网络安全(黑客技术)首先你得了解什么是网络安全!什么是黑客!
喜羊羊渗透
·
2024-01-28 11:41
web安全
学习
安全
网络
网络安全
Spark
的宽依赖和窄依赖
Apache
Spark
中的依赖关系指的是转换操作(transformations)之间的依赖类型。这些依赖关系决定了任务是如何在集群上分布执行的。
小湘西
·
2024-01-28 08:52
Spark
spark
大数据
分布式
Spark
——
Spark
SQL逻辑计划(Logical Plan)、物理计划(Physical Plan)和Catalyst优化器(Catalyst Optimizer)
文章目录TreesRules
Spark
SQL中使用CatalystAnalysis逻辑优化(LogicalOptimizations)物理计划(PhysicalPlanning)代码生成(CodeGeneration
Southwest-
·
2024-01-28 08:18
Spark
Spark
Spark
——
Spark
覆盖分区表中指定的分区
问题描述
Spark
中向分区表写数据的时候,如果写入模式为“overwrite”,那会将整个表覆盖掉;如果写入模式为“ap
Southwest-
·
2024-01-28 08:18
Spark
Spark
Spark
——
Spark
OOM Error问题汇总分析
.广播了大变量Executor端OOMError1.低效的查询2.不合适的Driver端和Executor端内存3.不合适的YARNContainer内存4.内存中缓存大量数据5.不合适任务并行度参考
Spark
Southwest-
·
2024-01-28 08:17
Spark
Spark
Spark
——
Spark
写MySQL太慢、很慢、非常慢的原因分析及优化方法
文章目录问题背景原因分析解决方法参考问题背景有这样一个业务场景:需要将通过
Spark
处理之后的数据写入MySQL,并在在网页端进行可视化输出。
Southwest-
·
2024-01-28 08:17
Spark
Spark
MySQL
Spark
——
Spark
/Hive向量化查询执行原理分析(Vectorization Query Execution)
文章目录什么是向量化查询执行列式存储
Spark
向量化查询执行Hive向量化查询执行参考什么是向量化查询执行在标准的查询执行系统中,每次只处理一行数据,每次处理都要走过较长的代码路径和元数据解释,从而导致
Southwest-
·
2024-01-28 08:47
Spark
Spark
Hive
向量化
Spark
——
Spark
缓存临时视图(View)
文章目录RDD/Dataset缓存复用纯SQL结果缓存复用RDD/Dataset缓存复用我们知道在使用RDD和DatasetAPI开发
Spark
应用程序的时候,如果要缓存某个RDD或Dataset来进行复用
Southwest-
·
2024-01-28 08:47
Spark
Spark
Spark
——
Spark
DataFrame导出为Excel文件
文章目录问题背景实现1.Maven依赖2.代码实现3.参数详解1.'sheet_name'!B3:C35。2.sheet_name[#All]参考问题背景有时候我们在进行一些表的计算之后,会生成一些指标,需要导出来给其它同事用,虽说可以将DataFrame直接写成表,然后通过工具(比如Hue)导出为Excel,但是步骤就多了,而且如果要导出的表比较多的话,就更浪费时间了,那么这时候调用第三方插件就
Southwest-
·
2024-01-28 08:17
Spark
spark
Spark
—— JSON对象/数组转成
Spark
Dataset/DataFrame
JSON转DataFrame在日常使用
Spark
处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构,那么能熟练并快速地处理JSON格式数据应该是数据开发人员的必备技能
Southwest-
·
2024-01-28 08:16
Spark
spark
json
上一页
13
14
15
16
17
18
19
20
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他