E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
大数据运维spark数据安全
【
Spark
系列3】RDD源码解析实战
本文主要讲1、什么是RDD2、RDD是如何从数据中构建一、什么是RDD?RDD:弹性分布式数据集,ResillientDistributedDataset的缩写。个人理解:RDD是一个容错的、并行的数据结构,可以让用户显式的将数据存储到磁盘和内存中,并能控制数据的分区。同时RDD还提供一组丰富的API来操作它。本质上,RDD是一个只读的分区集合,一个RDD可以包含多个分区,每个分区就是一个data
周润发的弟弟
·
2024-01-28 23:12
spark
大数据
分布式
Spark
作业执行原理
Spark
的作业和任务调度系统是
Spark
的核心,它能够有效地进行调度根本原因是对任务划分DAG和容错,使得它对低层到顶层的各个模块之间的调用和处理显得游刃有余。下面介绍一些相关术语。
垫路的石头
·
2024-01-28 23:12
spark
Spark
工作原理
1)
Spark
工作原理:首先看中间是一个
Spark
集群,可以理解为是
Spark
的standalone集群,集群中有6个节点左边是
Spark
的客户端节点,这个节点主要负责向
Spark
集群提交任务,假设在这里我们向
小崔的技术博客
·
2024-01-28 23:12
大数据学习
spark
大数据
hadoop
Spark
详解(五):
Spark
作业执行原理
Spark
的作业和任务调度系统是其核心,它能够有效地进行调度的根本原因是对任务的划分DGG和容错。
MasterT-J
·
2024-01-28 23:42
Spark框架
Spark框架
Spark框架
Spark
运行原理
Spark
的这种学术基因,使得它从一开始就在大数据领域建立了一定优势。无论是性能,还是方案的统一性,对比传统的Hadoop,优势都非常明显。
hellozhxy
·
2024-01-28 23:41
spark
spark
Spark
| 记录下
Spark
作业执行时常见的参数属性配置
理解作业基本原理,是进行
Spark
作业资源参数调优的基本前提。
点滴笔记
·
2024-01-28 23:11
Spark
spark
【
Spark
系列1】
Spark
作业执行原理
本文字数在7800字左右,预计时间在15分钟一、整体流程每个Aciton操作会创建一个JOB,JOB会提交给DAGScheduler,DAGScheduler根据RDD依赖的关系划分为多个Stage,每个Stage又会创建多个TaskSet,每个TaskSet包含多个Task,这个Task就是每个分区的并行计算的任务。DAGScheduler将TaskSet按照顺序提交给TaskScheduler
周润发的弟弟
·
2024-01-28 23:40
从零开始搞大数据
servlet
数仓-
数据安全
文章内容参考:数仓建设实践路线-第十一讲-
数据安全
_哔哩哔哩_bilibili经过一段时间打磨开启全新篇章《数仓建设实践路线》,从0-1搭建数据体系,让大家更有体感,并将《数仓建设学习路线》课程内容落地
爱吃辣条byte
·
2024-01-28 23:41
数仓建设
大数据
数据仓库
数仓治理-小文件治理
:数据治理实践|小文件治理本文中将介绍Hive中小文件治理的方法和技巧,希望对大家有所帮助https://mp.weixin.qq.com/s/HDxAGhGIPvXF38wPiXZ7xg[离线计算-
Spark
爱吃辣条byte
·
2024-01-28 23:40
数据治理
大数据
数据仓库
数仓治理-
数据安全
治理
一、
数据安全
治理的背景存在敏感数据泄露、
数据安全
审批节点过长、风险数据对外暴露、数据使用权限(库、表年、字段)闲置情况。
爱吃辣条byte
·
2024-01-28 23:10
数据治理
大数据
数据仓库
springBoot+Vue实现阿里云OSS对象存储服务端签名客户端直传
2次传输:客户端->OSS3次传输:客户端->服务端->OSS虽然使用阿里云服务器传输到阿里云OSS属于内网传输有千兆带宽,但2次传输就是>3次传输,所以我考虑很久还是在自己的项目中用客户端直传方式,
数据安全
也有其他策略可以补救使用
j2wwwww
·
2024-01-28 18:35
spring
boot
vue.js
阿里云
数据湖技术之平台建设篇1
其中具体工作主要包括:适配不同的计算引擎、存储引擎等集成具体的数据湖技术,接入、元数据管理、数据处理等能力形成平台化安全保障机制:监控告警保障:任务监控、文件监控、性能监控等能力小文件自动处理能力、任务自动恢复能力
数据安全
方面保障二
风筝Lee
·
2024-01-28 18:58
数据湖
大数据
spark
内核源码剖析七:Work工作原理
driverDesc)=>{logInfo(s"Askedtolaunchdriver$driverId")valdriver=newDriverRunner(conf,driverId,workDir,
spark
Home
雪飘千里
·
2024-01-28 18:08
极简py
spark
Py
Spark
简要介绍Py
Spark
是一个基于
Spark
的Python接口,它允许你在Python中使用
Spark
的强大功能,如大数据处理、实时数据处理等。
吉小雨
·
2024-01-28 18:13
python
计算机服务器中了mallox勒索病毒如何处理,mallox勒索病毒应对措施
对于企业来说,生产运营离不开网络,利用网络极大地方便了企业的正常生产生活,但也为企业的
数据安全
带来不少威胁,最近,网络上的勒索病毒非常嚣张,不同的勒索病毒对企业带来的损坏也不同,近期,云天数据恢复中心接到很多企业的求助
解密恢复云天
·
2024-01-28 17:16
服务器
运维
数据库
计算机网络
网络安全
企业计算机服务器中了360后缀勒索病毒怎么办,360勒索病毒解密流程
计算机网络技术的不断应用,极大地提升了企业办公与生产效率,为企业提供了极大方便,但同时也为企业的
数据安全
埋下隐患,近期云天数据恢复中心再次接到企业的求助,企业的计算机服务器遭到了360后缀勒索病毒攻击,
解密恢复云天
·
2024-01-28 17:46
服务器
运维
数据库
计算机网络
网络安全
分布式系统中,权限设计实践
一、权限控制1、业务背景在复杂的业务系统中,权限管理是最基础的模块,通过各种授权结构模型,管理用户在产品中可访问和可操作的边界,以实现系统和
数据安全
管理的目的:01-1.png通常在系统的任何层面都会涉及到一定程度的权限管控
知了一笑
·
2024-01-28 15:50
py
spark
在windows下java.net.SocketException: Connection reset by peer 错误
py
spark
在windows加载数据集训练模型出现以下错误java.net.SocketException:Connectionresetbypeer:socketwriteerroratjava.net.SocketOutputStream.socketWrite0
walk walk
·
2024-01-28 15:49
数据挖掘
python
spark
java
java
大数据
python
spark
-streaming与kafka的整合
1.概述在2.x中,
spark
有两个用来与kafka整合的代码,版本代号为0.8和0.10,由于在0.8,kafka有两套消费者api,根据高级api得到了Receiver-basedApproach,
王大为学习笔记
·
2024-01-28 14:47
[
Spark
SQL] Rdd转化DataFrame 通过StructType为字段添加Schema
1、开发环境
spark
-2.1.0-bin-hadoop2.62、Rdd转换成DataFrame,为字段添加列信息参数nullable说明:Indicatesifvaluesofthisfieldcanbenullvaluesvalschema
林沐之森
·
2024-01-28 13:51
[AIGC大数据基础]
Spark
入门
其中,
Spark
作为一个快速、通用的大数据处理引擎备受关注。本文将从“是什么、怎么用、为什么用”三个角度来介绍
Spark
。
程序员三木
·
2024-01-28 12:32
大后端
大数据
AIGC
spark
Impala-shell卡顿分析——记一次曲折的Debug经历
Impala-shell卡顿分析——记一次曲折的Debug经历问题发现最近准备在Impala中增加对UTF-8的支持,以修正跟Hive、
Spark
等基于Java的系统在UTF-8字符串上的不兼容表现(如
stiga-huang
·
2024-01-28 12:06
Impala
大数据
impala
debug
Impala元数据简介
Impala元数据简介背景Impala是一个高性能的OLAP查询引擎,与其它SQL-on-Hadoop的ROLAP解决方案如Presto、
Spark
SQL等不同的是,Impala对元数据(Metadata
stiga-huang
·
2024-01-28 12:05
Impala
Spark
:Task Locality参考
Datalocalitycanhaveamajorimpactontheperformanceof
Spark
jobs.Ifdataandthecodethatoperatesonitaretogetherthencomputationtendstobefast.Butifcodeanddataareseparated
liuzx32
·
2024-01-28 12:38
数据加密过程和数据加密的方法有哪些?
在信息日益发达的今天,
数据安全
已成为越来越受到关注的问题。数据加密技术作为保护信息安全的重要手段,对于维护个人隐私、企业机密以及国家安全具有重要意义。
蹦极的考拉
·
2024-01-28 08:59
文件加密
数据加密
企业数据安全
如何克服防范外部黑客和商业间谍通过多种途径窃取企业数据
然而,许多企业在
数据安全
防护方面存在一些盲点和不足,尤其是面对外部黑客和商业间谍的威胁时,往往显得力不从心。
蹦极的考拉
·
2024-01-28 08:59
公司加密软件
防泄密软件
防泄密系统
企业核心数据
数据防泄露
降低文件增长和失真的零系数JPEG图像可逆信息隐藏
在网络上传输的数字媒体如音频、文本、视频和图像的内容及
数据安全
问题也随之而来。伴随着计算机技术发展与普及,数字媒体的机密性、完整性经常受到非法活动的威胁,很容易被攻击、篡改、拷贝、散布等。
凌峰的博客
·
2024-01-28 08:25
网络
Spark
的宽依赖和窄依赖
Apache
Spark
中的依赖关系指的是转换操作(transformations)之间的依赖类型。这些依赖关系决定了任务是如何在集群上分布执行的。
小湘西
·
2024-01-28 08:52
Spark
spark
大数据
分布式
Spark
——
Spark
SQL逻辑计划(Logical Plan)、物理计划(Physical Plan)和Catalyst优化器(Catalyst Optimizer)
文章目录TreesRules
Spark
SQL中使用CatalystAnalysis逻辑优化(LogicalOptimizations)物理计划(PhysicalPlanning)代码生成(CodeGeneration
Southwest-
·
2024-01-28 08:18
Spark
Spark
Spark
——
Spark
覆盖分区表中指定的分区
问题描述
Spark
中向分区表写数据的时候,如果写入模式为“overwrite”,那会将整个表覆盖掉;如果写入模式为“ap
Southwest-
·
2024-01-28 08:18
Spark
Spark
Spark
——
Spark
OOM Error问题汇总分析
.广播了大变量Executor端OOMError1.低效的查询2.不合适的Driver端和Executor端内存3.不合适的YARNContainer内存4.内存中缓存大量数据5.不合适任务并行度参考
Spark
Southwest-
·
2024-01-28 08:17
Spark
Spark
Spark
——
Spark
写MySQL太慢、很慢、非常慢的原因分析及优化方法
文章目录问题背景原因分析解决方法参考问题背景有这样一个业务场景:需要将通过
Spark
处理之后的数据写入MySQL,并在在网页端进行可视化输出。
Southwest-
·
2024-01-28 08:17
Spark
Spark
MySQL
Spark
——
Spark
/Hive向量化查询执行原理分析(Vectorization Query Execution)
文章目录什么是向量化查询执行列式存储
Spark
向量化查询执行Hive向量化查询执行参考什么是向量化查询执行在标准的查询执行系统中,每次只处理一行数据,每次处理都要走过较长的代码路径和元数据解释,从而导致
Southwest-
·
2024-01-28 08:47
Spark
Spark
Hive
向量化
Spark
——
Spark
缓存临时视图(View)
文章目录RDD/Dataset缓存复用纯SQL结果缓存复用RDD/Dataset缓存复用我们知道在使用RDD和DatasetAPI开发
Spark
应用程序的时候,如果要缓存某个RDD或Dataset来进行复用
Southwest-
·
2024-01-28 08:47
Spark
Spark
Spark
——
Spark
DataFrame导出为Excel文件
文章目录问题背景实现1.Maven依赖2.代码实现3.参数详解1.'sheet_name'!B3:C35。2.sheet_name[#All]参考问题背景有时候我们在进行一些表的计算之后,会生成一些指标,需要导出来给其它同事用,虽说可以将DataFrame直接写成表,然后通过工具(比如Hue)导出为Excel,但是步骤就多了,而且如果要导出的表比较多的话,就更浪费时间了,那么这时候调用第三方插件就
Southwest-
·
2024-01-28 08:17
Spark
spark
Spark
—— JSON对象/数组转成
Spark
Dataset/DataFrame
JSON转DataFrame在日常使用
Spark
处理数据时,半结构化的JSON数据(JSONObject,JSONArray)可能是最常见的一种数据结构,那么能熟练并快速地处理JSON格式数据应该是数据开发人员的必备技能
Southwest-
·
2024-01-28 08:16
Spark
spark
json
Spark
——
Spark
读写MongoDB
文章目录
Spark
直连MongoDB1.通过
Spark
Conf2.通过ReadConfig3.通过DataFrameReaderHive中创建映射表mongoexport导出文件参考如果我们要想通过
Spark
Southwest-
·
2024-01-28 08:46
Spark
Spark
MongoDB
Spark
——
Spark
读写Greenplum/Greenplum-
Spark
Connector高速写Greenplum
文章目录问题背景解决方式代码实现
Spark
写Greenplum
Spark
读Greenplum参考问题背景通过数据平台上的DataX把Hive表数据同步至Greenplum(因为DataX原生不支持GreenplumWriter
Southwest-
·
2024-01-28 08:42
Spark
spark
大数据
分布式
SpringBoot 集成Minio实现上传和图片访问
业务背景正常情况一般我们对文件的上传会优先考虑OSS,可是有些情况特殊的甲方有自己的机房;也不会去考虑OSS,但是要又考虑的文件上传压缩安全的问题;我这里使用的就是OSS来保证
数据安全
以及压缩(我这边是单体服务
踏歌的Java Daily
·
2024-01-28 08:49
spring
boot
后端
java
Hive之set参数大全-18
指定在执行
Spark
上的动态分区裁剪时,用于评估分区数据大小的最大限制在Hive中,hive.
spark
.dynamic.partition.pruning.max.data.size是一个配置参数,用于指定在执行
OnePandas
·
2024-01-28 07:33
Hive
hive
数据仓库
hive面试题
本质上是将SQL转换为MapReduce或者
spark
来进行计算,数据是存储在hdfs上,简单理解来说hive就是MapReduce的一个客户端工具。补充1:你可以说一下HQL转换为MR的任务流程吗?
韩顺平的小迷弟
·
2024-01-28 07:29
大数据面试题
hive
hadoop
数据仓库
大数据——Flink 知识点整理
目录1.Flink的特点2.Flink和
Spark
Streaming的对比3.Flink和Blink、Alink之间的关系4.JobManager和TaskManager的职责5.Flink集群部署有哪些模式
Vicky_Tang
·
2024-01-28 06:17
Flink
flink
面试
big
data
大数据
案例分享:某银行客户的软负载技术方案
这一转型面临多重挑战:多云环境下的集成和兼容性、业务规模变化下的弹性和伸缩性、日益增长的
数据安全
和合规性要求,以及日渐复杂的IT系统管理需求。
Flomesh
·
2024-01-28 05:55
负载均衡
微服务
网络安全
大
数据安全
| 期末复习(下)
文章目录安全策略和攻击安全协议IPseeSSLSSHS/MIME协议公钥基础设施PKIPGPHTTPS防火墙防毒墙安全审计入侵检测VPN网络物理隔离安全网关UTM安全策略和攻击安全协议定义:安全协议(securityprotocol),又称作密码协议(cryptographicprotocol)、加密协议(encryptionprotocol),是以密码学为基础的消息交换协议,其目的是在网络环境中
啦啦右一
·
2024-01-28 05:17
#
大数据安全
大数据与数据分析
网络
大
数据安全
| 期末复习(中)
文章目录感知
数据安全
⭐️传感器概述传感器的静态特性调制方式换能攻击现有防护策略AI安全⭐️智能语音系统——脆弱性攻击手段AI的两面性哈希函数哈希函数的分类、特性、用途自由起始碰撞攻击分析HD5Hash函数数字签名
啦啦右一
·
2024-01-28 05:16
#
大数据安全
大数据与数据分析
大数据
分布式数据实现跨设备数据同步的N个秘密 | 分布式数据管理解析(二)
上期我们给大家带来分布式数据管理如何完成数据存储,数据同步,数据跨端访问,并保证整个过程中跨设备
数据安全
的解读。
码中之牛
·
2024-01-28 03:10
OpenHarmony
鸿蒙
Harmony
OS
分布式
harmonyos
华为
Openharmony
移动开发
进程间通讯
Apache
Spark
架构与特点
1.背景介绍Apache
Spark
是一个开源的大数据处理框架,由AMLLabs公司开发,后被Apache软件基金会所支持。
OpenChat
·
2024-01-27 23:35
apache
spark
架构
大数据
分布式
云计算如何让企业业务更加安全?
对此专家表示称,企业的
数据安全
是一个很受重视的方面,只有企业
数据安全
得到了保障,企业才能保证业务的顺利展开。
田鑫科技
·
2024-01-27 23:46
Spark
-core
什么是
Spark
Spark
是基于内存的快速,通用,可扩展的大数据分析引擎
Spark
的内置模块
Spark
Core是
Spark
可以离线处理的部分,实现了
spark
的基本功能,包含任务调度,错误恢复,与存储系统交互等模块
luckboy0000
·
2024-01-27 23:12
学习笔记
Chatgpt的崛起之路
国内使用情况及应用的领域面临的
数据安全
挑战与建议ChatGPT获取数据产生的问题数据泄露问题删除权问题语料库获取合规问题ChatGPT恶意利用产生的问题结语OpenAI11月30号发布,首先在北美、欧洲等已经引发了热烈的讨论
Sirius·Black
·
2024-01-27 21:00
AI
&
ChatGPT
ai作画
copilot
上一页
15
16
17
18
19
20
21
22
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他