E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Spark安装部署
大数据之
Spark
:
Spark
大厂面试真题
目录1.通常来说,
Spark
与MapReduce相比,
Spark
运行效率更高。请说明效率更高来源于
Spark
内置的哪些机制?2.hadoop和
spark
使用场景?3.
spark
如何保证宕机迅速恢复?
浊酒南街
·
2024-02-01 12:35
大数据系列三
spark
big
data
面试
Spark
系列(十)Shuffle的技术难点问题--
Spark
比MapReduce快的真正原因
写在前面:我是「nicedays」,一枚喜爱做特效,听音乐,分享技术的大数据开发猿。这名字是来自worldorder乐队的一首HAVEANICEDAY。如今,走到现在很多坎坷和不顺,如今终于明白niceday是需要自己赋予的。白驹过隙,时光荏苒,珍惜当下~~写博客一方面是对自己学习的一点点总结及记录,另一方面则是希望能够帮助更多对大数据感兴趣的朋友。如果你也对大数据与机器学习感兴趣,可以关注我的动
NICEDAYSS
·
2024-02-01 12:03
Spark
大数据
spark
mapreduce
Spark
比Mapreduce快的原因
1)基于内存
spark
是基于内存进行数据处理的,MapReduce是基于磁盘进行数据处理的。MapReduce的设计:中间结果保存在文件中,提高了可靠性,减少了内存占用。但是牺牲了性能。
Rnan-prince
·
2024-02-01 12:33
spark
mapreduce
spark
【大数据开发
Spark
】第一篇:
Spark
简介、
Spark
的核心组成(5大模块)、
Spark
的主要特征(4大特征)、
Spark
对比 MapReduce
文章目录1
Spark
简介2
Spark
的核心组成(5大模块)3
Spark
的主要特征(4大特征)4
Spark
对比MapReduce1
Spark
简介初步了解一项技术,最好的方式就是去它的官网首页,一般首页都会有十分官方且准确的介绍
超周到的程序员
·
2024-02-01 12:02
#
Spark
大数据开发技术
spark
big
data
mapreduce
为什么
Spark
比MapReduce快
client提交一个application可能包含多个job,mr中一个mr程序就是一个job,
spark
中一个DAG就是一个job。
认知偏差
·
2024-02-01 12:02
大数据
spark
scala
mapreduce
大数据之
Spark
DAG
Spark
DirectedAcyclicGraph(DAG)是Apache
Spark
中的核心概念,它用于描述作业(job)的计算逻辑。
转身成为了码农
·
2024-02-01 12:00
大数据
spark
hadoop
大数据之
Spark
与 Hadoop MapReduce 对比
Apache
Spark
和ApacheHadoopMapReduce是两个广泛用于大数据处理的开源框架,它们在设计目标、性能表现和功能特性上有显著的不同点:执行模型:MapReduce(MR):基于批处理模式
转身成为了码农
·
2024-02-01 12:30
大数据
spark
hadoop
大数据之
Spark
Shuffle 和 Hadoop MapReduce Shuffle的区别
Spark
Shuffle和HadoopMapReduceShuffle是分布式计算框架中处理中间结果的关键阶段,它们的主要区别在于设计原理、执行效率和资源利用率:HadoopMapReduceShuffleSort-based
转身成为了码农
·
2024-02-01 12:30
大数据
spark
hadoop
为什么
Spark
比MapReduce快的原因
核心答案1、基于内存学过
Spark
的应该都知道,
Spark
是基于内存进行数据处理操作的,而MapReduce则是基于磁盘进行数据处理。
Stray_Lambs
·
2024-02-01 12:59
Spark
大数据
spark
大数据
spark
处理速度为什么比MapReduce快?
官网的这张图下边有一行字:LogisticregressioninHadoopand
Spark
迭代场景下
spark
的处理速度大致是hadoop的100倍。️
CoreDao
·
2024-02-01 12:29
Spark
spark
hadoop
大数据
mapreduce
大数据之
Spark
比 MapReduce 快的原因
Spark
比MapReduce(MR)快的原因可以总结如下:内存计算:
Spark
的核心设计是基于内存的计算模型,它将中间数据尽可能保留在内存中。
转身成为了码农
·
2024-02-01 12:57
大数据
spark
mapreduce
【开源学习】TB-gateway -- 基本配置与使用
【开源学习】TB-gateway--基本配置与使用tb-gateway
安装部署
centOS7安装(不推荐)Docker安装(推荐)tb-gateway通用配置文件连接配置模块thingsboard存储配置模块
情绪大瓜皮丶
·
2024-02-01 11:03
物联网
gateway
thingsboard
物联网
python
python 脚本中关于| 转义的坑
hive或
spark
执行sql时|一般使用\进行转义split(name,'\\|')但是在python脚本中对|进行转义时需要\\\进行转义split(name,'\\\\\|')
:)คิดถึง
·
2024-02-01 09:35
python
sql
Spark
SQL 中org.apache.
spark
.sql.functions归纳
Spark
SQL中org.apache.
spark
.sql.functions归纳注意,这里使用的是scala2.12.12,
spark
版本是最新的3.0.1版本1.Sortfunctions/***Returnsasortexpressionbasedonascendingorderofthecolumn
闻香识代码
·
2024-02-01 09:13
spark
scala
dataframe
apache
spark
大数据
分布式计算
scala
spark
Spark
Streaming---入门
文章目录1.
Spark
Streaming简介1.1流处理和批处理1.2实时和离线1.3
Spark
Streaming是什么1.4
Spark
Streaming架构图2.背压机制3.DStream案例实操1.
肥大毛
·
2024-02-01 09:12
spark
大数据
scala
spark
sql
大数据
Spark
SQL 教程翻译(三) Data Sources
文章目录DataSourcesGenericLoad/SaveFunctionsManuallySpecifyingOptionsRunSQLonfilesdirectlySaveModesSavingtoPersistentTablesBucketing,SortingandPartitioningParquetFilesLoadingDataProgrammaticallyPartitionD
顧棟
·
2024-02-01 09:41
Spark
翻译
大数据
spark
【
spark
床头书系列】 import org.apache.
spark
.sql.functions._ 和 import
spark
Session.implicits._区别
spark
importorg.apache.
spark
.sql.functions._和import
spark
Session.implicits.
BigDataMLApplication
·
2024-02-01 09:39
spark
spark
大数据
分布式
py
spark
学习-自定义udf
#demo1:frompy
spark
.sqlimport
Spark
Session,Rowif__name__=='__main__':
spark
=
Spark
Session.builder.getOrCreate
heiqizero
·
2024-02-01 09:07
spark
spark
py
spark
学习-
spark
.sql.functions normal函数
)"""作用:返回一个基于已给列名的列信息场景:类似于dataframe格式中提取data["id"],能够进行计算参数: col:列名 返回: column:返回一个基于已给列名的列信息"""
spark
heiqizero
·
2024-02-01 09:00
spark
spark
QT研究笔记(一)windows 开发环境
安装部署
一、Qt是什么?Qt是一个跨平台的应用程序开发框架,最初由挪威的Trolltech公司开发,并于2008年被诺基亚收购。后来,Qt框架由Digia公司接手,并在2012年成立了TheQtCompany。Qt提供了一套丰富的工具和类库,可用于开发图形用户界面(GUI)应用程序、嵌入式系统、网络应用程序和其他各种类型的软件。Qt框架的主要特点包括:跨平台支持:Qt具有良好的跨平台性能,可以在各种操作系
w风雨无阻w
·
2024-02-01 07:55
QT
qt
笔记
windows
大数据 -
Spark
系列《二》- 关于
Spark
在Idea中的一些常用配置
上一篇:大数据-
Spark
系列《一》-从Hadoop到
Spark
:大数据计算引擎的演进-CSDN博客目录1.Idea中配置LiveTemplates来快速生成代码片段2.Idea中配置文件模板自定义初始代码
王哪跑nn
·
2024-02-01 07:53
spark
Idea日常操作
大数据
spark
intellij-idea
大数据 -
Spark
系列《一》- 从Hadoop到
Spark
:大数据计算引擎的演进
目录1.1Hadoop回顾1.2
spark
简介1.3
Spark
特性1.通用性2.简洁灵活3.多语言1.4
Spark
Core编程体验1.4.1
spark
开发工程搭建1.开发语言选择:2.依赖管理工具:1.4.2
Spark
王哪跑nn
·
2024-02-01 07:43
spark
大数据
spark
hadoop
JMeter 下载、安装、启动
JMeter
安装部署
依赖Java环境,所以首先得安装JDK。
爱吃java的羊儿
·
2024-02-01 07:34
软件测试
jmeter
【
Spark
ML系列3】特征提取器TF-IDF、Word2Vec和CountVectorizer
本节介绍了用于处理特征的算法,大致可以分为以下几组:提取(Extraction):从“原始”数据中提取特征。转换(Transformation):缩放、转换或修改特征。选择(Selection):从更大的特征集中选择一个子集。局部敏感哈希(LocalitySensitiveHashing,LSH):这类算法结合了特征转换的方面与其他算法。###FeatureExtractors(特征提取器)###
周润发的弟弟
·
2024-02-01 07:31
spark-ml
tf-idf
word2vec
【
Spark
ML系列2】DataSource读取图片数据
DataSource(数据源)在本节中,我们将介绍如何在机器学习中使用数据源加载数据。除了一些通用的数据源,如Parquet、CSV、JSON和JDBC外,我们还提供了一些专门用于机器学习的数据源。###Imagedatasource(图像数据源)该图像数据源用于从目录加载图像文件,它可以通过Java库中的ImageIO加载压缩图像(jpeg、png等)到原始图像表示。加载的DataFrame有一
周润发的弟弟
·
2024-02-01 07:01
Spark机器学习
spark-ml
【
Spark
ML系列1】相关性、卡方检验和概述器实现
在
spark
.ml中,我们提供了计算多组数据之间成对相关性的灵活性。目前支持的相关性方法是皮尔逊(Pearson)相关系数和斯皮尔曼(Spearman)相关系数。
周润发的弟弟
·
2024-02-01 06:24
Spark机器学习
spark-ml
1、KVM
安装部署
(1)yuminstallvirt-installqemu-kvmqemu-imglibvirtlibvirt-python.x86_64virt-managerpython-virtualenvlibvirt-client(2)yumgroupinstall-y"虚拟化主机|VirtualizationHost"yuminstall-yvirt-managerssh-Xip:port#带x11图
小短腿电工
·
2024-02-01 06:59
Spark
SQL的高级用法
一.快速生成多行的序列需求:请生成一列数据,内容为1,2,3,4,5--快速生成多行的序列--方式一selectexplode(split("1,2,3,4,5",","));--方式二/*序列函数sequence(start,stop,step):生成指定返回的列表数据[start,stop]必须传入,step步长可传可不传,默认为1,也可以传入负数,传入负数的时候,大数要在前,小数*/sele
Yan_bigdata
·
2024-02-01 06:42
spark
sql
大数据
行列表生成
开窗函数
横向迭代和纵向迭代
基于SpringBoot整合RocketMQ异步发送短信功能
引入依赖1.2编写配置1.3需求描述1.4Producer代码1.5Consumer代码二、阿里云短信服务2.1申请短信模板2.2短信配置2.3短信业务层代码前言上一篇文章记录了RocketMQ整体架构、
安装部署
南波塞文
·
2024-02-01 02:27
RocketMQ
消息中间件
SpringBoot
框架
java-rocketmq
spring
boot
rocketmq
8. 如何快速地把 Hive 中的数据导入 ClickHouse
文章目录HivetoClickHouseHiveSchemaClickHouseSchemaSeatunnelwithClickHouseSeatunnelSeatunnelPipeline
Spark
InputFilterOutputRunningSeatunnelConclusionHivetoClickHouse
helloooi
·
2024-02-01 00:29
#
Hive
hive
clickhouse
hadoop
ubuntu 20.04.4+uWSGI+Nginx
安装部署
Django+Vue的web前后端全过程记录(1-Django)
文章目录基本命令行安装虚拟环境及配置路径虚拟环境基本命令Xftp和FileZilla连接本地虚拟机查看虚拟机本地地址在使用sftp连接时,filezilla与虚拟机之间是通过ssh连接,所以需在虚拟机上安装ssh-server。连接成功,开始传输文件部署Django连接数据库有可能没有打开文件的权限到这里还没结束开启Mysql远程连接的权限一些可能发生的报错端口占用远程连接迁移本地数据库到虚拟机(
荻风溪畔
·
2024-02-01 00:25
Django
web笔记
笔记
ubuntu
nginx
vue
django
mysql
中国氢气泄漏检测传感器行业市场供需与战略研究报告
氢气泄漏检测传感器市场的企业竞争态势该报告涉及的主要国际市场参与者有NGK
Spark
PlugCOLTD、ShenzhenSafegasTechnologyCo、Limited、FlukeCorp、NeoxidGroup
贝哲斯研究中心
·
2024-01-31 23:39
其他
spark
从入门到放弃三十九:
Spark
Sql(12)
Spark
Sql工作原理以及性能优化
文章地址:http://www.haha174.top/article/details/2570731工作原理1.大家都知道,只要在数据库类型的技术里面,比如,最传统的mysql,Oracle包括现在大数据领域的数据仓库如Hive,他的基本Sql执行的模型,都是类似的,首先生成一条SQL语句的执行计划。例如Selectnamefromnames=>解析成从哪里去查询(names表在那个文件里面,从
意浅离殇
·
2024-01-31 20:42
Hbase BulkLoad用法
要导入大量数据,Hbase的BulkLoad是必不可少的,在导入历史数据的时候,我们一般会选择使用BulkLoad方式,我们还可以借助
Spark
的计算能力将数据快速地导入。
kikiki2
·
2024-01-31 19:00
Spark
Exchange节点和Partitioning
Exchange在explain时,常看到Exchange节点,这个节点其实就是发生了数据交换此图片来自于网络截取BroadcastExchangeExec主要是用来广播的ShuffleExchangeExec里面决定了数据分布的方式和采用哪种shuffle在这里可以看到好几种不同的分区器shufleManager创建不同的shuffle方式Distribution与PartitioningDis
orange大数据技术探索者
·
2024-01-31 19:34
#
源码探索文章迁移
大数据
spark源码
shuffle
window环境下安装
spark
spark
是大数据计算引擎,拥有
Spark
SQL、
Spark
Streaming、MLlib和GraphX四个模块。
FTDdata
·
2024-01-31 17:06
RabbitMQ入门概念
1.2应用场景1.3AMQP协议与RabbitMQ工作流程1.4Docker
安装部署
RabbitMQ二、SpringBoot连接MQ配置2.1示例12.1示例2——发送实体一、RabbitMQ入门1.1rabbitmq
云村小威
·
2024-01-31 17:52
RabbitMQ
+
Redis
rabbitmq
分布式
java
docker
spring
boot
Scala核心编程 第一章—Scala语言概述
一、Scala语言解释1.什么是Scala语言
Spark
—新一代内存级大数据计算框架,是大数据的重要内容。
Spark
就是使用Scala编写的。因此为了更好的学习
Spark
,需要掌握Scala这门语言。
我是星星我会发光i
·
2024-01-31 15:47
Scala核心编程
第一章
Scala语言概述
Prometheus详解(三)——Prometheus
安装部署
今天继续给大家介绍Linux运维相关知识,本文主要内容是Prometheus
安装部署
。在本文中,我们直接将Prometheus安装在了Kubernetes集群上,并没有在物理设备上部署。
永远是少年啊
·
2024-01-31 13:37
虚拟化运维
运维
linux
Prometheus
云原生
云计算
Docker离线
安装部署
RabbitMQ
一、首先确保系统环境有dockerdocker-version查看如果没有可以看我的另一篇离线安装docker的文章离线安装docker二、在有外网的地方下载好docker镜像1、拉取docker镜像dockerpullrabbitmq:management2、查看下载好的镜像dockerimages3、开始创建rabbitmq容器dockerrun-d-p5672:5672-p15672:156
易小染
·
2024-01-31 11:06
docker
docker
rabbitmq
linux
flink sql运用入门
Job)#步骤4:停止集群#三、SQL客户端#1、准备sql涉及的lib包2、编写sql脚本3、webui查看总结前言目前我司项目中有实时大屏的需求,涉及实时计算部分的选型(以开源为基础),目前主流选择有
spark
yc_zlj
·
2024-01-31 11:21
大数据
flink
大数据
Apache Flink -任意文件写入漏洞复现(CVE-2020-17518)
1、产品简介ApacheFlink是高效和分布式的通用数据处理平台,由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎(简单来说,就是跟
spark
类似)
OidBoy_G
·
2024-01-31 10:52
漏洞复现
apache
flink
安全
web安全
网络安全
[
Spark
] 如何设置
Spark
资源
转自1.公众号[
Spark
学习技巧]如何设置
Spark
资源2.
Spark
性能优化篇一:资源调优
Spark
和YARN管理的两个主要资源:CPU和内存应用程序中每个
Spark
Executor都具有相同的固定数量的核心和相同的固定堆大小
LZhan
·
2024-01-31 10:07
【数据库】starrocks
安装部署
集群版
之前写过一篇427.【数据库】starrocks安装踩坑,今天把详细的安装步骤记录下来:一、环境准备starrocks安装包jdk8centos7服务器3台二、服务器互信任在三台服务器之间建立互信任,使得ssh连接时,无需输入密码,可参考170.【Linux】ssh-keyscan解决“离线环境”多节点互信任问题,里面的脚本可直接使用。互信任完成之后,就可以使用sync_scripts.sh脚本了
七镜
·
2024-01-31 10:26
java进阶
大数据史上最全Flink面试题,高薪必备,大数据面试宝典史上最全Hadoop面试题:尼恩大数据面试宝典专题1史上最全HBase面试题,高薪必备,架构必备史上最全Hive面试题,高薪必备,架构必备绝密100个
Spark
don't_know
·
2024-01-31 09:44
java
py
spark
学习-
spark
.sql.functions 聚合函数
https://
spark
.apache.org/docs/3.4.1/api/python/reference/py
spark
.sql/functions.html1.approx_count_distinct
heiqizero
·
2024-01-31 08:02
spark
spark
【
Spark
系列6】如何做SQL查询优化和执行计划分析
Apache
Spark
SQL使用Catalyst优化器来生成逻辑执行计划和物理执行计划。逻辑执行计划描述了逻辑上如何执行查询,而物理执行计划则是
Spark
实际执行的步骤。
周润发的弟弟
·
2024-01-31 08:01
spark
sql
大数据
【
Spark
系列5】Dataframe下常用算子API
Apache
Spark
DataFrameAPI提供了丰富的方法来处理分布式数据集。以下是一些常见的DataFrameAPI类别和方法,但这不是一个完整的列表,因为API非常广泛。
周润发的弟弟
·
2024-01-31 08:31
从零开始搞大数据
spark
大数据
分布式
(一)Py
Spark
3:安装教程及RDD编程(非常详细)
目录一、py
spark
介绍二、Py
Spark
安装三、RDD编程1、创建RDD2、常用Action操作①collect②take③takeSample④first⑤count⑥reduce⑦foreach⑧countByKey⑨saveAsTextFile3
唯余木叶下弦声
·
2024-01-31 08:57
大数据
python
python
spark
spark-ml
pyspark
Spark
性能调优
Spark
性能调优executor内存不足用`UNIONALL`代替`UNION`persist与耗时监控executor内存不足问题表现1:Containerxxisrunningbeyondphysicalmemorylimits.Currentusage
HanhahnaH
·
2024-01-31 08:26
Spark
spark
大数据
分布式
上一页
9
10
11
12
13
14
15
16
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他