E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
spark(pyspark)
7000字超详细讲解Hadoop、
Spark
、Storm、YARN,建议收藏!
一、Hadoop1.1.概念就是一个大数据解决方案。它提供了一套分布式系统基础架构。核心内容包含hdfs和mapreduce。hadoop2.0以后引入yarn.hdfs是提供数据存储的,mapreduce是方便数据计算的。hdfs又对应namenode和datanode.namenode负责保存元数据的基本信息,datanode直接存放数据本身;mapreduce对应jobtracker和tas
套马杆的程序员
·
2023-12-24 04:49
Spark
RDD 之持久化
1.Background当我们需要多次使用同一个RDD时,如果简单的调用Action操作,
Spark
每次都会重算RDD以及它所有的依赖,此时需要用到持久化技术。
xiaoc024
·
2023-12-24 03:50
技本功|Hive优化之
Spark
执行引擎参数调优(二)
本文主要结合实际业务情况,在使用
Spark
作为底层引擎时,通过一些常见的配置参数对报错任务进行调整优
云掣YUNCHE
·
2023-12-24 03:44
技术文档
spark
hive
Flink1.17版本安装部署
这里可以添加本文要记录的大概内容:随着实时计算需求场景的增加,对计算引擎的实时计算要求也越来越高,而在实时计算方面表现优秀的当属flink,计算引擎从第一代mapreduce到第二代的Tez,再到第三代计算引擎
spark
以茉萱
·
2023-12-24 02:18
大数据
flink
Spark
Streaming流计算框架的运行流程源码分析
1.
spark
streaming程序代码实例代码如下:objectOnlineTheTop3ItemForEachCategory2DB{defmain(args:Array[String]){valconf
尼小摩
·
2023-12-24 01:47
Pyspark
的Intellij idea环境搭建
为什么需要IDE在本地搭建一个
spark
环境可以方便
spark
代码的调试,可以和一般程序一样打断点,看变量,否则可能就只能打很多日志来debug了选哪个IDE
Pyspark
的IDE我用Intellijidea
祗談風月
·
2023-12-23 22:38
spark
核心概念
Application:基于
Spark
的应用程序=1driver+executorsUserprogrambuilton
Spark
.
shone_shawn
·
2023-12-23 21:45
在Linux系统中安装MySQL数据库
解决密钥异常问题4、安装MySQL服务器5、开启MySQL服务6、查看MySQL服务器中root用户的初始密码7、使用初始密码登录MySQL服务器8、修改root用户登录MySQL服务器的密码三、配置
Spark
Francek Chen
·
2023-12-23 19:14
Spark编程基础
数据库
linux
mysql
AI创作系统ChatGPT系统源码,支持Midjourney绘画,GPT语音对话+DALL-E3文生图
一、前言
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-23 18:02
人工智能
AIGC
ChatGPT
人工智能
chatgpt
语音识别
midjourney
AI作画
Spark
Streaming和Kafka
0.一些问题
Spark
Streaming如何消费KafkaKafka的offset如何维护如何获取Kafka的offsetKafka获取offset的时候会不会消费kafka的记录Kafka的分区和
spark
task
天之見證
·
2023-12-23 16:25
Spark
Core
Spark
Core介绍
Spark
Core是
Spark
的核心计算引擎。它有着速度快和通用的特点,并且实现了
Spark
的基本功能,包含任务调度,内存管理,错误恢复,与存储交互等模块。
hipeer
·
2023-12-23 15:35
MINIO在java中的使用
对象存储可以充当主存储层,以处理
Spark
、Presto、TensorFlow、H2O.ai等各种复杂工作负载以及成为HadoopHDFS的替代品--------引自官网的话。
IT小学僧
·
2023-12-23 14:48
MinIo
Java
java
spring
boot
Hago 的
Spark
on ACK 实践
作者:华相Hago于2018年4月上线,是欢聚集团旗下的一款多人互动社交明星产品。Hago融合优质的匹配能力和多样化的垂类场景,提供互动游戏、多人语音、视频直播、3D虚拟形象互动等多种社交玩法,致力于为用户打造高效、多样、最具沉浸式的社交娱乐体验,在东南亚、中东和南美等地区拥有广泛的用户群。在技术层面,Hago提供优秀的自研音视频技术,实现更加稳定、高效和优质的数字人服务。包括3D超写实模型、真人
阿里云云原生
·
2023-12-23 13:59
spark
大数据
分布式
Spark
Shell的简单使用
简介
Spark
shell是一个特别适合快速开发
Spark
原型程序的工具,可以帮助我们熟悉Scala语言。即使你对Scala不熟悉,仍然可以使用这个工具。
necessary653
·
2023-12-23 11:12
spark
大数据
分布式
Spark
Machine Learning进行数据挖掘的简单应用(兴趣预测问题)
数据挖掘的过程数据挖掘任务主要分为以下六个步骤:1.数据预处理2.特征转换3.特征选择4.训练模型5.模型预测6.评估预测结果数据准备这里准备了20条关于不同地区、不同性别、不同身高、体重…的人的兴趣数据集(命名为hobby.csv):id,hobby,sex,address,age,height,weight1,football,male,dalian,12,168,552,pingpang,f
冲鸭嘟嘟可
·
2023-12-23 10:28
spark
机器学习
数据挖掘
多臂老虎机算法步骤
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据
PySpark
数据科学知识库
·
2023-12-23 08:57
算法
多臂老虎机
MAB
Apache Flink 进阶教程(七):网络流控及反压剖析
目录前言网络流控的概念与背景为什么需要网络流控网络流控的实现:静态限速网络流控的实现:动态反馈/自动反压案例一:Storm反压实现案例二:
Spark
Streaming反压实现疑问:为什么Flink(beforeV1.5
话数Science
·
2023-12-23 08:10
Flink
大数据
flink
大数据
Spark
Streaming学习记录
版本:
Spark
2.4.01.Overview
Spark
ingStreaming是对
Spark
API的一种扩展,用于处理实时数据流。
Jorvi
·
2023-12-23 08:49
CVE-2023-49898 Apache incubator-streampark 远程命令执行漏洞
项目介绍ApacheFlink和Apache
Spark
被广泛用作下一代大数据流计算引擎。基于大量优秀经验结合最佳实践,我们将任务部署和运行时参数提取到配置文件中。
棱镜七彩
·
2023-12-23 07:51
apache
PID算法
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据
PySpark
数据科学知识库
·
2023-12-23 07:21
算法
【hadoop|报错】Cannot modify tez.queue.name at runtime. It is not in list of params that are allowed ...
*|
spark
.*|tez*hive.security.authorization.sqlstd.confwhitelist.appe
维运
·
2023-12-23 06:10
大数据Hadoop
hadoop
大数据
分布式
真正解决
spark
local模式的日志级别输出问题
真正解决
spark
local模式的日志级别输出问题在IDEA中开发
Spark
程序,程序一执行密密麻麻的Info日志一大堆,这让人很恶心,如下图:image很早以前就解决过一次,不过谷歌百度都没有真正的解决这个问题
小狼星I
·
2023-12-23 05:14
【
Spark
源码分析】
Spark
的RPC通信二-初稿
Spark
的RPC通信二-初稿
Spark
RPC的传输层传输层主要还是借助netty框架进行实现。
顧棟
·
2023-12-23 05:25
spark
rpc
【
Spark
源码分析】
Spark
的RPC通信一-初稿
Spark
的RPC通信一-初稿文章目录
Spark
的RPC通信一-初稿
Spark
的RPC顶层设计核心类`NettyRpcEnv`核心类`RpcEndpoint`核心类`RpcEndpointRef`
Spark
RPC
顧棟
·
2023-12-23 05:53
Spark
spark
rpc
PySpark
日志治理方法
无论是
PySpark
程序、还是Scala编写的
Spark
程序,对于运行中的日志写入与查看的现状都是类似的,大体有两点痛点:1.特别是一直在线运行的Streaming项目,通过print打印的日志直接进入了
AGERA_0429
·
2023-12-23 03:37
毕业设计项目:基于Django2.2+MySQL+
spark
的在线电影智能推荐系统的设计与实现
项目源码地址:https://download.csdn.net/download/lijunhcn/88463157本项目实现在线电影推荐系统的前后端开发,使用Django2.2+MySQL+
spark
辣椒种子
·
2023-12-23 02:44
计算机课程毕设源码
课程设计
mysql
spark
Spark
(二十二)Shuffle调优之调节Map端内存缓冲与Reduce端内存占比
一、背景
spark
.shuffle.file.buffer,默认32k
spark
.shuffle.memoryFraction,0.2Map端内存缓冲,Reduce端内存占比;很多资料、网上视频,都会说
文子轩
·
2023-12-22 17:57
Learning
Spark
——client mode和cluster mode的区别
在使用
spark
-submit提交
Spark
任务一般有以下参数:./bin/
spark
-submit\--class\--master\--deploy-mode\--conf=\...
达微
·
2023-12-22 16:48
Spark
性能优化:资源分配
提交
spark
作业时,用的
spark
-
stone_zhu
·
2023-12-22 16:00
Spark
中使用scala完成数据抽取任务 -- 总结
如题任务二:离线数据处理,校赛题目需要使用
spark
框架将mysql数据库中ds_db01数据库的user_info表的内容抽取到Hive库的user_info表中,并且添加一个字段设置字段的格式第二个任务和第一个的内容几乎一样
冲鸭嘟嘟可
·
2023-12-22 12:23
spark
scala
大数据
工具系列:PyCaret介绍_Fugue 集成_
Spark
、Dask分布式训练
工具系列:PyCaret介绍_Fugue集成_
Spark
、Dask分布式训练Fugue是一个低代码的统一接口,用于不同的计算框架,如
Spark
、Dask。
愤斗的橘子
·
2023-12-22 12:22
数据挖掘
分布式
大数据
数据挖掘
[
Spark
] 读取项目下resources/的文件
背景这个
spark
程序要读取项目下的一些文件,当我把这个项目打成jar包后,
spark
-submit到集群后执行将文件作为资源文件打包到JAR中可以通过Maven或sbt这样的构建工具完成。
言之。
·
2023-12-22 12:22
spark
大数据
分布式
Spark
系列之:使用
spark
合并hive数据库多个分区的数据到一个分区中
Spark
系列之:使用
spark
合并hive数据库多个分区的数据到一个分区中把两个分区的数据合并到同一个分区下把其中一个分区的数据通过append方式添加到另一个分区即可%
spark
valdf=
spark
.sql
最笨的羊羊
·
2023-12-22 11:37
大数据
Spark系列
合并hive数据库
多个分区的数据到一个分区中
SQL---数据抽样
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据
PySpark
数据科学知识库
·
2023-12-22 11:01
大数据
SQL
sql
数据库
抽样
RAND
Apache
Spark
的基本概念和在大数据分析中的应用。
个人主页:SHOW科技,公众号:SHOW科技♂️作者简介:2020参加工作,专注于前端各领域技术,共同学习共同进步,一起加油呀!优质专栏:前端主流技术分享资料领取:前端进阶资料可以找我免费领取摸鱼学习交流:我们的宗旨是在「工作中摸鱼,摸鱼中进步」,期待大佬一起来摸鱼!————————————————版权声明:本文为CSDN博主「SHOW科技」的原创文章,遵循CC4.0BY-SA版权协议,转载请附
SHOW科技
·
2023-12-22 10:41
spark
数据分析
大数据
Spark
SQL 教程
一、什么是
Spark
SQL
Spark
SQL是
Spark
用来处理结构化数据的一个模块,它提供了两个编程抽象分别叫做DataFrame和DataSet,它们用于作为分布式SQL查询引擎。
数据萌新
·
2023-12-22 10:06
最新国内AI绘画Midjourney绘画提示词Prompt分享
一、Midjourney绘画工具
Spark
Ai创作系统是基于ChatGPT进行开发的Ai智能问答系统和Midjourney绘画系统,支持OpenAI-GPT全模型+国内AI全模型。
白云如幻
·
2023-12-22 08:17
人工智能
AIGC
教程
AI作画
midjourney
prompt
centos
spark
单机版伪分布式模式
Spark
的部署方式包括Standalone、YARN、Mesos,在我们学习
Spark
编程的过程中,往往机器资源有限,于是可以采用伪分布式部署。
数据萌新
·
2023-12-22 07:17
spark
-thrift-server 报错 Wrong FS
文章目录@[toc]具体报错实际原因查看hive元数据修改
spark
-thrift-server配置修改hive元数据具体报错
spark
-thrift-server执行删表语句,出现如下报错Error:
月巴左耳东
·
2023-12-22 07:47
bigdata
spark
大数据
hive报metadata.HiveException: Hive Runtime Error while processing row (tag=0)错误
个人觉得报出这样的异常是由于
spark
sql转化成物理计划时会
weixin_42412645
·
2023-12-22 07:45
hive
hive
tag=0
org.apache.hadoop.hive.ql.metadata.HiveException: Failed to create
Spark
client for
Spark
session
问题描述Logginginitializedusingconfigurationinjar:file:/opt/module/hive/lib/hive-common-3.1.2.jar!/hive-log4j2.propertiesAsync:trueHiveSessionID=0c953008-3c72-4e36-bcaf-47e92a5b9759FAILED:SemanticExceptio
qq_41504585
·
2023-12-22 07:13
大数据分享
hive
Spark
在云原生时代的发展
在这个云原生的时代拥抱云变成了不二之选,那么对于
Spark
[1]来说它是如何在云原生时代积极拥抱云的呢?背景1
Apache Spark中国社区
·
2023-12-22 07:18
SQL---Zeppeline前驱记录与后驱记录查询
异常检测机器学习算法—时间序列数据可视化数据可视化—折线图数据可视化—箱线图数据可视化—柱状图数据可视化—饼图、环形图、雷达图统计学检验箱线图筛选异常值3Sigma原则筛选离群值Python统计学检验大数据
PySpark
数据科学知识库
·
2023-12-22 07:17
大数据
SQL
sql
数据库
presto
zeppeline
spark
广播变量,累加器和
Spark
Shuffle
文章目录广播变量累加器
Spark
shuffle
spark
shuffle演进的历史1、未经优化的HashShuffleManager2、优化后的HashShuffleManager3、SortShuffle4
落幕7
·
2023-12-22 07:16
#
spark
spark累加器
spark广播变量
spark
shuffle
LAS
Spark
+云原生:数据分析全新解决方案
文章主要介绍了火山引擎湖仓一体分析服务LAS(下文以LAS指代)基于
Spark
的云原生湖仓分析实践,利用Spar
字节数据平台
·
2023-12-22 07:15
云原生
数据分析
大数据
数据库
火山引擎
字节跳动
Spark
Shuffle 大规模云原生化演进实践
Spark
是字节跳动内部使用广泛的计算引擎,已广泛应用于各种大规模数据处理、机器学习和大数据场景。目前中国区域内每天的任务数已经超过150万,每天的Shuffle读写数据量超过500PB。
字节跳动云原生计算
·
2023-12-22 07:09
spark
云原生
大数据
深度学习库 SynapseML for .NET 发布0.1 版本
2021年11月微软开源一款简单的、多语言的、大规模并行的机器学习库SynapseML(以前称为MML
Spark
),以帮助开发人员简化机器学习管道的创建。
dotNET跨平台
·
2023-12-22 06:08
c#
python
java
深度学习
人工智能
Spark
的stage源码解析
https://zhuanlan.zhihu.com/p/535000671?utm_id=0stage创建划分的过程就是一个深度优先遍历rdd依赖树的过程,通过不断的循环递归形式,最早的stage被首先创建出来。然后顺序创建后续stage,stage创建完毕后会注册stage到shuffleToMapStage,这是一个map,key为shuffleId,value为stage。每一个stage
Logan_addoil
·
2023-12-22 05:19
大数据学习之旅
spark
大数据
分布式
MapReduce 的 shuffle 与
spark
的 shuffle 有什么区别?
MapReduce的shuffle在Map端的shuffle过程是对Map的结果进行分区、排序、分割,然后将属于同一划分(分区)的输出合并在一起并写在磁盘上,最终得到一个分区有序的文件。主要是:Partition、Collector、Sort、Spill、Merge几个阶段。在Reduce端,shuffle主要分为复制Map输出、排序合并两个阶段。主要是:Copy、Merge、Reduce几个阶段
Logan_addoil
·
2023-12-22 05:18
大数据学习之旅
mapreduce
spark
大数据
Iceberg基于
Spark
MergeInto语法实现数据的增量写入
SPARK
SQL基本语法示例SQL如下MERGEINTOtarget_tabletUSINGsource_tablesONs.id=t.id//这里是JOIN的关联条件WHENMATCHEDANDs.opType
Dreammmming Time
·
2023-12-22 04:31
数据湖
数据存储
spark
3.3
iceberg
1.0.x
MERGE
INTO
UPSERT
上一页
26
27
28
29
30
31
32
33
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他